Web整合資訊檢索在數字圖書館中的應用研究論文
Web整合資訊檢索在數字圖書館中的應用研究論文
摘要:本文針對數字圖書館領域的特點,提出了一種實現數字圖書館Web整合資訊檢索及知識庫的建立管理機制,以RDF作為資訊和知識的表示模型,採用中介器和包裝器框架來實現對異構資料來源的整合資訊檢索,並在此基礎上建立基於RDF的知識庫,實現全域性查詢,在知識服務方面做了初步的實現。最後,本文介紹了基於該機制實現的一個原型系統,並以此原型系統為例,分析了系統性能。
關鍵詞:數字圖書館;Web整合資訊檢索;RDF;說明式查詢語言
0引言
數字圖書館是海量電子資源的集合,它所提供的功能涵蓋並遠遠超過了傳統的資料庫、資訊檢索系統。數字圖書館已經成為世界範圍內、日益重要的基於Web的應用框架體系。其基本目的是實現資訊的整合共享,給使用者提供統一資源查詢服務,保障數字資源的最大可用性、系統之間的互操作性和整合性。
但是,如果數字圖書館像現有的Web一樣僅僅提供簡單的資訊瀏覽功能,則同樣會讓使用者陷入“資訊過載”的困境,不能共享經驗知識,無法滿足使用者對資訊、知識的需求。因此,需要針對數字圖書館異構資訊源的特點,採取一種適用的整合資訊檢索框架,同時要求系統能夠積累互動執行中的知識,建立知識庫,從而給使用者提供智慧的、主動的、動態的知識服務。
1RDF查詢語言——RQuery
RDF查詢語言RQuery與XML相比,RDF支援語義資訊,然後,XML的設計動機是關心文件的結構,目的在於提供多元的文件表示結構,關注的焦點不是文件中資料所代表的語義資訊。透過比較得知,RDF查詢語言可以根據實際需要,使用多元的機制,同時可以定製應用領域內資源、語義資訊、知識的表達規則。因此,採用RDF查詢語言作為資訊表示標準,更方便實現數字圖書館領域異構、半結構化資料來源IIR的語義相互操作。
RQuery的作用有兩個,實現對RDF資料和RDFS的查詢,為了給使用者提供超出普通訊息查詢更多的知識,系統將上述查詢方法結合起來。
設計的RQuery解析器是一個簡單的語法分析器,針對RQuery的上下文無關文法的特點,採用了自上而下的語法分析方法。顧名思義,自上而下就是從文法的開始符號出發,向下推導,推出句子。其主旨是:對任何輸入串,試圖用一切可能的辦法,從文法開始符號(根節點)出發,為輸入串獲取確定的最左推導。
提出的RDF查詢語言RQuery,是一種融合了謂詞邏輯的說明式查詢語言,它的設計基於數字圖書館IIR需求,與其它RDF查詢語言相比,具有如下特點:支援語義對映、可邏輯解析、模式查詢和資料查詢相融合。
2數字圖書館整合資訊檢索框架
基於中介器,包裝器的數字圖書館整合資訊檢索(DLIIR)系統結構如圖1所示。系統採用RDF作為中間資訊表示規範:即系統各元件間交換的資料皆為符合RDF規範和RDFS定義的資訊。因此元件之間以計算機可理解的語義資訊進行通訊,提高了處理資訊的效率和準確度,適合海量資料的查詢。
DLIIR系統包含使用者介面和中介器2個模組:包裝器生成元件(WrapperDispatcher,WD):包裝器(Wrapper);知識獲取器(KnowledgeAcquireAgent,KAA):知識庫搜尋器(KBSearchAgent,KBSA)。它們彼此通訊,相互協作,共同完成檢索功能。同時,在DLIIR系統中增加了RDF知識庫。RDF知識庫包含一個知識獲取(KAA)元件,將來自中介器的RDF文件轉換成RDF知識庫中的記錄。
3元件間通訊規則
DLIIR系統包含若干個共同協作、彼此獨立的單元模組,這樣的目的在於增加系統的可擴充套件性。為了進一步實現元件之間的通訊和資料交換,提高系統性能、查詢準確率以及工作效率。整個系統的資料流如圖2所示。
採用RDF作為統一的資料格式,完成彼此的資料交換和通訊,協同工作,從而實現整個系統的功能,為使用者提供查詢服務。
4使用者介面Agent
使用者介面Agent的主要功能是協助使用者明確、細化查詢請求。同時,將MA返回的查詢結果以友好、清晰的格式顯示給使用者。
UIA的功能包括:①協助使用者明確、細化查詢請求,將查詢請求提交給MA;②接收MA返回的查詢結果,以普通HTML頁面形式將結果顯示給使用者;③為使用者提供查詢RDF知識庫的導航服務。UIA主要和MA進行通訊,完成和使用者互動的功能,這就是主體和其它主體協作共同實現系統功能的過程。從主體的執行週期來看,UIA的狀態週期如圖3所示。
DLIIR系統中,主體之間的通訊資料均以RDF表示,MA接收到該訊息之後,把該查詢請求轉換成RQuel查詢語句。DLIIR提供給使用者基於Web的查詢介面,當用戶提交查詢請求時,啟用UIA,開始響應使用者的請求。DLIIR給使用者提供了兩種查詢方式:基於關鍵詞的查詢和基於語義的查詢。基於語義的查詢僅僅限於對RDF知識庫進行查詢,由於知識庫中存放的是經過處理的、以RDF格式表示的知識,它們之間存在可處理的語義關聯,可以根據語義聯絡查詢使用者所需要的資訊。
5中介器的實現機制
中介器依靠包裝器完成資訊整合。在DLIIR系統中,中介器(MediatorAgent,MA)需要和其它五種元件通訊,協調各個元件彼此協作,共同完成查詢任務。從MA的內部結果來看,MA就是一個查詢對映、結果整合的模組。
DLIIR系統中,所有元件之間傳遞的資訊均以RDF格式表示,採用提出的RQuery來實現對這些資料的查詢。在MA中,對查詢請求的轉換,其實質就是將RDF格式描述的查詢請求,轉換成RQuery語句。
為了更清楚地給使用者提供查詢結果,往往需要HTML文件具有一定的格式,如不同資料以不同顏色顯示,採用表格、連結給使用者提供更友好的介面等。此外,考慮到系統的靈活性,便於將來修改結果顯示的形式,在設立了一個系統檔案——顯示模式(DisplaySchema)文件。MA在進行查詢結果到轉換時,根據提前定義的顯示模式,將RDF文件轉換成具有一定格式的`HTML文件,然後提交給UIA,以供在使用者端的Web瀏覽器上顯示。
6包裝器自動構造及知識庫框架
包裝器(Wrapper)具體工作流程如下:首先該Wrapper將全域性查詢請求轉換成對該資料來源進行檢索的命令格式,按照介面協議和資料來源通訊,獲得檢索結果。然後該包裝器將結果遵循全域性RDFSchema構造成RDF文件,返回給MA。完成此次查詢任務後,Wrapper進入空閒狀態,等待下次檢索任務。
DLIIR中的RDF知識庫以關係資料庫形式儲存的知識記錄,採用兩個元件實現對關係資料庫的操作:知識獲取器和知識庫搜尋器。圖4給出了RDF知識庫的框架結構。
以RDF圖模型表示的知識按照類和屬性的關係,以關係型資料庫格式儲存在MicrosonSQLServer資料庫中。因此,KAA和KBSA元件需要更新、訪問關係資料庫,實現對知識庫的維護和查詢。這個過程涉及到RDF的解析與RDF圖的恢復。
7效能評估
傳統的應用程式往往由程式設計師手工為每個資訊源編制包裝器程式碼,採用包裝器自動生成機制避免了程式設計師手工編寫程式碼。傳統方式中手工開發包裝器程式碼耗費的開發代價最大,而DLIIR中建立資料來源介面描述文件的開發代價遠遠小於它。
DLIIR系統在實現對異構資料來源檢索的基礎上,同時從檢索結果中獲取知識,構造了以RDF進行知識表示的知識庫。利用本文提出的RQuery語言對知識庫進行檢索。因此,衡量DLIIR系統的知識庫檢索效能(P-RKBIR)也就是衡量RQuery語言的檢索效能。採用知識庫檢索時間作為P_RKBIR的衡量標準。
在資料量很小時(10萬條記錄以下),資料量的變化對查詢時間的影Ⅱ向無法衡量出來,查詢時間相等。在資料量在百萬級別以上時,才體現出查詢時間隨著資料量的增大而增加的趨勢。此外,查詢時間與記錄數是線性關係的。
基於結果,DLIIR系統符合設計要求,滿足了對數字圖書館領域異構資料來源整合檢索的需要,而系統的RDF知識庫透過設計的專用查詢語言RQuery進行檢索時效能良好。
8結論
數字圖書館已經成為國家資訊化水平的標誌,是社會資訊知識共享的框架平臺。因此,實現對該領域內異構資訊源的互操作,給使用者提供智慧的、主動的知識服務是數字圖書館的發展方向。本文提出了一種實現異構資訊源整合資訊檢索的互操作框架,並對知識庫的建立和檢索進行了初步研究。