數字圖書館體系結構的發展的論文
數字圖書館體系結構的發展的論文
【內容提要】首先介紹了目前大多數數字圖書館所遵循的基本的數字圖書館體系結構,該結構在功能上可劃分為四個邏輯元件:資源庫、命名系統、索引/搜尋系統、使用者介面。然後介紹了NSDL、NCSTRL兩個最大的數字圖書館專案在體系結構的關鍵問題方面的實踐,最後,作者提出了數字圖書館體系結構發展的看法。
【摘要題】專題探討
【【關鍵詞】體系結構/互操作
1 介紹
世界上有許多國家進行數字圖書館的建設,但到目前為止,並不存在一個通用的數字圖書館體系結構,這是由於資訊科技和相關標準不斷髮展的結果,怎樣基於現有的技術並考慮到未來技術的發展,構築一個靈活強大的數字圖書館體系結構,對於數字圖書館的建設是至關重要的,這需要我們瞭解相關技術和標準以及數字圖書館體系結構的發展變化。
數字圖書館要為使用者提供各種簡單易用、功能強大的知識服務,通常從功能上可將數字圖書館劃分為:使用者介面、命名服務、搜尋系統、資源庫等部分。數字圖書館的建設涵括各種數字資源的建立、管理、查詢、利用、儲存的整個過程。自從williamY.Arms等於1997年提出了數字圖書館的資訊體系結構以來,數字圖書館的體系結構在不斷完善和發展,透過許多試驗專案仍在不斷改進。圖1代表了數字圖書館的基本體系結構。
附圖
圖1 數字圖書館的基本體系結構
資源庫
資源庫的功能包括儲存和管理各種數字物件,通常是由關係型資料庫來管理。應用程式透過資源庫提供的庫訪問協議(RAP)來訪問資源庫。可實現儲存、訪問、複製、移動和刪除數字物件等操作。
與web上的資訊所不同,數字圖書館中數字資源是以數 字物件的形式進行封裝的,一個數字物件包括:
①一個全球唯一的獨立於地址的長期識別符號;
②數字資料,儲存數字圖書館的資料,也就是終端使用者需要獲取的資訊內容,如經XML置標後的文字、一本電子圖書等,
③元資料,關於數字資料的資料。一般情況下,元資料有三種:a.描述性元資料,用於發現和標識一個物件,如MARC和DublinCore。b.結構性元資料,為使用者顯示和導航一個物件(包括該物件的內部組織資訊),如一本書由章節組成。c.管理性元資料,描述該物件的管理資訊;建立日期、檔案的格式、訪問許可權、智慧財產權問題等。
命名系統
命名系統是針對長期識別符號的分配、管理及解析的一個綜合系統,CNRI為數字圖書館提出了完整的命名系統“排程系統(HandleSystem)”,它是一個獨立的系統,其職能是負責數字資源的全球唯一的、長期的、獨立於地址的命名的分配、管理和解析。在排程系統中,本地名稱空間透過獲取一個排程系統的命名授權,就可以納入到全球排程名稱空間,這樣所有的本地名稱在全球排程名稱空間中將是唯一的。
索引與搜尋系統
索引的建立可能是由機器的自動掃描、手工錄入和干預,或者是這兩者的結合。客戶機把查詢式提交給索引伺服器,將返回相匹配的數字物件的URN(統一資源命名,如排程碼)。索引服務還提供被索引資訊的元資料和查詢機制。
使用者介面
使用者介面是使用者與數字圖書館的介面,數字圖書館向用戶提供的最終服務都是透過使用者介面來實現的。一般情況下,數字圖書館藉助通用的Web瀏覽器作為其使用者介面工具。此外,使用者介面的內容編排和服務方式問題是很複雜的,不同的使用者需求是不同的,使用者對數字圖書館的簡單靈活的需求首先就表現在使用者介面上。
2 NSDL專案的體系結構介紹
NSDL(NationalSTEMDigitalLibrary,STEM—Science,Technology,EngineeringandMathematics)是NSF資助的、由多家單位來實施數字圖書館專案,它包括64個子專案,其目的是支援科學、技術、工程和數學教育,提供廣泛接入和方便使用的分散式資源網路和學習機制,NSDL一期工程已於2002年底為公眾提供服務,它是目前規模最大的數字圖書館專案。
由於NSDL的內容和使用者的多樣性,為讓各種使用者共享不同的資訊,最初的體系結構設計就是透過共享元資料,並利用元資料開發核心服務(如,搜尋和發現)。其體系結構(見圖2),包括以下幾個基本概念:
附圖
圖2 NSDL體系結構
·採用公共的核心元資料實現異構系統間的資源發現。
·核心元資料與具體領域的擴充套件元資料相結合。
·以元資料為基礎實現跨庫搜尋並建立更豐富的服務。
·採用自動索引和檢索系統來減少編目工作。
元資料庫—NSDL體系結構的關鍵部分是元資料庫。元資料庫儲存所有藏品集的元資料,並透過OAI協議把它們提供給服務商,服務商透過元資料可以開發出各種服務。在NDSL中,元資料庫可能分佈在多個伺服器上,並有多個映象。NSDL早期採用分散式元資料庫,現在改成集中式。這是因為分散式元資料庫在檢索時會因為其中的一個元資料庫的查詢失敗或響應較慢,而造成整個檢索的失敗或長時間的響應,而集中式元資料庫可以避免這種現象。
NSDL的互操作性問題
NSDL的互操作性採用三種方式來實現:
·聯合:這是一種傳統的方法,其所有的成員組織都遵從某些標準規範,如透過Z39.50協議共享線上目錄。
·OAI採集:以OAI元資料採集為基礎。每個數字圖書館藏品的元資料都能提供到DublinCore的對映,並以簡單的交換格式向外提供,這樣,服務提供商就能採集這些元資料,把它建入到資訊發現系統中,而且這些藏品能夠實現良好的互操作性。
·蒐集:即使各種不同的組織之間不存在任何形式的合作,透過網路爬蟲收集開放訪問的資訊仍然可以實現一定程度上的互操作。各種網路搜尋引擎就是這樣。
NSDL主要透過OAI元資料採集來實現互操作。2001年初,NSDL確定支援8種標準元資料格式,這8種元資料之間的互換透過DublinCore元資料核心集作為過渡。
(1)DublinCore
(2)DublinCorewithDC—EdExtensions
(3)LTSC(IMS)
(4)ADL(SCORM)
(5)MARC21
(6)Content 
;StandardforDigitalGeospatialMetadata(FGDC)
(7)GlobalInformationLocatorService(GILS)
(8)EncodedArchivalDescription
3 NCSTRL專案體系結構介紹
NCSTRL (Networked Computer Science TechnicalReferenceLibrary)是另一個有代表性的數字圖書館專案,其規模僅次於NSDL,它是由DARPA資助的,來自北美、歐洲和亞洲的160多家學術研究機構參與了該專案。其體系結構以Dienst體系結構為基礎,該體系結構的一個重要特徵就是分散式搜尋(見圖3)。
附圖
圖3 NCSTRL的體系結構
在NCSTRL的早期專案中,使用者的查詢式被直接提交給所有的索引伺服器,但隨著參與機構的增多,檢索時同樣會因為其中的一個元資料庫的查詢失敗或響應較慢,而造成整個檢索的失敗或長時間的響應,為了解決這一問題,NCSTRL引入了查詢路由器的概念。
查詢路由器QR(QueryRouters):根據一定的機制把查詢式傳送到分散式的索引伺服器中,並負責合併來自不同的索引伺服器的查詢結果。另外,該體系結構還引入了藏品服務(CollectionService)的概念,它是查詢路由的基礎,提供把各種服務整合到數字圖書館中的各種機制。按照當前的藏品服務定義,它提供以下資訊:
·參與該藏品服務各單位的目錄
·每個單位的索引伺服器的網路地址
·索引伺服器的元資訊(為查詢路由提供依據)
查詢路由
查詢路由器定期地與藏品服務通訊,藏品服務資料包括索引資訊(每個機構的藏品)在索引伺服器之間的分佈情況,如斯坦福大學藏品的索引可能在I1和I2兩個索引伺服器上有備份,康奈爾大學藏品的索引可能在I2和I3兩個索引伺服器上有備份。透過這些資訊,查詢路由器將決定查詢式被提交給哪些索引伺服器來處理。
附圖
圖4 查詢路由
連通域
由於全球範圍內的Internet的連通性差別相差巨大,為了提高數字圖書館的分散式搜尋的相應時間,NCSTRL引入了連通域的概念,連通域是指網路上具有高度連通性的一組節點。連通域的概念是藏品服務的一部分,藏品服務分佈在一組區域元伺服器RMS(RegionalMetaServers)中——每個連通域一個RMS。每個RMS從主元伺服器MMS(MasterMetaServer)獲取特定域的資訊,見圖5。
附圖
圖5 連通域
連通域之外的索引資訊在連通域內的索引伺服器上有備份,這樣使用者的查詢將在連通域內部完成,只有當其中的索引伺服器查詢失敗時,查詢式就被提交給主元伺服器,主元伺服器再把該查詢式分配給到其它的連通域。
索引伺服器的動態調整
由於考慮到單個搜尋的失敗,故NCSTRL元資料在多個索引伺服器中存在備份。藏品服務中的資料列出了索引伺服器接受查詢式的優先順序,有的索引伺服器被設定為主索引伺服器,有的被設定為次級伺服器。主索引伺服器首先接受查詢式,如果在一定的時間內沒有完成查詢任務,查詢式就會轉交給次級索引伺服器。
需要說明的是,主索引伺服器和次級索引伺服器的順序並不是固定不變的,而是動態調整的,其中的引數可由管理員來設定。這個動態調整的過程是透過一個簡單演算法來實現的。在索引伺服器成功完成一次查詢之前,查詢路由器給每個索引伺服器增加一個失敗記數,如果查詢成功,失敗記數就減一。當查詢路由器透過藏品服務提供的資訊來選擇索引伺服器時,它進行一個穩定性測試:該索引伺服器最近是否有N次連續響應失敗(N是可以設定的)?如果一個索引伺服器沒有透過這種穩定性測試,它就會被降級,也就是說,如果是一個主索引伺服器就降級為次級目錄伺服器,而另一個次級目錄伺服器就有可能升級為主目錄伺服器。
4 對數字圖書館體系結構發展的看法
由於使用者對數字圖書館的功能需求不斷髮展,資訊科技的迅速進步,數字圖書館的概念和功能都在不斷髮展。透過對上述兩個專案的體系結構的分析,加上筆者的探索和實踐,我們認為數字圖書館的體系結構的設計必須事先考慮到開放性、互操作性、擴充套件性以及伸縮性。
4.1 開放性
數字圖書館系統必須是一個開放的系統,開放的含義包括一下幾個方面:
(1)能夠與第三方系統或功能模組實現良好的對接和整合;
(2)能夠方便地在本系統內部增加刪除或修改某些功能模組;
(3)儘可能廣地支援各種資源格式和標準;
因此在系統設計時需要遵循一下原則:
(1)基本體系結構簡單化,在設計基本體系結構時主要考慮資訊的流通和管理機制,強調系統的`通用性和穩固性;
(2)功能模組化,數字圖書館的服務功能是不斷髮展的,因此數字圖書館的每一項服務應該是相對獨立的,便於安裝、撤銷和維護;
(3)選取成熱的通用的標準和協議。如使用者介面採用通行的Web瀏覽器,文件表現採用XML定義,元資料採用DublinCore、中文元資料標準等。
4.2 互操作性
透過資訊資源本身實現互操作是最應該受到鼓勵的方法,因為數字圖書館建設的基礎是資源,使用者最終利用的也是資源,而且與資訊系統比較起來,資源從型別上(如圖書、期刊、科學資料、地圖、檔案)要容易預見,發展變化也相對緩慢,從資源的格式上講(如標準的檔案格式.txt、.html、.mpeg等),大家對通用標準的認同更加一致。因此,透過一定的標準規範讓不同的藏品遵循相應的元資料標準,並透過元資料的共享或互換,可以實現資源間的共享,就如上面所介紹的NCSTRL專案,也已採用OAI元資料採集協議來實現來自不同單位的藏品的互操作。可喜的是,現在許多數字圖書館專案一般都主動遵循一定的元資料標準去建立元資料。並出現了一些工具和方案能夠實現不同元資料標準的元資料元素的對映。當然,資訊系統之間的互操作隨著中介軟體和代理技術的發展也取得了很大的進步,同時近年來,Web服務技術為網路軟體的共享和互操作方面提供了新的機制,將來隨著這些技術的進一步發展,實現資訊系統間的互操作將越來越簡單。
4.3 擴充套件性
NCSTRL為我們在擴充套件性方面提供了很好的經驗。由於NCSTRL的成員單位比較分散,並且不斷有新的成員單位及新的使用者加入,最終選擇了把數字圖書館劃分成不同的區域,這
樣不但適應了數字圖書館不斷延伸的特點,而且還能為本地使用者提供及時的、具有本地特色的服務。在中國數字圖書館工程建設一期規劃(2000—2005)就採用了區域服務的思想。
4.4 伸縮性
由於各數字圖書館建設單位在經濟、技術、管藏資源、使用者需求等方面都不平衡,因此不同數字圖書館的建設規模也將是不同的。一個好的體系結構設計必須能夠適應不同規模的系統,使不同規模的系統都能夠獲取最佳的效率。
【參考文獻】
WilliamY.Armsetc,AnArchitectureforInformationinDigitalLibraries,D—LibMagazine,February1997http://www.dlib.org/dlib/february97/cnri/02armsl,htm
C.Lagoze(ed.),W.Arms,S.Gan,D.Hillmann,C.Ingram,D.Krafft,R.Marisa,J.Phipps,J.Saylor,andC.Terrizzi.CoreservicesinthearchitectureoftheNationalDigitalLibraryforscienceeducationNSDL). InProceedingsoftheSecondACM/IEEE—CSJointConferenceonDigitalLibraries,Portland,OR,2002.
D.FulkerandG.Janee.ComponentsofanNSDLarchitecture:Technicalscopeandfunctionalmodel.InProceedingsofthe&nbs
p;secondACM/IEEECSJointConferenceonDigitalLibraries.Portland.OR.submittedinJanuary2002.
WilliamY.Arms,DianeHillmannetc.ASpectrumofInteroperabilityTheSiteforSciencePrototypefortheNSDL,D—LibMagazineJanuary2002http://www.dlib.org/dlib/january02/arms/01arms,html
Dushay,N.,J.C.French,andC.Lagoze,“ACharacterizationStudyofNCSTRLDistributedSearching,”CornellUniversityComputerScience,TechnicalReportTR99—1725.January1999
Ca
rlLagoze,DavidFielding.SandraPayette,Makingglobaldigitallibrarieswork:collectionservices,connectivityregions,andcollectionviews,ProceedingsofthethirdACMconferenceonDigitallibraries,p.134—143,June23—26,1998,Pittsburgh,Pennsylvania,UnitedStates
DienstArchitectureSummaryDescription.http://www.cs.cornell,edu/cdlrg/dienst/architecture/architecture,htm