構建中醫藥資料資源結構圖譜的探討論文

  中醫藥資料庫建設工作起源於1985年,資料庫資源的詳細描述與統一管理,包括資料庫元資料管理、每個中醫藥相關的資料庫涉及表的管理、每個表的資料元管理3個部分。今天小編要與大家分享:構建中醫藥資料資源結構圖譜的探討相關論文,具體內容如下,歡迎閱讀:
 

  【關鍵詞】 中醫藥資訊學;資料資源;資料結構整合

構建中醫藥資料資源結構圖譜的探討
 

  本研究通過分析中醫藥資料庫資源的型別、特點和中醫藥資源存在的問題,提出基於現有資料庫資源與結構,參考現有資源整合技術,從資料層、物理層、基礎層3個方面入手,並結合體系構建等相關的資源深層整合技術,探討構建中醫藥資料資源結構圖譜的實際解決方案。

  1 中醫藥資料資源現狀與問題

  中醫藥資料庫建設工作起源於1985年,目前,已經建立了覆蓋中醫藥學科的複雜的多型別資料庫,總資料量約200 G,文獻資料庫收集年代跨越58年。資料庫建設主要包括單表資料庫、結構性資料庫和資料平臺的建設。目前,中醫藥現代資源資料庫的建設已經具有一定的規模,已經形成以中醫藥科學資料中心與分中心為主體的中醫藥文獻型及事實型資料庫群,幾乎涉及到中醫藥資訊的方方面面。 然而這些資源庫群是徹底異構的,從資料結構、作業系統,到資料庫系統、應用系統;從命名方式,到資料格式、結構模型、使用者介面,都有可能完全不同,目前還沒有標準規範能夠對這個各個層次的異構進行適當的約束

  中醫藥科學資料中心缺少完整解決方案。1.1 區域性有序、整體無序 從某一種具體資源的角度來看,他們都是經過一定程度加工整序,具有統一的分類體系和檢索介面。但從全域性的角度來,中醫藥科學資料中心擁有的各種資源是一個個的“資訊孤島”, 各種資源內容交叉,資訊重複,關聯度低,使用者查詢資料時不但要在多個數據庫中來回穿梭、重複操作,還要精通各種不同資料庫、不同介面的數字資源系統檢索技術,否則便難以查全或查準所需要的資料。

  1.2 資料結構與標準不統一

  各種不同型別的數字資源不但採用Oracle、mySQL、SQL、Access等不同的資料庫物理模型或半結構、非結構的資料結構,而且在對資源的描述與揭示時沒有采用元資料、資料元、資料模式等標準。資料庫欄位與資料表命名差異性較大,例如:“ZZ”表名對應資料欄位名就有“主治”、“著作”、“作者”等。

  1.3 資料來源多途徑與資料版本複雜

  中醫藥資料資源是指中醫藥科學資料中心與分中心收集的各型別專業資料,這部分資源數量眾多,構成了學術數字資源的主體,現已成為重要的文獻來源。從文獻型別上看,有期刊、圖書、會議論文、學位論文等;從文獻級別上看,有題錄、文摘、全文等不同的層次。自建資料庫有多種載體、多種形式、多種型別、分散異構的資訊資源,這些資料庫形成時間長,資料更新多次,缺少清晰的資源定義與描述。

  1.4 系統平臺與應用程式各異

  各種不同型別的數字資源有著不同的系統平臺;不同的資料資源存在著過程資料的不同服務方式,例如:期刊文獻資料庫、結構型文獻資料庫、分析結構型文獻資料庫;同時,資料表存在著基礎資料庫、粗表資料庫、細表資料庫、單元素資料庫等,部署在共建、共享的伺服器上,也給資料管理帶來麻煩。
 

  2 資料資源與結構整合技術

  2.1 資料資源整合

  整合的實質就是各個單獨事物共同遵循統一的原則、標準、規定,打破原來的界限形成有機的統一體。資料資源的整合[1],英文可譯作“digital resource integration”,就是通過各種手段和工具將已有的資訊資源整合起來,並按照一定的邏輯關係進行組織,實現資訊資源的有效共享,為使用者提供條理化的資訊服務,為後續資訊的管理與使用提供規範,從而實現資訊的增值利用。

  數字資源整合主要集中在資料集的整合和應用的整合兩個方面,再具體細分還可以劃分為資料整合、資訊整合、資訊系統整合及業務***或工作流***整合等4個階段。

  通常資料資源整合的範圍可以包括4個方面。①資料整合:資料標準、主題資料庫、資料交換平臺、基於語義的全域性資料檢視。②應用整合:使用統一使用者認證、使用統一的資料交換、使用門戶實現應用整合。③內容整合:資訊規劃、資訊導航、統一搜索、資訊專題、資訊門戶。④流程整合:統一資料採集加工處理流程、統一資料儲存管理、統一資料訪問和呼叫介面。

  資訊資源整合根據系統論的原則,依據一定的需要,對各個相對獨立系統中的資料物件、功能結構及互動關係進行融合、類聚和重組,重新構建一個新的有機整體,形成一個效能更好、效率更高的新的資訊資源系統。目前,數字資源整合的方式主要包括:基於OPAC資源系統的整合、基於數字資源導航的整合、基於異構資料庫跨庫檢索的整合、基於數字圖書館應用系統的整合等。

  2.2 資料資源整合技術

  2.2.1 DOI技術

  DOI***Digital Object Identifier***由International DOI Foundation組織構造。該系統提供了一個框架,為數字環境中的數字物件分配唯一的、永久性的標識,方便該物件被管理和使用。DOI系統由4部分構成:申請DOI;建立對指定DOI物件的描述;解析系統;規則。

  2.2.2 SFX技術

  SFX即Special Effects Cinematography,它是比利時根特大學的薩姆堡爾為首的研究小組提出的。通過Open URL框架把複雜的資料庫之間的互連通過簡單的連結完成。

  2.2.3 Web Services技術

  Web Service是為實現“基於web無縫整合”的目標而提出的全新概念,希望通過Web Service能夠實現不同的系統之間能夠用“軟體-軟體對話”的方式相互呼叫,打破軟體應用、網站和各種裝置之間格格不入的狀態。

  2.2.4 地域性索引服務平臺技術

  A.N.ZINCIR-HEYWOOD提出一個地域性索引服務平臺***Domain Index Server***,建議依靠一個索引代理去建立成主要的原文獻索引,這個代理通常是軟體系統,能夠在異構資訊支撐下自動行動***搜尋***的系統。

  2.2.5 MAP資源整合系統

  INNOPAC公司推出的MAP ***Millennium Access Plus***是一個整合的資源整合系統,它可實現不同資訊資源的動態連結。這些資源包括全文電子資源、題錄和文摘資料庫、書目資料庫、圖書館線上書目系統、影象資料庫及搜尋引擎等其他Web資源。

  2.2.6 OAI標準整合模式

  OAI是指open archives initiative,它的目標是發展和促進互操作標準,促進內容資料的有效傳播。①資料提供者:提供元資料的Web伺服器。②服務提供者:向資料提供者發出請求並且利用得到的元資料構建增值服務。③儲存體:由資料提供者管理的可以在網上訪問的伺服器,它提供服務提供者需要採集的元資料。④採集器:在服務提供者方作為從儲存體中搜集元資料的一種應用工具。

  2.2.7 情報源圖譜

  美國國立醫學圖書館主持了一項長期研究和開發計劃,即統一醫學語言系統***UMLS***,其專案中有一個是關於生物醫學機讀資訊資源的情報源圖譜,其目的是利用超級敘詞表和語義網路實現情報源與特定提問的相關性;有效組織資訊資源,為使用者提供特定資訊源的範圍、功能和檢索條件等人工可讀的資訊;自動連線相關資訊源;在一個或多個情報源中自動檢索並自動組織檢索的結果。
 

  3 構建中醫藥資料資源結構圖譜

  3.1 中醫藥資料資源結構圖譜框架***見圖1***

  3.2 中醫藥資料資源結構圖譜內容

  3.2.1 物理層

  系統執行的硬體、軟體環境,解決如何為應用系統提供統一的支撐環境,支援應用系統的運作。

  3.2.2 基礎層

  位於物理互連的網路協議之上,用於標準化、規範化描述資料,為更上層的資料交換提供基礎性支援的標準、規範。基礎性協議標準又可以劃分為資料描述層面和資料訪問層面。前者主要包括元資料、XML、RSS,後者主要包括開放資料庫互連標準***ODBC***等。在資料描述層面內部,RSS具有提供內容聚合的功能,是為實現內容聚合而制定的一種資訊描述、組織的規範,但它也具有資源發現、釋出的功能,更是一種新形式的描述規則。因此,將RSS歸入基礎的描述層面標準。準確的說,RSS本身也是基於XML格式的,其實是XML成功應用的一個典型。從這一層總體來看,這些基礎的標準、規範***除了RSS之外***,大多數都不是專門為解決資源整合的問題而制定的,主要是從資訊組織、跨異構資料庫的互連、互訪用途出發的。但是,它們確為更好地實現資源整合提供了有力的支援。

  3.2.3 資料層整合

  旨在遮蔽各資料來源異構性,使得各資料來源之間能夠進行資料的交換與互動,令使用者可透明地訪問多個數據源。要實現資料整合,必須對資料進行跨資料來源的收集、組織、處理與整合。根據整合系統與資料來源之間互動的特點,又可以分為3種形式:基於聯邦的整合、基於採集的整合、基於連結的整合;資料層整合協議的重點是解決系統之間的資料交換和資料互動。

  整合揭示以下功能。①不同文獻層次、級別的指引關係:題錄資訊→標引資訊→文摘資訊→全文→結構資訊,一次文獻和二次文獻之間的對應聯絡。②中心數字資源和網路數字資源之間的交叉、重複和互補關係:全文資料庫與中心文獻相重複的部分;又如PUBMED的生物醫學資源中的期刊包括絕大多數的館藏期刊,並提供了大部分題錄和部分免費全文。③數字資源之間的主題相關或學科相關,內容上的重合和互補關係:引用和被引用及共同引用的關係,說明資源在內容上的相互關聯。④數字資源與服務之間的關係:共建資源與服務資源之間存在密切聯絡,但因服務層次需求分為全文、結構、粗表、細表、分析表等資源。

  3.2.4 具體整合要求

  資料庫資源的詳細描述與統一管理,包括資料庫元資料管理、每個中醫藥相關的資料庫涉及表的管理、每個表的資料元管理3個部分。資料庫的元資料管理需要對資料製作相關的資訊如製作人、起始日期、製作背景、目標、更新週期等資訊進行管理,並可以使用中醫藥的分類詞表對資料庫進行描述;表的資料元管理需要指明欄位的名稱、型別、大小、取值範圍以及所對應的標準。此外,多個數據庫之間也存在一定的關係,如方劑資料相關的資料庫,就有中國方劑資料庫、方劑現代應用資料庫等,對於方劑類資料庫需要制定統一的方劑資料庫製作標準,並對這些庫之間的關係進行描述。

  要求研製管理工具,能夠增、刪改每個資料庫的元資料、資料元,以及每個資料庫之間的關係,並能夠逐層次的展示各層的資訊以及關係。能夠使用檢索方式、分類方式來具體的定位到相關的資訊。

  應用軟體的詳細描述與統一管理,包括應用軟體的描述、應用軟體使用資料庫資源的描述。應用軟體包括軟體開發的起始日期、目標、版本、開發語言、開發人員、原始碼、可執行包、狀態、安裝執行條件、軟體描述、使用者、幫助文件、安裝文件等資訊。

  管理工具需要管理這些資訊並能夠對映資料庫資源,能夠看到每個軟體所使用的資料資源,並能夠從資料庫資源導航到相關的軟體。

  伺服器資訊的管理主要指資料庫資源在具體伺服器上的分佈以及存貯資訊,包括伺服器的編號、所安裝的資料庫、資料量、可存貯量、實際的資料存貯情況、每個資料庫的超級管理員帳號、資料庫表空間的帳戶資訊等。每個資料庫資源需要對映到相應的伺服器。

  3.3 中醫藥資料資源結構圖譜功能

  由於中醫藥數字資源的內在聯絡不是單向或線性的,而是呈網狀的複雜關係,因此,不可能通過單一的線索或統一的機制描述全域性的狀況。建立中醫藥資源結構圖譜目標是要通過多種模式,多角度和多層次地挖掘和揭示這些內在關係,通過連結、整合和嵌入實現資源之間、資源和服務的整合。其實現的主要功能如下。

  3.3.1 資料庫資源管理功能

  該項功能主要實現對資料庫元資料的管理和展示,主要分資料庫管理、單個數據庫管理、單個表的管理以及資料庫資訊展示4個子功能。

  ①資料庫管理。提供對資料庫資訊的管理,包括以下功能:a.增加和刪除資料庫元資料,並可以對其進行編輯***元資料包括製作人,起始日期,製作背景,目標,更新週期等***;b.管理不同資料庫之間的關係,實現資料庫之間關係的增加、刪除、編輯功能;c.通過中醫藥分類詞表對資料庫進行描述。

  ②資料庫中表的管理。提供對指定資料庫中所屬表資訊的管理,包括對資料庫中所屬表資訊的管理。

  ③單個表對應資訊的管理。提供對單個表對應元資料的管理,包括以下功能:a.對單個表的元資料進行管理,表中的欄位資訊可以直接從資料庫中得到;b.管理表對應的標準。

  ④元資料的定位和展示功能。實現對元資料的定位和展示,包括可以對元資料進行逐層展示。根據資料資源分類標準進行元資料目錄分類的分層,並定位元資料。

  3.3.2 資料庫應用軟體管理功能

  這項功能主要實現對具體應用程式的描述和管理,包括以下子功能:①應用軟體自身資訊的展示,包括軟體開發的起始日期、目標、版本、開發語言、開發人員、原始碼、可執行包、狀態、安裝執行條件、軟體描述、使用者、幫助文件、安裝文件等資訊。②應用軟體使用資料資源的描述,可以檢視軟體對應的資料資源。③增添元資料管展示功能,可以通過資料資源導航到相關軟體。

  3.3.3 應用程式資訊管理功能

  實現對應用程式相關資訊的管理,包括以下子功能:①增加、刪除和編輯應用程式的元資料;②管理應用程式與其資料資源之間的關係,可以建立、刪除、編輯應用程式與資料資源***資料庫中的表***之間的關聯。

  3.3.4 伺服器資訊的管理

  實現對伺服器上資料資源資訊的管理,包括以下子功能:①建立、刪除、編輯伺服器元資料,包括伺服器的編號、所安裝的資料庫、資料量、可存貯量、實際的資料存貯情況,每個資料庫的超級管理員帳號,資料庫表空間的帳戶資訊等;②建立、刪除、編輯資料庫與伺服器之間的關係。

  隨著網路資訊的海量增長,資訊資源的有序化和資訊的可用性問題已經成為以數字化為核心的中醫資訊資源建設中的一個關鍵問題。中醫藥科學資料中心與網際網路包容的資訊內容在數量和覆蓋內容方面日趨全面,我們期待著設計更加科學、結構更加完備、管理更加規範、功能更加強大的資源整合系統,為網路資源的發現、整合與利用提供一個全新而高效的技術平臺,為中醫藥資訊服務開闢更加廣闊的發展前景。