科技文獻語義檢索系統的分類與功能特點論文

科技文獻語義檢索系統的分類與功能特點論文

  1 引 言

  語義檢索是資訊檢索的發展趨勢, 早在 20 世紀80 年代, 語義檢索的思想就已經出現, 並且資訊檢索領域已經開展了相關研究工作。企業級的語義搜尋引擎近幾年已經開始應用, 例如 Kosmix 和 等, 特別等讓搜尋變得更智慧。百度框計算搜狗知立方代表了國內搜尋引擎在該領域的成功實踐。在文獻資訊檢索領域,作為語義檢索系統的典型代表, 做出了開創性的工作, 一些面向科技文獻的語義檢索系統不斷出現。

  傳統基於關鍵詞的檢索系統具有一定的侷限性,如無法解決詞彙的模糊性問題, 分散在多個文件中的相關資訊不容易被發現等。語義檢索基於含義而不是透過關鍵詞匹配尋找使用者查詢的答案, 用以實現實體檢索、概念檢索、分類檢索、關係查詢等知識檢索方式來滿足使用者的多種資訊需求, 使得搜尋智慧化, 根據使用者的意圖給出使用者想要的結果。目前, 語義檢索主要有兩個方向: 語義網資源的檢索和對於傳統檢索系統的語義擴充套件。面向科技文獻的語義檢索研究主要偏向於後者, 利用語義技術改進傳統文獻檢索系統,利用敘詞表、主題詞表、本體等知識組織體系實現語義豐富化, 採用語義標註、自動抽取、關係發現的文字挖掘技術從非結構化的文字中發現細粒度的資料,使得檢索系統更智慧化。本文根據文字語義處理程度對科技文獻語義檢索系統進行分類, 提出科技文獻語義檢索系統的基本框架, 並探討科技文獻語義檢索系統的功能特性。

  2 科技文獻語義檢索系統分類

  根據系統的智慧化、語義化程度, 將現有科技文獻語義檢索系統分為: 語義查詢擴充套件的檢索系統、以概念或實體為中心的檢索系統、以關係為中心的檢索系統、面向知識發現的檢索系統 4 種類型。這 4 類檢索系統對科技文獻的文字語義化處理程度不同, 檢索系統的智慧化和語義化程度也不同, 如圖 1 所示:

  【1】

  2.1 語義查詢擴充套件的檢索系統

  語義查詢擴充套件的檢索系統在傳統關鍵詞檢索基礎上, 對檢索詞進行處理, 利用受控詞表和本體對檢索詞進行擴充套件。PubMed支援基於 MeSH 的查詢擴充套件,也有利用 UMLS 的同義詞對 PubMed 查詢進行擴充套件,QuExT執行面向概念的查詢擴充套件, 檢索結果根據使用者預先分配給概念類別的不同權重進行排序。

  GO2PUB利用基因本體中術語之間的語義繼承對PubMed 查詢進行語義擴充套件, 基因名稱、符號和同義詞都作為額外的關鍵詞提交給查詢處理器。

  2.2 以概念或實體為中心的檢索系統

  以概念或實體為中心的檢索系統利用本體、主題詞表、敘詞表等對科技文獻進行語義標註, 識別文獻中的知識, 檢索過程透過匹配使用者查詢和語義標註結果執行, 這使得檢索系統能夠利用標註資訊查詢到更精確的結果。GoPubMed是這類系統中最典型的, 它利用 Gene 本體和 MeSH 標引 PubMed 文獻, 並用於檢索結果的結構化展示, 可以讓使用者看到與查詢相關的主要的生物醫學概念。相比 PubMed, GoPubMed 可以更快地找到相關的檢索結果。NextBio 文獻檢索系統利用基於本體的語義工具和創新介面, 對 ScienceDirect 內容和 PubMed、臨床實驗、生物醫學新聞等授權開放使用的研究資料進行文字挖掘, 並透過自然語言處理技術實現命名實體識別和消歧, 從而提高檢索效能。Kleio 系統對文字的語義概念(如 genes、protein和其他生物醫學術語)進行標註, 提供對於 MEDLINE的文字和元資料相結合的檢索, 利用標註的命名實體型別對檢索結果進行分面, 從而實現檢索結果的過濾。

  2.3 以關係為中心的檢索系統

  以關係為中心的檢索系統透過文字挖掘技術從科技文獻中發現概念或實體之間的關係, 能夠提供基於關係的檢索服務。Quertle是一個關係驅動的生物醫學文獻檢索工具, 使用基於語義的自然語言處理方法從生物醫學文獻集中抽取主謂賓關係, 發現生物醫學實體(如疾病、基因、藥物)之間的一般或特殊關係。

  用"咖啡因偏頭痛"作為搜尋詞, Quertle 會發現兩個檢索詞之間的關係如"咖啡因治療偏頭痛", 而不是通常搜尋 PubMed 所返回的同時包含"咖啡因"和"偏頭痛"兩個檢索詞的記錄。CoPub是以共現關係為中心的檢索工具, 利用文字挖掘技術檢測 PubMed 摘要中共現的生物醫學概念, 如基因本體中的人類/鼠基因、生物過程、分子功能、細胞組成以及病理、疾病、藥物和途徑等。在 CoPub 系統中檢索某個生物醫學概念, 可以獲得與其共現的其他生物醫學概念以及共同出現的文摘。PolySearch抽取人類疾病、基因、突變、藥物和代謝物之間的關係, 利用各種文字挖掘和資訊檢索技術對內容摘要、段落或句子進行識別和排序, 支援面向十幾個不同型別的文字、科學文摘或生物資訊學資料庫的50多種查詢型別, 例如檢索"與乳腺癌有關的基因".

  2.4 面向知識發現的檢索系統

  面向知識發現的檢索系統透過發現隱含的關係和知識, 從而為使用者提供更深層次的語義檢索服務。

  CoPub 5.0在 CoPub 共現關係挖掘的基礎上開發了稱為CoPub Discovery的新技術, 從文獻中挖掘間接關係, 用於研究疾病背後的機理、連線基因和途徑, 發現現有藥物的新型應用等。CoPub 5.0 提供了三種分析模式, "term search"模式為一個術語檢索文摘和術語關係, "pair search"模式分析術語對之間的已知關係或新關係, "set terms"模式用以給出多個術語之間的關係。

  FACTA++從 MEDLINE 文摘中發現並可視化如基因、疾病、化合物等生物醫學概念之間的間接關聯, 利用機器學習模型發現文字中的生物分子事件, 利用概念之間的共現關係統計出資訊挖掘隱藏的關聯。EvidenceFinder實現對 PMC 全文資料從化合物基因、蛋白質、疾病等生物醫學實體到如磷酸化、繫結、啟用等生物相關性事實的多層次文字標註。Evidence-Finder 將標註事實轉化為一系列的問題, 作為文獻檢索的推薦, 幫助使用者找到問題答案對應的文章。例如, 輸入檢索詞"粘蛋白", 系統自動給出一系列相關問題, 如"降低腸道粘蛋白的是什麼?"、"什麼產生粘蛋白?"等。

  3 科技文獻語義檢索系統的基本框架

  根據對典型科技文獻語義檢索系統的分析, 提出系統基本框架, 分為語義知識獲取、資料整合與融匯、語義索引構建、查詢處理、結果展示 5 個主要的系統功能, 如圖 2 所示。實現科技文獻的語義豐富化, 基於領域敘詞表或本體, 利用語義標註、實體抽取、關係抽取等技術從科技文獻文字資訊中獲取語義知識。以這些語義知識為基礎, 藉助實體或概念匹配、本體整合、Linked Data 之間的關聯實現潛在語義知識、科技文獻以及外部資源的資料整合與融匯, 支援細粒度的語義檢索以及相關知識的擴充套件檢索。在文獻元資料索引的基礎上, 構建實體、概念、關係、文字事實依據的索引, 支撐基於語義的檢索功能。在查詢處理方面, 採用術語匹配、自然語言處理、相似度計算、知識庫圖遍歷、本體推理等技術手段理解使用者的搜尋意圖, 透過基於語義知識的分類、聚類、排序等對檢索結果進行重新最佳化計算。透過結果列表、視覺化展示、分面瀏覽、樹形導航、本體導航等方式將檢索結果展示給使用者, 同時提供基於語義知識的相關推薦和統計預測等功能。

  4 科技文獻語義檢索系統的功能特點

  語義資訊的引入影響了科技文獻檢索系統從資料處理、索引構建、查詢處理到結果管理的各個方面, 使得檢索系統具有一些新的特性。

  4.1 科技文獻語義豐富化

  在傳統文獻標引的基礎上, 一些文獻檢索系統已經進行了深層的語義豐富化處理, 並且在此基礎上提供更準確的檢索服務。例如, ProQuest在文字標引基礎上將蘊含在學術出版物中的表格、地圖、照片和其他圖形中的資料、變數以及其他內容進行深度的標引,平均使用8個術語描述一個影象。Wiley的SmartArticle技術[14]針對化學期刊新增了化合物索引, 提供對於內容的深層檢索, 此外對文獻中的化學術語進行標註,使用不同顏色對不同型別的化學術語進行高亮顯示,以方便使用者閱讀。在醫學文獻檢索領域, PubMed使用MeSH主題詞表進行文獻標引, 隨著文字挖掘技術的成熟, 一些工具和系統在PubMed基礎上對科技文獻進行了更為深入的語義豐富化處理[15].例如, EBIMed[16]

  從文獻中抽取蛋白質、基因本體標註、藥物和物種, 基於共現分析識別抽取概念之間的關係。PubTator工具[17]支援對PubMed檢索結果的標註, 識別的生物醫學實體包括基因、化學物質、疾病、變異、物種等。

  4.2 基於實體或概念的資料整合與融合科技文獻的資料整合已轉變為以實體或概念為中心的資料整合和融合, 實現不同應用系統之間的語義互操作, 促進更廣泛的共享與應用。AGRIS 國際農業科學和技術資訊系統利用 OKKAM 實體名稱系統框架[18]建立關聯資料模型, 將書目資料庫轉換為關聯資料服務.一方面, 使用 AGROVOC 敘詞表與其他敘詞表對映, 另一方面將書目記錄與外部資源建立連線,如 DBPedia、WordBank、Google Custom SearchAPI、Nature OpenSearch 等。在 AGRIS 檢索結果的詳細頁面中, 除書目資訊外, 還提供相關外部資源的結果揭示, 藉助文獻標引使用的 AGROVOC 詞彙、書目關聯資料等實現以實體或概念為中心的知識頁面之間的融匯。Elsevier 提出 Smart Content 的概念, 組織醫學專家在 UMLS 基礎上構建 EMMeT 醫學詞彙分類體系, 將 Elsevier 的臨床醫學期刊、論文、書目章節、表格、影象等資料對映到合適的醫學術語上, 從而加強對 Content 的理解, 使其提升到實體、概念和關係的知識層面上, 以便各類應用程式更好地理解和處理內容上的內涵資訊。

  4.3 面向文字分析結果的索引機制。為實現對文字分析結果的檢索, 語義檢索系統構建了文字中概念、實體、關係、事實與文獻之間的索引。例如, Kleio系統應用Lucene對識別出來的蛋白質、基因、代謝物和醫學術語構建索引, 即對與文字相關的概念構建索引, 而不是個體或規範詞形式, 這意味著系統可以檢索與某個指定概念相關的文件, 無論概念的表現形式是它的拼寫變體還是縮寫形式.

  EvidenceFinder 系統藉助基因、蛋白質、藥物、疾病和代謝物的詞表以及表示生物醫學過程和關係的詞典, 對 Europe PMC 倉儲全文資料進行語法分析和文字挖掘, 將所有可能包含相關事實的句子構建索引。NLMplus使用 Solr 對語義層進行索引, 支撐檢索服務。而 Quertle建立語義關係索引、關鍵詞索引和輔助索引三種索引, 用於查詢使用者輸入的檢索詞和提問,並返回檢索結果。

  4.4 查詢處理

  由於一個搜尋請求可能代表多重含義, 對使用者輸入的檢索詞進行語義分析是語義檢索系統的首要任務。通常, 語義檢索系統從使用者輸入字元開始提供自動完成功能, 對使用者輸入的檢索詞和語句進行識別和分析, 給出相關的查詢建議, 透過理解使用者查詢意圖和搜尋空間的含義改進檢索質量。

  (1) 基於受控詞表和本體的自動完成功能

  目前, 搜尋引擎大多數都具有自動完成功能, 利用預存的術語自動將使用者的檢索詞對應到可能匹配術語上並提示給使用者, 簡化使用者輸入操作。文獻檢索系統通常利用受控詞表和本體實現自動完成功能,GoPubMed將輸入的術語匹配 MeSH 和 Gene 本體術語; Semedico將查詢建議放在分類樹中允許使用者選擇一個廣義術語作為檢索詞, 在括號中列出其同義詞;NextBio可以列出匹配的基因、化合物、SNPs、疾病、組織、生物學團體和作者等; Elsevier 的 ClinicalKey 醫學資訊平臺在使用者輸入檢索詞後提供檢索建議, 如相關醫學主題、內容來源和作者等。

  (2) 查詢分析

  檢索系統在執行查詢前, 採用語言學方法將使用者輸入的檢索詞對映到受控詞表或本體的概念、實體上,將關鍵詞檢索轉化為概念或實體的`檢索。利用受控詞表的同義、廣義、窄義等術語以及基於本體上下位關係實現查詢的邏輯推理, 用於解釋使用者的查詢, 並給出查詢建議。Kleio 系統將摘要中命名實體進一步分類, 結合語義分類資訊執行查詢, 可以降低搜尋空間,提高檢索效率.一些文獻檢索系統允許使用者使用自然語言進行提問, 如 Quertle、EvidenceFinder 等, 在執行查詢處理前, 需要對查詢語句進行預處理, 利用自然語言處理技術將查詢語句進行重構。NLMplus使用敘詞表和本體對 PubMed Review 進行語義標引, 利用構建的知識庫對查詢進行分析和解析, 以檢索到更精確的結果。iPubMed[23]提供一個互動式檢索介面, 當用戶在搜尋框中輸入幾個字元時, 系統將立即顯示任何包含這些字元的引用, 便於縮小搜尋目標, 此外該系統還允許小的拼寫錯誤。ClinicalKey 透過 EMMeT建立關係的語義框架, 促進內容發現, 使得被傳統關鍵詞檢索忽略的潛在關聯能夠被揭示出來, 並且保證了ClinicalKey能夠為使用者的檢索請求提供具體並且有針對性的答案, 比如查詢"myocardial infarction",ClinicalKey 智慧檢索可以識別其縮略詞、同義詞、相關外科手術和治療藥物, 並且知道這是一種與高膽固醇相關的心血管疾病[20].

  4.5 查詢結果管理在傳統文獻檢索系統的基礎上, 語義檢索系統對於查詢結果的呈現方式更加多樣, 表達的資訊也更加豐富, 基於本體的結果精煉、知識導航等為使用者帶來了新的檢索體驗。

  (1) 查詢結果呈現方式語義檢索系統為使用者提供了最直接的結果呈現方式, 如檢索的目標概念(實體)、關係、事實、回答等資訊。GoPubMed[5]在文獻結果列表中只顯示文摘中與檢索目標相關的句子, 反映檢索詞的事實, 而不是全部摘要資訊。Quertle[8]同樣顯示文摘中相關的事實資訊,並對檢索目標進行高亮顯示。FACTA++[12]將與查詢目標相關的概念透過不同分類列表的方式顯示, 並可以按照相關的頻次排序。CoPub[9]返回查詢術語的詳細資訊、共現術語的分類和文摘數量。EvidenceFinder[13]在文獻檢索列表中直接給出查詢問題的答案並高亮顯示。

  (2) 概念/實體層級結構分類與導航GoPubMed[5]透過本體的層級結構對查詢結果進行聚集, 實現了大規模結果的快速導航, 使用者可以快速獲取相關的生物醫學概念, 同時可以在檢索中發現新的檢索目標或過濾檢索條件, 使得檢索更有深度和廣度。NextBio[6]將從摘要和正文中抽取的生物醫學術語, 以Tag雲的方式顯示, 並提供這些術語的分類, 可以利用它們進一步過濾和最佳化查詢結果。Kleio[7]將檢索結果根據文獻標註命名實體的語義分類進行組織,並列出最高關聯頻率的概念, 方便使用者瀏覽和過濾檢索結果。ClinicalKey 允許使用者根據有臨床意義的子分類篩選檢索結果, 比如內容型別、專科、疾病名稱、身體部位等[20].

  (3) 文字挖掘結果顯示與相關知識導航在結果頁面或文獻詳細頁面對語義標註結果進行呈現, 並提供相關知識的簡介、連結與導航, 例如GoPubMed[5]在標註概念下方用虛線標記, 點選後可實現對標註概念的重新檢索和二次檢索, 以及直接給出標註概念的詳細資訊、W kipedia 連結。EvidenceFinder系統[13]在文獻詳細頁面將識別的生物實體統計情況以圖形化的方式顯示, 並根據不同的型別分別列出, 點選標註實體可以直接連結到 UniProtKB的相關檢索介面,檢視相關資訊。ClinicalKey平臺在檢索結果頁面提供文獻摘要的預覽視窗, 同時對語義標註的結果進行展示,並且提供 2 000 多個疾病主題頁, 可以快速訪問疾病的流行病學、風險因素、臨床表現、治療等方面的資訊, 以及與特定專科相關的答案和藥物連結[20].

  (4) 基於概念/實體的文獻統計分析。透過對文獻的文字挖掘, 語義檢索系統可以實現基於概念/實體而不是關鍵詞等元資料資訊的文獻統計分析功能。例如, 在 GoPubMed[5]平臺上點選左側導航的概念或文字標註概念都可以看到該概念相關文獻的時間軸, 不僅可以展示相關文獻的演化過程, 也可以預測其發展趨勢。

  5 結 語

  科技文獻語義檢索系統相比傳統檢索系統, 其優勢在於能夠處理語義資訊, 從非結構化文字中發現潛在知識, 實現知識檢索, 滿足使用者更高的檢索需求。透過研究和分析現有科技文獻語義檢索系統可以發現系統的語義化程度依賴於對文獻的語義挖掘深度, 藉助現有的文字挖掘、自然語言處理、語義網等技術以及受控詞表和本體, 在很大程度上實現了對指定資訊的挖掘和發現, 然而由於受控詞表和本體的領域侷限性和覆蓋率問題, 科技文獻語義檢索系統的研究主要集中在生物醫學領域, 而在科技文獻檢索領域實現通用的語義檢索仍然困難重重。

最近訪問