基於語義技術的搜尋引擎平臺搭建的可行性研究論文
基於語義技術的搜尋引擎平臺搭建的可行性研究論文
摘要:首先分析了目前主流搜尋引擎存在的問題,然後對國內外將語義技術應用到搜尋引擎中的現狀進行了分析,最後具體分析了將語義技術應用到儲存技術、檢索技術、資料庫技術和分詞演算法的可行性。
關鍵詞:語義技術,搜尋引擎,語義搜尋引擎,搜尋引擎技術
隨著Internet的飛速發展,各種各樣的資訊資源在網路上釋出,使用者透過什麼樣的技術策略或者手段才能在這個資訊的海洋中找到自己需要的資訊成為專家學者研究的物件,於是基於分類目錄和基於關鍵詞技術的搜尋工具應運而生,它們的出現給使用者使用網路資訊資源帶來了很大的方便。但是由於計算機技術和知識的普及,致使網路資訊資源爆炸式的增加,目前的檢索工具出現了不能滿足人們需要的情形。針對Internet暴露出來的缺陷,1998年,Web的創始人TimBerners-Lee首次提出了“語義Web”(SemanticWeb)的概念及其技術路線,闡述了語義Web的基本思想,語義Web的目標是使得Web上的資訊具有計算機可以理解的語義,滿足智慧軟體代理(Agent)對www上異構和分佈資訊的有效訪問和檢索[1]。語義技術的核心就是:為全球資訊網上釋出的資訊進行語義的標註,使機器可以理解這些資料的含義,最後實現智慧推理和資訊自動化的處理。因此關於將語義技術和搜尋引擎技術相結合的智慧化搜尋引擎的研究已經迫在眉睫。
1目前搜尋引擎存在的問題
隨著社會經濟和計算機技術的發展,社會上的資訊量劇增,為方便資訊交流和獲取,隨之產生了搜尋引擎,無論是目錄式搜尋,還是關鍵詞搜尋,都給使用者使用網路來獲取資訊提供了巨大的方便,使得網路在人們的生活中顯得越來越重要,網路資訊也隨之劇增。近幾年,專家和企業都在研究搜尋技術與搜尋的策略,並且取得了很大的進步,但是這種進步在網路資訊量的劇增面前顯得很微小,這時,一些搜尋引擎的弊端就逐漸地顯現出來。
從目前使用者的使用角度來看,搜尋引擎有以下幾點不足:
1)隨著網路技術的發展,一些網站建設的新技術應運而生,一些新的網站應用技術也在網路上流行,Flash導航,影片資源播放等新型技術的產生,直接對傳統的搜尋引擎帶來挑戰。
2)網路上頁面資源的更新速度大大加快,現在幾乎每個公司都有自己的網站,並且幾乎每天都有新的資訊更新。同時,一些新型網路社群的建設,給很多使用者提供了建立個人主頁的機會,資訊量增加的速度變快,大量的資訊給搜尋引擎的Crawler系統帶來新的挑戰。
3)網路資訊的異構性更加突出。由於網路技術的發展,可以釋出網路資訊的使用者群發生了變化,以前都是以單位為主要的群體,轉變成以個人為目標使用者群的。這樣釋出的資訊從格式上更加難以控制,並且結構型別也有不小的變化,從而增加了資訊的異構性,這樣對搜尋引擎的標引技術提出了新的要求。
4)動態生成技術,資料庫技術的廣泛應用,使網路上的很大一部分網站從靜態轉換成了動態。好多網站資訊是由資料庫程式碼自動生成了,這樣對網路資源的真正URL以及資源的資料不好確認,給搜尋程式帶來不小的困難。
5)由於資訊量巨大以及部分網路資訊描述的不準確,給檢索帶來不小的誤差,這樣使用者輸入關鍵詞以後,搜尋引擎檢索出來的資料量很龐大,一些使用者真正需要的資料不一定能夠排在顯示的前端,而使用者也不會一一的耐心看下去,這樣產生的檢索噪音給使用者的使用帶來很大的影響。
2基於語義技術的搜尋引擎平臺研究現狀
2.1國外相關研究
相關理論主要有,NEC美國研究所的SteveLawrenee和C.LeeGiles從1998年和l999年起連續在《自然》和《科學》雜誌上撰文對搜尋引擎技術的研究進行評述。著名的資訊檢索會議TREC也從1998年開始增加了WebTrack課題,以考察Web文件與其他型別文件在檢索性質上的不同之處,並將測試在大規模的Web庫(如100G位元組)上進行資訊檢索的演算法效能[2]。由美國Information公司主辦的搜尋引擎國際會議從l996年開始每年舉行一次,對搜尋引擎技術進行總結、討論和展望,對搜尋引擎技術起到了很好的推動作用。此外還有EIEE主辦的國際全球資訊網會議、人機互動會議等。然後就是在Berners-Lee提出了語義網的設想,相關專家和學者開始將語義網思想運用到搜尋引擎中,提高和最佳化Boulos,MagedN.Kamel[3]的“AFirstLookatHealthCyberMapMedicalSemanticSubjectSearchEngine”,D-LibMagazine[4]的“ALVIS-SuperpeerSemanticSearchEngine”,2005年Schenkel,Ralf;Theobald,Anja;Weikum,Gerhard[5]的“SemanticSimilaritySearchonSemistructuredDatawiththeXXLSearchEngine”,2007年YufeiLi;YuanWang;XiaotaoHuang[6]的“A”等關於語義搜尋的文章。
相關技術主要有:l990年蒙特利爾的McGill大學學生AlanEmtage、PeterDeutsch、BillWheelan開發了一個自動索引因特網上的匿名FTP網站檔案的程式,它就是Archie(ArchieFAQ),搜尋引擎的首例。然後到目錄式搜尋引擎雅虎,關鍵字搜尋引擎Google。現在國外已經在Mozilla瀏覽器的pre-Nglyauot版本和Netscpae瀏覽器的.407或.45+版本大量採用RDF技術,實現了智慧瀏覽,幫助瀏覽網頁的使用者提供其他與其瀏覽內容有關的資訊。美國FourthoughtInc公司是專為企業知識管理應用提供XML解決方案的軟體供應商和諮詢公司,開發了4Suite,它是XML、RDF和知識管理應用的一個開放原始碼平臺,並在其知識管理解決方案中,實現從XML資料抽取RDF資料、並在RDF基礎上提出一種簡潔的語義搜尋功能[7]。斯坦福大學、微軟和W3C共同開發的TAP也是基於SemanticWeb的語義搜尋引擎。
2.2國內相關研究
在技術方面,國內先後有清華大學、北京大學、國家智慧研究中心等高校和研究機構對搜尋引擎技術開展研究,並開發出了幾個較好的系統。如由北京大學計算機系網路研究室開發的“天網”中英文搜尋引擎,在系統規模及系統性能方面達到了國外中型搜尋引擎系統的技術水平。Google作為第二代智慧全文式搜尋工具,可以對網頁的全文進行檢索。百度是目前最大的中文搜尋引擎,使用超連結分析技術,除了分析索引網頁本身的`內容,還分析索引所有指向該網頁的連結的URL、AnchorText、甚至連結周圍的文字。我國從2002年起在863計劃中把語義Web技術與Ontology,列為“十五”期間計算機技術的重大課題之一。國家自然科學基金專案《基於本體論和語義Web的產品資訊基礎結構》,以本體論為指導,以XML形式化描述基於知識的產品資訊模型資料,在語義Web上建立產品資訊基礎結構[8]。宋峻峰[9]提出的基於本體的資訊檢索模型採用描述邏輯構造本體,利用本體對文件進行了語義標註,生成文件的邏輯檢視和使用者資訊需求的邏輯檢視,實現了檢索過程中真正的語義匹配,是真正的語義檢索。郭少友教授提出和設計的“以文件為中心的上下文檢索研究”也屬於語義檢索的範疇。
3語義技術應用到搜尋引擎的可行性分析
3.1語義技術與資訊儲存技術的結合
目前,RDF資料的儲存基本上有兩種方案,XML/RDF檔案的形式儲存是一種可行的方式,但是考慮到對於大量的事實資料,考慮到可擴充套件性,查詢方式,效率等諸多的因素,以RDF資料庫或者關係資料庫來儲存RDF事實資料庫是一種比較好的選擇。
3.2語義技術與檢索技術的結合
透過對使用者查詢關鍵詞的語義匹配和語義相關性擴充套件,最後形成符合特定知識本體語言的查詢語句實現語義檢索,例如:
SELECT?a,SELECT(http://127.0.0.2/Milan#動物,松鼠)
但是這樣的形式比較複雜,因此可以在語義檢索中設計一個Agent,用來分析使用者輸入的關鍵詞,查詢Agent接收使用者輸入的關鍵詞,並將它傳遞給匹配Agent,根據知識本體和語
義詞典對這些關鍵詞進行比較分析,並構造出適合該檢索的新的檢索式或者查詢語句,並且將該檢索式返回,這個過程實現語義匹配過程。但是有的時候為了進一步獲得更多的資訊,還需要根據知識本體或者語義詞典對輸入的查詢語句進行相關的推理,推理的過程有很高的智慧化,例如在檢索的過程中,發現沒有松鼠這個關鍵字,但是松鼠是喜歡吃松子的,所以當檢索到松子的時候,這個頁面有可能也是關於“松鼠”這個關鍵詞的相關頁面,同時推理機制也會根據情況構造出新的檢索式:
SELECT?a,WHERE(http://127.0.0.2/Milan#堅果,松子)
3.3語義技術在資料庫搭建中的應用
我們知道資料庫構建的過程中是有很多表或者集合組成,傳統的描述僅僅是描述其關鍵字欄位或者其屬性值,利用相似度演算法進行機械的匹配查詢,滿足一定的相似度就對該條記錄做讀取、刪除等操作。
王珊教授等研究了基於本體的關係資料庫語義檢索,分析和研究單個關係資料庫上基於本體的語義檢索問題,其中指出,關係資料庫主要有兩部分組成,一部分是元資料(Meta-data)也稱為模式(Schema)如資料型別名,表的屬性名,表名,主鍵及外來鍵[10]。另外一部分是真正的資料,關鍵資料庫的元資料描述了其儲存資料之間的簡單語義關係,由於關係模型描述能力的限制,並不能完全的描述資料庫之問豐富的語義關係。關係資料庫的查詢語句使用的是結構化查詢語句SQL進行的,這是一種精確的查詢語句,查詢條件是精確的,同時查詢結果也是精確的,由於關係資料庫僅僅只能表現資料庫中有限的語義關係,所以其查詢的語義性也是有限的,而本體則能進一步的描述關係資料庫的語義。
隨著本體跟語義網的技術的不斷髮展和應用,基於本體的關係資料庫也逐漸成為研究的熱點。關係資料庫的語義可以分為兩級語義,一級是元資料級別的語義,另外一級是資料級的語義,利用不同語義級別可以實現不同的語義檢索。文獻指出本體透過對資料庫進行兩種級別的語義描述,分別可以從元資料或者資料中抽取,識別出概念,然後對本體中已經存在的概念進行對映,或者根據本體的學習技術,構建出一個新的本體[10]。也可以直接使用已有的本體中的概念來描述元資料的資料,這兩種方法都稱為本體標註。本體標註也是關係資料庫語義檢索的基礎技術。本體標註就是把本體和資料聯絡到一起,以便建立基於本體的語義索引[11]。
3.4元資料標引技術
利用元資料技術對網路資訊資源進行標引,有利於資訊資源的描述,同時也可以縮小網路資訊資源的異構特點,根據元資料的標準對網路資訊資源進行統一的標引,這樣對資訊的描述更詳盡,同時也可以體現各個相關資料之間的語義特點。目前比較通用的是DC,利用DC的著錄格式對網路資訊資源進行著錄與表示,其不但能詳盡的描述資訊資源的特點,同時也可以體現出描述各項之間的語義關係。因此將元資料引入到網路資訊資源標引技術中,有利於改善網路搜尋引擎。
3.5語義技術在分詞演算法中的應用
常用的分詞演算法主要有正向最大匹配法、逆向最大匹配法、專家系統分析法、高頻優先法、全自動詞典切詞法、擴充轉移網路分詞法、神經網路等分詞方法。但是以上所有的分詞方法都會存在一定的錯誤率,所以我們要在分詞演算法中引入語義技術,以便提高分詞的準確性。這種思維方式就是根據漢語的特點以及其自身的規律,可以考慮從漢語的構詞規則如筆畫來試圖解決這樣的問題,這是一種新的自動分詞研究方向。另外再對資料或者資訊資源進行處理和標引時,在使用受控語言和自然語言的同時,還可以運用其他的人工構造語言,像程式設計語言,邏輯語言,數學公式等。這幾種人工語言跟自然語言一樣,他們都有一套自己的完整的語法規則與相當數量的符號組成,我們可以根據他們的特點,對其組成規律進行總結,並且併入到語義字典中,並利用本體對其相互關係進行描述。
為了便於計算機對漢語進行自動分詞處理,就需要對現在的分詞語法方法做以下三方面的改造:一是要在待分詞的漢語文字的詞與詞之間增加適當的間隔符,即設立分詞標誌,這樣透過設立的分詞標誌,可以方便地對文字進行分詞處理,大大提高效率;二是要對漢語的詞語進行明確界定,即規定什麼是“詞”,這樣主要可以解決兩方面的問題,單字詞與字元素之間的區別以及短語或者成語與詞(片語)之間的區別;三是要制定完整的漢語書寫規則。這些都是應該在漢語文字生成之前完成,並且從技術實現的條件來看是可行的,這樣就省去了很大一部分精力對預處理文字進行分詞[12]。
4結論
基於語義技術的搜尋引擎平臺的搭建是一門新興的研究課題,它旨在解決如何讓資訊使用者在海量的資訊中,精準地找到自己需求的資訊,在構建的過程中,可以將語義技術運用到資訊的描述、資訊的儲存、資訊的檢索以及資訊的輸出過程中。國內外也有了一定的研究成果,並且也構建了一些語義技術的搜尋引擎平臺,但是大部分還是處於試驗階段,很多的關鍵技術難題還沒有攻克。筆者認為,數字資源的語義描述,中文的分詞技術,還有語義的檢索方式和輸出排序是目前需要進一步研究的重點。
參考文獻:
[1]Berners-LeeT.SemanticWebRoadMap[EB/OL].[2010-10-23].http://www.w3.org/designissuee/semantic.
[2]Mikeusehold,Michalgruninger.TheWebSearchEngineReview[J].IGCA199,1999,93-96.
[3]Boulos,MagedN,Kamel.AFirstLookatHealthCyberMapMedicalSemanticSubjectSearchEngine[J].Technology&HealthCare,2004(11):33-41.
[4]ALVIS.SuperpeerSemanticSearchEngine[J].PreviewD-LibMagazine,20O4(6):10-12.
[5]SchenkelRalf,TheobaldAnja,WeikumGerhard.SemanticSimilaritySearchonSemistructuredDatawiththeXXLSearchEngine[J].InformationRetrieval,2005(12):521-545.
[6]YufeiLi,YuanWang,XiaotaoHuang.ARelation-BasedSearchEngineinSemanticWeb[J].IEEETransactionsonKnowledge&DataEngineering,2007(2):273-281.
[7]黃大鵬.基於語義Web的搜尋引擎研究[D].西安:西安理工大學,2004.
[8]楊秋芬,陳躍新.ontology方法學綜述[J].計算機應用研究,2002(4):24-25.
[9]宋俊峰,張維明,肖衛東,唐九陽.基於本體的資訊檢索模型研究[J].南京大學學報(自然科學),2005,41(2):189-197.
[10]王珊,張俊,彭朝輝等.基於本體的關係資料庫語義檢索[J].計算機科學與檢索,2007(1):59-77.