基於lucene的垂直搜尋引擎的研究與設計論文

基於lucene的垂直搜尋引擎的研究與設計論文

  摘 要:隨著網際網路技術的不斷髮展,通用搜索引擎就需要採集的更多的資訊和內容,但是面對巨大的搜尋結果,使用者要想準確找到他們所需要的資訊,這樣將會耗費很大的精力。因此,需要以資料的特定領域為重點,全面進行深入的研究,注重專業化的垂直搜尋引擎就產生了,它能夠準確、及時返回使用者需要的資訊。本文主要分析垂直搜尋引擎的特點和結構,並分析了基於Lucene的垂直引擎的研究和設計,對提高網際網路資訊的搜尋速度具效率具有重要的意義。

  隨著網際網路的飛速發展,網際網路資訊迅猛增長,人們已經習慣從網際網路上獲取他們所需的資訊。然而,一些通用搜索引擎無法及時準確地反饋給人們需要的資訊,不能夠做到有針對性的搜尋一些資訊,無法滿足人們的基本需求。在進行搜尋的過程中,想搜尋一件物品,系統將會提供給你很多的搜尋結果。但是,這些搜尋引擎返回結果中有大量排在前面的資訊可能不是我們需要的,這樣就會讓人感覺鬱悶,得不到自己想要的資訊。而且,60%的搜尋引擎沒有機會收錄一些有價值的的資訊,需要使用者進行註冊才能夠得到一些更有價值的資訊。基於lucene的垂直搜尋引擎,能夠及時、準確給使用者反饋出他們需要的資訊。

  1 垂直搜尋引擎的概述

  垂直搜尋引擎能夠在一些專業領域得到廣泛的應用,為使用者提供更加便捷的搜尋服務。垂直搜尋引擎能夠在某一特定領域內啟動一些網路爬蟲,在進行網頁下載的時候,能夠找到和本地網頁庫中相關的資訊,然後對這些資訊進行處理,將一些資料轉化為結構化資料,最後反饋給使用者的搜尋入口。垂直搜尋能夠有針對性進行搜尋,能夠根據使用者的具體要求進行搜尋和檢測,為他們提供具有非常鮮明特色的搜尋服務,這種搜尋引擎一個非常突出的特點就是深入、詳細。由於通用搜索引擎搜尋的範圍十分廣泛,因此,它不能滿足細緻的搜尋工作,不能夠將準確的資訊反饋給需要的特定人群[2]。根據市場需求的多樣化,搜尋引擎必須進行細分,給人們提供準確的搜尋服務。

  2 垂直搜尋引擎的特點和框架結構設計

  2.1 垂直搜尋的特點 垂直搜尋引擎能夠有針對性進行搜尋,能夠準確提供給人們需要的資訊。通用的搜尋引擎更加註重資料分離和關鍵詞搜尋,垂直搜尋更多注重文字的分離,對資料資訊進行處理,使得資料能夠滿足人們的'需求,通用的搜尋引擎就不需要考慮資料結構。由於相關資訊垂直搜尋引擎只需要捕捉到一些某個特定的行業,這樣的資訊採集方式的使用只需要爬蟲找題相關資訊,垂直搜尋引擎具有以下特點。一是垂直搜尋引擎的爬蟲具有定製性,能夠深入抓取特定行業的一些資訊。二是垂直搜尋引擎是針對行業的特點來進行抓取資訊的,以網站的資料為例,各種人才網資料來源的來源於求職的網站,從股票網站中搜索到相關的資訊。三是垂直搜尋引擎更傾向於抓住一些結構化資料和元資料,例如,在尋找一所房子的過程中,其能夠捕捉到相關的地理位置、價格、小區環境、房地產價格等一些系統的資訊[3]。

  2.2 垂直搜尋引擎的框架設計 垂直搜尋引擎的建設需要做好以下幾個方面的工作。一是網站分析。抓捕器需要設定所需的網站資訊,並且還要結合特定的行業模板進行抓捕工作。二是站點初始化分析。一些網站需要使用者登入以後才能夠獲得詳細資訊,因此,有必要在垂直搜尋引擎中,設定這個註冊和登入過程,這樣才能夠完善詳細的資訊。三是頁面爬蟲。網路爬蟲主要負責抓取一些web資料。四是資料分析。分析有用的連結和資料,並且利用爬蟲來提取這些新的資料。五是建立索引。將爬蟲抓取到的資訊進行整理和分析,將這些資訊進行選擇並存儲在資料庫中當中,並結合資料庫來建立索引,以便能夠快速獲取資訊。六是搜尋查詢。設計一個個性化的應用程式,或融合一些其他網站,能夠搜尋到其他網站的一些資訊。

  3 基於Lucene的垂直引擎的設計

  3.1 lucene全文搜尋框架 Lucene是一個子專案,能夠有效利用開放原始碼來對全文的搜尋,它能夠給開發人員提供了大量的外部介面,這是一個易於使用的工具。在垂直搜尋引擎的部件當中,建立基於Lucene的索引和查詢,使用者只需要按照該方法來進行操作,就能夠實現對全文進行檢索。因為Lucene是開源的,具有面向全體物件的特點,程式設計師還能夠在此基礎

最近訪問