基於資料探勘的數字圖書館檢索技術研究論文
基於資料探勘的數字圖書館檢索技術研究論文
摘 要:現如今,數字圖書館在國內外引起了廣泛的關注,成為圖書館領域的研究熱點。本文先對數字圖書館的概念、組成和作用進行概述,然後從數字圖書館的檢索技術方面對資料探勘的概念、主要方式和常用的技術方法進行詳細論述,並具體分析了資料探勘在數字圖書館的檢索技術領域中發揮的作用,得出資料探勘在未來的圖書館發展中具有非常可觀的應用前景的結論。
關鍵詞:資料探勘 數字圖書館 應用前景 檢索技術
1 數字圖書館
1.1 概念解析
作為高新技術下的產物,數字圖書館的研究不僅在科學技術領域突飛猛進,而且也為人類的社會事業做出了突出貢獻。不同於現實中的圖書館,數字圖書館是虛擬的,它將分散的各種資訊資源以數字化的形式儲存,以網路化的方式實現互聯,以此提供及時的資訊,實現資源共享。它是以網路環境為基礎的可共享的可擴充套件的網路知識系統,是一種能方便快捷地為使用者提供數字化資訊資源的高水平服務機制,也是面向未來網際網路發展的資訊管理模式。只有深入理解資料探勘技術,才能不斷促進數字圖書館檢索技術的發展,從而充分發揮出數字圖書館在圖書館領域的重要作用。
1.2 組成及作用
數字圖書館包括能夠服務於廣域網的網路裝置和通訊條件,還有一整套用於資訊的管理維護和使用者服務的軟體系統,這個軟體系統可以劃分為5個模組:許可權管理模組、獲取與建立模組、儲存與管理模組、訪問與查詢模組以及動態釋出模組。
數字圖書館是在傳統圖書館的基礎上發展而來,既包含了傳統圖書館中的功能,還融合了檔案館、博物館等中的功能,可以為公眾提供綜合資訊的訪問服務,在社會文化、電子政務、大眾媒介等公眾資訊傳播中廣泛應用。
2 資料探勘在數字圖書館檢索技術中的概念
資料探勘在具體的數字圖書館檢索中的概念指的是,在沒有給出明確假設的前提下對圖書資訊資源進行挖掘,也可以理解為在大量的圖書統計資料中對內在規律和特點進行分析,這裡的挖掘物件可能是不同型別,不同物理伺服器上的資料庫。現在市場上已經出現了很多“資料探勘系統”,但大多數只能稱的上是機器學習系統或是實驗系統原型,因為這些系統更多地是進行資料檢索,並不能真正地處理大量資料,實現資料探勘。真正的資料探勘既涉及多種學科技術的整合,又包涵資料庫技術、統計學、高效能計算、資料視覺化、資訊檢索、模式識別等領域。藉助資料探勘,數字圖書館使用者可以從資料庫中及時準確地檢索到自己所需的資訊資料。所以,資料探勘技術處在資料庫系統的前沿,在資訊科技領域裡擁有非常光明的發展前途。
隨著資料庫系統在圖書館領域的廣泛應用,系統中的資料,特別是全球儲存的資料快速增長。然而,調查結果顯示如此海量的資料無法都被有效利用。如果能在資料海洋中抽取出有效的資訊,將會大大提高資訊的利用率,創造更大的實用價值,而這恰恰是產生資料探勘技術的原因。
總而言之,資料探勘就是從大量的、模糊的、不全面的、隨機的資料中提取出隱含在其中的、潛在的、有用的資訊資源,把資料應用從一般的簡單查詢提升到挖掘資料知識的高度,提高資訊的`利用率。
3 資料探勘在數字圖書館檢索技術中的方式和技術
3.1 資料探勘的主要實現方式
數字圖書館檢索技術中的資料探勘的主要實現方式可以簡單地分為兩種,即直接資料挖掘和間接資料探勘。直接資料挖掘是在可用的資料資源的基礎上建立一個模型,根據此模型對剩餘的資料和資料庫中表的屬性進行描述。間接資料探勘是利用所有的變數建立某種關係,而不再是選出具體的變數對其建立模型描述。
3.2 資料探勘的常用技術
目前,數字圖書館檢索技術中的資料探勘的常用技術可以分為以下幾類。
3.2.1 傳統統計分析
傳統統計分析技術使用了很多分析方法,如相關分析、迴歸分析等,大多數情況下,這種技術是由系統對數字圖書館使用者提出的假設進行驗證。
3.2.2 傳統主觀導向系統
傳統主觀導向系統技術要有經驗模型,在專業領域中的應用較為廣泛。它主要是運用從簡單的走向分析到以高等數理知識為基礎的分析方法。
3.2.3 決策樹
決策樹相對來說是一種簡單的表示方法,這種技術的思路在於根據分類規則將事例層層歸類成不同的類別。由於其分類規則易於理解,在數字圖書方面較能被使用者所接受。
3.2.4 神經元網路技術
神經元網路技術作為計算機領域中的重要方法之一,已經在各個工業部門廣泛應用。它是模擬人的腦神經學習的技術,在數字圖書館領域,利用這種技術可以有效解決從模糊資料匯出概念和確定走向中出現的複雜問題。
3.2.5 基於事例的推理方法
基於事例的推理方法關鍵在於系統會根據當前的情形,從已有的相似事例中篩選出一個最佳的解決方案。在數字圖書館中,這種技術可以用於很多問題的求解,特別是那些在一般情況下難以處理的疑難問題,採用此技術往往會得到比較不錯的解決效果。