什麼是知識挖掘

  知識挖掘源於全球範圍內資料庫中儲存的資料量急劇增加,人們的需求已經不只是簡單的查詢和維護,而是希望能夠對這些資料進行較高層次的處理和分析以得到關於資料總體特徵和對發展趨勢的預測。以下是由小編整理關於的內容,希望大家喜歡!

  知識挖掘的簡介

  資料是指有關事實的集合,記錄和事物有關的原始資訊。

  模式是一個用語言來表示的一個表示式,它可用來描述資料集的某個子集,所說的知識,是對資料包涵的資訊更抽象的描述。對大量資料進行分析的過程,包括資料準備、模式搜尋、知識評價,以及反覆的修改求精;該過程要求是非平凡的,意思是要有一定程度的智慧性、自動性***僅僅給出所有資料的總和不能算作是一個發現過程***。有效性是指發現的模式對於新的資料仍保持有一定的可信度。新穎性要求發現的模式是新的。潛在有用性是指發現的知識將來有實際效用,如用於決策支援系統裡可提高經濟效益。最終可理解性要求發現的模式能被使用者理解,它主要是體現在簡潔性上。有效性、新穎性、潛在有用性和最終可理解性綜合在一起可稱之為興趣性。

  由於知識挖掘是一門新興學科,況且它又是一門受到來自各種不同領域的研究者關注的邊緣學科,因此產生很多不同的術語,除了稱為“知識挖掘”外,主要還有如下若干種稱法:“資料發現”、“資料開採”、“知識抽取”、“資訊發現”、“知識發現”、“智慧資料分析”、“探索式資料分析”、“資訊收穫”和“資料考古”等等。“知識挖掘”被許多研究者看作僅是資料發現的一個步驟。相對來講,資料開採主要流行於統計界、資料分析、資料庫和管理資訊系統***MIS***界;而資料發現則主要流行於人工智慧和機器學習界。

  知識挖掘已被越來越多的領域所採用,並取得了較好效果。這些領域有科學研究、市場營銷、金融投資、欺詐甄別、產品製造、通訊網路管理等。由加州理工學院噴氣推進實驗室與天文科學家合作開發的SKICAT***SkyImageCatalogingandAnalysisTool***是第一個獲得相當成功的知識挖掘應用,已經幫助科學家發現了16顆極其遙遠的類星體。

  雖然知識挖掘已經受到許多關注並取得了廣泛應用,但它仍處於發展的早期,還有很多研究難題和麵臨的挑戰,如資料的巨量性、動態性、噪聲性、缺值和稀疏性,發現模式的可理解性、興趣或價值性,應用系統的整合,使用者的互動操作,知識的更新管理,複雜資料庫的處理等等。

  知識挖掘的過程

  知識挖掘***KDD***是從資料中發現有用知識的整個過程;資料開採***DM***是KDD過程中的一個特定步驟,它用專門演算法從資料中抽取模式***patterns***。1996年,Fayyad、PiatetskyShapiror和Smyth將KDD過程定義為:從資料中鑑別出有效模式的非平凡過程,該模式是新的、可能有用的和最終可理解的。

  知識挖掘演算法的好壞將直接影響到所發現知識的好壞。大多數的研究都集中在知識挖掘演算法和應用上。需要說明的是,有的學者認為,資料開採和知識發現含義相同,表示成KDD/DM.它是一個反覆的過程,通常包含多個相互聯絡的步驟:預處理、提出假設、選取演算法、提取規則、評價和解釋結果、將模式構成知識,最後是應用。在實際,人們往往不嚴格區分知識挖掘和資料庫中的知識發現,把兩者混淆使用。一般在科研領域中稱為KDD,而在工程領域則稱為知識挖掘。

  KDD過程是多個步驟相互連線、反覆進行人機互動的過程。具體包括:

  學習某個應用領域

  包括應用中的預先知識和目標。

  建立目標資料集

  選擇一個數據集或在多資料集的子集上聚焦。

  資料預處理

  去除噪聲或無關資料,去除空白資料域,考慮時間順序和資料變化等。

  資料轉換

  找到資料的特徵表示,用維變換或轉換方法減少有效變數的數目或找到資料的不變式。

  選定知識挖掘功能

  決定知識挖掘的目的。

  選定知識挖掘演算法

  用KDD過程中的準則,選擇某個特定知識挖掘演算法***如彙總、分類、迴歸、聚類等***用於搜尋資料中的模式。

  知識挖掘

  搜尋或產生一個特定的感興趣的模式或一個特定的資料集。⑧解釋:解釋某個發現的模式,去掉多餘的不切題意的模式,轉換某個有用的模式,以使使用者明白。

  發現知識

  把這些知識結合到執行系統中,獲得這些知識的作用或證明這些知識。用預先、可信的知識檢查和解決知識中可能的矛盾。

“的人還: