資料探勘技術論文

  隨著資訊科技迅速發展,資料庫的規模不斷擴大,產生了大量的資料。下面是小編為大家精心推薦的,希望能夠對您有所幫助。

  篇一

  淺談資料探勘

  摘 要:資料探勘是從海量資料中分析發現具有特定的模式、關聯規則關係以及異常資訊所表達出來的特點功能等在統計學有意義的結構和事件。該文簡要分析介紹了資料探勘的含功能、技術及其應用等。

  關鍵詞:資料探勘 技術 應用

  中圖分類號:TP311 文獻標識碼:A 文章編號:1674-098X***2013***04***c***-0054-01

  資料探勘是在資訊的海洋中從統計學的角度分析發現有用的知識,並且能夠充分利用這些資訊,發揮其巨大的作用,從而創造價值,為社會生產服務。資料探勘工具能夠掃描整個資料庫,並且識別潛在的以往未知的模式。

  1 資料探勘

  資料探勘是與電腦科學相關,包括人工智慧、資料庫知識、機器學習、神經計算和統計分析等多學科領域和方法的交叉學科,是從大量資訊中提取人們還不清楚的但具有對於潛在決策過程有用的資訊和知識的過程[1]。資料探勘能夠自動對資料進行分析,並歸納總結,推理,分析資料,從而幫助決策者對資訊預測和決策其作用[2]。

  對比資料探勘及傳統資料分析***例如查詢、報表***,其本質區別在於:前者在沒有明確假設的前提下通過挖掘資訊,提取有用的資料,並提升到知識層面,從而幫助提供決策支援。所以資料探勘又稱為知識挖掘或者知識發現。資料探勘通過統計學、資料庫、視覺化技術、機器學習和模式識別等諸多方法來實現叢大量資料中自動搜尋隱藏在其中的有著特殊關聯性的資訊[3]。

  2 資料探勘技術

  資料探勘有許多挖掘分析工具,可以在大量資料中發現模型和資料間關係,常用資料探勘技術包括:聚類分析和分類分析,偏差分析等。

  分類分析和聚類分析的主要區別在於前者是已知要處理的資料物件的類,後者不清楚處理的資料物件的類。聚類是對記錄分組,把相似的記錄在一個聚集裡,聚集不依賴於預先定義好的類,不需要訓練集。分類分析是預先假定有給定的類,並假定資料庫中的每個物件歸屬於這個類,並把資料分配到這個給定類中。通過分析訓練集中的資料,準確描述每個類別,並進行建模、挖掘分類規則,並依據該分類規則,劃分其他資料庫中的資料類別。聚類分析是非監督學習,不依靠預先定義的類和帶類標號的訓練資料集,實體物件集合依照某種相似性度量原則,歸納為若干個類似實體物件組成的多個類或簇的過程,不同類中的資料儘可能存在差異,同類中的資料之間各個資料儘可能相似。

  存在大量資料的資料庫中,資料中存在著偏差,而在偏差中也包括了大量的知識。偏差分析是當資料庫中存在異常行為,就顯示出要採取預防措施;否則,正常的變化,則需要更新資料庫中的記錄[4]。

  3 資料探勘方法

  要的資料探勘方法包括決策樹、遺傳演算法、人工神經網路、近鄰演算法和規則推導等。通過描述和視覺化來對資料探勘結果進行表示。

  決策樹是以例項為基礎的歸納學習演算法。著決策集的樹形結構代表決策樹,樹型結構表示分類或決策集合。決策樹是採用自頂向下的遞迴方式,樹的非終端節點表示屬性,葉節點表示所屬的不同類別。

  遺傳演算法是基於種群“多樣性”和“優勝劣汰”原則等進化理論,模擬生物進化過程的全域性優化方法,將群體中將較劣的初始解通過複製、交叉和變異3個基本運算元優化求解的技術,在求解空間隨機和定向搜尋特徵的多次迭代過程,直到求得問題的最優解[5]。

  人工神經網路對人腦神經元進行模擬,依據其非線形預測模型,通過模式識別的方式展開,獲取的知識需要儲存在網路各單元之間的連線權中。人工神經網路能夠完成分類和聚類等挖掘[5]。

  關聯規則是進行資料探勘的重要的可悲發現的知識,對於兩個或多個變數的取值之間存在某種規律性,並對其進行可信度的分析,挖掘其中的關聯關係。這對於發現數據中存在的各種有用的資訊,發現其資料模式和特徵,然後發現目標行為具有重要意義。

  4 資料探勘的應用

  在醫學領域,科學家從異構和分散式基因資料發現的基因序列的識別、發現基因表達譜資料中的差異表達基因,疾病不同階段的致病基因等,運用各種資料探勘技術瞭解各種疾病之間的相互關係、發展規律,總結治療效果這對疾病的診斷、治療和醫學研究都是很有價值的。在零售業/市場營銷,通過對顧客購物籃的分析,把顧客經常同時買的商品放在一起,幫助如何擺放貨架上的商品,挖掘購買商品的關聯關係,規劃如何相互搭配進貨,促銷產品組合等商業活動[6]。

  資料探勘在生物資訊學中有著廣泛的應用。生物資訊學就是通過對生物學實驗產生的海量資料,進行分類、處理、分析和儲存,達到深入理解生命科學中基於分子水平的生物資訊的生物學意義。如差異基因表達檢測的基因晶片,就是具有高通量的特點,並同時能夠產生許多生物學資料,在其中蘊含著豐富的生物學意義。分析和挖掘基因晶片資料,檢測差異表達基因在不同環境條件的異常表達值,能夠生層次的瞭解生物學知識,提高對生命科學研究的科學性和效率。對癌症差異基因的分析結果分析,能夠更好的檢測有關疾病,並根據相關疾病的基因特性,就能有針對性的進行個體化治療,開發個體化的新藥。

  進入2013年,有許多媒體都在稱之為“大資料元年”。大資料也就是擁有龐大的資料資訊,事務資料量大規模增長,而且大資料是要處理大量的非規範化資料,資料探勘和分析是必不可少的。爆炸性的大資料的產生,可能會改變人們的思考方式,也重塑了人類交流的方式[7]。

  5 結語

  資料探勘技術能自動分析資料,廣泛應用於各個企事業單位,分析調查大量資料,分析企業經營對社會,經濟和環境的綜合影響,並預測企業未來的發展趨勢,從資料倉庫中揭示出資料之間的潛在價值的規律性,形成知識發現,為決策管理提供依據。

  參考文獻

  [1] 孟曉明.淺談資料探勘技術[J].計算機應用與軟體,2004***8***.

  [2] 丁樣武,楊瑩.資料探勘在醫學上的應川[J].鄖陽醫學院學報,1999***3***:130-132.

  [3] 黃曉霞,蕭蘊詩.資料探勘整合技術研究[J].計算機應用研究,2003***4***:37.39.

  [4] 王陽,張春華.資料探勘技術、應用及發展趨勢[J].資訊化與網路建設,2003***4***.

  [5] 任承業.校園資訊系統中資料探勘的研究與應用[D].廣州:暨南大學,2005.

  [6] 唐曉萍.資料探勘與知識發現綜述[J].電腦開發與應用,2002***2***.

  [7] 孟小峰,慈祥.大資料管理:概念、技術與挑戰[J].計算機研究月發展,2013***1***.

點選下頁還有更多>>>