基於知識網格的分散式資料探勘論文
基於知識網格的分散式資料探勘論文
摘要:本文在討論知識網格體系結構的基礎上,還討論了知識網格是如何用於支援分散式資料探勘。
關鍵詞:分散式資料探勘;網格計算;網格服務;Web服務資源框架
一、前言
隨著科學、工業、商業等領域的發展,出現了大量的TB級甚至PB級的大規模資料集,在這些資料集中包含了大量的對生活、生產、科學研究等具有決策性作用的有用資訊,那麼如何從這些海量資料中提取資訊是人們面臨的一個重大的問題。顯然,原先的集中式資料探勘模式已無法滿足人們的需求,這就需要探索出面向分散式資料探勘的體系結構和工具。
二、知識網格
知識網格代表了資料網格的發展,為網格中分散式資料探勘和抽取提供了高階工具和技術。知識網格是設計和實現分散式高效能知識發現應用環境的體系架構,用於執行網格中的資料探勘,進行科學發現,發現有用的商業資訊。
三、知識網格體系結構
知識網格體系結構是在Globus toolkits網格工具集和服務的基礎上定義的。在Globus中,知識網格整合區域性服務以提供全域性服務。知識網格體系結構保證了資料探勘工具和底層的網格機制和資料網格服務相容。
知識網格服務由兩層構成:核心知識網格層和高階知識網格層。
1.核心知識網格層
1.1知識目錄服務(KDS)。該服務擴充套件了基本的Globus元資料目錄服務(MDS),負責維護知識網格中資料和工具的描述。
要維護從一個特定資料倉庫中挖掘出來的資料是不切實際的,但是維護一個已發現知識的資料庫是非常有用的。這些資訊被存放在知識倉庫(KBR)中,但是描述它們的元資料仍由KDS管理。KDS不僅可用於搜尋和訪問原始資料,也可以發現原先已發現的知識,以便在資料改變時比較給定挖掘計算的輸出,或者以遞增的方式應用資料探勘工具。
1.2資源分配和執行管理服務(RAEMS)。該服務用於在執行方案和可用資源間查詢最佳對映,以滿足應用需求(如計算能力、儲存能力、主存、資料庫、網路頻寬和延遲)和網格約束。在執行方案啟用之前,該層管理和協調應用的執行。該層並不是使用KDS和Globus MDS服務,而是直接基於Globus GRAM服務的。
2.高階知識網格層
2.1資料訪問服務(DAS)。資料訪問服務負責搜尋、選擇、抽取、轉換和交付被挖掘的資料。搜尋和選擇服務是基於核心知識目錄服務的。在使用者需求和約束的基礎上,資料訪問服務自動進行查詢和查詢由資料探勘工具分析的資料來源。
2.2工具和演算法訪問服務(TAAS)。該服務負責資料探勘工具和演算法的搜尋、選擇和下載。描述其可用性、位置和配置的元資料存放在KMR中,並由KDS管理,而演算法和工具則存放在每個知識網格結點的本地儲存系統中。需要向其他使用者匯出資料探勘工具的結點,首先必須使用KDS服務來發布該工具。還有其他的相關元資料,如引數、資料輸入輸出格式、實現的資料探勘演算法、資源請求和約束等。
3.3執行方案管理服務(EPMS)。執行方案是描述資料來源、抽取工具、資料探勘工具、視覺化工具和KBR中的知識結果之間的資料流和互動的圖形化表示。最簡單的情況是,使用者可使用視覺化構造工具直接描述一個執行方案。然而,由於DAS和TAAS產生結果的`多樣性、資料和工具的位置、中間結果表示方法等的差異能產生多種不同的執行方案。因此,EPMS是由使用者自行選擇資料和程式的半自動化的工具,產生一系列滿足使用者、資料和演算法需求及約束的多種可執行方案。
2.4知識表示服務(RPS)。知識視覺化是資料探勘過程中的重要步驟,它可以幫助使用者解釋發現的模式。該服務指出瞭如何產生、表示和視覺化抽取的知識模型(關聯規則、聚類模型、分類等)。結果元資料存放在由KDS管理的KMR中。KDS不僅用於搜尋和訪問原始資料,還可查詢已經發現的知識。
四、執行管理
1.概念模型表示在知識網格內,UML活動圖示形式化方法用於表示應用的概念模型,同時BPEL用於表示執行方案。活動圖標表示構成應用邏輯的服務呼叫的高層次流通,而BPEL表示各種各樣的服務實質上是如何調節和呼叫的。
2.執行計劃表示
BPEL通常即可以表示抽象執行計劃,也可以表示例項執行計劃。在這個兩個計劃中,服務透過BPEL提供的partnerLinkType元件進行訪問。這種元件能夠將BPEL工作流與它包括的每項服務的ESDL描述聯絡起來。這兩個執行計劃的主要區別是:在抽象執行計劃的BPEL文件中,服務的WSDL並不包括服務地點,而它們都包含在例項執行計劃。
五、Weka4ws
Weka4ws是一個框架,它擴充套件了廣泛應用的開發式資源Weka工具包,用於支援在WSRF-enabled網格上的分散式資料探勘。為執行遠端的資料探勘演算法和管理分散式計算,Weka4WS採納了WSRF技術。Weka4ws使用者介面支援當地和遠端的資料探勘任務的執行。在每一個計算節點上,一個與WSRF相容的WS被用來曝光由Weka程式庫提供的所有資料探勘演算法。
網格架構發展迅速,所支援的程式的種類日益多樣化,可使用的工具也日趨完善和複雜。網格服務的發展方向已從原先的基本的面向計算的服務轉到高階資訊管理和知識發現服務上來。知識網格系統為分散式資料探勘和基於網格服務的知識發現定義了一個整合的體系結構。該體系結構推動了地理位置分佈的大規模資料集的資料探勘。
參考文獻:
胡蓉,肖基毅.基於知識網格的分散式資料探勘計算機技術與發展.VOL.17 No.10Oct.2007