淺析基於雲計算的分散式資料探勘系統設計與實現論文

　　隨著網路大資料資訊處理技術的發展，對資料處理的規模不斷增大，對資料資訊處理的精度要求不斷提升，採用雲計算進行資料分散式網格計算，能提高資料的並行處理和排程效能，根本上提高資料的計算速度，因此，雲計算成為未來大資料資訊處理的主要趨勢。在雲計算環境下進行資料探勘，是進行大資料資訊特徵提取和資料開採的基本技術，相關的演算法研究受到人們的重視。文獻採用雲計算環境下分散式資料模糊C均值聚類的挖掘演算法，在受到較強的毗連特徵干擾時，資料探勘的精度不高。針對上述問題，本文提出一種基於分散式自適應特徵排程和高階累積量後置聚焦的資料探勘演算法，並進行了模擬實驗效能分析，得出了較好的資料探勘效果的結論。

　　1 基於雲計算的分散式資料探勘演算法設計

　　為了實現對基於雲計算的分散式資料探勘系統設計，其中，資料探勘演算法設計是關鍵，本文提出一種基於分散式自適應特徵排程和高階累積量後置聚焦的資料探勘演算法，假設資料資訊流為，資料資訊流透過噪聲濾波，得到資料流聚類相似性函式表示為，其是一組準平穩隨機的時間序列，對資料庫中的儲存資訊流進行能量譜密度特徵提取，得到輸出資料x(t) 的第n 個寬頻帶分量，分散式自適應特徵排程模型表示為：基於二元假設模型，構建資料庫儲存結構的.檢驗統計量，透過經驗模態分解執行資料庫儲存結構的區域的自適應篩選和更新，得到：雲計算環境下分散式資料的資料探勘的本體結構為一個五元組，其中，C 為雲計算環境下分散式資料的概念集，I 是雲計算環境下分散式資料的字串例項集，透過四階累積量切片進行資料庫儲存結構的特徵壓縮處理，降低儲存的特徵維數和資料冗餘，結合高階累積量後置聚焦，得到資料探勘輸出特徵的四階累積量切片：式中，表示儲存空間的頻譜特徵伸縮尺度，可見，採用高階累積量後置聚焦，有效提高了資料的精度。

　　2 嵌入式Linux的核心下資料探勘系統設計描述

　　在上述進行了演算法設計的基礎上，進行資料探勘系統的軟體開發設計，基於雲計算的分散式資料探勘系統總體模型中，採用ST 超低功耗 ARM CortexTM-M0 微控制器，系統建立在嵌入式Linux 的核心平臺上，系統包括程式載入模組、資料儲存模組、資料快取排程模組和資料通訊傳輸模組等，透過配置CAN_IMASK 暫存器，採用LabWindows/CVI 進行資料遠端控制和資訊通訊，基於雲計算的分散式資料探勘系統給使用者提供一個簡單、統一的系統呼叫介面，系統可配置4 路組聯合Cache，基於雲計算的分散式資料探勘系統的暫存器系統時鐘120 MHz。嵌入式Linux 的核心下資料探勘系統透過VISA 軟體介面傳送Flash 裝置上的檔案系統核心到HP E1562D/ESCSI 資料硬碟進行資料儲存，呼叫s3c2440_adc_read() 函式，進行程式載入和基於雲計算的分散式資料探勘系統的嵌入式控制，使用Qt/Embedded 作為GUI，利用開源Linux 作業系統的豐富網路資源，實現資料探勘系統的遠端通訊資訊傳輸和控制。

　　3 模擬實驗

　　為了測試本文設計的基於雲計算的分散式資料探勘系統在實現資料探勘中的優越效能，進行模擬實驗，分散式資料資訊取樣的時寬為10 ms, 分散式資料的隨機取樣率為KHz，調控因子λ=0.25。根據上述模擬環境和引數設定，進行基於雲計算的分散式資料探勘系統的資料探勘和處理效能分析，首先進行資料探勘的輸出時域波形取樣，結果可見，採用本文演算法進行資料探勘的準確度較高，為了對比效能，採用本文方法和傳統方法，以資料探勘的準確配準性為測試指標，得到對比結果。實驗結果表明，採用該方法進行基於雲計算的分散式資料探勘，資料探勘的準確配準效能較好，系統的可靠性較好。

　　4 結束語

　　本文提出一種基於分散式自適應特徵排程和高階累積量後置聚焦的資料探勘演算法，並進行了實驗分析。結果表明，採用該方法進行資料探勘，資料探勘的準確配準效能較好，系統的可靠性較好，具有較好的應用價值。