基於大資料的統計分析模型設計論文
基於大資料的統計分析模型設計論文
統計是利用盡可能少的區域性樣本資料來發現總體規律,處理物件往往資料規模小且資料結構單一。在大資料環境下,面臨海量資料的採集與統計,傳統方法已無法滿足大規模資料集處理。基於Hadoop系統,利用其分散式儲存和並行處理機制,設計了大資料環境下的統計分析模型,從海量資料中提取出有用的資訊特徵,實現資料資源共享,為相關部門決策提供資訊服務。
0引言
隨著統計資料規模的快速增長,資料特徵日趨複雜,資料收集渠道多樣,統計學相關領域研究已進入大資料時代。如何高效收集樣本資料、挖掘資訊,從海量資料中提取有用的資訊特徵,將資訊及時提供給相關部門決策,成為當前統計學研究熱點之一。與國外相比,我國在統計分析工作中存在資訊資源整合程度不高、資料共享匱乏、資訊不完整等問題。隨著大資料時代的到來,對大資料分析與挖掘的研究和應用越來越重視,大資料的挖掘與分析將幫助統計部門在有效合理的時間內採集、處理、管理與分析海量資料。
目前政府部門間藉助政務平臺可以實現資料資源共享,但是企業與政府間缺乏資料的分享平臺,造成了資訊隔離,對此,統計部門要構建起全方位的海量資料共享和分散式儲存的安全統計分析平臺,實現跨地區的統計資訊交流,滿足海量資訊資料的實時分享和處理。
1大資料
大資料是一種大規模的資料集合,資料分析人員無法在一定時間內用一般軟體對其進行提取、處理、分析和管理。處理大資料的關鍵技術包括大規模資料集的並行處理技術、分散式資料庫、分散式檔案儲存與處理系統、資料探勘、雲計算等。大資料具有5V特點:Volume(體量浩大)、Variety(型別多樣)、Velocity(生成快速)、Veracity(真實性高)、Value(價值巨大)。
1.1雲計算
雲計算(Cloud Computing)是傳統資訊科技發展融合的產物,基於效用計算(Utility Computing)、平行計算(Parallel Computing)、分散式計算(Distributed Computing),它提供便捷的、可用的、按需付費的網路訪問。雲計算平臺可以提供IaaS(基礎設施即服務)、PaaS(平臺即服務)、 SaaS(軟體即服務),同時負責資料安全、分散式網路儲存、虛擬化、負載均衡、熱備份冗餘等,使用者在使用資源時不需考慮底層基礎架構。
大資料應用不在於掌握龐大的資料資訊,而在於對獲取的資料進行專業化處理,以挖掘出資料的價值。大資料處理任務無法用單機序列計算方式處理,必須採用分散式架構進行計算。其特點在於依託雲計算的分散式處理、雲端儲存、分散式資料庫和虛擬化技術對海量資料進行挖掘。
1.2大資料處理技術
1.2.1大資料研究現狀
Science、Nature等國際頂級學術期刊出專刊探討了大資料處理與分析研究,介紹海量資料給社會生產和人們生活帶來的挑戰和機遇,學者們斷言:“資料將是未來舉足輕重的資源。在應用方面,目前已有很多企業開始做大資料處理的相關研究,IBM、谷歌、雅虎、亞馬遜等公司紛紛提出自己的大資料處理架構和計算模式。谷歌首先提出了分散式儲存系統GFS檔案系統、大型分散式資料庫BigTable。2012年美國政府斥資2億美元啟動了大資料研究和發展計劃,大力發展資料資訊化基礎設施建設。
1.2.2大資料處理關鍵技術
處理和分析大資料的關鍵在於具備分散式儲存功能和強大的計算能力,資料處理的基礎在於資料儲存,資料分析的關鍵在於強勁的處理能力。 Hadoop是一個可擴充套件、可靠、開源的分散式計算系統,該框架能夠實現在計算機叢集中用簡單的計算模式處理海量資料,同依賴高效能伺服器相比,Hadoop擴充套件性較好,同時叢集中的節點都可以提供本地儲存和計算。
1.3基於大資料的統計分析研究
統計是一項資料處理工程,面對大資料集的處理,統計樣本變大、資料特徵複雜等使得統計工作也變得繁瑣,而資料探勘是從大量資料中取得有用資訊的過程,利用現代資訊科技及挖掘演算法,可以高效地對有用資料獲取與處理。不妨將資料探勘理解為一個大資料狀態下精確處理資料的統計模型,對挖掘後的資料再引入統計學的思想進行相關資料處理與分析,將兩種方法有機結合起來。
圖1大資料環境下的統計工作基礎架構 Hadoop為統計分析工作提供了一個穩定可靠的分析系統和共享儲存,它包含兩個核心技術:MapReduce和HDFS。MapReduce實現資料的處理和分析,HDFS負責資料的共享儲存。如圖1所示,大資料環境下,統計工作的基本架構包含資料採集中心和統計分析處理中心。資料採集中心主要是透過部署在雲計算環境下的伺服器叢集去完成資料採集工作,資料主要存放在HDFS分散式資料庫中;統計管理部門設立總的伺服器叢集,為保證系統的可擴充套件性,還可以將基層的伺服器隨時納入該叢集中,利用MapReduce機制分配和處理計算任務;統計分析處理中心主要是智慧演算法池,透過演算法的`應用對採集到的資料進行分析。
2基於Hadoop的大資料統計分析模型構建
大資料環境下的統計分析系統以海量資料探勘為基礎,傳統的統計分析系統採用定期對資料進行處理和分析的方式來更新模型。由於是定期被動更新,模型無法保持實時性,容易造成統計結果不連續。
系統的設計關鍵在於海量資料的實時採集獲取、統計分析處理和儲存,目的在於實現統計資訊資源的共享。基於Hadoop的層次化統計分析模型如圖2所示,自上而下包括雲平臺應用層、邏輯與介面層、計算層、檔案系統管理層、物理資源層。
圖2基於Hadoop的層次化統計分析模型 物理資源層:負責管理平臺的基礎設施,為平臺提供物理設施,除包含分散式叢集、資料採集終端、基礎網路外,還包括圍繞應用相關的基礎元件。
檔案系統管理層:主要用於儲存資料檔案和日誌檔案,同時具備高可用資料備份功能。該層主要採用HDFS分散式儲存,提供很強的資料吞吐能力。針對不同的資料統計終端,該層設計使用不同的作業系統,以便於資料的統一性。
計算層是該統計模型的核心層,所有的運算機制和資料處理任務都在該層完成。其基礎框架是基於Hadoop MapReduce平行計算框架,採用對資料 “分而治之”的方法來完成並行化的大資料統計分析工作,用Map和Reduce函式提供兩個高層的並行程式設計抽象模型和介面,工作人員只需要實現這兩個基本介面即可快速完成並行化資料處理程式設計。此外該層還包含了Hadoop平臺的流資料處理storm和實時處理spark,用於對資料來源的實時分析處理和更新,以滿足統計部門的高效快速響應要求。
邏輯與介面層:該層主要功能是實現上層應用層的基礎管理功能,主要包含使用者管理、安全身份認證、統計任務的分配以及連線各地統計部門的介面等,該層還負責整體功能的效能監控。