有關大資料的計算機資訊處理論文
計算機在進行資料處理之前,首先需要進行資料收集,當收集到有效的資料之後,才能對這些收集而來的大量資料進行各種操作。下面是小編給大家推薦的,希望大家喜歡!
篇一
《計算機軟體技術在大資料時代的應用》
摘要:大資料的爆炸式增長在大容量、多樣性和高增速方面,全面考驗著現代企業的資料處理和分析能力;同時,也為企業帶來了獲取更豐富、更深入和更準確地洞察市場行為的大量機會。對企業而言,能夠從大資料中獲得全新價值的訊息是令人振奮的。然而,如何從大資料中發掘出“真金白銀”則是一個現實的挑戰。這就要求採用一套全新的、對企業決策具有深遠影響的解決方案。
關鍵詞:計算機 大資料時代 容量 準確 價值 影響 方案
1 概述
自從計算機出現以後,傳統的計算工作已經逐步被淘汰出去,為了在新的競爭與挑戰中取得勝利,許多網路公司開始致力於資料儲存與資料庫的研究,為網際網路使用者提供各種服務。隨著雲時代的來臨,大資料已經開始被人們廣泛關注。一般來講,大資料指的是這樣的一種現象:網際網路在不斷運營過程中逐步壯大,產生的資料越來越多,甚至已經達到了10億T。大資料時代的到來給計算機資訊處理技術帶來了更多的機遇和挑戰,隨著科技的發展,計算機資訊處理技術一定會越來越完善,為我們提供更大的方便。
大資料是IT行業在雲端計算和物聯網之後的又一次技術變革,在企業的管理、國家的治理和人們的生活方式等領域都造成了巨大的影響。大資料將網民與消費的界限和企業之間的界限變得模糊,在這裡,資料才是最核心的資產,對於企業的運營模式、組織結構以及文化塑造中起著很大的作用。所有的企業在大資料時代都將面對戰略、組織、文化、公共關係和人才培養等許多方面的挑戰,但是也會迎來很大的機遇,因為只是作為一種共享的公共網路資源,其層次化和商業化不但會為其自身發展帶來新的契機,而且良好的服務品質更會讓其充分具有獨創性和專用性的鮮明特點。所以,知識層次化和商業化勢必會開啟知識創造的嶄新時代。可見,這是一個競爭與機遇並存的時代。
2 大資料時代的資料整合應用
自從2013年,大資料應用帶來令人矚目的成績,不僅國內外的產業界與科技界,還有各國政府部門都在積極佈局、制定戰略規劃。更多的機構和企業都準備好了迎接大資料時代的到來,大資料的內涵應是資料的資產化和服務化,而挖掘資料的內在價值是研究大資料技術的最終目標。在應用資料快速增長的背景下,為了降低成本獲得更好的能效,越來越趨向專用化的系統架構和資料處理技術逐漸擺脫傳統的通用技術體系。如何解決“通用”和“專用”體系和技術的取捨,以及如何解決資料資產化和價值挖掘問題。
企業資料的應用內容涵蓋資料獲取與清理、傳輸、儲存、計算、挖掘、展現、開發平臺與應用市場等方面,覆蓋了資料生產的全生命週期。除了Hadoop版本2.0系統YARN,以及Spark等新型系統架構介紹外,還將探討研究流式計算***Storm,Samza,Puma,S4等***、實時計算***Dremel,Impala,Drill***、圖計算***Pregel,Hama,Graphlab***、NoSQL、NewSQL和BigSQL等的最新進展。在大資料時代,借力計算機智慧***MI***技術,通過更透明、更可用的資料,企業可以釋放更多蘊含在資料中的價值。實時、有效的一線質量資料可以更好地幫助企業提高產品品質、降低生產成本。企業領導者也可根據真實可靠的資料制訂正確戰略經營決策,讓企業真正實現高度的計算機智慧決策辦公,下面我們從通訊和商業運營兩個方面進行闡述。
2.1 通訊行業:XO Communications通過使用IBM SPSS預測分析軟體,減少了將近一半的客戶流失率。XO現在可以預測客戶的行為,發現行為趨勢,並找出存在缺陷的環節,從而幫助公司及時採取措施,保留客戶。此外,IBM新的Netezza網路分析加速器,將通過提供單個端到端網路、服務、客戶分析檢視的可擴充套件平臺,幫助通訊企業制定更科學、合理決策。電信業者透過數以千萬計的客戶資料,能分析出多種使用者行為和趨勢,賣給需要的企業,這是全新的資料經濟。中國移動通過大資料分析,對企業運營的全業務進行鍼對性的監控、預警、跟蹤。系統在第一時間自動捕捉市場變化,再以最快捷的方式推送給指定負責人,使他在最短時間內獲知市場行情。
2.2 商業運營:辛辛那提動物園使用了Cognos,為iPad提供了單一檢視檢視管理即時訪問的遊客和商務資訊的服務。藉此,動物園可以獲得新的收入來源和提高營收,並根據這些資訊及時調整營銷政策。資料收集和分析工具能夠幫助銀行設立最佳網點,確定最好的網點位置,幫助這個銀行更好地運作業務,推動業務的成長。
3 企業資訊解決方案在大資料時代的應用
企業資訊管理軟體廣泛應用於解決欺詐偵測、僱員流動、客戶獲取與維持、網路銷售、市場細分、風險分析、親和性分析、客戶滿意度、破產預測和投資組合分析等多樣化問題。根據大資料時代的企業挖掘的特徵,提出了資料探勘的SEMMA方法論――在SAS/EM環境中,資料探勘過程被劃分為Sample、Explore、Modify、Model、Assess這五個階段,簡記為SEMMA:
3.1 Sample 抽取一些代表性的樣本資料集***通常為訓練集、驗證集和測試集***。樣本容量的選擇標準為:包含足夠的重要資訊,同時也要便於分析操作。該步驟涉及的處理工具為:資料匯入、合併、貼上、過濾以及統計抽樣方法。
3.2 Explore 通過考察關聯性、趨勢性以及異常值的方式來探索資料,增進對於資料的認識。該步驟涉及的工具為:統計報告、檢視探索、變數選擇以及變數聚類等方法。
3.3 Modify 以模型選擇為目標,通過建立、選擇以及轉換變數的方式來修改資料集。該步驟涉及工具為:變數轉換、缺失處理、重新編碼以及資料分箱等。
3.4 Model 為了獲得可靠的預測結果,我們需要藉助於分析工具來訓練統計模型或者機器學習模型。該步驟涉及技術為:線性及邏輯迴歸、決策樹、神經網路、偏最小二乘法、LARS及LASSO、K近鄰法以及其他使用者***包括非SAS使用者***的模型演算法。
3.5 Assess 評估資料探勘結果的有效性和可靠性。涉及技術為:比較模型及計算新的擬合統計量、臨界分析、決策支援、報告生成、評分程式碼管理等。資料探勘者可能不會使用全部SEMMA分析步驟。然而,在獲得滿意結果之前,可能需要多次重複其中部分或者全部步驟。
在完成SEMMA步驟後,可將從優選模型中獲取的評分公式應用於***可能不含目標變數的***新資料。將優選公式應用於新資料,這是大多數資料探勘問題的目標。此外,先進的視覺化工具使得使用者能在多維直方圖中快速、輕鬆地查閱大量資料並以圖形化方式比較模擬結果。SAS/EM包括了一些非同尋常的工具,比如:能用來產生資料探勘流程圖的完整評分程式碼***SAS、C以及Java程式碼***的工具,以及交換式進行新資料評分計算和考察執行結果的工具。
如果您將優選模型註冊進入SAS元資料伺服器,便可以讓SAS/EG和SAS/DI Studio的使用者分享您的模型,從而將優選模型的評分程式碼整合進入工作報告和生產流程之中。SAS模型管理系統,通過提供了開發、測試和生產系列環境的專案管理結構,進一步補充了資料探勘過程,實現了與SAS/EM的無縫聯接。
在SAS/EM環境中,您可以從SEMMA工具欄上拖放節點進入工作區的工藝流程圖中,這種流程圖驅動著整個資料探勘過程。SAS/EM的圖形使用者介面***GUI***是按照這樣的思路來設計的:一方面,掌握少量統計知識的商務分析者可以瀏覽資料探勘過程的技術方法;另一方面,具備數量分析技術的專家可以用微調方式深入探索每一個分析節點。
4 結束語
在近十年時間裡,資料採集、儲存和資料分析技術飛速發展,大大降低了資料儲存和處理的成本,一個大資料時代逐漸展現在我們的面前。大資料革新性地將海量資料處理變為可能,並且大幅降低了成本,使得越來越多跨專業學科的人投入到大資料的開發應用中來。
參考文獻:
[1]薛志文.淺析計算機網路技術及其發展趨勢[J].資訊與電腦,2009.
[2]張帆,朱國仲.計算機網路技術發展綜述[J].光碟技術,2007.
[3]孫雅珍.計算機網路技術及其應用[J].東北水利水電,1994.
[4]史萍.計算機網路技術的發展及展望[J].五邑大學學報,1999.
[5]桑新民.步入資訊時代的學習理論與實踐[M].中央廣播大學出版社,2000.
[6]張浩,郭燦.資料視覺化技術應用趨勢與分類研究[J].軟體導刊.
[7]王丹.數字城市與城市地理資訊產業化――機遇與挑戰[J].遙感資訊,2000***02***.
[8]楊鳳霞.淺析Excel 2000對資料的安全管理[J].湖北商業高等專科學校學報,2001***01***.