大資料學習心得

  大資料中的“大”不是絕對意義上的大,雖然在大多數情況下是這個意思。大資料是指不用隨機分析法這樣的捷徑,而採用所有資料的方法。 下面是小編為大家收集整理的,歡迎大家閱讀。

  篇1

  大資料時代已經悄然到來,如何應對大資料時代帶來的挑戰與機遇,是我們當代大學生特別是我們計算機類專業的大學生的一個必須面對的嚴峻課題。大資料時代是我們的一個黃金時代,對我們的意義可以說就像是另一個“80年代”。 在講座中秦永彬博士由一個電視劇《大太監》中情節來深入淺出的簡單介紹了“大資料”的基本概念,並由“塔吉特”與“犯罪預測”兩個案例讓我們深切的體會到了“大資料”的對現今這樣一個資訊時代的不可替代的巨大作用。

  在前幾年本世紀初的時候,世界都稱本世紀為“資訊世紀”。確實在計算機技術與網際網路技術的飛速發展過後,我們面臨了一個每天都可以“資訊爆炸”的時代。開啟電視,開啟電腦,甚至是在街上開啟手機、PDA、平板電腦等等,你都可以接收到來自網際網路從世界各地上傳的各類資訊:資料、視訊、圖片、音訊……這樣各類大量的資料累積之後達到了引起量變的臨界值,資料本身有潛在的價值,但價值比較分散;資料高速產生,需高速處理。大資料意味著包括交易和互動資料集在內的所有資料集,其規模或複雜程度超出了常用技術按照合理的成本和時限捕捉、管理及處理這些資料集的能力。遂有了“大資料”技術的應運而生。

  現在,當資料的積累量足夠大的時候到來時,量變引起了質變。“大資料”通過對海量資料有針對性的分析,賦予了網際網路“智商”,這使得網際網路的作用,從簡單的資料交流和資訊傳遞,上升到基於海量資料的分析,一句話“他開始思考了”。簡言之,大資料就是將碎片化的海量資料在一定的時間內完成篩選、分析,並整理成為有用的資訊,幫助使用者完成決策。藉助大資料企業的決策者可以迅速感知市場需求變化,從而促使他們作出對企業更有利的決策,使得這些企業擁有更強的創新力和競爭力。這是繼雲端計算、物聯網之後IT產業又一次顛覆性的技術變革,對國家治理模式、對企業的決策、組織和業務流程、對個人生活方式都將產生巨大的影響。後工業社會時代,隨著新興技術的發展與網際網路底層技術的革新,資料正在呈指數級增長,所有資料的產生形式,都是數字化。如何收集、管理和分析海量資料對於企業從事的一切商業活動都顯得尤為重要。

  大資料時代是資訊化社會發展必然趨勢,我們只有緊緊跟隨時代發展的潮流,在技術上、制度上、價值觀念上做出迅速調整並牢牢跟進,才能在接下來新一輪的競爭中擺脫受制於人的弱勢境地,才能把握髮展的方向。

  首先,“大資料”究竟是什麼?它有什麼用?這是當下每個人初接觸“大資料”都會有的疑問,而這些疑問在秦博士的講座中我們都瞭解到了。“大資料”的“大”不僅是單單純純指數量上的“大”,而是在諸多方面上闡釋了“大”的含義,是體現在資料資訊是海量資訊,且在動態變化和不斷增長之上。同時“大資料”在:速度Velocity、多樣性Variety、價值密度Value、體量Volume這四方面4v都有體現。其實“大資料”歸根結底還是資料,其是一種泛化的資料描述形式,有別於以往對於資料資訊的表達,大資料更多地傾向於表達網路使用者資訊、新聞資訊、銀行資料資訊、社交媒體上的資料資訊、購物網站上的使用者資料資訊、規模超過TB級的資料資訊等。

  瞭解了“大資料”的“大”之後我們也該瞭解它所具有的巨大價值。就目前來說“大資料”的來源主要還是網際網路,來自網際網路上的大多數不被重視資訊都是具有巨大開發價值的,

  其具有巨“大”的商業價值,我們所缺少的只是一些資料分析等手段。例如:在如今,網購已經成為了一種風潮,網上也湧現了以淘寶、京東、亞馬遜等一系列的購物網站。而在這些網站之中,顧客的瀏覽記錄,購買記錄等等都是一些巨大商業價值的資訊。借鑑“塔吉特”的先例,我們可以利用“大資料”技術收集分析,就可預測需求、供給和顧客習慣等,做到精準採購、精準投放,達到利益放大的效果。 從全球範圍來看,很多人都把2012年看做是大資料時代的元年。在這一年裡,很多行業在大資料方面的管理、規劃和應用已經覺醒。電商、金融、電信等行業資料有著長期的資料積累。事實上,很多網際網路公司,例如亞馬遜、Google、騰訊,更願意將自己定位為資料企業。因為資訊時代,資料成為經營決策的強有力依據,給企業帶來了發展和引領行業的機遇。銀行也同樣擁有豐富的資料礦藏,不僅儲存處理了大量結構化的賬務資料,而且隨著銀行渠道快速滲透到社交網路、移動端等媒介,海量的非結構化資料也在等待被收集和分析。未來的金融業將更多地受到科技創新力的驅動,也越來越傾向於零售營銷:對於金融業來說,大資料意味著巨大的商機,可強化客戶體驗,提高客戶忠誠度。大資料技術的發展帶來企業經營決策模式的轉變,驅動著行業變革,衍生出新的商機和發展契機。駕馭大資料的能力已被證實為領軍企業的核心競爭力,這種能力能夠幫助企業打破資料邊界,繪製企業運營全景檢視,做出最優的商業決策和發展戰略。金融行業在大資料浪潮中,要以大資料平臺建設為基礎,夯實大資料的收集、儲存、處理能力;重點推進大資料人才的梯隊建設,打造專業、高效、靈活的大資料分析團隊;不斷提升企業智商,挖掘海量資料的商業價值,從而在資料新浪潮的變革中拔得頭籌,贏得先機

  在如此快速的到來的大資料革命時代,我們還有很多知識需要學習,許多思維需要轉變,許多技術需要研究。職業規劃中,也需充分考慮到大資料對於自身職業的未來發展所帶來的機遇和挑戰。當我們掌握大量資料,需要考慮有多少數字化的資料,又有哪些可以通過大資料的分析處理而帶來有價值的用途?在大資料時代制勝的良藥也許是創新的點子,也許可以利用外部的資料,通過多維化、多層面的分析給我們日後創業帶來價值。借力,順勢,合作共贏。把自己的心門開啟,像海綿般吸取積極、正能量的東西。

  篇2

  4月13日下午,在湖南大學東樓205參加了關於《大資料時代》的讀書交流活動。通過相互交流學習,使我更深層次的理解了大資料時代的利與弊,機遇和挑戰。在寫心得體會前,我想再重新審視一下關於大資料的歷史沿革和現實意義。

  一、大資料的歷史沿革及現實意義

  首先,最早提出“大資料”時代到來的是全球知名諮詢公司麥肯錫,麥肯錫稱:“資料,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數 據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。”“大資料”在物理學、生物學、環境生態學等領域以及軍事、金融、通訊等行業存在已有時日,卻因為近年來網際網路和資訊行業的發展而引起人們關注。大資料作為雲端計算、物聯網之後又IT行業又一大顛覆性的技術革命。雲端計算主要為資料資產提供了保管、訪問的場所和渠道,而資料才是真正有價值的資產。企業內部的經營交易資訊、物聯網世界中的商品物流資訊,網際網路世界中的人與人互動資訊、位置資訊等,其數量將遠遠超越現有企業IT架構和基礎設施的承載能力,實時性要求也將大大超越現有的計算能力。如何盤活這些資料資產,使其為國家治理、企業決策乃至個人生活服務,是大資料的核心議題,也是雲端計算內在的靈魂和必然的升級方向。

  其次,進入2012年,大資料big data一詞越來越多地被提及,人們用它來描述和定義資訊爆炸時代產生的海量資料,並命名與之相關的技術發展與創新。它已經上過《紐約時報》《華爾街日報》的專欄封面,進入美國白宮官網的新聞,現身在國內一些網際網路主題的講座沙龍中,甚至被嗅覺靈敏的國金證券、國泰君安、銀河證券等寫進了投資推薦報告。資料正在迅速膨脹並變大,它決定著企業的未來發展,雖然很多企業可能並沒有意識到資料爆炸性增長帶來問題的隱患,但是隨著時間的推移,人們將越來越多的意識到資料對企業的重要性。正如《紐約時報》2012年2月的一篇專欄中所稱,“大資料”時代已經降臨,在商業、經濟及其他領域中,決策將日益基於資料和分析而作出,而並非基於經驗和直覺。哈佛大學社會學教授加里·金說:“這是一場革命,龐大的資料資源使得各個領域開始了量化程序,無論學術界、商界還是政府,所有領域都將開始這種程序。”

  最後,隨著雲時代的來臨,大資料Big data也吸引了越來越多的關注。著雲臺的分析師團隊認為,大資料Big data通常用來形容一個公司創造的大量非結構化和半結構化資料,這些資料在下載到關係型資料庫用於分析時會花費過多時間和金錢。大資料分析常和雲端計算聯絡到一起,因為實時的大型資料集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。“大資料”在網際網路行業指的是這樣一種現象:網際網路公司在日常運營中生成、累積的使用者網路行為資料。這些資料的規模是如此龐大,以至於不能用G或T來衡量。大資料到底有多大?一組名為“網際網路上一天”的資料告訴我們,一天之中,網際網路產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多相當於美國兩年的紙質信件數量;發出的社群帖子達200萬個相當於《時代》雜誌770年的文字量;賣出的手機為37.8萬臺,高於全球每天出生的嬰兒數量37.1萬……,截止到2012年,資料量已經從TB1024GB=1TB級別躍升到PB1024TB=1PB、EB1024PB=1EB乃至ZB1024EB=1ZB級別。國際資料公司IDC的研究結果表明,2008年全球產生的資料量為0.49ZB,2009年的資料量為0.8ZB,2010年增長為1.2ZB,2011年的數量更是高達1.82ZB,相當於全球每人產生200GB以上的資料。而到2012年為止,人類生產的所有印刷材料的資料量是200PB,全人類歷史上說過的所有話的資料量大約是5EB。IBM的研究稱,整個人類文明所獲得的全部資料中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的資料規模將達到今天的44倍。

  二、讀書心得體會

  首先,談談大資料帶給生活的轉變。大資料已經是資訊產業發展的必然趨勢,可以說,大資料現在已經開始慢慢滲透入我們的生活,如:現在流行的打車軟體、三維立體化社群的建立、某些從事生產銷售的行業利用大資料來優化規模和實現利益最大化。而我們很多人對大資料還很陌生,只是被動的適應著大資料給生活帶來的改變。大資料時代是以雲端計算為基礎的,所以,要實現大資料,相關的很多的硬體裝置都要更新換代,資訊處理系統、資訊傳輸系統、資訊反饋系統、資訊決策系統都將面臨新的挑戰,相關產業都要重新調整產業結構,在那時,可以誇張的說,資訊就是黃金,資訊就是石油。大資料時代的到來會解放更多的勞動生產力,勢必將會更加加劇生產力過剩的現狀,社會兩極分化現象會更加明顯,掌握不了資訊資源,很難再翻身,要防止資訊壟斷帶來的可怕局面。大資料時代的到來會使人們的生活節奏急速加快,資訊的時效性決定了它的流通速率,人們的生活節奏要跟上資訊流通的速率,就不得不加快自己的節奏,人們會越來越忙,到那時,就像現在的日本,可能想找個人聽你說說話,真的是一件很難的事。

  第二,關於資料管理的看法。大資料時代,資料管理是一件很重要的工作,如何才能避免自己的資料被非法竊取、丟失和被盜?我的看法是,人防、技防、物防一體化。人防,即我們要從思想上牢固樹立資訊安全防範的意識,不主動洩露資訊,要管理好自己身邊的資訊裝置;技防,就是要運用軟體來管理和處理資料,經常檢查更新資料庫,定時查殺電腦病毒,確保電腦狀況安全;物防,就是重要的資料一定要備份保留,而且應當做到備份與原始檔案是物理隔離,無關的資訊應當及時刪除,減輕硬碟的壓力。

  三、怎麼保護自己的隱私。隱私,顧名思義,就是不願意讓別人看到的東西,所以,在大資料時代,更要管理好自己的隱私,以免對自己和家人造成麻煩和損失。越是隱私的資訊,越要遠離網路,不要再公開的社交網路儲存和展示個人圖片、資料等資訊,免得被非法人士採用和竊取。建議還是用紙質的日記代替電腦日記,避免資訊傳播範圍太大,管理好自己的日記本。研發一種新的硬體聯結器,總是以隨機碼來保護自己真實IP地址,提高網路安全的可靠性,加強對聯網資訊的管理和保護。

  三、結論

  不論我們情不情願,大資料時代都會到來,現實社會是我們高喊著走向大資料時代,其實大資料時代已經向我們走來,所以與其被動接受,不如主動學習,從中找到自己的出路,成為大資料時代的建設者和受益者。

  篇3

  奧倫·艾奇奧倫Oren Etzioni創立的從文字中挖掘資訊的公司ClearForest,已經被路透社收購。

  美國股市每天成交量高達70億股,而其中三分二的交易都是由建產在數學模型和演算法之上的計算機程式自動完成的。

  farecast經過了2003年立項,到2008年被收購。經歷了5年的時間,資料從最早了12000條到2000億條。

  大資料的平臺有:谷歌的MAPREDUCE 和開源HADOOP平臺最初源於雅虎。NOSQL更優先於MYSQL.

  大資料所用的資料記錄單位:拍位元組PB2的50次方和艾位元組EB2的60次方,澤位元組ZB 2的70次方,太位元組TB。1EB=10億GB。1ZB=1024EB

  20xx年,所有資料中只有7%是儲存在報紙、書籍、圖片等媒價上的模擬資料,其餘全部是數字資料。

  20xx年世界上儲存的資料預計能達到約1.2澤位元組,其中非數字資料只佔不到2%。

  人類儲存資訊量的增長速度比世界經濟的增長速度快4倍。而計算機資料處理能力的增長速度則比世界經濟的增長速度快9倍。

  大資料告訴我們“是什麼”而不是“為什麼”。在大資料時代,我們不必知道現象背後的原因。

  大資料的演算法從因果關係向相關關紗轉化。這也是思維方式的轉變。

  推薦電影《點球成金》MONEYBALL

  大資料的三個思維方式:

  1、不要依靠分析少量的資料樣本,不要抽樣調查。要分析與某事物相關的所有資料。

  2、不要追求精確性,要樂於接受紛繁複雜的資料。

  3、不要探求難以捉摸的因果關係,轉而關注事物的相關關係。

  大資料中的“大”不是絕對意義上的大,雖然在大多數情況下是這個意思。大資料是指不用隨機分析法這樣的捷徑,而採用所有資料的方法。

  LYTOR相機光場相機就是對拍照場景的應用。將傳統相機的拍攝照片的樣本進行全收集,成為樣本=總體的應用代表。

  意外的案例:

  如果把一個在社群內有很多連線關係的人從社群關係網中剔除掉,這個關係網會變得沒那麼高效,但卻不會解體。但是如果把一個與所在社群之外的很多人有著連線關係的人從這個關係網中剔除,整個關係網奶快就會破碎成很多的小塊。節點的做用。

  社交網路的多樣性是有額外價值的。這是一個人在社會關係網中的存在價值。

  網際網路可以使資料達到精確嗎?只有5%的資料是結構化且能適用於傳統資料庫的。如果不接受混亂,剩下的95%的非結構化資料都無法被利用。只有接受不精確性,我們才能開啟一扇從未涉足的世界的窗戶。

  資料與演算法那個更重要呢?簡單的演算法+大資料,還是複雜的演算法+小資料。結論就是大資料比演算法智慧系統更重要。