大資料時代心得體會總結
《大資料時代》這本書寫的很好,很值得一讀,因為會給我們很多啟發,比如你在相關的社交網站發表的言論或者照片都很有可能被“資料科學家”們利用,從而再將相關資料賣給各大網店。下面是小編為大家收集整理的,歡迎大家閱讀。
篇1
利用週末,一口氣讀完了塗子沛的大作《大資料》。這本書很好看,行文如流水,引人入勝。書中,你讀到的不是大資料技術,更多是與大資料相關的美國政治、經濟、社會和文化的演進。作為一名資訊化從業者,讀完全書,我深刻感受到了在資訊化方面中國與美國的各自特色,也看到了我們與美國的差距。有幾個方面的體會,但窺一斑基本能見全貌。
一是政府業務資料庫公開的廣度和深度。近年來,隨著我國資訊公開工作的推進,各級政府都在通過政府入口網站建設積極推進網上政務資訊公開,但我們的資訊公開,現階段還主要是政府的政策、法律法規、標準、公文通告、工作職責、辦事指南、工作動態、人事任免等行政事務性資訊的公開。當然,實時的政府業務資料庫公開也已經取得很大進步。在中國政府門戶網,可以查詢一些公益資料庫,如國家統計局的經濟統計資料、環保部資料中心提供的全國空氣、水文等資料,氣象總局提供的全國氣象資料,民航總局提供的全國航班資訊等;訪問各個部委的網站,也能查到很多業務資料,如發改委的專案立項庫、工商局的企業信用庫、國土資源部的土地證庫、國家安監總局的煤礦安全預警資訊庫、各類工程招標資訊庫等等。這是一個非常大的進步,也是這麼多年電子政務建設所取得的成效和價值!但是,政務業務資料庫中的很多資料目前還沒有實現公開,很多資料因為部門利益和“保密”等因素,還僅限於部門內部人員使用,沒有公開給公眾;已經公開的資料也僅限於一部分基本資訊和統計資訊,更多資料還沒有被公開。從《大資料》一書中記錄的美國資料公開的實踐來看,美國在資料公開的廣度和深度都比較大。美國人認為“用納稅人的錢收集的資料應該免費提供給納稅人使用”,儘管美國政府事實上對資料的公開也有牴觸,但民願不可違,美國政府的業務資料越來越公開,尤其是在奧巴馬政府簽署《透明和開放的政府》檔案後,開放力度更加大。DATA.GOV是美國聯盟政府新建設的統一的資料開放入口網站,網站按照原始資料、地理資料和資料應用工具來組織開放的各類資料,累積開放378529個原始和地理資料集。在中國尚沒有這樣的資料開放的網站。另外,由於制度的不同,美國業務資訊公開的深度也很大,例如,網上公佈的美國總統“白宮訪客記錄”公佈的甚至是造訪白宮的各類人員的相關資訊;美國的xxxxxxxxxxxxxxxx網站,能夠逐條跟蹤、記錄、分析聯邦政府每一筆財政支出。這在中國,目前應該還沒有實現。
二是對政府對業務資料的分析。目前,中國各級政府網站所提供的業務資料基本上還是資料表,部分網站能提供一些統計圖,但很少能實現資料的跨部門聯機分析、資料關聯分析。這主要是由於以往中國政務資訊化的建設還處於部門建設階段。美國在這方面的步伐要快一些,美國的DATA.GOV網站,不僅提供原始資料和地理資料,還提供很多資料工具,這些工具很多都是公眾、公益組織和一些商業機構提供的,這些應用為資料處理、聯機分析、基於社交網路的關聯分析等方面提供手段。如DATA.GOV上提供的白宮訪客搜尋工具,可以搜尋到訪客資訊,並將白宮訪客與其他微博、社交網站等進行關聯,提高訪客的透明度。
三是關於個人資料的隱私。在美國,公民的隱私和自有不可侵犯,美國沒有個人身份證,也不能建立基於個人身份證號碼的個人資訊的關聯,建立“中央資料銀行”的提案也一再被否決。這一點,在中國不是問題,每個公民有唯一的身份資訊,通過身份證資訊,可以獲取公民的基本資訊。今後,隨著國家人口基礎資料庫等基礎資源庫的建設,公民的社保、醫療等其他相關資訊也能方便獲取,當然資訊還是限於政府部門使用,但很難完全保證整合起來的這些個人資訊不被洩露或者利用。
資料是資訊化建設的基礎,兩個大國在大資料領域的互相學習和借鑑,取長補短,將推進世界進入資訊時代。我欣喜地看到,美國政府20XX年啟動了“大資料研發計劃”,投資2億美元,推動大資料提取、儲存、分析、共享、視覺化等領域的研究,並將其與超級計算和網際網路投資相提並論。同年,中國政府20XX年也批覆了“十二五國家政務資訊化建設工程規劃”,總投資額估計在幾百億,專門有人口、法人、空間、巨集觀經濟和文化等五大資源庫的五大建設工程。開放、共享和智慧的大資料的時代已經來臨!
篇2
讀了《大資料時代》後,感覺到一個大變革的時代將要來臨。雖然還不怎麼明瞭到底要徹底改變哪些思維和操作方式,但顯然作者想要“終結”或顛覆一些傳統上作為我們思維和生存基本理論、方法和方式。在這樣的想法面前,我的思想被強烈震撼,不禁戰慄起來。
“在小資料時代,我們會假象世界是怎樣運作的,然後通過收集和分析資料來驗證這種假想。”“隨著由假想時代到資料時代的過渡,我們也很可能認為我們不在需要理論了。”書中幾乎肯定要顛覆統計學的理論和方法,也試圖通過引用《連線》雜誌主編安德森的話“量子物理學的理論已經脫離實際”來“終結”量子力學。對此我很高興,因為統計學和量子力學都是我在大學學習時學到抽筋都不能及格的課目。但這兩個理論實在太大,太權威,太基本了,我想我不可能靠一本書就能擺脫這兩個讓我頭疼一輩子的東西。作者其實也不敢旗幟鮮明地提出要顛覆它們的論點,畢竟還是在前面加上了“很可能認為”這樣的保護傘。
近幾十年,我們總是在遇到各種各樣的新思維。在新思維面前我們首先應該做到的就是要破和立,要改變自己的傳統,跟上時代的腳步。即使腦子還跟不上,嘴巴上也必須跟上,否則可能會被扣上思想僵化甚至阻礙世界發展的大帽子。既然大資料是“通往未來的必然改變”,那我就必須“不受限於傳統的思維模式和特定領域裡隱含的固有偏見”,跟作者一起先把統計學和量子力學否定掉再說。反正我也不喜歡、也學不會它們。
當我們人類的資料收集和處理能力達到拍位元組甚至更大之後,我們可以把樣本變成全部,再加上有能力正視混雜性而忽視精確性後,似乎真的可以拋棄以抽樣調查為基礎的統計學了。但是由統計學和量子力學以及其他很多“我們也很可能認為我們不再需要的”理論上溯,它們幾乎都基於一個共同的基礎——邏輯。要是不小心把邏輯或者邏輯思維或者邏輯推理一起給“不再需要”的話,就讓我很擔心了!
《大資料時代》第16頁“大資料的核心就是預測”。邏輯是——描述時空資訊“類”與“類”之間長時間有效不變的先後變化關係規則。兩者似乎是做同一件事。可大資料要的“不是因果關係,而是相關關係”,“知道是什麼就夠了,沒必要知道為什麼”,而邏輯學四大基本定律同一律、矛盾律、排中律和充足理由律中的充足理由律又“明確規定”任何事物都有其存在的充足理由。且邏輯推理三部分——歸納邏輯、溯因邏輯和演繹邏輯都是基於因果關係。兩者好像又是對立的。在同一件事上兩種方法對立,應該只有一個結果,就是要否定掉其中之一。這就是讓我很擔心的原因。
可我卻不能拭目以待,像旁觀者一樣等著哪一個“脫穎而出”,因為我身處其中。問題不解決,我就沒法思考和工作,自然就沒法活了!更何況還有兩個更可怕的事情。
其一:量子力學搞了一百多年,為了處理好混雜性問題,把質量和速度結合到能量上去了,為了調和量子力學與相對論的矛盾,又搞出一個量子場論,再七搞八搞又有了蟲洞和羅森橋,最後把四維的時空彎曲成允許時間旅行的樣子,恨不得馬上造成那可怕的時間旅行機器。唯一阻止那些“愛因斯坦”們“瞎胡鬧”的就是因果關係,因為爸爸就是爸爸,兒子就是兒子。那麼大資料會不會通過正視混雜性,放棄因果關係最後反而搞出時間機器,讓爸爸不再是爸爸,兒子不再是兒子了呢?其二:人和機器的根本區別在於人有邏輯思維而機器沒有。《大資料時代》也擔心“最後做出決策的將是機器而不是人”。如果真的那一天因為放棄邏輯思維而出現科幻電影上描述的機器主宰世界消滅人類的結果,那我還不如現在就趁早跳樓。
還好我知道自己對什麼統計學、量子力學、邏輯學和大資料來說都是門外漢,也許上面一大篇都是在胡說八道,所謂的擔心根本不存在。但問題出現了,還是解決的好,不然沒法睡著覺。自己解決不了就只能依靠專家來指點迷津。
所以想向《大資料時代》的作者提一個合理化建議:把這本書繼續寫下去,至少加一個第四部分——大資料時代的邏輯思維。
篇3
資訊時代的到來,我們感受到的是技術變化日新月異,隨之而來的是生活方式的轉變„„我們這樣評論著的資訊時代已經變為曾經。如今,大資料時代成為炙手可熱的話題。筆者在這說明資訊和資料,只是試圖首先說明資訊、資料的關係和不同,也試圖說明,為什麼資訊時代轉變為了大資料時代?大資料時代帶給了我們什麼?
資訊和資料的定義。維基百科解釋:資訊,又稱資訊,是一個高度概括抽象概念,是一個發展中的動態範疇,是進行互相交換的內容和名稱,資訊的界定沒有統一的定義,但是資訊具備客觀、動態、傳遞、共享、經濟等特性卻是大家的共識。資料:或稱資料,指描述事物的符號記錄,是可定義為意義的實體,它涉及到事物的存在形式。它是關於事件之一組離散且客觀的事實描述,是構成資訊和知識的原始材料。資料可分為模擬資料和數字資料兩大類。資料指計算機加工的“原料”,如圖形、聲音、文字、數、字元和符號等。從定義看來,資料是原始的處女地,需要耕耘。資訊則是已經處理過的可以傳播的資訊。資訊時代依賴於資料的爆發,只是當資料爆發到無法駕馭的狀態,大資料時代應運而生。這是否是《大資料時代》一書所未曾闡述的背景材料?
在《大資料時代》一書中,大資料時代與小資料時代的區別:1、思維慣例。大資料時代區別與轉變就是,放棄對因果關係的渴求,而取而代之關注相關關係。也就是說只要知道“是什麼”,而不需要知道“為什麼”。作者語言絕對,卻反思其本質區別。資料的更多、更雜,導致應用主意只能儘量觀察,而不是傾其所有進行推理?這也是明智之舉2、使用用途。小資料停留在說明過去,大資料用驅動過去來預測未來。筆者認為資料的用途意在何為,與資料本身無關,而與資料的解讀者有關,而相關關係更有利於預測未來。3、結構。大資料更多的體現在海量非結構化資料本身與處理方法的整合。大資料更像是理論與現實齊頭並進,理論來創立處理非結構化資料的方法,處理結果與未來進行驗證。4、分析基礎。大資料是在網際網路背景下資料從量變到質變的過程。筆者認為,小資料時代也即是資訊時代,是大資料時代的前提,大資料時代是昇華和進化,本質是相輔相成,而並非相離互斥。
資料未來的故事。資料的發展,給我們帶來什麼預期和啟示?銀行業天然有大資料的潛質。客戶資料、交易資料、管理資料等海量資料不斷增長,海量機遇和挑戰也隨之而來,適應變革,適者生存。我們可以有更廣闊的業務發展空間、可以有更精準的決策判斷能力、可以有更優秀的經營管理能力„„可以這些都基於資料的收集、整理、駕馭、分析能力,基於脫穎而出的創新思維和執行。因此,建設“資料倉庫”,培養“資料思維”,養成“資料治理”,創造“資料融合”,實現“資料應用”才能擁抱“大資料”時代,從資料中攫取價值,笑看風雲變換,穩健贏取未來。