資料報告心得體會
大資料的初衷就是將一個公開、高效的政府呈現在人民眼前。你知道是什麼嗎?接下來就是小編為大家整理的關於,供大家閱讀!
篇1
介紹資料分析/挖掘的圖書有很多,這些圖書分為很多等級,有的是直接面嚮應用business, academy or interplay between both two,有的是介紹理論背景個人認為很重要,如果以20/80規則,這些圖書將有助於解決剩餘20%的問題,不過你可能要付出80%精力,有的是結合各類計算工具例如SAS,Excel,R etc。相信很多人對此都很頭疼,到底應該如何選擇呢?
現在先談談我個人在資料分析的經歷,最後我將會做個總結。
大學開設了兩門專門講授資料分析基礎知識的課程:“概率統計”和“高等多元資料分析”。這兩門選用的教材是有中國特色的國貨,不僅體系完整而且重點突出,美中不足的是前後內在的邏輯性欠缺,即各知識點之間的關聯性沒有被闡述明白,而且在應用方面缺少系統地訓練。當時,我靠著題海戰術把這兩門課給混過去了,現在看來是純忽悠而已。不過,如果當時去應聘資料分析職位肯定有戲,至少筆試可以過關。
抱著瞻仰中國的最高科研聖地的想法,大學畢業後我奮不顧身的考取了中科院的研究生。不幸的是,雖然頂著號稱是高階生物統計學的專業,我再也沒有受到專業的訓練,一切全憑自己摸索和研究不過,我認為這樣反而挺好,至少咱底子還是不錯的,一直敏而好學。首先,我盡全力蒐集一切資料從大學帶過來的習慣,神勇地一段時間,某一天我突然“頓悟”,這樣的學習方式是不行的,要以應用為依託才能真正學會。然後呢,好在咱的環境的研究氛圍主要是學生還是不錯滴,我又轟轟烈烈地跳入了paper的海洋,看到無數牛人用到很多牛方法,這些方法又號稱解決了很多牛問題,當時那個自卑呀,無法理解這些papers。某一天,我又“頓悟”到想從papers中找到應用是不行的,你得先找到科學研究的思路才行,打個比方,這些papers其實是上鎖的,你要先找到鑰匙才成。幸運的是,我得到了笛卡爾先生的指導,儘管他已經仙遊多年,他的“談談方法”為後世科研界中的被“放羊”的孤兒們指條不錯的道路雖然可能不是最好地,the better or best way要到國外去尋找,現在特別佩服毅然出國的童鞋們,你們的智商至少領先俺三年。好了,在咱不錯的底子的作用下,我掌握了科研方法其實很簡單,日後我可能會為“談談方法”專門寫篇日誌。可惜,這時留給咱的時間不多了,中科院的碩博連讀是5年,這對很多童鞋們綽綽有餘的,但是因本人的情商較低,被小人“陷害”,被耽擱了差不多一年。這時,我發揮了“虎”東北話的精神,選擇了一個應用方向,終於開始了把資料分析和應用結合的旅程了。具體過程按下不表,我先是把自己掌握的資料分析方法順次應用了,或者現成的方法不適合,或者不能很好的解決問題,當時相當的迷茫呀,難道是咱的底子出了問題。某一天,我又“頓悟”了,毛主席早就教育我們要“具體問題具體分析”,“教條主義”要不得,我應該從問題的本質入手,從本質找方法,而不是妄想從繁多的方法去套住問題的本質。好了,我辛苦了一段時間,終於解決了問題,不過,我卻有些糾結了。對於資料發分析,現在我的觀點就是“具體問題具體分析”,你首先要深入理解被分析的問題領域,盡力去尋找問題的本質,然後你只需要使用些基本的方法就可以很好的解決問題了,看來“20/80法則”的幽靈無處不在呀。於是乎,咱又回到了原點,趕緊去學那些基礎知識方法吧,它們是很重要滴。
這裡,說了一大堆,我做過總結:首先,你要掌握紮實的基礎知識,並且一定要深入理解,在自己的思維裡搭建起一橋,它連線著抽象的資料分析方法和現實的應用問題;其次,你要有意識的去訓練分析問題的能力;最後,你要不斷的積累各方面的知識,記住沒有“無源之水”、“無根之木”,良好的資料分析能力是建立在豐富的知識儲備上的。
篇2
有人說生活像一團亂麻,剪不斷理還亂;我說生活像一團亂碼,儘管雲山霧罩惝恍迷離,最後卻總會撥雲見日雨過天晴。維克托邁爾舍恩伯格就把這團亂碼叫做大資料,在他的這本書裡,試圖給出的就是撥開雲霧見青天的玄機。
這玄機說來也簡單,就是放棄千百年來人們孜孜追求的因果關係轉而投奔相關關係。說來簡單,其實卻顛覆了多少代人對真理探求的夢想。我覺得作者是個典型的實用主義者,在美帝國主義萬惡的壓迫和洗腦下,始終追逐價效比和利益最大化,居然放棄了追求共產主義真理最基本的要求!不像我們在天朝光芒的籠罩下,從小就開始學習和追求純粹的共產主義唯心科學歷史文化知識啦!這或許就是我們永遠無法獲得諾貝爾獎、永遠無法站在科技最前沿的根本原因吧。其實小學時候,我就想過這個問題,相信所有的人都問過類似的問題,例如現在仍然很多人在問,媽的從來沒人知道我每天擺攤賺多少錢,你們他媽的那人均收入四五千是怎麼算出來的。中國是抽樣的代表,因為中國人最喜歡用代表來表現整體,最典型的例子莫過於公佈的幸福指數滿意指數各種指數永遠都高於你的預期,你完全不清楚他是怎麼來的,一直到最後彙總成三個代表,真心不清楚它到底能代表了啥。說這麼多顯得自己是個憤青,其實只是想表達“樣本=總體”這個概念在科技飛速發展的今天,在世界的不同角落,還是會體現出不同的價值,受到不同程度的對待及關注。在大資料觀念的衝擊下,我們是不是真的需要將平時關注的重點從事物內在的發展規律轉移到事物客觀的發生情況上。
大資料的出現,必然對諸多領域產生極大的衝擊,某些行業在未來十年必將會得到突飛猛進的發展,而其他一些行業則可能會消失。這是廢話,典型的三十年河東三十年河西的道理,就像三十年前的數理化王子們,現在可能蜷縮在某工廠的小角落裡顫顫巍巍的修理機器;就像三十年前職業高中的學生才學財會學銀行,如今這幫孫子一個個都開大奔養小三攢的樓房夠給自己做墓群的了;當然也不乏像生物這種專業,三十年前人們不知道是幹啥的,三十年後人們都知道沒事別去幹,唯一可惜的是我在這三十年之間的歷史長河中卻恰恰選了這麼一個專業,這也是為什麼我現在在這寫讀後感而沒有跟姑娘去玩耍的原因。其實乍一看這個題目,我首先想到的是精益生產的過程控制,比如六西格瑪,這其實就是通過對所有資料的分析來預測產品品質的變化,就已經是大資料的具體應用了。
而任何事物都會有偏差,會有錯誤,也就是說,這全部的資料中,肯定是要出現很多與總體反應出的規律相違背的個體,但是無論如何這也是該事件中一般規律的客觀體現的一種形式,要遠遠好過從選定的樣本中剔除異常值然後得到的結論。換句話說,也大大減少了排除異己對錶達事物客觀規律的影響。就好比是統計局統計中國人民的平均收入一樣,這些數怎麼這麼低啊,這不是給我們國家在國際社會上的形象抹黑麼,刪掉刪掉;這些數怎麼這麼高啊,這還不引起社會不滿國家動盪啊,刪掉刪掉。所以說,大資料至少對反應客觀事實和對客觀事實做預測這兩個方面是有非常積極地意義的。而這個新興行業所體現的商機,既在如何利用資料上,又在如何取得資料上。
先說資料的利用,這裡面表達的就是作者在通書中強調的對“相關關係”的挖掘利用。相關關係與因果關係便不再贅述,而能夠對相關關係進行挖掘利用的企業其實缺不多,因為可以相信未來的大資料庫就像現在的自然資源一樣,必將因為對利益的追逐成為稀缺資源,而最終落在個別人或企業或部門的手中。想想無論當你想要做什麼事情的時候,都有人已經提前知道並且為你做好了計劃,還真是一件甜蜜而又令人不寒而慄的事情。
而對於資料的獲取,我覺得必然是未來中小型企業甚至個人發揮極致的創造力的領域。如何在儘可能降低成本的情況下采集到越多越準確的資料是必然的發展趨勢,鑑於這三個維度事實上都無法做到極致,那麼對於資料獲取方式的爭奪肯定將成就更多的英雄人物。
現在回頭從說說作者書中的觀點中想到的,P87中關於巴斯德的疫苗的事件,描述了一個被瘋狗咬傷的小孩,在接種了巴斯德的狂犬疫苗後成功倖存,巴斯德成了英雄的故事。這是個非常有意思的案例,因為小孩被狗咬傷而患病的概率僅為七分之一,也就是說,本事件有85%的概率是小孩根本就不會患病。那麼小孩的生命到底是不是巴斯德救的,而這疫苗到底是有效沒效,通過這個事件似乎根本就沒有辦法得到驗證。這就好比某人推出個四萬億計劃,但實際上國際經濟形勢就是好轉,哪怕你只推出個二百五計劃,GDP都會蹭蹭的往上漲,而且又不會帶來四萬億導致的嚴重通脹、產能過剩、房價泡沫等問題。那你說這四萬億到底是救了國還是誤了國?回到我自己的工作領域上來,安全工作,我們一直遵循的方向都是尋找因果關係,典型的從工作前的風險評估,到調查事故的Taproot或者五個為什麼,無一不是邏輯推理得到結果的產物。而事實上,如果能做到資訊的豐富採集和彙總的話,找出事物之間的相關性,對提高工作環境的安全係數是極為有利的。這個點留著,看看可不可以在未來繼續做進一步研究。
篇3
關於軟體
分析前期可以使用EXCEL進行資料清洗、資料結構調整、複雜的新變數計算包括邏輯計算;在後期呈現美觀的圖表時,它的製圖製表功能更是無可取代的利器;但需要說明的是,EXCEL畢竟只是辦公軟體,它的作用大多侷限在對資料本身進行的操作,而非複雜的統計和計量分析,而且,當樣本量達到“萬”以上級別時,EXCEL的執行速度有時會讓人抓狂。
SPSS是擅長於處理截面資料的傻瓜統計軟體。首先,它是專業的統計軟體,對“萬”甚至“十萬”樣本量級別的資料集都能應付自如;其次,它是統計軟體而非專業的計量軟體,因此它的強項在於資料清洗、描述統計、假設檢驗T、F、卡方、方差齊性、正態性、信效度等檢驗、多元統計分析因子、聚類、判別、偏相關等和一些常用的計量分析初、中級計量教科書裡提到的計量分析基本都能實現,對於複雜的、前沿的計量分析無能為力;第三,SPSS主要用於分析截面資料,在時序和麵板資料處理方面功能了了;最後,SPSS相容選單化和程式設計化操作,是名副其實的傻瓜軟體。
STATA與EVIEWS都是我偏好的計量軟體。前者完全程式設計化操作,後者相容選單化和程式設計化操作;雖然兩款軟體都能做簡單的描述統計,但是較之SPSS差了許多;STATA與EVIEWS都是計量軟體,高階的計量分析能夠在這兩個軟體裡得到實現;STATA的擴充套件性較好,我們可以上網找自己需要的命令檔案.ado檔案,不斷擴充套件其應用,但EVIEWS就只能等著軟體升級了;另外,對於時序資料的處理,EVIEWS較強。
綜上,各款軟體有自己的強項和弱項,用什麼軟體取決於資料本身的屬性及分析方法。EXCEL適用於處理小樣本資料,SPSS、STATA、EVIEWS可以處理較大的樣本;EXCEL、SPSS適合做資料清洗、新變數計算等分析前準備性工作,而STATA、EVIEWS在這方面較差;製圖製表用EXCEL;對截面資料進行統計分析用SPSS,簡單的計量分析SPSS、STATA、EVIEWS可以實現,高階的計量分析用STATA、EVIEWS,時序分析用EVIEWS。
關於因果性
做統計或計量,我認為最難也最頭疼的就是進行因果性判斷。假如你有A、B兩個變數的資料,你怎麼知道哪個變數是因自變數,哪個變數是果因變數?
早期,人們通過觀察原因和結果之間的表面聯絡進行因果推論,比如恆常會合、時間順序。但是,人們漸漸認識到多次的共同出現和共同缺失可能是因果關係,也可能是由共同的原因或其他因素造成的。從歸納法的角度來說,如果在有A的情形下出現B,沒有A的情形下就沒有B,那麼A很可能是B的原因,但也可能是其他未能預料到的因素在起作用,所以,在進行因果判斷時應對大量的事例進行比較,以便提高判斷的可靠性。
有兩種解決因果問題的方案:統計的解決方案和科學的解決方案。統計的解決方案主要指運用統計和計量回歸的方法對微觀資料進行分析,比較受干預樣本與未接受干預樣本在效果指標因變數上的差異。需要強調的是,利用截面資料進行統計分析,不論是進行均值比較、頻數分析,還是方差分析、相關分析,其結果只是干預與影響效果之間因果關係成立的必要條件而非充分條件。類似的,利用截面資料進行計量回歸,所能得到的最多也只是變數間的數量關係;計量模型中哪個變數為因變數哪個變數為自變數,完全出於分析者根據其他考慮進行的預設,與計量分析結果沒有關係。總之,迴歸並不意味著因果關係的成立,因果關係的判定或推斷必須依據經過實踐檢驗的相關理論。雖然利用截面資料進行因果判斷顯得勉強,但如果研究者掌握了時間序列資料,因果判斷仍有可為,其中最經典的方法就是進行“格蘭傑因果關係檢驗”。但格蘭傑因果關係檢驗的結論也只是統計意義上的因果性,而不一定是真正的因果關係,況且格蘭傑因果關係檢驗對資料的要求較高多期時序資料,因此該方法對截面資料無能為力。綜上所述,統計、計量分析的結果可以作為真正的因果關係的一種支援,但不能作為肯定或否定因果關係的最終根據。
科學的解決方案主要指實驗法,包括隨機分組實驗和準實驗。以實驗的方法對干預的效果進行評估,可以對除干預外的其他影響因素加以控制,從而將干預實施後的效果歸因為干預本身,這就解決了因果性的確認問題。
關於實驗
在隨機實驗中,樣本被隨機分成兩組,一組經歷處理條件進入干預組,另一組接受控制條件進入對照組,然後比較兩組樣本的效果指標均值是否有差異。隨機分組使得兩組樣本“同質”,即“分組”、“干預”與樣本的所有自身屬性相互獨立,從而可以通過干預結束時兩個群體在效果指標上的差異來考察實驗處理的淨效應。隨機實驗設計方法能夠在最大程度上保證干預組與對照組的相似性,得出的研究結論更具可靠性,更具說服力。但是這種方法也是備受爭議的,一是因為它實施難度較大、成本較高;二是因為在干預的影響評估中,接受干預與否通常並不是隨機發生的;第三,在社會科學研究領域,完全隨機分配實驗物件的做法會涉及到研究倫理和道德問題。鑑於上述原因,利用非隨機資料進行的準試驗設計是一個可供選擇的替代方法。準實驗與隨機實驗區分的標準是前者沒有隨機分配樣本。
通過準實驗對干預的影響效果進行評估,由於樣本接受干預與否並不是隨機發生的,而是人為選擇的,因此對於非隨機資料,不能簡單的認為效果指標的差異來源於干預。在剔除干預因素後,干預組和對照組的本身還可能存在著一些影響效果指標的因素,這些因素對效果指標的作用有可能同干預對效果指標的作用相混淆。為了解決這個問題,可以運用統計或計量的方法對除干預因素外的其他可能的影響因素進行控制,或運用匹配的方法調整樣本屬性的不平衡性——在對照組中尋找一個除了干預因素不同之外,其他因素與干預組樣本相同的對照樣本與之配對——這可以保證這些影響因素和分組安排獨立。
隨機實驗需要至少兩期的面板資料,並且要求樣本在干預組和對照組隨機分佈,分析方法就是DID倍差法,或曰雙重差分法;準實驗分析用截面資料就能做,不要求樣本在干預組和對照組隨機分佈,分析方法包括DID需兩期的面板資料、PSM傾向性得分匹配法,需一期的截面資料和PSM-DID需兩期的面板資料。從準確度角度來說,隨機實驗的準確度高於準實驗和非實驗分析。關於分析工具的選擇
篇4
轉眼間實習已去一月,之前因為工作原因需要惡補大量的專業知識並加以練習,所以一直抽不開身靜下心來好好整理一下學習的成果。如今,模型的建立已經完成,剩下的就是枯燥的引數調整工作。在這之前就先對這段時間的資料處理工作得到的經驗做個小總結吧。
從我個人的理解來看,資料分析工作,在絕大部分情況下的目的在於用統計學的手段揭示資料所呈現的一些有用的資訊,比如事物的發展趨勢和規律;又或者是去定位某種或某些現象的原因;也可以是檢驗某種假設是否正確心智模型的驗證。因此,資料分析工作常常用來支援決策的制定。
現代統計學已經提供了相當豐富的資料處理手段,但統計學的侷限性在於,它只是在統計的層面上解釋資料所包含的資訊,並不能從資料上得到原理上的結果。也就是說統計學並不能解釋為什麼資料是個樣子,只能告訴我們資料展示給了我們什麼。因此,統計學無法揭示系統性風險,這也是我們在利用統計學作為資料處理工具的時候需要注意的一點。資料探勘也是這個道理。因為資料探勘的原理大多也是基於統計學的理論,因此所挖掘出的資訊並不一定具有普適性。所以,在決策制定上,利用統計結果+專業知識解釋才是最保險的辦法。然而,在很多時候,統計結果並不能用已有的知識解釋其原理,而統計結果又確實展示出某種或某些穩定的趨勢。為了抓住寶貴的機會,信任統計結果,僅僅依據統計分析結果來進行決策也是很普遍的事情,只不過要付出的代價便是承受系統環境的變化所帶來的風險。
用於資料分析的工具很多,從最簡單的Office元件中的Excel到專業軟體R、Matlab,功能從簡單到複雜,可以滿足各種需求。在這裡只能是對我自己實際使用的感受做一個總結。
Excel:這個軟體大多數人應該都是比較熟悉的。Excel滿足了絕大部分辦公制表的需求,同時也擁有相當優秀的資料處理能力。其自帶的ToolPak分析工具庫和Solver規劃求解載入項可以完成基本描述統計、方差分析、統計檢驗、傅立葉分析、線性迴歸分析和線性規劃求解工作。這些功能在Excel中沒有預設開啟,需要在Excel選項中手動開啟。除此以外,Excel也提供較為常用的統計圖形繪製功能。這些功能涵蓋了基本的統計分析手段,已經能夠滿足絕大部分資料分析工作的需求,同時也提供相當友好的操作介面,對於具備基本統計學理論的使用者來說是十分容易上手的。
SPSS:原名Statistical Package for the Social Sciences社會科學統計軟體包,現在已被IBM收購,改名後仍然是叫SPSS,不過全稱變更為Statistical Product and Service Solutions統計產品與服務解決方案。SPSS是一個專業的統計分析軟體。除了基本的統計分析功能之外,還提供非線性迴歸、聚類分析Clustering、主成份分析PCA和基本的時序分析。SPSS在某種程度上可以進行簡單的資料探勘工作,比如K-Means聚類,不過資料探勘的主要工作一般都是使用其自家的Clementine現已改名為SPSS Modeler完成。需要提一點的是SPSS Modeler的建模功能非常強大且智慧化,同時還可以通過其自身的CLEFClementine Extension Framework框架和Java開發新的建模外掛,擴充套件性相當好,是一個不錯的商業BI方案。
R:R是一個開源的分析軟體,也是分析能力不亞於SPSS和Matlab等商業軟體的輕量級僅指其佔用空間極小,功能卻是重量級的分析工具。官網地址:支援Windows、Linux和Mac OS系統,對於使用者來說非常方便。R和Matlab都是通過命令列來進行操作,這一點和適合有程式設計背景或喜好的資料分析人員。R的官方包中已經自帶有相當豐富的分析命令和函式以及主要的作圖工具。但R最大的優點在於其超強的擴充套件性,可以通過下載擴充套件包來擴充套件其分析功能,並且這些擴充套件包也是開源的。R社群擁有一群非常熱心的貢獻者,這使得R的分析功能一直都很豐富。R也是我目前在工作中分析資料使用的主力工具。雖然工作中要求用Matlab程式設計生成結果,但是實際分析的時候我基本都是用R來做的。因為在語法方面,R比Matlab要更加自然一些。但是R的迴圈效率似乎並不是太高。
Matlab:也是一個商業軟體,從名稱上就可以看出是為數學服務的。Matlab的計算主要基於矩陣。功能上是沒話說,涵蓋了生物統計、訊號處理、金融資料分析等一系列領域,是一個功能很強大的數學計算工具。是的,是數學計算工具,這東西的統計功能只不過是它的一部分,這東西體積也不小,吃掉我近3個G的空間。對於我來說,Matlab是一個過於強大的工具,很多功能是用不上的。當然,我也才剛剛上手而已,才剛剛搞明白怎麼用這個怪物做最簡單的Garch1,1模型。但毫無疑問,Matlab基本上能滿足各領域計算方面的需求。
以上這些軟體算是主流了,資料分析軟體遠不止這些,還有Eviews、S-plus等工具,因為沒用過,所以也就不說了