統計學習方法書籍推薦

  統計學習方法是什麼?想了解更多的資訊嗎,以下是小編分享給大家的統計學習方法的資料,希望可以幫到你!

  統計學習方法書籍有哪些

  《女士品茶》

  內容簡介:

  《20世紀統計怎樣變革了科學:女士品茶》以某位喝茶的英國女士的假設學說為起點,引出了近代數理統計的開創者——費歇爾,以及費歇爾為解決類似問題而發明的實驗設計法。書中細數了二十世紀參與這場科學變革的代表性人物與事蹟。

  豆瓣短評:

  世界上沒有任何一個實驗設計是完美的,但我們仍可以藉此無限接近真相。這本書算是補充批判性思維的知識面。其中提到的哲學層面非常深奧,如何在理論上立足,如何統一內部,如何與現實世界關聯,等等。很有趣。

  By xigesade

  《統計陷阱》

  內容簡介:

  《統計陷阱》是美國統計學家達萊爾·哈夫的名著,自1954年出版至今,多次重印,被譯為多種文字,影響深遠。

  在日常的經濟生活中,我們將接觸到越來越多的統計資料和資料,例如各種證券資訊、投資可行性研究報告、公司財務報告等,這些資料、資料如何去偽存真,如何進行鑑別?這本《統計陷阱》回答了這些問題。

  豆瓣短評:

  達萊爾.哈夫的統計陷阱,原名如何利用統計說謊,雖然是60年前的書,但今天來看依舊很有價值。面對這個資訊量巨大的世界,我們每天會碰到大量真假難辨的資訊,這就要求我們提高處理資訊的能力。很可惜的是,很多人對於網路上的大量資料不問出處不問真假的選擇相信。也許看完這本書之後你會有不同的思考。

  By Ahem

  《赤裸裸的統計學》

  內容簡介:

  《赤裸裸的統計學》一書的作者查爾斯•惠倫“扒光”了統計學“沉悶的外衣”,用生活中有趣的案例、直觀的圖表、生動詼諧的語言風格,徹底揭開了統計學、大資料和數字的“神祕面紗”,讓我們知道權威期刊、媒體新聞、民意調研中公佈的數字從何而來,輕鬆掌握判斷這些統計數字“是否在撒謊”的祕籍。同時,作者還將統計學的工具帶入日常生活中,告訴我們為什麼不要買彩票,為什麼你家附近的商場會知道你懷孕的訊息並給你寄來紙尿褲的優惠券,等等。

  大資料時代你必須掌握的統計學知識,全部都在這本書中。從今天開始,好好使用統計學和資料吧!

  豆瓣短評:

  大學時灌輸式的教學並沒有讓我對統計學這門課產生太多的興趣,本著只要通過的念頭對很多統計學的知識瞭解不夠透徹,翻閱這本書似乎就有了另一番感覺,生動的例子中那些概念類的知識能夠更好的被理解,對於所處的資訊爆炸的時代,對各類統計資料本身做出的判斷一定是正確的麼?當然不,它們也會撒謊。這方面的意識說來也是一個很棒的提高點。

  By 微升驟落

  《醉漢的腳步》

  內容簡介:

  《醉漢的腳步:隨機性如何主宰我們的生活》內容簡介:你知道嗎。在去買彩票的路上因車禍身亡的可能性。是彩票中獎的可能性的兩倍!打破了貝比·魯斯本壘打紀錄的奇人羅傑·馬立斯,也非常可能僅僅是幸運而非偉大!一種葡萄酒被某本刊物給予了五顆星的最高評分,卻被另一本刊物評為一個年代中最差的葡萄酒,這是怎麼回事?

  在這本顛覆常識又具有啟蒙性的書中,列納德·蒙洛迪諾通過解開偶然性的真實本性。以及導致我們誤判周遭世界的那些心理錯覺。生動地展示了什麼是真正有意義的東西。而我們又如何才能在一個更深層次真理的基礎上。來進行我們的決策。

  《醉漢的腳步:隨機性如何主宰我們的生活》帶給你的。不僅是在隨機性、偶然性和概率中的一次漫遊,還是一個看待世界的全新視角。它同時提醒著我們,生活中的許多事情。大致就如同剛在酒吧待了一夜的傢伙那蹣跚的步履一般難以預測。

  豆瓣短評:

  買了英文版,一直沒看。先中文版。由淺入深,由古到今,豐富的例項,不用一個公式,將概率論和數理統計的基本知識娓娓道來。當年學隨機數學的時候能碰到這本書就好了。這本書應該再版。

  By 甲醇教授

  《愛上統計學》

  內容簡介:

  在經過不斷地摸索以及少量成功大量失敗的嘗試之後,我已經學會了以某種方式教授統計學,我和我的許多學生認為這種方式不會讓人感到害怕,同時能夠傳遞大量的資訊。

  通過這本書可以瞭解基礎統計學的範圍並學習所有應該掌握的資訊,也可以瞭解整理和分析資料的基本思路和最常用的技術。本書理論部分有一些,但是很少,數學證明或特定數學程式的合理性討論也很少。

  為什麼《愛上統計學》這本書不增加更多理論內容?很簡單,初學者不需要。這並不是我認為理論不重要,而是在學習的這個階段,我想提供的是我認為通過一定程度的努力可以理解和掌握的資料,同時又不會讓你感到害怕而放棄將來選修更多的課程。我和其他老師都希望你能成功。

  因此,如果你想詳細瞭解方差分析中F值的含義,可以從Sage出版社查詢其他的好書***我願意向你推薦書目***。但是如果你想了解統計學為什麼以及如何為你所用,這本書很合適。這本書能幫助你理解在專業文章中看到的資料,解釋許多統計分析結果的意義,並且能教你運用基本的統計過程。

  豆瓣短評:

  很不錯的統計學的入門書,簡單入上手,尤其是課後習題,必須要一做,讀書不做題,純粹打醬油。 當然,這本書也只是入門,裡面的各種檢驗的原理都沒有講。

  By 平凡的老魚

  《統計資料的真相》

  內容簡介:

  《統計資料的真相》讓讀者從另一個角度看待統計資料。自從本傑明·迪斯累裡***Benjamin Disraelis***談及“世界上有三種謊言:謊言、該死的謊言,還有統計資料”之後,相關的俏皮話、諷刺語就不斷地落到可憐的統計學家頭上。這種批評、諷刺雖然“微不足道”,但在某種意義上卻是真實的。之所以說“微不足道”,是因為人們不僅可以使用,而且能夠濫用每一種統計工具,統計資料在這裡肯定不是孤立無援的,而是具有許多相互關聯的因素。之所以說“真實”,是因為所有人眼中的世界都是以我們喜歡的方式看到的,而不是世界的客觀本來面目。

  豆瓣短評:

  沒有看到長篇大論的空談理論,全篇都以短小精煉的事例來展示統計學諸多的不合理應用,閱讀起來一點不覺得枯燥。個人覺得,本書就是教人怎麼把糟糕的統計資料做的好看,能把一個快倒閉的公司的銷售業績做成像一個成長中的公司業績,某種程度上還滿藝術的。

  By 蒼紫色月光

  《馴服偶然》

  內容簡介:

  20世紀的哲學家和科學家認為宇宙是概率性的,因而偶然便是實在的。統計定律反映出宇宙的本質,雖然有的事物有其固有的不可預測的一面,但是統計規律的實在性最終被認為是理性的。本書則通過曲折複雜的歷史佚事反映出統計規律是何以登堂入室的。內容的豐富使作者的哲學思想難於把握,但正是奮爭在這撲朔迷離之中才是值得一試的。 本書從大尺度上描繪了觀念轉變的過程,彌補了科學社會學中案例研究和標準形式的識知研究的不足。有些論證值得商榷,尤其是哈金描述的“革命”,在我看來,就從未在他所認為的意義下發生過。但是哈金的思想過於複雜,很難被這些反駁意見所駁倒。關於涂爾干和高爾頓的寫作上,對很難說清的方面把握恰到好處,論證雄辯,這正是本書閃光之處。

  豆瓣短評:

  一口氣看完。這本書是我偏愛的那種洋洋灑灑,內容繁多的科普著作,從國家實力的判斷到自殺率統計,非常有趣。不過這也是缺點之一,就是不大深入細緻。翻譯工作非常貼心,和原著不同的是註解跟在每一章之後,比較方便隨時查閱。

  統計學習方法一

  丟擲問題

  我們使用感知機來模擬類似這樣的一個問題:

  在一個圍棋棋盤上有許多散亂的棋子,其中有黑子也有白子。已知它們可以被很乾淨利落的被分為兩部分,每部分都沒有別的顏色的棋子,這樣作為下棋者我們就可以很愉快的不用再挑棋子放進盒子裡了!作為一個強迫症患者,你希望能直接用手一攬就把其中一部分棋子放入盒中,那麼問題就是:手該如何放置才能使得這些棋子立馬被幹淨利落的分為兩部分呢?

  ***這麼2的問題可能只有我才想得出了…***

  統計學習方法二

  問題思考

  那麼我們就來思考這個問題。首先我們明確情況,在已有條件中,有一個苛刻以及理想化的條件需要注意:散落的棋子可以被很乾淨利落的被分為兩份。這裡的乾淨利落是個不明確的表述,但是基本可以理解為我們可以用“一刀切”的方式把棋子分為兩部分。在資料科學裡,我們把這個條件稱為資料 線性可分 。這是一個非常重要的前提條件。

  其次,我們的問題是,我們需要把散落的棋子分為兩部分,那麼我們可以認為,這是一個典型的 二分類 問題。

  用抽象一些的語言來描述就是,我們需要對整個問題建模,將棋子的散落情況整理成資料集D,我們的模型需要學習一個這樣的對映:

  y^:R2→C

  其中C={−1,+1},R2為資料集D的空間。

  我們用+1和-1分別表示來過那種棋子的顏色。那麼資料是什麼呢?由於我們是對棋盤上的棋子根據他們現在的位置來分類,因此我們大可以將每顆棋子在棋盤上的座標作為取樣資料。對於每一個樣本,我們可以得到這樣的一個向量:

  x=[x1,x2]

  那麼我們到底採用什麼樣的模型呢?別急,我們再來看問題。

  注意我們的關鍵詞——“一刀切”。一刀切我們可以理解為用一條直線把所有棋子構成的整體分為兩個部分。那麼,我們的模型只需要描述成一條直線即可。於是有這樣的模型:

  y=w⋅x+b

  那麼直線的引數又該如何得到呢?我們再來看問題。

  由於棋子有兩類,我們要做的是把棋盤上的棋子根據它們自身現在在棋盤上的位置把它們分為兩類。而我們的目標是 保證每一類的棋子都為相同顏色 ,換句話說,我們希望被直線分割開的兩邊都沒有分錯類的棋子。那麼我們就可以得到我們的策略——模型採用的期望風險函式:

  Loss***y,y^***=1n∑in=1I***y,y^***

  這裡n為樣本總量,y^為預測類別,y為實際類別,I為指示函式,若括號內參數相等則值為0,反之為1。

  這是0-1損失函式的經驗期望風險。

  根據統計學習三要素,我們來看看我們現在問題的梳理情況:

  我們有了模型,策略,我們還需要一個演算法。

  提前劇透一下,我們使用傳統的梯度下降來求解這個問題。至於具體的內容還是先不詳細解釋。寫到這娛樂的部分也該結束了。讓我們迴歸理論嚴肅的統計學習。

  統計學習方法三

  模型

  我們用更正式的語言來表達這個問題。

  不知讀者看到這裡是否想到一個問題。模型使用上述寫的形式是否存在問題?

  答案是,確實存在。我只是為了方便初學者從最簡單的數學知識理解才寫成那樣的形式。那麼我們來修正我們的模型:

  先來看看問題出在哪兒。從指示函式考慮,我們在每次求損失的時候,需要判斷當前的例項被分為哪一類,然後再計算損失。

  那麼該如何判斷被分為了哪一類呢?我們都知道可以根據是在直線上方還是下方來劃分分類。假如我們指定將直線上方的例項分為+1,反之為-1。但是當資料集中,恰好上方的例項都為-1,下方為+1時,我們的資料將永遠是誤分類。無論如何調整k都無法完美分類。因為k只控制斜率,b控制截距。但是在考慮分類的時候,我們還有一個地方需要去確定,那就是分類的類標籤。使用上述的直線方程無法表示類標籤。

  於是,我們的感知機實際上是這樣來考慮的***真正理論誕生的時候應該是沒有這種問題的吧,應該是直接提出了下面這個模型的***:

  我們使用一個 超平面 來劃分資料空間。超平面是n維歐氏空間中餘維度等於一的線性子空間。這是平面中的直線、空間中的平面之推廣。簡單來說指的就是在資料空間中一個用w⋅x+b=0來表示的一個平面,其中w與x都是向量,且維數與資料空間相同。

  學過立體集合的多知道,w其實就是超平面的法向量,由於是向量,它具有方向,它就可以解決二分類問題中的類標籤的歸屬問題,並且可以很好的將問題推廣至N維情況。

  當然,在歷史上應該並不是為了解決類標籤問題才使用超平面的。其實對於一個N維的輸入空間使用一個超平面分割來考慮是一件非常自然的事。

  統計學習方法四

  策略

  解決上面那個很不成樣子的問題時,我們採用的損失函式為0-1損失函式。為什麼使用0-1損失函式呢?因為一個很簡單也很符合題意的思路就是:既然要完美把兩部分棋子分開,那我們只要選取使得兩部分棋子中被誤分類的棋子個數為0不就好了嗎?

  順理成章的想法,但是正因為簡單,而產生了一個問題:我們怎麼把策略和模型引數聯絡起來呢?

  如果使用0-1損失函式,那麼從公事上看我們很難對它做出優化。可能只能用一個很暴力的辦法,就是設定一個初始的超平面位置,然後選定一個很小的角度變化量,按照變化量對超平面進行旋轉,每次都計算一次誤分類,直到找到使損失函式為0的位置為止。有時候甚至肯可能因為變化量不夠小,而導致沒法得到這個角度。可想而知這個計算量非常大,而且整個計算過程也不易於優化,但同時又有相當多的冗餘計算。

  那麼這時,我們就需要換個思路——改變我們的損失函式。

  由於我們定義用一個超平面來分割我們的資料,那麼我們就該利用好這些相關的性質。很容易想到我們可以用誤分類的點的距離總和來作為損失函式。

  空間中點到平面的距離:

  d=1||w|||w⋅x+b|

  其中||w||是L~2~範數***範數定義的是向量長度的一種計算方式***。

  考慮誤分類樣本***x,y***,有下式:

  −y***w⋅x+b***>0

  因此得到距離:

  d=1||w||y***w⋅x+b***

  因此,得到損失函式:

  Loss***w,b***=−∑xi∈Myi***w⋅xi+b***

  這裡省略L~2~範數,因為對於同一模型它可以看做常數。這裡的M為每次迭代被感知機誤分類的點的集合。

  觀察損失函式,我們可以看到損失函式是一個非負數。當完美分類時,損失函式值為0。且該函式可導,因此我們就可以定一個優化目標,用演算法對它進行優化。

  統計學習方法五

  演算法

  這是一個很典型的優化問題。通常我們採用梯度下降的辦法來解決這個問題。

  所謂梯度下降,就是每次迭代模型引數,我們都向著下降最快的方向進行更新,以此來求解極小值。這樣我們可以快速進行迭代、更新。貌似有個證明,證明梯度下降是一定能夠收斂的。

  梯度下降有兩種,一種是批量梯度下降***batch gradient descent***,另一種是隨機梯度下降***stochastic gradient decent***。這兩者在我之前發的關於FTRL的文章裡有所介紹,也可以參照網上的資料自行查閱。

  簡單來說這兩者演算法的區別就在於批量演算法是每次迭代過程掃描所有樣本,在總體損失上進行迭代。隨機梯度下降是每次只根據單個樣本的損失進行更新。很明顯前者能在理論上收斂到全域性最優,而後者雖然速度快,但是可能收斂於區域性最優。特別的,當損失函式的極值分佈比較變態的情況下,隨機梯度下降和批量梯度下降可能都不會有很好的結果。但是通常情況下,我個人更傾向於採用隨機梯度下降,因為它比較快,且效果一般也並不比批量的差,而且對於收斂於區域性極值的問題可以考慮通過增加一個逐漸衰減的衝量項使其越過區域性極值。當然具體使用哪種可以根據實際情況而定。

  回到感知機,我們確定採用隨機梯度下降來解這個問題。在這個過程中,我們計算整體損失函式的導數,再 隨機選取一個樣本進行引數更新。那麼首先,我們需要計算出損失函式對引數的梯度,從而確定引數更新公式。對於一個隨機的樣本***x,y***:

  ▽wLoss***w,b***=−∑x∈Myx

  ▽bLoss***w,b***=−∑x∈My

  w=w+ηyx

  b=b+ηy

  這裡η是學習步長的引數,又稱為學習率。在FTRL中我們對這個引數探討過它的取值問題,在這裡無需關注。通常需要頻繁除錯它來得到一個較好的學習結果。至於w,我們對它每一維的初值往往會設定隨機的較小值,這樣可以做到“破對稱”,防止每一維因為相同的起始值而導致最後訓練出相同的權值。