油料加工

[拼音]:Beiyesi fenleiqi

[英文]:Bayes classifier

在具有模式的完整統計知識條件下,按照貝葉斯決策理論進行設計的一種最優分類器。分類器是對每一個輸入模式賦予一個類別名稱的軟體或硬體裝置,而貝葉斯分類器是各種分類器中分類錯誤概率最小或者在預先給定代價的情況下平均風險最小的分類器。它的設計方法是一種最基本的統計分類方法。

最小錯誤概率貝葉斯分類器

把代表模式的特徵向量x分到c個類別(ω1,ω2,...,ωc)中某一類的最基本方法是計算在 x的條件下,該模式屬於各類的概率,用符號P(ω1|x),P(ω2|x),P(ωc|x)表示。比較這些條件概率,最大數值所對應的類別ωi就是該模式所屬的類。例如表示某個待查細胞的特徵向量 x屬於正常細胞類的概率是0.2,屬於癌變細胞類的概率是0.8,就把它歸類為癌變細胞。上述定義的條件概率也稱為後驗概率,在特徵向量為一維的情況下,一般有圖中的變化關係。當 x=x*時,P(ω1|x)=P(ω2|x)對於 x>x*的區域,由於P(ω2|x)>P(ω1|x)因此x屬ω2類,對於xP(ω2|x),x屬ω1類,x*就相當於區域的分界點。圖中的陰影面積就反映了這種方法的錯誤分類概率,對於以任何其他的 x值作為區域分界點的分類方法都對應一個更大的陰影面積,因此貝葉斯分類器是一種最小錯誤概率的分類器

一般情況下,不能直接得到後驗概率而是要通過貝葉斯公式

進行計算。式中的P(x│ωi)為在模式屬於ωi類的條件下出現x的概率密度,稱為x的類條件概率密度;P(ωi)為在所研究的識別問題中出現ωi類的概率,又稱先驗概率;P(x)是特徵向量x的概率密度。分類器在比較後驗概率時,對於確定的輸入x,P(x)是常數,因此在實際應用中,通常不是直接用後驗概率作為分類器的判決函式gi(x)(見線性判別函式)而採用下面兩種形式:

對所有的c個類計算gi(x)(i=1,2,c)。與gi(x)中最大值相對應的類別就是x的所屬類別。

最小風險貝葉斯分類器

由於客觀事物的複雜性,分類器作出各種判決時的風險是不一樣的。例如將癌細胞誤判為正常細胞的風險就比將正常細胞誤判為癌細胞的風險大。因此,在貝葉斯分類器中引入了風險的概念。在實際應用中根據具體情況決定各種風險的大小,通常用一組係數Cij來表示。Cij表示分類器將被識別樣本分類為ωi,而該樣本的真正類別為ωj時的風險。設計最小風險分類器的基本思想是用後驗概率計算將 x分類為ωi的條件風險

比較各Ri(x)的大小,與最小值對應的類別是分類的結果。評價這種分類器的標準是平均風險,它的平均風險最小。在實際應用時,後驗概率是難以獲得的,根據模式類別的多少和Cij的取值方式,可設計出各種分類器,例如模式為兩類時,判別函式為

如果選擇C11和C22為零,C12和C21為1,它就是兩類最小錯誤概率分類器。實際上,最小錯誤概率分類器是最小風險分類器的一種特殊情況。

設計貝葉斯分類器的關鍵是要知道樣本特徵 x的各種概率密度函式。條件概率密度函式為多元正態分佈是研究得最多的分佈。這是由於它的數學表示式易於分析,在實際應用中也是一種常見的分佈形式。經常使用引數方法來設計正態分佈的判別函式。

參考書目

福永圭之介著,陶篤純譯:《統計圖形識別導論》,科學出版社,北京,1978。