什麼是資料聚類資料聚類的原理
資料聚類是對於靜態資料分析的一門技術,在許多領域受到廣泛應用,包括機器學習,資料探勘,模式識別,影象分析以及生物資訊。那麼你對資料聚類瞭解多少呢?以下是由小編整理關於什麼是資料聚類的內容,希望大家喜歡!
資料聚類的基本原理
聚類是把相似的物件通過靜態分類的方法分成不同的組別或者更多的子集subset,這樣讓在同一個子集中的成員物件都有相似的一些屬性,常見的包括在座標系中更加短的空間距離等。一般把資料聚類歸納為一種非監督式學習。
資料聚類的型別
資料聚類演算法可以分為結構性或者分散性。結構性演算法利用以前成功使用過的聚類器進行分類,而分散型演算法則是一次確定所有分類。結構性演算法可以從上之下或者從下至上雙向進行計算。從下至上演算法從每個物件作為單獨分類開始,不斷融合其中相近的物件。而從上之下演算法則是把所有物件作為一個整體分類,然後逐漸分小。
結構性
距離測量
在結構性聚類中,關鍵性的一步就是要選擇測量的距離。一個簡單的測量就是使用曼哈頓距離,它相當於每個變數的絕對差值之和。該名字的由來起源於在紐約市區測量街道之間的距離就是由人步行的步數來確定的。一個更為常見的測量是歐式空間距離,他的演算法是找到一個空間,來計算每個空間中點到原點的距離,然後對所有距離進行換算。
建立聚類
在已經得到距離值之後,元素間可以被聯絡起來。通過分離和融合可以構建一個結構。傳統上,表示的方法是樹形資料結構,然後對該結構進行修剪。
分散性
K-均值法及衍生演算法
K-均值法聚類 K-均值演算法表示以空間中k個點為中心進行聚類,對最靠近他們的物件歸類。
例如: 資料集合為三維,聚類以兩點: X = x1, x2, x3 and Y = y1, y2, y3. 中心點Z 變為 Z = z1, z2, z3, where z1 = x1 + y1/2 and z2 = x2 + y2/2 and z3 = x3 + y3/2. 演算法歸納為 J. MacQueen, 1967:
選擇聚類的個數k. 任意產生k個聚類,然後確定聚類中心,或者直接生成k箇中心。 對每個點確定其聚類中心點。 再計算其聚類新中心. 重複以上步驟直到滿足收斂要求。通常就是確定的中心點不再改變. 該演算法的最大優勢在於簡潔和快速。劣勢在於對於一些結果並不能夠滿足需要,因為結果往往需要隨機點的選擇非常巧合。
資料聚類的原理
- 什麼是資料聚類資料聚類的原理
- 初三畢業班家長會學生代表發言稿
- 狗尾巴草的花語及用途介紹
- 適合一個人安靜時聽的歌曲排行榜
- 屬蛇辦公室風水佈局注意事項
- 英語課前的一分鐘演講稿
- 夢見初戀情人來找我是怎麼回事
- 清洗節氣門之後該如何匹配
- 怎麼設定系統開機啟動項
- 綠色牛軋糖的做法是怎樣的
- 黃山自由行旅遊攻略
- 商務社交禮儀常識
- 光繪攝影技巧大全
- 慶典表彰講話稿精選
- 關於茶花花語是什麼
- 最完美的自我介紹畢業生面試
- 有關描寫春節的古詩句文藝
- 維修工程承包合同範本
- 關於籃球經典勵志格言有哪些
- 描寫學習的成語大全
- 康熙字典五行屬金的字
- 康熙字典五行屬木的字
- 康熙字典五行屬水的字
- 康熙字典五行屬火的字
- 康熙字典五行屬土的字