基於關聯規則演算法的高職英語教學中的分析研究論文

基於關聯規則演算法的高職英語教學中的分析研究論文

  摘 要:本文重點討論資料探勘演算法在高職英語教學中的應用和研究,文中以無錫科技職業學院為模型,採用關聯規則演算法挖掘該校所屬學生在三個學期之內的英語成績的分佈和相關影響結果。

  關鍵詞:關聯規則演算法;英語教學

  1 引言

  近年來,隨著中國社會經濟的飛速發展,市場經濟體制的不斷完善,特別是加入WTO後,使中國企業有更多的機會在全球發達的市場中展示實力和發展自己的事業,實現了跨國經營。國際大學英語人才在社會經濟發展中的作用也因此越來越受到各類企事業單位的重視。可是,市場對大學英語人才的需求是多元化的,它不僅需要傳統意義上的“學術型”人才,更需要“技術型”,“技能型”應用人才。為此,我們必須探討符合時代發展要求的人才培養模式,否則高職大學英語就不能形成自己的特色,就無法建立起有別於普通高職“大學英語”的課程模式。“從而不會具有很強的生命力,也就沒有它發展的空間,甚至失去它作為一種高等教育型別存在的意義。”

  本文研究的重點是探討具有高職大學英語課程教學中關於資料探勘演算法在應用課程目標、課程內容,師資隊伍、教學方法、教學評價中所做的工作,這些是體現高職大學英語課程特色的關鍵所在。

  2 關聯規則挖掘的建構

  關聯規則挖掘是尋找資料項中的有趣聯絡,決定哪些事情將一起發生。關聯規則挖掘研究是近幾年研究較多的資料探勘方法,在資料探勘各種方法中應用的也最廣泛關聯規則的發現可以分成兩個步驟:首先發現所有頻繁項集,然後用這些頻繁項集生成強關聯規則。Apriori演算法是經典的頻繁專案集生成演算法,在資料探勘界起著里程碑的`作用,它的基本思想是利用一個層次順序搜尋的迭代方法來生成頻繁項集,即利用K-項集來生成(K+1)-項集,用候選項集Ck找頻繁項集Lk。這個方法要求多次掃描可能非常大的交易資料庫。而用於關聯規則挖掘的事物資料庫的規模通常是非常大的,這樣一來,開銷就非常大。而在有限的記憶體容量下,系統I/O負載相當大,每次掃描資料庫的時間就會很長,這樣,其效率就非常低。

  關聯規則挖掘的任務就是在事務資料庫D中找出具有使用者給定的最小支援度和最小置信度的強關聯規則。強關聯規則對應的項集必定是頻繁項集,而頻繁項集匯出的關聯規則的置信度又可由頻繁項集和的支援率計算。於是,可以將關聯規則挖掘分解為以下兩個步驟:

  步驟一:根據最小支援度找出D中所有的頻繁項集。

  步驟二:根據頻繁專案集和最小置信度產生強關聯規則。

  在上述兩個步驟中,步驟一的任務是迅速高效地找出D中全部的頻繁項集,關聯規則挖掘的整體效能由該步驟決定。因此,目前所有的關聯規則挖掘演算法都集中在步驟一的研究上。步驟二是比較容易實現的,首先對於每個頻繁項集l,產生l的所有非空子集。然後對於每個l的非空子集s,如果,則輸出規則“s=>(l-s)”。

  關聯演算法如下:

  輸入:交易資料庫D;最小支援度min_sup

  輸出:交易資料庫D的頻繁項集L

  1)L1={頻繁1項集};

  2)for(k=2;Lk-1≠;k++) {

  3) Ck=Apriori-gen(Lk-1,min_sup);//新的候選專案集

  4) for 所有事務t∈D {

  5) Ct=subset(Ck,t);//t中所包含的候選

  6) for 所有候選c∈Ct

  7) c.count++;

  8) }

  9) Lk={c∈Ck│c.count≥minsup}

  10) }

  11)return L=∪kLk

  3 挖掘結果

  下表1是學院2007級學生入學以來三次大學英語的成績,在資料探勘階段,先用前述的演算法掃描資料庫,得到最小支援度閾值min_sup的全體頻繁項集,再由頻繁項集匯出規則知識,最後,對挖掘結果加以解釋並轉換成易於理解的顯式知識。

  表1 學生英語成績樣本

  xh

  k1

  k2

  k3

  100072351

  86

  85

  75

  100072352

  88

  82

  69

  100072353

  81

  86

  79

  100072354

  84

  85

  77

  100072355

  78

  85

  83

  100072356

  82

  87

  84

  100072357

  65

  83

  89

  例項的執行結果與分析:假定取事務數為10。要對錶中的優秀課程進行關聯規則挖掘,需要給出支援度和置信度。假定最小支援度為30%,置信度為50%。由上述分析得知,計算最終頻繁項集的各非空子集的置信度,刪除小於最小置信度閾值的記錄,最終產生關聯規則:

  (1) k1,k2同時優秀時,k3有大於67%的優秀的可能;

  (2) k1,k3同時優秀時,k2有大於100%的優秀的可能;

  (3) k2,k3同時優秀時,k1有大於100%的優秀的可能;

  (4) k1優秀時,k2,k3有大於67%同時優秀的可能;

  (5) k3優秀時,k1,k2有大於80%同時優秀的可能。

  參考文獻:

  [1]邵峰晶、於忠清著.資料探勘原理與演算法[M].中國水利水電出版社,2008.8

  [2]Robert Grossman.The Terabyte Challenge Disyte Challenge Discoverying Informationin Distributed and Massive Data[J]. American Association forArtificial Intelligence.CaliL 1991.

  [3]林宇等著.資料倉庫原理與實踐[M].人民郵電出版社,2008.1

最近訪問