決策樹演算法在高職院校成績分析中的應用研究的論文

決策樹演算法在高職院校成績分析中的應用研究的論文

  摘 要:高職院校的學生的成績是一項重要的資料,它不僅是對學生學習情況的評價,也是對教師教學質量的檢查。本文研究了使用決策樹演算法對學生的成績進行挖掘分析,分析學生的畢業設計成績與基礎類課程、專業類課程以及專項實踐類課程之間隱藏的內在聯絡,指導教師在今後的教學中加強學生實踐操作能力的訓練,進而提高教學質量。

  關鍵詞:決策樹; ID3演算法; 資料探勘 ;學生成績分析

  1.引言

  高職院校在多年的教學和管理工作中,積累了大量的教學管理資料,這些資料中蘊含了很多有價值的資訊。如果利用資料探勘技術對學院教務管理系統中教師和學生的資料進行挖掘,可以使教師更好的把握學生、把握教學過程,實現教學過程動態化管理,為學校合理設定課程、最佳化教育資源配置、提高教學質量提供可靠的資料依據,同時對提高學校教學和管理水平也有一定的幫助。[1]

  資料探勘(Data Mining),即資料庫中的知識發現,就是對龐大的資料集或資料庫進行分析,挖掘出隱含的、未知的、使用者可能感興趣的和對決策有潛在價值的知識和規則,可以為使用者提供決策的依據[2]。決策樹演算法是資料探勘的核心演算法之一,決策樹方法以樹型結構表達最終分類結果的,也能生成If-Then形式的規則,便於使用者理解。

  在教務管理系統中,學生的成績是一項重要的資料,它不僅是對學生學習情況的評價,也是對教師教學質量的.檢查。本文中研究使用決策樹演算法對學生的成績進行挖掘分析,全面地分析學生的畢業設計成績與實踐類課程、專業類及基礎類課程中隱藏的內在聯絡,體現出學生課程之間有一定的相互關聯關係,可以及時指導教師在以後的教學工作中採取恰當的方法,加強學生實踐操作能力的訓練,指導學生進行專業、基礎類課程的學習,提高教學質量。

  2.決策樹演算法

  2.1決策樹演算法基本概念

  決策樹是一種常用的、直觀的分類歸納演算法。決策樹是一種類似流程圖的樹狀結構,根據層次的不同,結點分為根結點、內部結點和葉結點三種類型。[3] 每個結點對應一個樣本集,樹的最高層結點就是根結點,對應整個樣本集,內部結點對應一個類標誌。根結點和內部結點都包含一個對樣本屬性的測試,根據測試的結果將樣本集劃分為兩個或多個子集,每個子集生成一個分支,分支用測試屬性值來標識。葉結點包含一個類標誌,表示對應樣本集的類別。決策樹的中間結點通常用矩形表示;而葉子結點常用橢圓表示。

  決策樹的構造包括兩個步驟,一是生成決策樹,二是進行剪枝。決策樹的生成是從一個根結點開始,從下到下的遞迴過程,透過不斷地將訓練樣本分割成子集來構造決策樹,從根結點開始對該樣本的屬性進行測試,根據測試結果確定下一個結點,直至到達葉結點為止。決策樹的剪枝是對樹結構進行修剪,刪除多餘分支的過程,得到一棵最小期望錯誤率的決策樹。

  2.2 ID3演算法

  ID3演算法是決策樹學習演算法中最有影響力、使用最廣泛的一種決策樹演算法。ID3的基本思想是自頂向下遞迴地使用搜索訓練樣本集,是一種典型的貪心演算法,在決策樹的每個結點處測試每一個屬性,用資訊增益作為屬性的選擇標準,選擇資訊增益最大的屬性作為決策樹結點,從而構建決策樹。[4]在演算法中,在決策樹結點屬性的選擇上使用資訊理論中熵(Entropy)的概念來完成。

  2.2.1 資訊熵

  資訊熵是各自資訊量的期望,用資訊熵可以用來度量整個資訊源X整體的不確性。設樣本資料集為X, n是訊號源所有可能的符號數,ai是可能取到的值,P(ai)是取值為ai的機率。其資訊熵如下:

  2.2.3平均資訊增益

  資訊增益表示兩個資訊量之間的差值,在進行分類屬性的選擇時,應該選擇最大的資訊增益作為分類屬性。資訊增益如下:

  Gain(XY)= H(X)-H(XY)

  3.決策樹演算法在教學質量分析中的應用

  學生的畢業設計通常是學生對三年來所學的各種基礎素養類課程、專業類課程、專項實踐類課程的綜合掌握,是體現一個學生的綜合素質的重要依據,也是教師培養學生的教學質量的重要體現。因此,透過對學生的畢業設計和各種基礎課、專業課及專業實踐課的考試成績的挖掘,分析出其中的關係,為今後教師調整教學方案提供依據。

  決策樹演算法對學生成績進行分析,是將決策樹的相關演算法應用於學生成績挖掘,對大量的考試成績資料進行分析,從而更好的分析和預測成績資料。[5]其主要過程如下:

  3.1資料收集

  資料收集階段主要工作是從教務管理系統中收集與挖掘相關的學生成績資料,並進行簡單的統計分析,檢查這些學生成績資料是否完整。

  在進行資料探勘之前,主要收集了我院2008級軟體技術專業0801班42名學生不同學期的課程成績作為原始資料,一共選擇了9門課程。學生成績表的主要內容包括學號及各門課程成績。進行分類整理後,得到學生成績資料表。

  學號

  計算機網路基礎

  C語言程式設計

  WEB開發技術

  資料庫原理與應用

  ASP.NET程式設計

  C#程式設計

  資料庫設計與開發

  基於C#的ASP.NET應用程式設計

  基於C#的Windows應用程式設計

  畢業設計

  100080563

  80

  80

  76

  74

  90

  89

  良好

  良好

  良好

  中等

  100080575

  85

  86

  88

  76

  92

  94

  良好

  優秀

  優秀

  優秀

  100080593

  60

  75

  95

  69

  79

  80

  中等

  及格

  及格

  及格

  ……

  其中計算機網路基礎、C語言程式設計、WEB開發技術三門為基礎類課程,資料庫原理與應用、ASP.NET程式設計、C#程式設計三門為專業類課程,資料庫設計與開發、基於C#的ASP.NET應用程式設計、基於C#的Windows應用程式設計三門為專項實踐類課程。

  3.2資料預處理

  資料預處理的主要工作就是檢查資料庫中不完整的、含噪聲的,不一致的的資料,並且進行清理,除去噪音,填補記錄中遺漏的資料值、刪除無效資料等,提高挖掘演算法的精度和有效性。並且要對資料進行轉換,生成新的屬性或記錄,使之適合資料探勘處理的格式,預處理後的資料可以節省資料處理的時間。

  在學生成績表中,對學生因缺考、緩考、違紀、休學、退學等情況產生的成績記錄的缺失,可考慮進行清理,刪除這些記錄,確保表格資料的完整。最後形成有效資料共42條記錄。

  3.3資料轉換

  將收集到的資料資訊轉換為一個數據模型, 決策樹演算法中使用的是離散型資料,學生成績是連續型的,因此,要將其資料屬性進行離散化處理。

  學生成績的成績評價指標可分為三個等級,A:85-100(優秀),B:70-84(良好),C:69以下(一般)。離散化後的學生成績表如下圖所示:

  學號

  基礎課

  專業課

  專項實踐課

  畢業設計

  100080563

  B

  B

  B

  B

  100080575

  A

  A

  A

  A

  100080593

  B

  C

  C

  C

  ……

  3.4 資料分類挖掘

  根據生成的分析模型,利用決策樹演算法對資料進行挖掘,具體情況如下。

  學生成績表中樣本類別屬性為畢業設計,首先計算出畢業設計的資訊熵。畢業設計成績分為A(優秀)、B(良好)、C(一般)三種類別,其中優秀為3人,良好為28人,一般為11人,根據公式計算其資訊熵如下:

  (3)根據專項實踐課成績計算條件熵。

  專項實踐課成績為"A"人數為7人。其中畢業設計成績為"A"的2人,為"B"的5人,為"C"的0人。專項實踐課成績為"B"人數為25人,其中畢業設計成績為"A"的1人,為"B"的16人,為"C"的8人。專項實踐課成績為"C"人數為10人。其中畢業設計成績為"A"的0人,為"B"的7人,為"C"的3人。因此其條件熵為:

  H(X專項實踐課)=

  =1.022

  其資訊增益為:

  Gain(專項實踐課)=1.168-1.022=0.146

  由上述計算可見,專項實踐課成績屬性所獲得的資訊增益最大,被作為根結點,並依次取專業課成績、基礎課成績屬性做為分支結點。透過構造和剪枝後,形成如圖所示的決策樹:

  3.5 結果分析

  透過對上述決策樹的分析,可得出如下結論:

  專項實踐、專業課、基礎課成績均優秀的同學,畢業設計成績優秀。專項實踐優秀、專業課成績一般的同學,無論基礎課成績如何,畢業設計成績均為一般。由決策樹分析可見,專項實踐、專業課、基礎課在學生的綜合素質的培養中起到了不同程度的作用。專項實踐課對學生的綜合能力的培養有重要的影響,但不是絕對因素,基礎課和專業課的教學安排,對學生的實踐能力的訓練起到了很大的支撐作用。因此,在專業的課程安排和教師的教學組織中,要注重學生的知識的學習與技能的訓練的有機結合,提高學生的綜合能力。

  4.結束語

  利用決策樹分類演算法的ID3 演算法對學生的成績進行分析,構造出學生成績分析決策樹,可以挖掘出學生的畢業設計成績與基礎課程、專業課程、專項實踐課程之間的隱藏關係,同時也挖掘出各類課程的學習對學生綜合素質培養的影響。教師可以根據分析結果在今後的教學過程中,注重加強學生的專業能力培養、實踐能力訓練,培養出合格的高階技能型人才。

  參考文獻:

  [1]丁智斌,袁方,董賀偉.資料探勘在高校學生學習成績分析中的應用[J].計算機工程與設計.2006.2(590-592)

  [2]邵峰晶,於忠清,王金龍,孫仁誠. 資料探勘原理與演算法[M].北京:科學出版社.2009.

  [3]陳安,陳寧,周龍驤.資料探勘技術及應用[M].北京:科學出版社.2006.

  [4]廖芹,郝志峰,陳志宏.資料探勘與數學建模[M].北京:國防工業出版社.2010.

  [5]邢曉宇,餘建坤,陳磊.決策樹演算法在學生考試成績中的應用[J].雲南民族大學學報(自然科學版).2009.1(77-80)

最近訪問