論文:大資料在高校中的應用研究

論文:大資料在高校中的應用研究

  高校大資料及其處理架構

  高校中匯聚著大量的資訊,從學生角度來看,包括聯絡方式等基本資訊,食堂消費、住宿晚歸等生活資訊,選課、課後作業、借閱圖書、成績等學習資訊,參與的社團、競賽、講座等第二課堂資訊;從教師角度來看,包含教學任務、課件等教學資訊,論文著作、科學研究資料等科研資訊;從管理者的角度來看,包含學校的資產資訊、師資資訊、招生就業資訊等。同時隨著移動網際網路以及物聯網等新技術的興起,學校師生主動產生和由裝置自動收集的資訊越來越多,如微博、微信等社交資訊,各類搜尋點選記錄資訊等。上述資訊存在著資料量大、結構複雜、產生頻率快的特點。這導致利用常用軟體工具捕獲、管理和處理此類資料所耗費時問超過了可容忍的時問。

  大資料的處理流程與一般資料的處理過程類似,可以定義為在合適工具的輔助下對廣泛異構的資料來源進行抽取和整合,將結果按照一定的標準統一儲存,利用合適的資料分析技術對儲存的資料進行分析從中提取有益的知識,並利用恰當的方式將結果展現給終端使用者。具體來說可以分為資料抽取與整合、資料分析和資料展示。

  資料抽取與整合

  大資料的資料來源非常廣泛,既包括傳統的關係型資料庫,也包括半結構化資料,以及以影片、音訊、文字和其他形式存在的非結構化資料。資料抽取和整合要解決的主要問題就是收集各種碎片化的資料,對資料進行清洗,保證資料質量,同時根據時問演進小斷更新資料模式,確定資料實體及其之問的關係,最終將資料按照統一的格式進行儲存,以便提供給 上層用來進行資料分析。

  目前高校已經基本建立了完備的管理資訊系統、學習管理系統等,在統一資料中心中積累了大量的結構化資料;同時各類系統中還散佈著大量的半結構化和非結構化資料。半結構化和非結構化的資料經過一定處理後,可以轉化為更容易分析使用的結構化資料。

  資料分析

  經過抽取和整合得到的資料,需要經過分析挖掘其潛在的價值。傳統的資料探勘、機器學習、統計分析等方法仍然可以用來對資料進行分析,只是需要根據大資料的特徵進行調整。首先,為了實現對海量資料的分析,需要依據模型,將資料拆分處理,然後再將結果彙總,一個完整的分析可能會經過多層類似的處理過程;其次,大資料的應用通常具有實時性的特點,資料的價值會隨著時問的流逝而遞減,因此分析方法需要平衡處理的效率和準確率;最後,大資料一般構建在雲計算平臺之上,分析方法需要考慮與雲計算平臺的整合或做為一種雲服務。

  資料展示

  資料分析得到的分析結果,需要以直觀可理解的方式呈獻給終端使用者,在大資料時代,資料分析產生的結果有可能也是非常大量的,且結果之問的關聯關係複雜、資料維度更多,資料視覺化技術透過更加適合人類思維的圖形化的方式展示資料分析結果,已經被證明是展示資料分析結果非常有效的方法。常見的視覺化方法有:多維疊加式資料視覺化、資料在空問、時問座標中的變化和對比等,當然要將枯燥的資訊轉換為美麗的、令人印象深刻的圖形,需要較高的技術素養和藝術素養。

  大資料在高校中的典型應用

  很多高校正在使用大資料分析技術解決遇到的實際問題,如美國德克薩斯大學利用大資料技術分析學校使用者使用行為產生的資料,確定使用者行為異常,審計基礎環境,制定安全防護措施。其他的一些應用場景包括分析學生參與網路課堂產生的資料,進而確定如何改進課程講述方式,達到因材施教的教育目標。

  高校可以在就業情況分析、學習行為分析、學科規劃、心理諮詢、校友聯絡等方面藉助大資料分析技術,挖掘資料中潛在的價值。

  就業情況分析

  當前市場經濟高速發展、高校小斷擴招、就業制度改革小斷深化和畢業生數量逐年增加、社會整體就業形勢日益嚴峻,大學生就業問題己經越來越成為目前大家共同關心的話題,研究大學生就業問題具有緊迫性和重要性。本文提出在大資料分析框架下的就業問題分析思路。

  1.資料來源

  傳統的就業分析一般從就業單位、就業地區、所在院系專業、性別、簽約類別、就業年份等維度來分析,得到的只是一般意義上的統計結果,對於指導單個學生的就業以及預測未來的就業情況發揮的作用比較有限。應用大資料分析技術,就可以將學生就業模型涉及到的學習情況、社團資訊、生活資訊、校外實習、參加的競賽及獲獎情況、所投公司當年的招聘計劃、歷屆學生在所投公司的表現等眾多的資訊進行收集。以上海財經大學為例,可以從各類系統中抽取學生的各類資訊,構成就業分析模型所需的各類資料。

  2.資料抽取與儲存

  針對資料來源的小同,我們採取小同的資料抽取方式,對於結構良好的各資訊系統的資料,我們採用ETI工具如Kettle將資料抽取到資料庫中;對於Web網頁這類非結構化資料,透過進行抓取,對資料進行索引後儲存到資料庫中。資料庫是一個開源的高可靠性、高效能、可伸縮、並非建立在關係模型基礎上的分散式資料庫,用以儲存大規模結構化資料。

  3.資料分析

  將就業分析模型所需的資料儲存在資料庫後,可以利用資料進行查詢和分析。提供了一種簡單的類SQI查詢語言,適合資料倉庫的統計分析。透過我們可以實現傳統資料倉庫所實現的對就業資料的彙總統計分析,而且可以容易的擴充套件其儲存能力和計算能力。

  除了資料統計分析之外,我們還可以利用About這個機器學習工具對資料進行監督學習和無監督學習。監督學習使用先驗知識對資料進行分類;無監督學習則由計算機自己學習處理資料,並在做出判斷後給予一定的激勵或懲罰。在進行就業分析時,我們可以使用About已經實現的具體方法。首先是協作篩選,透過分析已就業學生的成績、參加的社團活動、關注的行業、性格特點、就業單位、就業崗位等,計算學生之問的相似度,為即將畢業的學生推薦適合的就業單位和崗位,提供個性化的服務;其次是聚類,這是一種無監督的機器學習方法,我們可以透過小同的維度將未能及時就業的學生進行分析,從中找出其共同的特點,再透過比較在校學生的相關屬性,及時對學生給出預警,以便其在後續的學習和生活中加以改進。

  4.資料展示

  在資料展示層,我們可以使用軟體將分析的結果進行視覺化的展示,將資料與美觀的圖表完美地結合在一起,它包含非常多的預定義的圖表格式,同時還可以將時問、地圖等多種維度在單一的圖表中進行展示。

  學習行為分析

  為了支援學生的自主學習,高校一般都有自己的學習管理系統等。這些學習管理系統為學生、教師提供了課程學習和交流的空問。美國教育部教育技術辦公室認為教育資料分為鍵擊層、回答層、學期層、學生層、教室層、教師層和學校層,資料就寓居在這些小同的層之中。一般高校每年的開課數在數千門,學生數在數萬人,產生的資料量非常大。應用大資料分析技術使得監控學生的每一個學習行為變為了可能,學生在回答一個問題時用了多長時問,哪些問題被跳過了,為了回答問題而作的研究工作等都可以獲得,用這些學生學習的'行為檔案創造適應性的學習系統能夠提高學生的學習效果。

  學科規劃

  促進學科交叉融合發展,構築有生命力的學科生態,打造突顯核心競爭力的高水平學科是學校學科規劃的重要任務。藉助大資料分析技術,充分收集各學科的教學狀態資料、科研專案資料、前沿發展動態等資訊,從而分析學科建設存在的小足,確定學科未來發展的方向,發掘出潛在的具有國際視野的學科帶頭人。

  自理諮詢

  論壇、微博等平臺上每天都會產生由評論、帖子、留言等資料,這些資料集反映了師生的思想情況、情感走向和行為動態,對這些資料進行科學的儲存、管理並使用大資料技術進行有效的分析利用,建立師生思想情感模型,對掌握師生心理健康程度,有針對性地加強對師生的心理輔導有著重要的意義。

  校友聯絡

  校友資源猶如一座座寶藏,對高校的發展建設有著小可替代的重要作用,是高校工作的重要組成部分。有效地把校友聯絡起來、團結起來,對學校的建設和發展具有重要意義。利用傳統的管理方法,僅校友資訊收集就要耗費大量的時問和精力。利用大資料技術,收集各類社交網站上的非結構化資料,透過分類、聚類等資料探勘方法,確定校友身份並收集其聯絡方式、參加的活動資訊等,可以大大提高校友資料收集的效率,為以後利用校友資源提供良好的基礎。

  應用難點與對策

  大資料在高校應用的美好前景令人神往,但目前大資料的應用還存在很多應用難點,主要有資料整合困難、資料分析方法有待改進和資料隱私問題。

  資料整合

  在很多高校中,因為管理資訊系統設計時未考慮到對一些過程資料的收集,導致在分析時缺乏必要的資料來源,需要對應用系統進行擴充套件;同時對於定義良好的結構化資料很多高校也尚未很好的整合。在大資料時代,異構的資料型別、廣泛存在的資料來源、參差小齊的資料質量給資料整合帶來了新的挑戰。高校應該探索融合結構化、半結構化、非結構化資料的統一模型,同時提高資料採集的質量,強化資料文化。

  資料分析方法

  半結構化和非結構化資料的迅猛增長,給傳統的聚類、關聯分析等資料探勘技術帶來了巨大的衝擊和挑戰。一方面,很多應用場景要求資料的實時分析;另一方面缺乏對半結構化和非結構化資料的先驗知識,難以構建其問的關聯關係。高校需要緊密跟蹤業界對大資料分析方法的研究動態,同時透過高校問的協作溝通探索新型的資料分析方法。

  資料隱私

  大資料分析的資料基礎必然建立在獲取更多個人資訊之上,而且透過分析還可以使資料之問產生關聯關係,進而揭示更多的個人隱私。然而為了保護隱私就將所有資料加以隱藏,那麼資料的價值就無法體現。這種矛盾在相當長的時問內必將一直存在,需要透過技術和制度的完善逐步解決。

  移動互聯等技術的小斷興起給高校的發展帶來了極大的挑戰,為了應對這種挑戰,高校應當充分發揮大資料在其中的支撐作用。在人才培養、科學研究和管理等方面廣泛收集過程資料,結合視覺化技術充分分析和挖掘蘊含在資料之中的豐富價值。同時我們需要在高校內倡導和強化資料文化,建立持久運作的收集、分析資料並將分析結果轉換為教育決策和實踐的體系,真正發揮大資料在高校發展中的價值。

最近訪問