電力企業文字資料探勘技術探究教學論文
電力企業文字資料探勘技術探究教學論文
摘要:在國家電網公司資訊化工程的建設過程中,積累了大量的文字資料。如何挖掘文字資料中蘊含的有價值資訊將成為電力企業大資料探勘方向研究的重點物件。文章結合電力行業目前的資料現狀,使用文字挖掘的方法對電力裝置檢修資金投入工作效能場景進行挖掘,對生產資訊管理系統中報缺單資料進行文字聚類,實現對缺陷的細分。實踐表明,該方法可以得出各類別的缺陷特徵,從而證明了文字挖掘在電力行業的可用性。
關鍵詞:電力裝置檢修;文字資料;文字挖掘;大資料探勘
隨著資訊化的快速發展,國家電網公司各專業積累的資料量越來越龐大。龐大資料的背後,由於資料結構和儲存方式的多樣化以及電力系統內部不同專業從業者的知識面層次不齊等,其中被利用的資料只佔少量的部分,造成大量的有價值資料被浪費。在被浪費的資料中,以文字形式存在的資料佔很大比重,如何從比較複雜的文字資料中獲得需要的資料受到國家電網公司的普遍關注。國家電網公司經過SG186、三集五大等大型資訊化工程的建設,積累了海量的業務資料,其中包括大量的文字資料。目前,國家電網公司對業務資料的利用主要集中在結構化資料的統計和分析,這些方法無法直接應用在非結構化文字資料中,更無法對其中隱含的價值規律進行深度分析挖掘。針對非結構化文字資料量不斷增大、業務應用範圍不斷擴大這一現狀,為了提升國家電網公司企業運營管理精益化水平,需要進一步挖掘非結構化資料中潛在的資料價值。因此,開展電力大資料文字資料探勘技術應用場景和一般流程的研究顯得尤為重要[1]。
1非結構化資料概述
與結構化資料(能夠用二維表結構遵循一定的邏輯語法進行體現的資料)相比,非結構化資料不能在資料庫中採用二維結構邏輯形式來表示,這些形式主要有Word文件、文字、圖片、標準通用標記語言下的子集XML、HTML、Excel報表、PPT、Audio、Video、JPG、BMP等。半結構化資料處於完全結構化資料(邏輯型、關係型資料庫中的資料)和完全無結構化資料(BMP、JPG、Video檔案)中間,它一般的功能是對系統檔案的描述,如系統應用幫助模組,有一定的邏輯結構,同時也包含資料格式,兩者相融在一起,比較均衡,沒有明顯的界限[2]。進入21世紀後,網路技術飛速發展,特別是內聯網和因特網技術取得突飛猛進的發展,各類非結構資料型別格式日益增多,以往的資料庫主要用於管理結構化資料,對於非結構化資料的管理稍顯乏力,為了適應非結構資料的迅猛發展,資料庫的革新勢在必行,在內聯網和因特網技術的基礎上,對資料庫的內在結構進行改進和創新,使其能夠相容和處電力資訊與通訊技術2016年第14卷第1期8電力大資料技術理非結構資料形式。北京國信貝斯是我國非結構化資料庫開發和設計的領軍者,其旗下開發的IBase資料庫能夠相容和處理目前市面上存在的各種檔名、格式、多媒體資訊,能夠基於內聯網和網際網路對海量資訊進行搜尋、管理,技術已經達到全球領先水平。
2文字挖掘技術
2.1文字挖掘
文字挖掘的物件是用自然語言描述的語句、論文、Web頁面等非結構化文字資訊,這類資訊無法使用結構化資料的挖掘方法進行處理;文字挖掘指透過對單個詞語和語法的`精準分析,透過分析結構在海量的非結構化資料中檢索意思相近的詞語、句子或者資訊[3]。
2.2文字挖掘流程
挖掘流程如圖1所示。圖1挖掘流程Fig.1Miningprocedure1)文字預處理:把與任務直接關聯的資訊文字轉化成可以讓文字挖掘工具處理的形式,這個過程分3步:分段;預讀文字,把文字特徵展現出來;特徵抽取。2)文字挖掘:完成文字特徵抽取後,透過智慧機器檢索工具識別符合主題目標的文段資訊,在海量資訊或者使用者指定的資料域中搜索與文字預處理後得出的文字特徵相符或相近的資料資訊,然後透過進一步識別和判斷,達到精確檢索的目的,這是一個非常複雜的過程,縱跨了多個學科,包括智慧技術、資訊科技、智慧識別技術、非結構資料庫技術、視覺化技術、預處理技術、讀碼技術等。3)模式評估:模式評估是使用者根據自己的需求主題設定符合自己需求主題或目標的模式,把挖掘到的文字或資訊與自己設定的模式進行匹配,如果發現符合主題要求,則儲存該資料和模式以方便使用者呼叫,如果不符合,則跳轉回原來的環節進行重新檢索,然後進行下一個匹配過程的模式評估。
2.3文字挖掘技術分析
解決非結構化文字挖掘問題,現階段主要有2種方法:一是探索新型的資料探勘演算法以準確挖掘出相應的非結構化資料資訊,基於資料本身所體現的複雜特性,使得演算法的實施愈加困難;二是把非結構化問題直接轉換成結構化,透過實施相應的資料探勘技術達到挖掘目的。而在語義關係方面,就要應用到特定的語言處理成果完成分析過程。下文是根據文字挖掘的大致流程來介紹其所用到的相關技術。
2.3.1資料預處理技術
文字資料預處理技術大致可分為分詞技術、特徵表示以及特徵提取法。1)分詞技術主要有兩大類:一種為針對詞庫的分詞演算法;另一種為針對無詞典的分詞技術。前者主要包含正向最大/小匹配和反向匹配等。而後者的基礎思路為:在統計詞頻的基礎上,把原文中緊密相連的2個字當作一個詞來統計其出現的次數,若頻率較高,就有可能是一個詞,當該頻率達到了預設閾值,就可把其當作一個詞來進行索引。2)特徵表示通常是把對應的特徵項作為本文的標示,在進行文字挖掘時只需要處理相對應的特徵項,就能完成非結構化的文字處理,直接實現結構化轉換目的。特徵表示的建立過程實際上就是挖掘模型的建立過程,其模型可分為多種型別,如向量空間模型與機率型等[5]。3)特徵提取法通常是建立起特定的評價函式,以此評價完所有特徵,然後把這些特徵依照評價值的高低順序進行排列,將評價值最高項作為優選項。在實際文字處理過程中所應用的評價函式主要包括資訊增益、互資訊以及詞頻等。
2.3.2挖掘常用技術
從文字挖掘技術的研究和應用情況來看,在現有的文字挖掘技術類別中應用較為廣泛的主要包括文字分類、自動文摘以及文字聚類[4-5]。1)文字分類。文字分類是給機器新增相應的分類模型,當用戶閱讀文字時能夠更為便捷,在搜尋文字資訊時,能夠在所設定的搜尋範圍內快速和準確的獲取。用於文字分類的演算法較多,主要有決策樹、貝葉斯分類、支援向量機(SVM)、向量空間模型(VectorSpaceModel,VSM)、邏輯迴歸(LogisticRegression,LR)以及神經網路等。2)自動文摘。自動文摘是透過計算機技術智慧的把原文的中心內容濃縮成簡短、連續的文欄位落,以此來儘可能地降低使用者閱讀的文字資訊量。3)文字聚類。文字聚類與文字分類的作用大抵相同,所實施的過程有所區別。文字聚類是將內容相近的文字歸到同個類別,儘可能地區分內容不同的文字。其標準通常可以依照文字屬性或者文字內容來進行聚類。聚類方法大致可分為平面劃分法與層次聚類法。另外,除了上述常用的文字挖掘技術,許多研究還涉及關聯分析、分佈預測分析和結構分析等。
2.3.3文字挖掘系統模式評估方法
資料探勘系統的評估是至關重要的,現在已有大量的研究來衡量這一標準,以下是公認的評估方法。1)查全率和查準率。查全率代表實際被檢出的文字的百分比;查準率是所檢索到的實際文字與查詢相關文字的百分比。2)冗餘度和放射性。冗餘度表示資訊抽取中冗餘的程度;放射性表示一個系統在抽取事實不斷增多時產生錯誤的趨勢。最低的冗餘度和放射性是系統追求的最終目標。3)雙盲測試。先用機器生成一組輸出結果,再由相關專家產生一組輸出結果,然後混合2組輸出結果,這種混合後的輸出集再交給另一些相關專家進行驗證,讓他們給予準確性方面的評估。
3電力行業文字挖掘可研究例項
文字挖掘技術在國內電力行業屬於新興的前沿領域,對從業人員的素質要求相對比較高。由於現階段知識和技術層面上匱乏,國家電網幾乎沒有關於此方面的專案實施。本節透過2個電力運營監測業務的應用需求,初步探討文字挖掘的建模過程。
3.1電力運營監測業務應用需求
1)檢修資金投入工作效能分析場景分析。大檢修和技改是保障電網安全的重要工作。由於運檢業務系統的資料質量問題,透過對量化資料的統計,無法準確掌握大修、技改資金投入的工作效能情況。但裝置的實際執行狀態可以透過文字類故障記錄、執行日誌等進行反映,因此,採用文字挖掘技術對檢修工作效能進行分析與視覺化展現,同時結合傳統的統計方法,實現對大修技改資金投入工作效能的分析和監測。例如,可以透過分析歷年的故障記錄資訊,反映出每年主要故障變化情況,進而結合每年大修技改資金投入情況,分析資金投入是否與預期目標相一致。2)家族缺陷識別分析。家族缺陷是指同一廠家生產的同一型號、同一批次的裝置在執行過程中出現了相同或相似的缺陷。家族缺陷識別分析是透過對執行記錄、故障記錄等裝置執行文字資訊的挖掘和視覺化分析,對裝置家族缺陷進行識別。該場景既可以輔助基層業務人員對家族缺陷進行準確判斷,同時可以作為一種輔助手段為總部專家判定家族缺陷提供參考,從而實現對家族缺陷辨識方式的最佳化,並基於此為檢修計劃制定、廠商評價、採購建議等提供決策支撐。
3.2文字分析建模過程
第1步:將原始的非結構化資料來源轉換為結構化資料,分析文字集合中各個文字之間共同出現的模式;彙總與家族缺陷相關的所有文件,形成原始資料來源的集合。第2步:對原始資料來源的集合進行分詞處理,建立特徵集,使用詞頻/逆文件頻率(TermFrequency-InverseDocumentFrequency,TF/IDF)權值計算方法得到各個點的維度權值,判斷關鍵字的詞頻,例如“主變1號”執行記錄中多次出現,但在故障記錄中很少出現,那麼認為“主變1號”有很好的類別區分能力。第3步:對分詞後的文件建立索引,彙總所有文件的索引形成索引庫,並對索引庫排序。第4步:文件向量化;構建向量空間模型,將文件表達為一個向量,看作向量空間中的一個點;實際分析過程中對多維資料首先將其降低維度,降低維度後得到一個三維空間模型,文件向量化生成文件特徵詞對應表、文件相似度表。第5步:結合業務實際,對相似度較高的表中出現的關鍵字進行比對,例如:“主變1號”、“停電故障”等關鍵字在多個日誌中頻繁出現,則該文件所記錄的相關裝置存在異常的可能性較大。
3.3文字分析應用及成效
對生產資訊管理系統中報缺單資料中的報缺單名稱進行文字聚類,實現對缺陷的細分,進而對各類別在非聚類變數上進行分析,得出各類別的缺陷特徵。經過近一年以來在國網遼寧電力公司的逐步應用,科學的分析挖掘出缺陷主要集中在開關、主變、指示燈、直流、冷卻器、調速器等裝置,主要出現啟呂旭明(1981–),男,河北保定人,高階工程師,從事電力企業資訊化、智慧電網及資訊保安研究與應用工作;雷振江(1976–),男,遼寧瀋陽人,高階工程師,從事電力資訊化專案計劃、重點專案建設、資訊科技研究與創新應用、資訊化深化應用等相關工作;趙永彬(1975–),男,遼寧朝陽人,高階工程師,從事電力資訊通訊系統排程、執行、客服及資訊保安等相關工作;由廣浩(1983–),男,遼寧遼陽人,工程師,從事資訊網路建設、資訊保安等工作。作者簡介:動、漏水、停機、滲水等缺陷現象。公司故障處理快速響應、及時維修、提高供電質量和服務效率得到了顯著的提升。電力裝置故障缺陷特徵示意如圖2所示。
4結語
國家電網文字挖掘的目的是從海量資料中抽取隱含的、未知的、有價值的文字資料,利用資料探勘技術處理電力公司文字資料,將會給企業帶來巨大的商業價值。本文提出的關於檢修資金投入工作效能分析和家族缺陷識別分析2個文字挖掘例項只是文字挖掘在電力行業應用的一角。如今,資料探勘技術與電力行業正處於快速發展階段,文字挖掘的應用將越來越廣泛。下一階段的研究目標是探尋有效辦法將資料探勘技術融入到文字挖掘領域的實際應用中,使得國家電網文字挖掘專案得以順利實施,並達到預期成效。
參考文獻:
[1]費爾德曼.文字挖掘(英文版)[M].北京:人民郵電出版社,2009.
[2]孫濤.面向半結構化的資料模型和資料探勘方法研究[D].吉林:吉林大學,2010.
[3]胡健,楊炳儒,宋澤鋒,等.基於非結構化資料探勘結構模型的Web文字聚類演算法[J].北京科技大學學報,2008,30(2):217-220.HUJian,YANGBing-ru,SONGZe-feng,etal.Webtextclusteringalgorithmbasedonnonstructuraldataminingmodel[J].JournalofUniversityofScienceandTechnologyBeijing,2008,30(2):217-220.
[4]周昭濤.文字聚類分析效果評價及文字表示研究[D].北京:中國科學院研究生院(計算技術研究所),2005.
[5]TANPN,STEINBACHM,KUMARV.資料探勘導論(英文版)[M].北京:人民郵電出版社,2006.