試論資料探勘在化學研究生產中的應用論文
近年來,資料探勘引起了資訊產業界的極大關注,其主要原因是存在大量資料,可以廣泛使用,並且迫切需要將這些資料轉換成有用的資訊和知識。獲取的資訊和知識可以廣泛用於各種應用,包括商務管理,生產控制,市場分析,工程設計和科學探索等。以下是小編為大家精心準備的:試論資料探勘在化學研究生產中的應用相關論文。內容僅供參考,歡迎閱讀!
試論資料探勘在化學研究生產中的應用全文如下:
1 引言
化學是一門研究化合物組成、性質以及變化的一門學科。在長期的化學、化工實驗中產生了大量的資料,但是資料的海量增加卻造成了諸如資訊過量、資訊保安隱患、資訊真假難辨等困難。同時,這些海量的資料內部存在著很多有價值的資訊和規律,如何從這些資料中發現更多更有價值的資訊和規律也成為化學、化工專家關注的焦點,需要是發明之母,面對這一要求,資料探勘技術在化學、化工中的應用也就應運而生,並顯示了強大的生命力。在化學領域內,資料探勘理論和演算法的發展,極大地促進了計算機化學、化學計量學和化學資訊學等新學科的發展。本文就針對資料探勘方法在化學、化工各方面的應用進行簡述。
2 資料探勘的概述
資料探勘***Data mining***,是資料庫知識發現***KDD, Knowledge-Discovery in Databases***中的一個步驟。資料探勘一般是指從大量的資料中通過演算法搜尋發現隱藏於其中的規律和資訊的過程。近十年來,資料探勘技術不管是在理論上還是在實際應用上,都已取得了很大的進展[1],同時也出現了各種專用或商用的資料探勘軟體。
資料探勘領域利用的主要思想有:統計學的抽樣、估計和假設檢驗;人工智慧、模式識別和機器學習的搜尋演算法、建模技術和學習理論。資料探勘同時也迅速地接納了最優化、進化計算、資訊理論、訊號處理、視覺化和資訊檢索等領域方面的思想。目前,常用的資料探勘方法主要有以下幾種:數學統計方法、決策樹、模式識別方法、人工神經網路方法、遺傳演算法、粗糙集方法、支援向量機方法等。
3 資料探勘在化學與化工生產中的應用
資料探勘利用多學科領域的知識從全新的角度以及更深層次中發掘存在於海量資訊內部有效的、新穎的模式。在化學與化工生產中利用這種資料探勘技術可從化學和化工生產資料中尋找潛在的規律,同時利用這些規律指導企業的生產過程,最終實現生產過程的優化以及企業效益的最大化。
3.1 中草藥成分分析中的資料探勘
方兆華等對化妝品專利中草藥成分利用關聯規則進行分析,得出化妝品中有當歸、白芷和蘆薈等高頻單味藥,有當歸-川芎等高頻藥對,有蘆薈-芝麻-向日葵子等高頻藥組;基於置信度和支援度分析,得到了化妝品中中草藥應用的13 條強關聯規則,如向日葵子-芝麻等。陸愛軍等利用關聯規則對中醫藥效、植物科屬、化學的成分活性、中藥提取物和現代藥理之間的相互關係進行研究,在分析之前對資料進行預處理,然後再對處理後的資料進行挖掘,從而得到一些有趣的關聯規則,比如中藥藥效和植物科分類的關聯規則,都是因為在該科下面的植物很多具有相應的中藥藥效。
3.2 化學研究中的資料探勘
朱建國分析了資料的具體特徵,採用ID3 的決策樹演算法將資料的離散化和屬性選擇進行預處理,使決策樹樹狀結構的分類器對資料能進行更有效的分類。通過二苯乙烯系列化合物實驗資料的建樹過程,以及對所得到的規則進行分析,將決策樹有效地運用在二苯乙烯系列化合物研究過程中,並開發方案實現系統讓研究者能夠清晰地表達分類規則,從而給研究者帶來了極大的方便。
李峰等將資料探勘應用在稀土摻雜奈米TiO2結構與光催化活性的關係中,用多元逐步迴歸分析對資料樣本間的聯絡進行挖掘,從而發現結構引數與光催化劑的表觀速率常數間之間存在著良好的相關性,其相關係數大於0.99,說明該模型具有良好的穩定性和預測能力。溶膠-凝膠法制備的不同稀土摻雜奈米TiO2不管是實驗結果還是計算機模擬結果都表明其奈米結構相似,光催化活性是相近的,對於系列光催化劑製備及其動力學性質研究都能較好地建立起定量構效關係,進而通過XRD引數測試,發現活性相近的催化劑,為選擇高效的光催化劑節約資源。
Ru等人提出了一種稱為BSVR***Boosting support vector regression***的方法,該方法支援向量迴歸,以Boosting 結合支援向量迴歸***SVR***為分類器,繼而用它來處理硝基苯類,並且將其用作5-脂肪氧化酶抑止劑的1-phenyl[2H]-tetrahydro-triazine-3-one類化合物的QSAR資料預測毒性,實驗結果表明這種方法在病毒性預測的準確性方面有明顯的提高。
Cai 與Feng 等人提出了一種稱為LogistBoost 的演算法,該演算法基於對數迴歸策略,可以對蛋白質結構資料***基於氨基酸序列***的二類、多類分類問題進行預測,實驗結果表明這種演算法具有很好的預測結果。Boosting 演算法在蛋白質結構分類方面的預測應用是以構成蛋白質的氨基酸種類、排列順序作為主要屬性對蛋白質的二級結構進行判斷。隨著資料探勘在化學中的應用,Boosting演算法有望能夠對蛋白質的3D結構進行預測。Friedman 等人提出了梯度Boosting 演算法,該方法在迴歸問題上直接應用Boosting 演算法,從而有效解決了資料探勘中在化學應用中迴歸問題上常見的問題,而Tao 等人提出的新Boosting演算法則能夠有效解決資料探勘在化學應用中異常值的檢測問題。
3.3 化工生產中的資料探勘
張泉靈等利用多支援度關聯規則的挖掘演算法,開發了化工生產過程的資料探勘軟體,通過資料探勘軟體對操作引數和配方進行優化,使產品的收率和有效成分得到提高,並將該系統應用在三唑磷的合成過程中,使三唑磷提高了1.5%的收率,同時三唑磷的含量也提高了三個百分點,從80%提高到83%,為企業帶來了較好的經濟的效益和社會效益。
陸治榮等利用資料探勘方法開發了適用於生產過程優化、故障診斷、優化新產品研製和配方設計的系列軟體DMOS,該軟體為化工、煉油等行業生產過程優化的工程化運營創造了條件,並將該系統應用到某石化廠,主要解決丙烯的收率不能滿足下游生產的問題,更重要的是回收的丙烯收率的提高可以提高經濟效益,結果表明經過DMOS資料探勘後提出了新的生產引數,對原來正常的生產狀態進行優化後提高了丙烯的收率,優化後丙烯的收率從14.7%提高到了19.11%。
基於合成氨生產效益的資料探勘,用於解決氨合成裝置DMOS合成氨優化系統,用於解決合成氨工業生產引數的優化,實現氨合成裝置生產時實時工況診斷、實時趨勢瀏覽、優化操作指導、報表生成等功能。通過對雲維集團有限公司氨合成裝置合成塔生成資料的資料探勘,找出了影響裝置目標變數的主要工藝引數,建立目標變數與有關工藝引數間的數學模型,通過實驗表明所建模型的可靠性強,能夠優化裝置工藝操作,提高合成氨產量,全面提高企業的經濟效益。
3.4 化學分類中的資料探勘
李琳等[15]利用決策樹對玻璃和葡萄酒進行分類,玻璃有9 個屬性作為衡量指標,葡萄酒為義大利某地的三種酒、含有13 個屬性作為分類指標。他們首先使用MDLP***最小長度描述方法***進行離散化,再用LVF***LasVegas Filter***方法進行屬性選擇,剔除冗餘資料後,再由C4.5 方法構建決策樹。通過實驗表明:由決策樹建成的分類模型具有良好的預報效能,適合於化學分類知識模式的挖掘。基於預處理的決策樹克服了一般決策樹方法難以處理連續型資料集的缺點,又具有其它方法所不具備的優勢,可從大量資料中挖掘出潛在的分類知識,並具有簡沽直觀的表達形式,易為專業人員理解和分析。
4 結論
本文對資料探勘方法在化學和化工生產過程中如何利用海量資料、發現和挖掘出新的規律和資訊,為化學研究和化工生產提供有效準確的依據。雖然資料探勘技術在化學和化工生產過程中獲得了大量應用,但是,目前應用的範圍不是很廣。在化學和化工生產過程中的應用是資料探勘當前的一個研究熱點,受到越來越多研究人員的青睞。資料探勘技術能夠根據大量的化學和化工生產領域中的資料探勘出有價值且隱藏的知識。因此,在化學研究過程中、化工生產過程的建模、控制、優化、故障診斷等方而有非常重要研究的價值,並且越發顯示其重要作用。