計算機在生物學中的應用論文
計算機在生物學研究中有著十分廣泛的應用,已經成為一門新興的交叉學科。下面是小編給大家推薦的,希望大家喜歡!
篇一
試談計算機在生物學研究中的應用發展報告
【摘要】計算機在生物學研究中有著十分廣泛的應用,已經成為一門新興的交叉學科。本文對國內特別是福建省“計算機在生物學研究中的應用”學科發展情況進行了簡介,並對這門新興學科的進展進行了簡述。
【關鍵詞】計算機 生物學研究 生物資訊學 交叉學科
一 前言
什麼是生物科學?在古時候,人們對生物學的認識是很有侷限性的:對生物學的認識往往停留在觀察上,到了19世紀,達爾文發表《物種起源》之後,生物學第一次總結出一個有重大哲學意義的普遍規律。此後,孟德爾發現了遺傳學的規律,沃森和克里克發現的DNA雙螺旋結構以及核酸是生命本質的一系列重大發現,為生物學發展奠定了堅實的基礎,從而生物學正式擺脫了那種僅靠觀察,比較的方法,發展成為一門實驗科學。
傳統的生物學是一門實驗科學,生物學的研究主要依靠的是對實驗所得的資料進行處理和分析。生物學還是一門發現科學,通過對在實驗中發現的新現象,新的生物規律進行分析、歸納和總結,提煉出新的生物學知識。進入到20世紀以來,人類已經進入了資訊化的社會。作為資訊社會中最為重要的工具,計算機在人們生活中發揮著日益重要的作用。隨著網路技術和通訊技術以及半導體技術的發展,計算機的功能越來越強大。電腦科學是對社會各個層面影響最大,滲透力最強的高新技術。
回顧20世紀人類所取得的科學成就,以計算機技術為代表的資訊科技得到高速的發展和應用。在以電腦科學為代表的資訊科學取得快速發展的同時,現代生物科學研究也取得了極大的成功。
二 進展
計算機在生物學研究中的應用並不是一個很新的話題,作為一門學科,它是新的,但實際上它的研究工作的開展已經有了一段歷史。
***一***計算機在國內生物學研究中應用的情況
我國的科研人員在20世紀60-70年代就開始利用計算機在生物學研究中進行資料的統計分析,但是應用的層次低,多用於教學和實驗資料分析處理。我國的生物資訊工作是逐步發展起來的,20世紀80年代初僅在個別單位開展了一些計算分子生物學的工作,如核酸序列統計分析、生物大分子二級結構預測、分子動力學等。雖然我國在1993年就在中國人類基因組計劃中加入了生物資訊學的相關研究內容,但是真正的開始是在1995年。目前,我國所用到的生物資料庫和生物系列軟體多半來自於國外,基礎力量還比較薄弱。
1997年,香山會議專題討論了我國生物資訊學的發展。1999年,國家自然科學委員會生命科學部、資訊科學部、數理科學部、材料科學部在北京召開了“生命科學中的資訊科學問題”論壇,提出了建立國家生物醫學資料庫與服務系統,同時開展基因組及功能基因組資訊分析工作。2000年國家自然科學基金委員會主持召開的“生物資訊學前沿方向”研討會上,與會專家提出了我國生物資訊學發展的方向是:建立國家生物醫學資料庫與服務系統、人類基因組資訊結構分析、功能基因組相關資訊分析和研究遺傳密碼起源與生物進化***尤其是分子進化***的過程與機制。
近幾年來,我國對生物學中的計算機應用工作越來越重視,研究的層次也不斷提高。在“HGP1%的測序工作”、“中華民族基因組中若干位點基因結構的研究”和“重大疾病相關基因的定位、克隆、結構與功能研究”等專案中,計算機都起到了重要的作用。
北京大學於1997年3月成立了生物資訊學中心,中科院上海生命科學研究院也於2000年3月成立了生物資訊學中心,分別維護著國內兩個專業水平相對較高的生物資訊學網站。
2003年8月18日,“作為國內伺服器品牌三甲之一”的曙光資訊產業***北京***有限公司***以下簡稱曙光公司***與國內著名的基因組、生物資訊研究中心華大基因聯合推出國內第一款完全擁有自主智慧財產權的生物資訊專用計算機,採用先進的基因資料庫架構技術、資料定製視覺化技術、資料密集技術、網格使能技術、線上擴充套件技術及機群系統等技術,為國內使用者搭建了一套與國際生物資訊研究主流趨勢相接軌的系統平臺。該系統是建立在華大基因和曙光公司在生物資訊研究領域長期合作成果的基礎之上,通過運用曙光公司每秒3萬億次浮點峰值運算能力的Linux超級伺服器,以支援資料密集應用為主,為國內大量致力於基因組研究的科研工作者們提供方便、快捷的服務。“生物資訊專用計算機”採用機群結構,系統中節點根據功能劃分為計算節點、資料庫節點、服務節點三種類型,為生物資訊學研究提供了一個基於硬體、軟體和資料庫整合環境下的統一執行平臺,為各個分析軟體、子資料庫模組提供一致的執行和管理環境。同時使用者可以根據需要選擇軟體和資料庫模組,無縫整合到平臺上。平臺提供ORACLE資料庫和軟體的整合介面和管理工具。生物資訊專用計算機以模組化的方式提供大量基因組學、生物資訊學研究的常用分析工具,並能實現分散式高效能運算。使用者也可以根據需要定製分析軟體,新增到該專用計算機應用平臺中。
對於我國來說,生物資訊學人才的培養是當務之急。生物資訊學是一個交叉學科研究領域,這對生物資訊學研?a href='//' target='_blank'>咳嗽痺諡?督峁股鹹岢雋朔淺8叩囊?螅?乇鶚嵌雜誒醋?a href='//' target='_blank'>數學或計算機專業的研究人員,不僅要掌握生物學的基礎知識,還要求深入瞭解生物學中的相關問題,這樣的人才不是單一學科能夠培養出來的,要求跨學科地培養生物學和資訊科學的複合型人才。目前中國科學院和國內一些著名大學已經開始較大規模地培養生物資訊學專業人才,這為我國今後生物資訊學的發展奠定了良好的基礎。可以相信,我國未來計算機在生物學中的應用一定會有著很大的進步與發展。
***二***福建省“計算機在生物學研究中應用”學科發展簡介
福建省計算機在生物學研究中的應用雖然起步較早,但是發展一直相對較慢,目前還沒有形成較大的研究規模和較完整的研究體系。但是,福建省對計算機在生物學研究中的應用十分重視,福建農林大學、廈門大學等多所高校開辦了計算機在生物學研究中的相關專業或研究團隊並舉辦了幾場相關的學術會議。
福建省的廈門大學生命科學學院和福建農林大學的生命科學學院已經開辦了生物資訊學本科專業,為我省培養生物資訊科學人才提供了一個很好的平臺。該專業整合了生物和計算機的相關資源,有望為我省培養出更多的精通於計算機在生物學研究中的應用人才。福建省的其它院校如福建醫科大學、福建師範大學、福建中醫學院、國立華僑大學、集美大學等多所高校也有不少的教學和科研工作者在這方面進行了一定的研究工作,福建省農科院也開展了一些生物資訊學的研究工作。
例如:福建省廈門大學生命科學院的紀志樑博士主要從事生物資訊學、功能基因組和蛋白組學、計算機輔助藥物設計、生物資料庫和生物資訊軟體的開發及應用、資料探勘、分子進化、生命起源與進化等方面的研究,主持了生物資訊輔助藥物不良反應***ADRs***的分子機理研究及預測的國家自然科學基金專案。
福建農林大學藉助於其在生物學特別是農林學科上的優勢,聯合校內的計算機與資訊學院一起開辦生物資訊學專業,計算機與資訊學院還成立了生物資訊研究團隊,以期望藉助於兩個學院的實力,更好地為我省培養相關的人才。
目前福建省在發展該學科時面臨的主要問題是相關人才的缺乏和研究硬體裝置的不齊全。目前,福建省尚未能在“計算機在生物學研究”的學科發展中形成一個理想的研究梯隊,從而導致了在相關的科研上以應用研究為主,缺少理論上的創新性,而應用的研究多集中於特定的領域:如福建農林大學的相關研究主要在於農業領域;華僑大學的方柏山教授所做的工作多集中於工業微生物的優化控制等方面。全方位,多角度的研究格局還沒有形成。
從學科建設的硬體平臺來看,雖然有了較大的發展,但是距離科研的要求還有較大的距離。因為“計算機在生物學研究中的應用”學科是一門交叉學科,需要用到許多方面的儀器裝置,而目前福建省內的這方面的投入與科研所需要的裝置還有一定的距離。
***三***計算機在生物科學研究中的學科現狀
自20世紀80年代,IBM公司製造出第一臺PC機以來,計算機迅速得到了普及。而且近二十年來,計算機與資訊科學已經成為發展最為迅速的學科領域,也為生物學的研究提供了更多的技術支援。在這個時期,生物學與電腦科學相結合的學科――生物資訊學產生了,是當今生命科學和自然科學的重大前沿領域之一,也是21世紀自然科學的核心領域之一。從國外近幾年的應用情況來看,生物資訊學在理論上促進了生物學研究***特別是分子生物學***研究的發展,使人類對生命本質的認識更加深刻。生物資訊學已經改變了傳統生物學的研究方法,提高了生物學實驗的科學性和研究的效率。
在這個階段,計算機在生物學研究中的應用更為廣泛與深遠,這一時期在生物學研究中用到的計算機技術大體有以下幾個方面:
***1***資料庫技術、資料探勘技術與海量儲存技術:生物資訊資料庫具有資料結構和組織方式複雜、資料量增長十分迅速等特點。《核酸研究》***Nucleic Acids Research***雜誌連續七年在其每年的第一期中詳細介紹最新版本的各種生物學資料庫。在2000年1月1日出版的28卷第一期中詳細地介紹了115種通用和專用資料庫,包括其詳盡描述和訪問網址。在DNA序列方面有GenBank、EMBL和DDBJ等。在蛋白質一級結構方面有SWISS-PROT、PIR和MIPS等。在蛋白質和其它生物大分子的結構方面有PDB等。在蛋白質結構分類方面有SCOP和CATH等。
很多資料庫涉及非結構化的資料,例如:PDB中的蛋白質三級結構等。利用傳統的關係資料庫對這些非結構化的資料進行管理就顯得有些力不從心了,所以,必須要採用面向物件等資料庫新技術來處理複雜結構的生物資料。生物資訊資料庫具有種類繁多的特點,目前各種生物資訊資料庫大至有600種左右,分佈在全球各個資料庫伺服器中。
隨著資料庫技術、計算機網路和人工智慧等技術的發展,出現了一種新的資訊管理技術,即:資料倉庫技術***data warehouse***。隨著當代生物學實驗的手段不斷的進步,所產生的實驗資料的資訊量是十分龐大的。如何在如此浩渺的資訊海洋中發現潛在的規律呢?而資料倉庫技術中提供了一個解決方案,就是資料探勘技術。資料探勘技術一般分成四個基本步驟:資料選擇,資料轉換,資料探勘和結果分析。資料探勘與聚類分析的方法在蛋白質的結構預測中也有廣闊的應用空間:資料探勘可用於分析基因表達資料相似性度量,從中發現基因表達資料相似性和波動相似性類似,從而提出以波動相似性為依據的相似性度量函式。
***2***機器學習與模式識別技術:機器學習演算法***machine-learning methods***,抽象的統稱,實質是一種統計學的方法,它自動地從一個樣本的訓練***train- ing***過程中獲得資料資訊,這種方法適用於有大量資料但缺乏相應理論的情況。如BRNNs***Bidirectional Recurrent Neural Networks,雙向重複神經網路***演算法即屬於機器學習演算法,它的訓練過程即通過對樣本進行有效編碼,輸入網路,訓練網路各權值引數和閾值引數,使網路達到基本穩定。目前機器學習方法包括:神經網路法、決策樹法、基於事例學習法、符號性知識優化法及基於邏輯的歸納學習法。
資料是機器學習的基礎,對於生物學實驗資料也一樣。在大多數情況下,生物學中的知識和資料可以用序列的模式或序列的特徵來概括。
隨著人工智慧研究不斷取得進展,人們逐漸發現研究人工智慧的最好方法是向人類自身學習。因此引進了一些模擬進化的方法來解決複雜優化問題。其中較有代表性的是:進化主義思想和聯接主義思想。近年來,許多科學家致力於這兩種方法的研究。
模式識別是機器學習的一個主要任務。所謂模式,指的是對感興趣客體定量的或者結構的描述,而模式識別就是利用計算機對客體進行鑑別,將相同或者相似的客體歸入同種類別中。模式識別的關鍵是通過資料分析,提取分類物件的本質特徵,建立分類特徵模型。在此基礎上設計模式分類規則和分類器,判別待識別模式的分類情況。分類特徵模型描述各種目標物件的特徵,以便於工作於利用特徵進行識別。模式識別主要有兩種方法:一種是根據物件統計特徵進行識別,另一種是根據物件的結構特徵進行識別。利用機器學習的方法可以應用於蛋白質結構的預測,但現在的問題是從蛋白質一級結構序列預測蛋白質二級結構和三級結構的準確率低,還有許多現實的問題需要解決。
***3***人工心智和心腦科學在生物學中的應用:瞭解腦及其全部功能是2l世紀重大挑戰之一,人類腦計劃開始於1993年,這項行動的主要目標:創立以web為基礎的神經科學所有資料的資料庫,並提供資料分析、整合、合成、建模與模擬的先進工具,有助於實現瞭解健康與有病神經系統功能的最終目標。腦是生物體內結構和功能最複雜的組織,人腦內有上千億個神經細胞,神經突觸超過1014個,是生物體接受外界訊號、產生感覺、形成意識、進行邏輯思維、發出指令產生行為的指揮部,但它的功能目前還不為人們所瞭解。
在人類腦科學計劃提出後,產生了一門新的交叉學科――神經資訊學。神經資訊學產生的先進的資訊學解決方案,將加速對腦的瞭解,並能將基礎研究轉化為診斷、監視、處理和預防腦疾病的更好手段。反過來,關於資料與資訊的獲得、儲存、提取、分析、合成及可見的生物學機制的闡述,將更加清楚地解釋資訊學技術,以至隨著時間的推移,計算機將能超過人腦的工作。
人腦的結構和功能極其複雜,需要從不同的層次對其進行研究,包括:從DNA、RNA、蛋白、神經元、神經網路到全腦。其中對神經網路和全腦功能的研究近年來發展很快,成為神經資訊學研究的重點。神經資訊學主要從資訊和資訊處理的觀點來研究人腦,研究神經系統資訊的載體形式,神經資訊的產生、傳輸與加工,以及神經資訊的編碼、儲存與提取機理等,並從系統和資訊的觀點建立以生物學實際為基礎的神經網路模型。
***4***生物分子的計算機模擬技術:傳統的生物分子研究主要是能過生物學實驗來分析和表徵生物分子,如利用測序技術確定DNA或RNA分子的序列;能過分子遺傳學方法確定基因的多型性;能過X射線衍射技術來確定蛋白質等生物大分子的結構;通過生物化學實驗來研究生物大分子之間的相互作用、藥物分子和靶分子的結合等。
現代對生物分子的研究也可有采用計算機模擬生物分子的技術。所謂生物分子的計算機模擬就是從分子或者原子水平上的相互作用出發,建立分子體系的數學模型,利用計算機進行模擬實驗,預測生物分子的結構和功能。可以模擬生物大分子與大分子之間的相互作用、模擬生物大分子與具有活性的小分子之間的相互作用、研究分子之間的識別與及分子間的特異性結合。
***5***網路技術:隨著人類進入了資訊社會,網路已成為社會的基礎設施,對人們的生活起著重要的影響。***和新聞組已經成為生物學科研中的最要交流工具。而且網路提供的各種服務,如:FTP服務,WEB服務等也為科研人員提供了重要的服務。
目前,Internet上有著巨大的生物學資源和生物學的相關資料庫與知識庫。使用者可以通過網路查詢或搜尋所需要的生物學資訊,使用各個網路站點提供的分析工具對生物實難進行分析。生物資訊的研究者能夠下載大量的資料,但如何整合這些資料不是一件容易的事。
而Web Services技術由於使用標準的Web協議***http、SMTP等***和一系列標準協議***XML、SOAP、WSDL等***為生物資訊整合提供了一種嶄新的方法。當把Web Services應用到生物資料庫中時,所有生物資料庫系統都成了一個鬆散結構中的元件,系統介面、應用通訊、資料轉換和目錄資訊都是建立在開放的、被廣為接受的標準之上,使用者能迅速地訪問到他們所需要的資訊。
***6***高速計算能力與網格計算技術:生物學研究需要對大量的樣本進行分析計算或統計,這就為為高效能運算提供了一個大的應用領域。生物學研究中的計算面臨巨大的計算量與海量的資料,如:利用分子動力學模擬一個蛋白質的摺疊就需要一個巨型機幾個星期的運算。這給高效能運算、平行計算和網格計算提出了挑戰。
***7***專家系統:專家系統***exepert system***是一種基於知識的智慧系統,它將領域專家的知識用知識表現的方法表示出來,並放入知識庫中,供推理機使用。專家系統利用知識和推理機解決那些需要特殊的、重要的人類專家知識才能解決的複雜問題。一般的專家系統是由六大部份:知識庫、資料庫、知識獲取部份、推理機、解釋機構和使用介面組成的。知識庫中的知識也可以分成事實性知識和啟發性知識兩大類。生物學研究中已經有了不少的專家系統。
***8***計算機圖形學:眾所周知,DNA序列是兩條鹼基互補的脫氧核糖核酸形成的雙螺旋結構。一般認為,它們可以用一條序列來進行表示。根據文獻按照某種規則,人們可以把DNA序列轉換為一條z型曲線,該z曲線與所表示的DNA序列的關係是一一對應的,即:一個特定的DNA序列,有唯一的一條z型曲線與它對應;反之,對任意一條給定的z曲線,可找到唯一的一個DNA序列與之對應。也就是說,z曲線包含了DNA序列的全部資訊。z曲線是與符號DNA等價的另一種表示形式。這樣就可將複雜的DNA序列轉換為一條空間中的曲線。對z曲線曲率和撓率的計算和分析,可用於識別DNA序列的不同的功能區等。DNA序列的幾何學研究是建立在計算機圖形學的基礎上的,對DNA序列幾何學的研究必將為計算機圖形學的研究提出一些新的課題。
三 計算機在生物學中的應用研究展望
雖然計算機在生物學應用中取得了不小的成果,但還有許多的問題擺在人們面前。目前計算機在生物學研究中的應用面臨著許多的挑戰:
***1***需要建立互動性好的生物學應用軟體,生物學資料庫及相關的資料探勘技術。現有的生物學軟體種類繁多,功能也不盡相同,但是,大部份軟體都要求使用者有較強的計算機基礎,甚至還有一些軟體是基於linux或windws控制檯的,起特殊的命令語法不是一般的科研人員所能掌握的。而且,有些軟體的原始碼不是公開的,特定使用者就不能根據自己的需要對程式進行修改,進而適應自己研究的需求。尋求一種好的方法來開發出互動性好、操作方便而功能強大的生物學研究軟體是今後一個重要的目標。
***2***需要能提示大規模資料集合中不同組分之間關係的統計分析方法及優化演算法。在生物學研究中,獲取所得的實驗資料往往可以根據其資料特徵的不同分成若干組分,這些組分之間的關係是怎樣的?如何在實驗資料中確定分組的標準?如何用更快的演算法更有效率的確定資料的分組標準等等都讓科研人員十分困惑。例如:不同物種間可能包含了同源或非同源的資料基因,而不同基因可能在DNA或蛋白質序列上具有較高的異質性。因而,在基因組水平上比較不同物種或不同基因之間的相似性,有助於揭示整個基因組進化與物種進化的規律。
***3***需要開發適合於微陣列和基因晶片等新技術的資料分析工具。微點陣雜交中涉及上萬個寡核苷酸,並依雜交訊號強弱、探針位置和序列確定靶DNA的表達及多型性等。目前,迫切需要提高檢測的自動化程度和資料的並行處理能力。
四 小結
綜上所述,儘管福建省的計算機在生物學研究的應用學科目前發展還比較滯後,但只要能夠抓住計算機在生物學科發展的契機,整合各方面的優勢,進行協作式的研究,就能夠更好地促進該學科的發展。
參考文獻
[1]寧正元編著,計算機在生物科學研究中的應用,廈門大學出版社,
2006.11.
[2]H.M.erman,J.Westbrook,Z.Feng,et al. The protein Data Bank[J]. Nucleic Acids Research,***28***:235-242.
[3]D.R.Westhead,J.H.Prish,R.M.Twyman.Instant Notes in Bioinformatics[M].United Scientific Pub Ltd,2002.
[4]SCRATCH servers.
[5]盧美律.蛋白質結構預測與機器學習[J],科學,1996,46***5***:22-27.
[6]沈均賢人類腦計劃與神經資訊學[J],生物物理學報,2001.12***17***:607-612.
[7]Ligeng Ma,Jinming Li,LiJin qu,et al.Light control of Arabidopsis development entails coordinated regulation of genome expression and cellcular pathways[J].Plant Cell,2001,13912***:2589-2607.
[8]生物資訊學對電腦科學發展的機遇與挑戰[J],生物資訊學,2001 ***3***:37-41.
[9]BSML Organization.Bioinformatic Sequence Markup Language Version 3.1[EB/OL].
[10]Fenyo ,The biopolymer Markup Language[J],Bioinformatics,1999,***15***:339-340.
[11]Lichun wang. EMBL,data in XML format[J].Bioinformatics,2002,***18***:1147-1148.
[12]郝柏林,劉寄星,理論物理與生命科學[M],上海:上海科學技術出版社,1997.
[13]Hang C T,Pickover C A,et al.Viusalizing Biological Informatin[M].Singapore.World Science Pub co,1993.
[14]鍾揚,張亮等,簡明生物資訊學[M],北京:高等教育出版社,2001.
[15]趙青,黃小兵,生物資訊研究的加速劑[J],網際網路天地,76-77.
[16]廈門大學生命科學院.
[17]方柏山教授主頁.
[18]福建農林大學生命科學院.