科學知識網路自相似性的實證統計報告分析

  1 引言

  科學計量學是應用數理統計和計算機技術等方法對科學技術本身進行定量分析的一門交叉學科,其定量分析的物件為科學知識,文獻等是科學知識的重要載體。但是在實際研究過程中獲取所有知識總體是不現實的,因此利用選取期刊或是關鍵詞檢索獲得資料樣本,成為科學計量學研究的最主要途徑 。這種途徑是建立在科學知識具備自相似性的假設前提下的,即樣本和總體的相似。

  伴隨著科學技術的迅猛發展,科學知識也在大規模地擴張,例如每年SCI資料庫的文獻增長量就達到100多萬篇,巨大而複雜的科學知識資料,為科學計量學提出了極大的挑戰。然而,複雜網路分析、計算機技術、資訊視覺化等相關技術和方法的發展為科學計量學注入了新鮮的血液[1][2],使得科學知識圖譜[3][4]與知識視覺化技術[5]成為了科學計量學的新航向,並在反恐主義研究領域分析[6]、科技期刊引文環境[7]等諸多領域得到廣泛應用。然而,對於某一學科領域來說資料量過於龐大,展現所有資料的知識圖譜是現有技術無法實現的,所以知識圖譜的繪製只能選擇一部分高被引或其他告知標誌的文獻,正是由於自相似性假設的存在,使得高被引文獻的知識圖譜也能反映總體的一部分特徵。

  因此,無論是科學計量學還是科學知識圖譜的研究都以科學知識自相似性的存在作為理論前提的。1990年Van Raan意識到科學知識的相似性,率先驗證了科學知識的分形結構,並證明了隨著共被引文獻規模的增加,其分數維數呈指數分佈形式增加[8][9][10]。隨後Brunk GG[11]、Bailon-Moreno R[12]等在此基礎上,對科學知識系統的分形結構進行了探討。以上研究都侷限於分形結構的研究,關注科學論文在時間上的擴散與增長,對於其它自相似結構尤其是共被引網路等空間結構的自相似並沒有涉及,並且缺乏對自相似性的檢驗與證明。除此之外,通過文獻的大量檢索鮮見科學知識自相似性的研究,在國內的文獻中並沒有檢索到相關研究。

  同時,自相似性在資料通訊[13]、人類生物網路[14]以及複雜網路等諸多領域被研究,C.M.Song與S.Havlin[15] 等人利用重構化理論來揭示覆雜網路的自相似分形特徵;R.Guimera 與L.Danon[16]在研究中利用郵件系統來揭示社群結構的自相似分形特徵;陶少華[17][18]等分別研究了基於資訊維數與容量維數的複雜網路的自相似性,建立了基於自相似分型特徵的網路演化模型,並且說明動態增長的複雜網路的確是自相似的,這些研究為本專案提供了啟示與參考。

  本文主要研究科學文獻在空間上的自相似性,選取科學文獻所組成的知識網路中平均聚類係數、平均最短路徑、平均度三個基本指標,隨著網路規模的變化情況,建立模型驗證科學文獻在網路拓撲空間中的自相似性,從而為解釋科學規律,明確科學計量學中的資料選擇尺度提供參考。

  2 科學知識網路的自相似模型

  2.1 指標選取

  自相似性是指某一物體的區域性可能在一定條件下或過程中,在某一方面例如狀態、結構、資訊、功能、時間、能量等都表現出與整體的相似性,即具有尺度不變性。空間自相似性是一種非常普遍的現象,通常被理解為系統的部分和整體在空間形態和結構上存在某種相似性。而科學文獻空間的自相似性是指由科學文獻的作者、關鍵詞或者參考文獻等所組成的空間結構的區域性與整體具有某種相同的性質。目前,在科學文獻的計量分析中,科學知識網路,包括合作網路、共詞網路、共被引網路等是科學文獻空間上拓撲結構最好的表現形式。

  隨著對複雜網路研究的深入,研究者提出了許多特徵指標,來描述各種不同型別的複雜網路的共同特徵,同時也用來衡量各種複雜網路演化模型的準確性和有效性。目前,研究比較充分的統計特性有平均聚類係數、平均最短路徑、平均度等[19]。

  1平均聚類係數:假設網路中的一個節點i有ki條邊將它與其它節點相連,這ki個節點稱為節點i的鄰居節點,在這ki個鄰居節點之間最多可能有kiki-1/2條邊。節點i的ki個鄰居節點之間實際存在的邊數Ni和最多可能有的邊數kiki-1/2之比就定義為節點i的聚類係數,記為Ci。整個網路的聚類係數定義為網路中所有節點i的聚類係數Ci的平均值,記為C。聚類係數用來衡量網路中節點間連線的緊密程度。

  2平均最短路徑:網路中任何兩個節點i和j之間的距離pij為從其中一個節點出發到達另一個節點所要經過的連邊的最少數目。網路的平均最短距離P為網路中所有節點對之間距離的平均值。網路的平均最短路徑D主要用來衡量網路的傳輸效率。

  3平均度:網路中某個節點i的度ki定義為與該節點相連線的其它節點的數目,也就是該節點的鄰居數。通常情況下,網路中不同節點的度並不相同,所有節點i的度ki的的平均值稱為網路的節點平均度,記為。

  2.2 模型建立

  根據以上指標為科學知識網路的自相似性賦予如下定義:設集合科學知識網路 ,如果存在子網路,其中,使得網路特徵指標,則稱子網路與自相似,記;如果對任意的,有,則稱具備自相似性。

  A n=600 B n=1000

  以合作網路為例,圖1為某一領域節點數分別為600和1000時的合作網路的子網路圖。可以清楚直觀地看出,兩個網路圖的整體結構是相似的,隨著節點的增加,B的結構並沒有實質的改變。我們可以說當N達到600時,網路已經呈現平穩的態勢,這時節點的增加並不會改變整體網路的性質,可以說明區域性與整體具有自相似性。

  根據以上定義,對於指標y,如果網路N具有自相似性,則y隨網路規模的變化趨勢

  即當 達到某一值 時,序列趨於平穩,後的數值圍繞著0值上下波動,若其波動範圍很小可以近似為零,則說明隨著資料的增加,序列整體的性質保持不變,N具有自相似性。

  3 實證分析

  選取材料處理技術作為案例,從Web of Science中下載該領域1990年到2010年的文獻,共11609篇,然後利用Bibexcel分別形成合作網路,共詞網路和共被引網路,應用以上模型對三類科學知識網路進行分析。

  合作網路是科學文獻的作者通過合作關係建立的科學知識網路,網路中的節點可以是作者、機構、國家等科學知識的生產者,如果兩個作者、機構、國家在文獻的作者中出現,則他們存在合作,記;可以表示他們的合作次數或強度,且。本文中的合作網路為作者合作網路,圖2中橫座標為網路的節點數即作者數,其中作者按照發文量由大到小排列,例如n=10表示只選取發文量前10所組成的合作網路;縱座標分別為平均聚類係數、平均最短路徑和平均度三個網路特徵指標。

  A 平均聚類係數

  B 平均最短路徑

  C 平均度

  圖2 合作網路的特徵指標差分序列的變化曲線

  A 平均聚類係數

  B 平均最短路徑

  C 平均度

  圖3 共詞網路的特徵指標差分序列的變化曲線

  圖2中可以看出,平均聚類係數的差分序列在以後平穩並且很快趨於零,平均最短路徑從開始,圍繞著0上下波動,平均度從 開始,逐漸趨近於0,這表明合作網路具有自相似性。

  共詞網路是科學文獻中的關鍵詞或主題詞通過共現關係建立的科學知識網路,詞是是對科學知識最直接的描述,共詞網路中的節點可以是文獻中標註的關鍵詞,亦可以是來自於文獻的題目、摘要甚至文獻內部中的、能夠清晰描述知識內容的主題詞。如果兩個詞在同一篇文獻中出現,則,他們在網路存在邊的連線;可以表示他們共同出現的頻次或強度。本文中的共詞網路為關鍵詞共現網路,圖3中橫座標為網路的節點數即關鍵詞數,其中關鍵詞按照頻次由大到小排列,例如n=10表示出現頻次前10所組成的共詞網路;縱座標分別為平均聚類係數、平均最短路徑和平均度三個網路特徵指標。

  從圖3可以看出,共詞網路的平均聚類係數、平均最短路徑與平均度都與分別在n=62、n=132和n=132 以後趨近於0,所以共詞網路具備自相似性。

  共被引網路是由文獻在參考文獻中的共被引關係組成的科學知識網路,網路中 表示文獻。如圖3所示,如果文獻 和 同時被文獻 引用,即在文獻 的參考文獻中同時出現,則 和 共被引,且 , 。圖4中橫座標為網路的節點數即引文數,其中引文按照被引頻次由大到小排列,例如 表示被引頻次前10的引文所組成的共被引網路;縱座標分別為平均聚類係數、平均最短路徑和平均度三個網路特徵指標。

  A 平均聚類係數

  B 平均最短路徑

  C 平均度

  圖4 共被引網路的特徵指標差分序列的變化曲線

  從圖4可以看出,共被引網路的平均聚類係數、平均最短路徑與平均度都與分別在 n=72、n=112 和n=132 以後圍繞著0上下波動,雖然波動的幅度比較大,但是序列的均值仍近似為0,並且方差非常小,所以共被引網路基本具備自相似性。

  4 結論

  由於科學知識規模的大規模擴張,科學計量學受到了極大的挑戰。無論是科學計量學方法還是新興的科學知識圖譜都是以科學知識的自相似性為理論前提的,但是通過對國內外文獻的檢索發現,對科學文獻相似性的檢驗與深入研究並不多見。本文以科學文獻所組成的科學知識網路在空間的自相似性為研究物件,首先建立科學知識網路的自相似性模型,然後在此基礎上提出網路特徵指標收斂性檢驗的自相似性驗證方法,最後以材料處理技術領域在1990年到2010年間的11609篇論文為例項,對其合作網路、共詞網路和共被引網路的自相似性進行了驗證。研究表明作者合作網路與共詞網路具備比較顯著的空間相似性,而共被引網路基本具備自相似性,並且網路特徵指標中平均聚類係數收斂的速度遠快於其他指標,平均最短路徑與平均度的收斂速度基本相近。 [本文由wWw. dYLw.NE t提供,畢業論文 網專業代寫職稱論文和畢業 論文以及發表論文服務,歡迎光臨DYlw.ne T]

  參考文獻:

  [1]E Otte, R Rousseau. Social network analysis: a powerful strategy, also for the information sciences[J]. Journal of information science, 2002, 28 6: 441-453.

  [2]Chen C. Mapping Scientific Frontiers: The Quest for Knowledge Visualization[M]. London: Springer-Verlag, 2002.

  [3]K B?rner, C Chen, KW Boyack. Visualizing Knowledge Domains. Annual Review of Information Science & Technology[D], B. Cronin, Editor. Information Today, Inc. American Society for Information Science and Technology: Medford, NJ, 2007, 179-255.