資料密集型科學環境下的情報服務與發展論文

資料密集型科學環境下的情報服務與發展論文

  大資料時代的到來,使得學術活動的資訊資料來源、組成、價值以及處理技術都發生了巨大變化,資料就如傳統價值認識中的“黃金”一樣,變得無比重要和價值巨大[1],這些變化也影響到了學術資訊的交流環境,使得科學研究向資料密集型科研轉變,越來越多的科研工作是基於現有資料的重新分析、組織、認識、解析和利用,資料成為了科學研究的基礎。雖然說從目前來看將資料比作“金礦”有誇大之嫌,但也充分的說明了資料的重要作用與價值。同時,我們也看到,在這種資料密集型科學環境下,變化的不只是科學研究,一些服務機構特別是資訊服務機構的服務內容、服務方式也在悄然發生著變化,對能為使用者創造價值與創新的科學資料日益重視,基於資料的服務也成為了它們的服務增長點,對新型科學環境下的服務發展學術研究也正在如火如荼的進行之中。基於此,本文從資料密集型科學環境出發,對科學研究的第四正規化、資料密集型科學環境的形成與推動因素進行了概述,重點對資料密集型科學環境下的情報服務內容進行了陳述,同時也對情報服務的發展途徑如資料建設、人才建設、協作機制建設進行了分析。

  1 資料密集型科學研究興起的社會環境

  2007 年,Jim Grey在美國國家研究理事會計算機科學和遠端通訊委員會( NRC- CSTB) 的演講報告中首次提出了以資料密集型計算為基礎的科學研究“第四正規化”概念[2],並將其作為與實驗科學、理論推演、計算機模擬三種科研正規化平行的科學研究[3],但在對科學研究正規化的發展及劃分簡單論述後,並未對第四研究正規化的內涵、科學研究現狀等進行深入論述。直到2009 年, 微軟公司的TonyHey、Stewart Tansley和Kristin Tolle主編的《The Fourth Paradigm:Data- intensive Scientific Discovery》(第四正規化——資料密集型科學發現)一書,才較為詳細的登載了第四正規化的內涵和意義等內容,並從地球與環境、健康與幸福、科學基礎設施、科學交流四個方面展示了69 位學者從不同的視角觀察、理解、分析和探討[4]。

  對資料密集型科學研究來說,科學研究第四正規化強調傳統的假設驅動將向基於科學資料探索的科學方法方向轉變,並在這種資料的轉變與方法實現中,資料依靠工具獲取、分析與處理,依靠計算機儲存。筆者認為,大資料時代的來臨,資料的來源、型別、存在形態將異常豐富,可以是實驗觀察資料、實驗資料、模擬資料、網際網路資料,也可以是產生於智慧終端如智慧手機、社交活動如微博、虛擬社群中的資訊行為資料等;型別和存在形態可以是已經可以靈活保存於資料庫、機構庫中的結構化資料,也可能是目前只能透過路徑記錄、現場拍攝才能記錄的半結構化資料、非結構化資料。

  從資料密集型科學研究的興起與形成來看,數量龐大、型別豐富、價值巨大的資料產生即大資料時代的到來以及一方面產生資料、一方面又能實現對資料管理與應用的現代資訊科技更新、發展是資料密集型科學環境興起與發展的根本推動因素,而資訊爆炸、關聯資料運動、資料開放運動等直接推動資料密集型科學環境成熟的運動也都功不可沒。

  2 資料密集型科學環境下的情報服務

  2.1 科學資料服務

  2012年6月,美國大學與研究圖書館協會出版了《學術圖書館與科學資料服務》白皮書報告[5],該報告調查了美國和加拿大的大學與研究圖書館協會的351所成員館的科學資料服務情況,結果顯示儘管目前只有少數美國、加拿大的大學與研究圖書館協會成員館開展科學資料服務,但也顯示許多高校圖書館準備在未來一到兩年內開展科學資料服務。這說明在當前的資料密集型環境下,開展科學資料服務將成為情報服務的主要組成部分。資料密集型環境下的科學資料服務,既可以借鑑普渡大學圖書館的D2C2分散式資料儲存專案[6],開展諸如情報諮詢、科學資料管理、科學資料查詢服務,也可以借鑑澳洲國立大學依靠超級計算機裝置進行的儲存服務[7],提供大量範圍內的資料儲存、資料標註服務。且相信隨著技術的發展與使用者的需求變化,在未來的情報服務中,諸如科學資料的開發、發現、引用、標識、分析及技術支援等更大範圍的資料服務都將會實現。

  2.2 資料發現服務

  產生於大量智慧終端、社交網站、活動場所的海量、複雜的半結構化資料、非結構化資料的出現,使得傳統的情報服務中的資料處理與資料服務變得困難,如何在資料密集型的科研環境下為使用者提供資料的發現服務,成為了資料密集型科研環境下的主要情報服務內容之一。Web、本體、XML、RDF、標籤等技術的出現,使得資料資源的共享、檢索、標註與利用更加便捷,實現系統化、語義化、網路化、自動化的資料發現服務成為了可能,在以谷歌為代表的IT資料發現服務帶領下,業界掀起了基於資料發現服務的資料發現服務系統開發熱潮,國內外研發了一批基於語義擴充套件搜尋的資料發現系統,如ExLibris公司的Primo、EBSCO公司的EBSCO Discovery Service(EDS)、Innovative Interfaces公司的Encore等,OCLC的一站式知識資源發現與服務系統Worldcat Local,提供了全世界近2萬個圖書館的館藏紙質資源和部分數字資源的資訊共17億條[8]。在資料密集型科學環境下,資料發現服務不僅能為使用者發現和關聯可能儲存於社會各個行業、多個領域、多個學科的資料知識,也能為使用者發現數據表面、少量資料不易於發現的價值,進而為使用者的市場預測、資訊行為等做出態勢分析、前景判斷提供知識與資料支撐。

  2.3 知識諮詢服務

  一直以來,資訊諮詢服務都是情報服務的主要組成部分,也為企業資訊分析、情報收集等工作提供巨大的參考與幫助作用,得到了情報服務使用者的高度認可。但在資料密集型環境下,由於提供諮詢服務的資料來源、型別、處理平臺、服務方式都將發生巨大變化,傳統的諮詢工作並不會滿足使用者的需求,因而依賴於海量知識、依靠資料分析系統、為使用者提供解決問題知識的知識諮詢服務將應運而生。與傳統的資訊諮詢、參考諮詢相比,知識諮詢服務更具專業化、知識化以及實現多樣化等特點,即需專業的`服務人員藉助專業的服務平臺實現對專業學科資源的專業分析,用知識服務平臺實現對知識資源的知識處理並提供使用者知識產品,用多樣化的技術手段來處理多樣化的資料進而透過多樣化的途徑提供多樣化的服務。由於知識諮詢以使用者的知識需求為出發點,以複雜的海量資料為知識來源,以面向大資料的分析、挖掘軟體為工具,以向用戶提供最終可以解決問題的知識產品為目標,因此,知識諮詢將在資料密集型科學環境下廣泛的用於企業情報收集、政府決策分析、個人科研創新等領域。

  2.4 學科服務

  資料密集型科學環境的興起與發展,使得存在於社會每一個角落的各類資料以及產生於每一個實驗、調查等科研活動的相關資料都可能成為知識創新與科學研究的主要知識來源,但對這些資料、知識的組織與利用並不一定因為科研人員資訊素養的水平差異而能成功實現,於是,一些科研院所、大型科研團隊日益重視科研隊伍建設時的圖書館員等能靈活檢索和運用資料資源的團隊組成比例,國外興起的資料監管教育就是順應這種科研人才隊伍的需求而產生的,這類人員的主要職能是利用專業的學科背景知識,運用掌握的資訊素養知識,為科研團隊提供專業的學科服務。在未來日益發展的資料密集型科學環境下,這類學科服務將突破目前的第一代、第二代學科服務形式,即圖書館領域的設定學科館員形式與嵌入式學科服務形式,出現情報服務機構與科研團隊合作形式,進而為科研活動提供更為專業、有團隊協作保障的學科服務。

  2.5 資料雲服務

  雲計算的發展以及Google、亞馬遜等雲計算服務提供商多種雲服務平臺的推出,為情報服務的雲服務實現提供了便捷條件。由於雲服務是將分散式計算、網格計算、平行計算以及Internet結合起來的一種新興的IT資源提供模式,實現了將動態、可伸縮的IT資源以服務方式透過網際網路提供給使用者[9],因此,情報服務對於雲計算的應用並不需要昂貴的硬體裝置、專業的技術人員以及種類繁多的軟體操作平臺,只需要根據自己的使用者需求特徵來租用合適的雲平臺及服務,以透過雲計算虛擬技術而實現在雲計算的技術支撐環境下提供資料的上傳、下載、運算等服務。雲服務的模式主要有IaaS(Infrastructure as a Service,基礎設施即服務)、PaaS(Platform as a Service,平臺即服務)、SaaS(Software as a Service,軟體即服務)等三種模式[10]。從目前的雲計算服務提供商來看,情報服務的雲平臺既可以選擇Google和Amazon等雲服務提供商提供的雲平臺,大型服務機構也可以借鑑OCLC與美國國會圖書館透過自建雲服務平臺來實現對使用者的雲服務。

  2.6 資料分析服務

  在資料密集型科學環境下,不管是對使用者提供諸如上述的科學資料、知識諮詢、資料發現等服務,還是可能出現的如使用者定製的資料關聯、資料釋出等服務,資料分析都將是其實現的主要組成部分,只不過常態的科學資料、知識諮詢等服務,情報服務機構的依賴資源是雲資料、機構儲存資料與購買資料等,即主要以社會或機構公有資料為主,但使用者的個性化定製如資料關聯等服務可能主要以使用者個體私有資料為主。同時,需要注意的是,資料密集型科學環境下的資料分析,需以一些系統平臺和技術為支撐,如當前運用較多的視覺化技術、資料探勘與語義處理等。

  3 資料密集型科研環境下的情報服務發展

  3.1 重視對資料資源建設與價值挖掘

  IBM的《分析:大資料在現實世界中的應用》白皮書認為資料是大資料時代業務發展的主要驅動因素之一[11],一些IT業發達的國家如美國、印度等近來出現了一批以資料的獲取、聚合、加工為盈利手段的企業,由此可以看出資料在業務發展中的價值,對於提供以資料為知識來源與主要業務實現基礎的情報服務來說更是價值巨大。情報服務機構如圖書館、情報研究所等應認清資料在未來情報服務中的重要性,提高資料收集意識,一方面,對現存結構化資料進行關聯、標註、索引等分析與重組處理,實現資料的關聯化、語義化,以為資料的發現與關聯打下基礎;另一方面,注重隱藏著巨大價值但目前收集幾乎空白的非結構化資料、半結構化資料的建設,為將來的情報服務提供豐富的資料保障。

  3.2 重視對人才隊伍的建設與培養

  《中國大資料技術與服務市場2012-2016年預測與分析》報告認為“大資料相關人才的欠缺將成為影響大資料市場發展的一個重要因素”[12]。IDC認為中國大資料技術與服務市場將會從2011年的7760萬美元快速增長到2016年的6.16億美元,同時麥肯錫 (McKinsey)也認為到2018年,美國需要14~19萬名具有“深度分析”經驗的工作者,以及150萬名更加精通資料的經理人。而多種資料顯示這類工作人員非常稀缺,如著名的國際研究暨顧問機構Gartner就認為只有1/3的新的工作崗位能僱傭到熟悉大資料技能的IT專業人員[13]。人才問題同樣也會影響到未來資料密集型科學環境下基於大資料的情報服務,因為對資料分析、資料發現等情報服務來說,其不僅要有傳統情報服務的資訊檢索、組織等資訊素養,還需掌握對大資料的平臺分析等技術,更要在學科服務中具備一定的專業知識。要滿足這種服務業務的發展需要,情報機構進行人才引進與人才培養是唯一的兩條出路,並且需相輔相成,即一方面,引進一些IT服務商的資料科學家、資料工作者以及高校資料監護、資料監管專業的畢業生,另一方面,選擇與高校、IT公司合作,進行現有人才的培訓培養。

  3.3 重視情報服務合作機制的構建

  大資料時代的資料特點決定了資料的收集、利用都需以機構間、團隊間的合作為基礎,因此,在資料密集型科學環境下,情報機構既需要在資料資源上實現互相的共建共享以避免出現資源重複建設,還需在人才培訓、技術合作上實現互補,以透過資源共享、機構協作實現使用者需求的最大滿足。同時,開展校際合作、校企合作也是一個新的發展思路。這些合作機制的建立,一方面將進一步增強資料資源的互補性,拓展資料資源體系範圍,充分發揮科學資料的使用價值;另一方面,合作協作也將增強人才隊伍實力,為情報服務的開展拓寬了人才隊伍知識領域,提高服務能力。

  4 結語

  大資料時代才剛剛來臨,科學研究的第四正規化也尚處於日益成熟階段,資料密集型科學環境的發展還並不成熟,資料的價值也未在諸多領域得到體現,但隨著資料密集型科學環境的日益成熟與資料價值的日益體現,情報服務的資料服務價值也會被社會廣泛認可,適應使用者與社會發展需求的服務內容創新、方向轉變更將必不可少,重視資料資源、人才與合作機制建設,迎接日益社會發展步伐的需求挑戰,將是情報服務機構搶佔先機的關鍵決策。

最近訪問