《從人文計算到視覺化——數字人文的發展脈絡梳理》閱讀練習及答案

《從人文計算到視覺化——數字人文的發展脈絡梳理》閱讀練習及答案

  對於人文研究來說,計算方法以往只是作為輔助手段而存在的,而今天已取得了不可替代的地位。一種新的人文研究形態應運而生,這就是“數字人文”。學者莫萊蒂曾設想一種建立在全部文學文字之上的世界文學研究,人們必須藉助計算機對大規模的文學文字集合進行取樣、統計、圖繪、分類,描述文學史的總體特徵,然後再做文學評論式的解讀。為此,他提出了與“細讀”相對的“遠讀”作為方法論。弄清計算機的遠讀與人的細讀之間的差別,不僅能使我們清晰地界定計算方法在人文研究中的作用,而且可以幫助我們重新確立人的閱讀的價值。

  計算機是為科學計算而創造出來的,擅長的是“計數”,而非“理解”。要處理自然語言文字,計算機必須先將文字置換成便於計數的詞彙集合,或者用更復雜的代數模型和機率模型來表示文字,這一過程被稱為“資料化”。資料化之後所得到的文字替代物(集合、向量、機率)雖然損失了原始文字的.豐富語義,但終究是可以計算的了,不過,儘管計算機能處理海量的語料,執行復雜的統計、分類、查詢等任務,但它並不能理解文字的內容。

  遠讀是數字人文的基石,大規模的文字集合上的遠讀,基本可以歸為兩類:一是對文字集合整體統計特徵的描述,一是對文字集合內在結構特徵的揭示。例如,數字人文學者米歇爾等人對數百萬冊數字化圖書進行多種詞彙和詞頻統計,以分析英語世界的語言演變,這屬於前者;莫萊蒂用地圖、樹結構來分別展示文學作品的地理特徵和偵探故事的型別結構,這屬於後者。無論是宏觀統計描述還是內在結構揭示,都是超越文字具體內容的抽象表示,所得結果都是需要解讀的。正如米歇爾所說,在巨量文字集合上得到的統計分析結果,為人文材料的宏觀研究提供了證據;但是要解讀這些證,就像分析古代生物化石一樣,是有挑戰性的。對遠讀結果的解讀,仍然要依賴學者在細讀文字礎上所建立起來的對本領域的認知和理解,一句話,人的閱讀不可替代。

  需要補充的是,當考察單篇文字的文字特徵(例如計算一篇文件中所有單字的出現頻率),或者分析其內部結構(例如提取一部小說中所有人物的對話網路)時,資料量也會增長到個人無法處理的程度,所以,上述對文字集合所做的討論在單篇文字層面也是成立的。

  一個普遍存在的對數字人文的評判依據,是看數字人文能不能更好地回答傳統人文學者所關心的問題。嚴格說來,只有當資料量或者資料精度超出了個人閱讀理解的能力範圍時,才有理由藉助計算機來對文字或者文字集合的特徵予以量化描述,進而提供給人去進行深入解讀,數字人文不僅僅是新的手段和方法,更重要的是,它賦予我們提出新問題的能力。我們現在可以問,五千年來全人類使用最頻繁的詞是什麼,透過這類問題,可以獲得觀察超長曆史時段文化現象的新視角。

  (摘編自王軍《從人文計算到視覺化——數字人文的發展脈絡梳理》)

  1.下列關於原文內容的理解和分析,不正的一項是(3分)

  A.在數字人文的概念提出之前,計算方法已被引入人文領域,在研究中發揮作用。

  B.要實現莫萊蒂設想的世界文學研究,首先應進行大規模的文學文字集合的資料化。

  C.選擇遠讀還是細讀的方法,取決於閱讀的物件是大規模的文字集合還是單篇文字。

  D.數字人文不僅為文字處理提供了新的手段和方法,而且為人文研究提供了新視角。

  2.下列對原文論證的相關分析,不正確的一項是(3分)

  A.文章區分“計數”與“理解”,是為了論證計算機不能處理某些特定型別的文字。

  B.文章轉述數字人文學者米歇爾本人的說法,有助於論證應該更全面地看待遠讀。

  C.文章第四段討論單篇文字層面的問題,對前文補充論證,使得論證更加周密。

  D.文章同時肯定計算機遠讀和人的細讀的作用,有助於避免人們對遠讀的誤解。

  3.根據原文內容,下列說法正確的一項是(3)

  A.人文研究的主體,在數字人文中實現了從具體的學者個人向計算機的轉變。

  B.遠讀不是要深化對文字內容的理解,而是要發掘文字集合的共同形式特徵。

  C.數字人文的價值,在於將歷史上未被注意和閱讀的文字都進行資料化並做研究。

  D.和人的細讀相比,遠讀的理念和做法體現出大資料時代文理融合的跨學科取向。

  答案:

(一)

  1. C2.A3.D

最近訪問