語篇結構標註研究的綜述

    論文關鍵詞:修辭結構理論篇章結構標註
    論文摘要:語篇結構標註起步較晚,但以修辭結構理論***RST***為指導的篇章修辭結構標註最近取得了令人矚目的成績。目前,已經建成並公佈的篇章結構標註語料庫是由美國南加州大學資訊科學學院的一個課題小組完成的,由385篇文章組成,是一個大規模、高質量、高一致性的帶多層語言學標註資訊的參照篇章語料庫。語料庫建設的主要成就為:確立瞭如何將語篇切分為基本語篇單位的理論,擴充套件了修辭關係集,為RST理論的運用提供了廣闊的前景。本文綜述該語料庫建設的研究成果。
    0.概述
    隨著計算機技術的普及和發展,語料為機器可讀成為語料庫建設的最基本的要求之一。要達到語料機讀化這一目的,關鍵在於語料的標註。所謂標註,就是對語料庫中的原始語料進行加工,把各種表示語言特徵的附碼標註在相應的語言成分上,以便計算機的識讀。

語料標註的型別主要包括語篇背景資訊、詞性、詞形、句法分析、語義、語篇結構等。從當前的研究現狀來看,雖然語篇結構標註起步較晚,但以修辭結構理論***RST***為指導的篇章修辭結構標註最近取得了令人矚目的成績。目前,已經建成並已公佈的篇章結構標註語料庫是由美國南加州大學資訊科學學院的一個課題小組完成的,由385篇文章組成,是一個大規模、高質量、高一致性的帶多層語言學標註資訊的參照篇章語料庫。在這基礎上研究小組還進行了自動篇章標註演算法、自動文摘、機器翻譯等具體應用工程方面的研究。
該參照篇章語料庫的建成不但為篇章結構標註建立了理論體系,而且為語篇結構的應用研究開闢了新的領域。本文將綜述該參照篇章語料庫建設的研究成果。

    1.理論支撐的建立
    根據Carlson***2001***的介紹,用於話語分析的理論有很多,如Groz和Sidner***1986***Mann和Thompson***1987***等都提出了自己的篇章分析理論,但這些理論主要用於單個的文字分析,往往著眼於語篇的某一個方面,如指代關係、語篇的風格、語篇的多維性以及某一理論在語篇中的體現等,很少被用於大規模的語料分析或語料標註。在建立參照語料庫時,Carlson***2001***等研究者將Mann和 Thompson ***1987***提出的修辭結構理論***RST***用於大批量的語篇標註和語篇分析。他們認為用修辭結構理論***RST***對語篇進行標註有三點優勢:可以同時捕捉到特定文字的交際意圖、語義資訊和文字本身的特徵;先前的研究表明該理論可以使不同的標註者在標註不同的文字時達到一定的統一;用該理論標註的語篇樹形圖對構建自然語篇生成系統、自動文摘系統、文字測評系統起著關鍵的作用,也可以用來增強機器翻譯的自然性。參照篇章語料庫的建成確立了篇章結構標註的理論基礎。
    2.基本語篇單位的確定
    語篇結構標註的另一成就是確定了英語基本語篇單位。在確定基本語篇單位時,不同的研究者往往運用不同的理論。Givon***1983***認為從句應該成為語篇的基本單位,Sacks***1974***認為談話的話輪應該成為語篇的基本單位,Polanyi***1988***堅持語篇應該以自然句為切分單位,Grosz 和Sindner***1986***認為語篇的基本單位應該從語篇的上下文中獲取,它是由一定的符號所反映的資訊載體,能反映事物的單個狀態或部分狀態,最有影響的修辭結構理論認為從句應該是語篇的基本單位,不管從句有沒有語法標記或詞彙標記。
    然而,在具體標註時,Marcu等研究者對基本語篇單位有了新的規定:所有有詞彙或句法標記的起狀語作用的從句都屬於基本語篇單位,包括起狀語作用的非謂語動詞片語;充當主語、賓語、補語的從句不屬於基本語篇單位;定語從句、後置的名詞修飾短語或將其他基本語篇單位割裂開的從句或非謂語動詞短語為內建語篇單位;除此而外,還有一定數量的有明顯語篇標記的短語作為基本語篇單位,如由in spite of***儘管***,according to***根據***等引導的短語。
    Marcu的切分方法綜合了Grosz和Sindner***1986***和Mann***1987***和Thompson***1987***的理論,在確定基本語篇單位時考慮到詞彙、句法、語義和在句中的位置等因素。
    3.修辭關係的擴充套件
    當初,Mann和Thompson***1987***提出修辭結構理論時只給出20多種修辭關係,但他們明確指出這是一個開放關係集,既然是開放性的,就意味著讀者在給定話語的內部可以定義出其他的關係型別。Marcu***2000***根據標註的語料庫總結出53種單層核心關係和25種多層核心關係,78種定義關係又分成16個組別,每組都具有相同的修辭功能。
    就如同當初的定義關係集一樣,這些關係覆蓋了基本語篇單位、語段乃至整個語篇。通過這些關係,不同層級的語言片段被連線起來,構成一定的抽象形式。
    4.標註標準和方法的制定
    為了建立高質量的前後一致的標註標準和方法,Carlson***2001***等研究者採用人工標註的方法。他們所選用的標註者都是有過標註經歷的、從事語篇分析和新聞報道的專業人員。在正式標註之前,他們都接受專門的語篇結構標註培訓,培訓包括3個階段。
    在第一階段,向標註者介紹修辭結構理論和語篇分析工具。在培訓的第二階段,標註者開始探索語篇結構的特徵。在培訓的最後一個階段,標註小組謀求在構建語篇總結構圖時保持一致,儘量減少分歧。
    最終,標註小組研製出兩個基本策略用於文獻分析並建立相關的語篇結構圖。策略之一是對文字的直接分析,可以在頁邊空白處標出記號,也可以將文獻切分成一定的語段並標出記號,根據這些標註建立語篇結構圖。以這種方式建立樹型結構圖,標註者必須預測到隨後的語篇結構。然而,其後語段的修辭關係,尤其是較大的語段,可能不是太明顯,這就是為什麼這一標註策略更適用於短篇文獻的標註。
    另一策略是將文字分析與建立語篇結構兩項任務同時進行,很可能是成塊地標註而不是循序漸進地一步一步地增加。以這種策略進行標註,標註者一次可以切分很多語篇單位,併為每個自然句建立結構圖,然後將相鄰的自然句連線起來,構成較大的語段結構樹。最終的語篇結構樹是通過連線語篇結構中主要語塊而建成的。
    5.標註質量的檢驗
    標註質量的控制是通過標註者對標註結果的反覆修改和區域性隨機的自動交叉核實來實現的。為了確保標註語料庫的質量,研究小組採取了很多措施,這些措施主要涉及到兩個方面,即檢驗語篇結構樹的效度和保持標註者內部的一致性。
    5.1 效度檢驗
    效度檢驗從兩個方面進行,即句法和語義。句法檢驗確保每棵樹只有一個根結,並將樹與文獻進行對比以防句子或語段被遺漏。語義檢驗主要是關係到核心語段的指派、修辭關係的選擇以及語篇結構樹的層次。為了保證檢驗質量,研究小組研製出語篇分析器以及圖形掃描器。所謂圖形掃描器,就是指,在圖形環境下,自左而右漸進地為各個篇章單元給出一種最有可能的修辭關係和篇章結構地位。分析器和圖形掃描器經常可以確認出人工檢驗無法覺察的錯誤,都可以成功地作用於所有語篇結構樹。
    5.2 標註一致性
    在整個語料庫的建設過程中,研究者一直設法保證標註者之間內部的一致性。首先,他們研製出一種演算法,該演算法可以計算出語篇層級結構的Kappa資料。***Kappa演算法曾被廣泛地運用於語篇實證研究中,該演算法可以測算出研究者在作出分類決策、預測可能性方面的一致性。***如果Kappa資料大於0.8,就意味著具有較高的一致性;如果資料值在0.6和0.8之間,就意味著較好的一致性。
   6.標註語料庫的挖掘
    藉助於以RST理論為支撐的語篇標註語料庫,研究者可以對語篇進行三個層次的分析,即語篇標記詞功能的分析、不同型別的語篇結構圖的描述和比較、語篇中從句間修辭關係的描述和比較。
    6.1 篇章連詞的研究
    篇章連詞功能研究一直是理論語言學和計算機語言學研究的主題,而且網路語料庫方便了研究者對關聯詞語的研究,但利用豐富的標註語料庫資源進行分析的研究不多。語篇結構標註語料庫可以使研究者在多種語境中對關聯詞進行元語言分析,使人們能瞭解到它們在語篇中出現的頻數、在句中的位置、所發揮的篇章修辭作用、核心性、輔助性等方面資訊。
    例如,研究小組總結了since 和 as在語篇中的功能。經研究發現,就這兩個詞在語篇中出現的頻率而言,在語篇中起連線兩個基本語篇單位修辭作用的情況只有1/3,因為它們往往在命題層面上發揮作用而不是在語篇層面上。就它們在語篇中發揮的修辭作用而言,as涉及到的關係型別遠遠地多於since,但兩者所引導的語篇單位往往都處於輔助位置而非核心位置。
    6.2 語篇結構圖的描述和比較
    除了Lancaster大學的OBC語料庫***Garside等,1987;Biber等,1998,轉自Carlson,2001***提供的語體或語域研究,以及TDT語料庫***Wayne,2000,轉自Carlson,2001***提供的話題確認研究之外,能幫助研究者對語篇進行全面分析的語言資源不多。然而,以RST理論為支撐的語篇結構標註語料庫,勾畫出每一份文獻的多層次的語篇修辭結構圖,據此可以對結構樹的各個層次進行分析。例如,結構樹的抽象層面,對修辭關係和文獻的內容進行非詞彙化的概括,為研究交際意圖帶來很多方便。
    又如,語篇研究結果表明在文字的總體框架上新聞類語篇不同於故事類,因為新聞類語篇的結構多呈倒三角形,但這些研究很難解釋產生差異的根本性原因。語篇結構樹可以彌補這一缺陷,這些樹使研究者清楚地看到在實現作者的交際意圖時、在體現篇章的互文性時,同樣的句式在不同的文字中發揮的作用是不同的,在有的文獻中起核心作用,而在有的文獻中起輔助作用。事實上,這些結構樹很清楚地反映出,即使是同一型別的語篇,隨著語境的改變、主題的變化,文字的結構也會發生相應的變化。
    6.3 語篇內修辭關係的研究
    通過對標註語料庫的分析和挖掘,研究者發現從句間的修辭關係在文字中發揮作用的頻率是很不一樣的。例如,研究者發現“詳述-補充”修辭關係使用的頻率最高,因為作者在表達過程中往往要藉助於前面的背景,通過對前面的背景補充說明來闡發新的觀點。與此類似的還有列舉關係和解析關係。修辭關係的元語言分析使人們能瞭解到它們在語篇中出現的頻數、在句中的位置、核心性、輔助性等方面資訊。除此之外,語篇結構樹還勾畫了修辭關係如何發揮語篇銜接與連貫的功能。例如,研究者通過對篇章標註語料庫的分析發現,“列舉”關係不但起到舉例的作用,而且在連線平行語篇單位、平行語段和平行語篇時發揮巨大的作用。事實上,這一研究結果驗證了Halliday 和Hasan***1976***的觀點,即平行結構是一種語篇銜接手段。
    *** 應用性研究
    語篇結構標註語料庫為文獻檢索、自動剖析、自動文摘、自動翻譯等提供相關資料,例如,研究小組所設計的線上檔案剪接系統。藉助於篇章結構標註語料庫,研究者發現並非所有的句子都是基本語篇單位,也不是所有的語篇單位都具有相同的作用,有的屬於核心的,有的屬於輔助的,有的在實現作者的交際意圖時、在體現篇章的互文性時發揮關鍵作用,有的並沒有。以此類推,篇章中的詞彙、短語也有核心與輔助之別。篇章結構標註語料庫可以幫助建立一個以篇章結構為指導、以詞彙短語有界和無界合併為手段的檔案剪接系統。同時,篇章結構標註語料庫幫助建立了一個以篇章結構為指導、以機械文摘為基本手段、再配合消除冗餘、可讀性加工的綜合自動文摘系統。
    7.結論
    2001年,由Daniel Marcu博士主持的研究小組以RST理論為支撐創立了語篇標註語料庫。研究小組所標註的385篇華爾街報文章皆取自賓州樹庫,篇幅長度不等,從31個詞到2,124個詞,總詞數達到176,000,平均每篇文章458個詞。文章的內容涉及到各種話題,如財政報道、商業新聞、文化點評、編者按、讀者來信等。語料庫建設的主要成就為:確立瞭如何將語篇切分為基本語篇單位的理論、擴充套件了修辭關係集、為RST理論的運用提供了廣闊的前景。
    參考文獻:
    [1] [ZK***#]Carlson,L.,Marcu.D.& Okurowski M.Building a Discourse_tagged Corpus in the Framework of Rhetorical Structure Theory.Proceedings of the First Annual Meeting of the North American Chapter of the Association for Computational Linguistics,Seattle,WA,2001:9-17.
    [2] Grosz,B.& Sidner,C.Attentions,Intentions,and the Structure of Discourse[J].?Computational Linguistics?,12***3***:175-204.Talmy Givon,1983/1986.
    [3] Halliday,M.A.K.& R.Hasan.?Cohesion in English?[M]..
    [4] Mann.W.& S.Thompson.Rhetorical Structure Theory:A Theory of Text Organization.USC Information Science Institute.Technical Report I ***SI/ RS-87-190***,1987.
    [5] Marcu,D.?The Theory and Practice of Discourse Parsing and Summarization?[M].Cambridge, Press,2000.