山東抗日民主根據地

[拼音]:Xingshi Wenfa

數理語言學用於生成語言的文法。形式文法是數目有限的規則的集合,這些規則可生成語言中的合格句子,並排除語言中的不合格句子。形式文法符號為 G,文法所生成的語言符號為L(G)。

定義

美國語言學家N.喬姆斯基把形式文法 G定義為四個專案的組合:

G=(VN,VT,S,P)

其中,VN是非終極符號,不能處於生成過程的終點;VT是終極符號,能處於生成過程的終點;VN與VT不相交,沒有公共元素; S是VN中的初始符號; P是重寫規則,其一般形式為:

嗞→ψ

這裡,嗞和ψ都是符號串。

如果用符號#來表示符號串中的界限,那麼,可以從初始符號串#S#開始,應用重寫規則#S#→#嗞1#,從# S#構成新的符號串#嗞1#,再利用重寫規則#嗞1#→#嗞2#,從#嗞1#構成新的符號串#嗞2#,……一直到得出不能再繼續重寫的符號串#嗞n#為止,這樣得出的終極符號串#嗞n#,顯然就是語言L(G)中合格的句子。

例如,在英語中,有如下的文法:

G=(VN,VT,S,P)

VN={NP,VP,T,N,V}

VT ={the,man,boy,ball,saw,hit,took,…}

S=S

P:S →NP⌒VP①

NP→ T⌒N ②

VP→ V⌒NP③

T →the ④

N →{man,boy,ball,…}⑤

V→{saw,hit,took,…} ⑥這裡,初始符號S表示句子,NP表示名詞短語,VP表示動詞短語, T表示指示詞, N表示名詞,V表示動詞。利用這些重寫規則,可以從初始符號S開始,生成英語的句子“The man saw the ball”,“The man took the ball”,“The boy hit the ball”,等等。

“The man saw the ball”的生成過程可寫成如下形式,後面註明所用重寫規則的號碼:

S

NP⌒VP ①

T⌒N⌒VP ②

T⌒N⌒V⌒NP③

the N⌒V⌒NP ④

the man V⌒NP ⑤

the man saw NP⑥

the man saw T⌒N②

the man saw the N ④

the man saw the ball⑤

這樣寫出來的生成過程,叫做推導史。

分類

喬姆斯基根據重寫規則的形式,把形式文法分為 4類:

(1)O型文法:重寫規則為嗞→ψ,並且要求嗞不是空符號串。

(2)上下文敏感文法:重寫規則為嗞1A嗞2→嗞1ω嗞2。在上下文嗞1→嗞2中,單個的非終極符號 A被重寫為符號串ω,所以,這種文法是上下文敏感的。

(3)上下文自由文法:重寫規則為A→ω。當A重寫為ω時,沒有上下文的限制,所以,這種文法是上下文自由的。

(4)有限狀態文法:重寫規則為 A→aQ或A→a。其中,A和Q是非終極符號,a是終極符號,而A→a只不過是A→aQ當 Q為空符號時的一種特殊情況。如果把A和Q看成不同的狀態,那麼,由重寫規則可知,由狀態 A轉入狀態Q時,可生成一個終極終號a,因此,這種文法叫做有限狀態文法。

各種形式文法的關係

每一個有限狀態文法上下文都是自由的,每一個上下文自由的文法上下文都是敏感的,每一個上下文敏感的文法都是 O型的。喬姆斯基把由O型文法生成的語言叫O型語言,把由上下文敏感文法、上下文自由文法、有限狀態文法生成的語言分別叫做上下文敏感語言、上下文自由語言、有限狀態語言。有限狀態語言包含於上下文自由語言中,上下文自由語言包含於上下文敏感語言中,上下文敏感語言包含於 O型語言中。

形式文法的理論是當代電腦科學的基礎理論之一,在演算法分析、編譯技術、影象識別、人工智慧等領域中得到廣泛的應用。

參考書目

N.Chomsky,Three models for the description oflɑnɡuɑɡe , 《 IRETransactionofinformation Theory》.Vol.1,No.3,pp.113~124,1956.