[美]馬克·阿蘭·芬雷森 著 張瑞嬌 李 揚(yáng) 譯
弗拉基米爾·普羅普(Vladimir Propp)的《故事形態(tài)學(xué)》一書出版于1928年,1958年首次被翻譯成英文。[注]弗拉基米爾·普羅普:《故事形態(tài)學(xué)(第2版)》,勞倫斯·斯科特譯,奧斯?。旱每怂_斯大學(xué),1968年。這是民俗學(xué)的一部開創(chuàng)性著作,引領(lǐng)了結(jié)構(gòu)主義時(shí)代,為后來的民間故事敘事結(jié)構(gòu)研究提供了范例,也啟迪了一代又一代的民俗學(xué)家。普羅普的形態(tài)學(xué)是迄今為止對(duì)敘事結(jié)構(gòu)最精確的表述之一,它提出了一個(gè)引人注目的機(jī)器學(xué)習(xí)課題。如果能夠從一組給定的民間故事中自動(dòng)地、可靠地提取形態(tài),這將會(huì)引起廣泛的興趣。對(duì)民俗學(xué)家和文學(xué)理論家而言,這種工具將會(huì)是進(jìn)行比較、索引和分類的無價(jià)之寶。對(duì)文化人類學(xué)家而言,它將為研究文化及其跨時(shí)空變化提供一種新技術(shù)。對(duì)文化心理學(xué)家而言,它將為探究文化及其對(duì)思想的影響的新實(shí)驗(yàn)指明方向。對(duì)認(rèn)知科學(xué)家而言,它可以作為理解文本抽象和敘事理解本質(zhì)的模型。對(duì)計(jì)算語(yǔ)言學(xué)家而言,它將推進(jìn)對(duì)自然語(yǔ)言更高層次意義的理解。對(duì)研究人工智能和機(jī)器學(xué)習(xí)的人而言,它代表了我們從復(fù)雜數(shù)據(jù)集當(dāng)中提取深層結(jié)構(gòu)的能力的進(jìn)步。當(dāng)然,在每個(gè)領(lǐng)域中也可以發(fā)現(xiàn)其他領(lǐng)域取得的相關(guān)進(jìn)展。
然而,直到現(xiàn)在,形態(tài)的提取仍舊依靠人工,這類學(xué)者如A.J.格雷馬斯(A. J. Greimas),克洛德·列維-斯特勞斯(Claude Lévi-Strauss),阿蘭·鄧迪斯(Alan Dundes),以及弗拉基米爾·普羅普。[注]阿爾吉爾達(dá)斯·朱利安·格雷馬斯:《結(jié)構(gòu)語(yǔ)義學(xué):方法研究》,巴黎:拉魯斯,1966年;克洛德·列維-斯特勞斯:《神話與意義》,紐約:勞特利奇,1978年;阿蘭·鄧迪斯:《北美印第安人民間故事形態(tài)論》,《民俗學(xué)者通訊》第195期,赫爾辛基:芬蘭科學(xué)院,1964年。弗拉基米爾·普羅普:《故事形態(tài)學(xué)(第2版)》,勞倫斯·斯科特譯,奧斯?。旱每怂_斯大學(xué)出版,1968。為一組特定的民間故事構(gòu)建形態(tài)需要多年的閱讀與分析。目前還不確定已經(jīng)完成的形態(tài)研究中,有多少是源于民俗學(xué)家的個(gè)人偏好或?qū)ζ渌F(xiàn)存形態(tài)的熟悉,而不是通過調(diào)查對(duì)故事性質(zhì)做出的正確反映。此外,盲目地對(duì)形態(tài)分析進(jìn)行再現(xiàn)或驗(yàn)證是一項(xiàng)異常艱巨的工作,這需要具備必要技能的學(xué)者,來回溯人工生成故事形態(tài)所需的長(zhǎng)達(dá)數(shù)年的閱讀、分析與合成的過程。
我展示了一種技術(shù),可以用計(jì)算方式解決從一組給定的故事中識(shí)別出形態(tài)的問題。該算法是被稱為模型融合[注]安德烈亞斯·斯托克、斯蒂芬·奧莫亨德羅:《由貝葉斯模型融合推導(dǎo)概率文法》,拉斐爾·C·卡拉斯科、何塞·翁西納:《文法推理與應(yīng)用》,柏林:斯普林格,1994年,第106-118頁(yè)。的機(jī)器學(xué)習(xí)技術(shù)的改進(jìn)版,該算法還使用了一組規(guī)則,源自普羅普對(duì)自身尋找故事間相似性的過程的闡述。在這項(xiàng)技術(shù)中,算法將語(yǔ)義標(biāo)注文本(semantically annotated texts)作為數(shù)據(jù)運(yùn)行,并將民間故事的表面語(yǔ)義以計(jì)算機(jī)可讀的表達(dá)加以編碼。在這個(gè)特殊的論證中,數(shù)據(jù)是普羅普分析的單一回合的(single-move)俄羅斯神奇故事里的一部分,并將之翻譯成了英語(yǔ)。值得注意的是,文本表面語(yǔ)義的編碼是人工輔助的;而對(duì)普羅普功能項(xiàng)特征的實(shí)際學(xué)習(xí)則是由計(jì)算機(jī)完成的。
本文主要內(nèi)容如下:第一,我解釋了當(dāng)前機(jī)器學(xué)習(xí)的問題,指出了普羅普理論中我將要重點(diǎn)學(xué)習(xí)的部分。第二,我描述了所使用的學(xué)習(xí)技術(shù)的結(jié)構(gòu),以及它與正則模型融合的不同。第三,我闡釋了實(shí)驗(yàn)中使用的數(shù)據(jù),包括文本、語(yǔ)義標(biāo)注方案以及測(cè)量算法性能的黃金標(biāo)準(zhǔn)數(shù)據(jù)(普羅普的分析)。第四,我列出了一組源于普羅普的描述的合并規(guī)則,它在模型融合框架內(nèi)工作,以重現(xiàn)普羅普的大部分功能項(xiàng)。最后,我闡釋了該算法在提取普羅普的功能項(xiàng)指征方面的表現(xiàn)。
普羅普的形態(tài)學(xué)中包括一組人物類別和三級(jí)情節(jié)結(jié)構(gòu):總體結(jié)構(gòu)(回合),中級(jí)結(jié)構(gòu)(功能)和精細(xì)結(jié)構(gòu)(我在本文中將之稱為亞型:普羅普本人沒有給出特定的術(shù)語(yǔ))。登場(chǎng)人物的類別被稱為角色,普羅普確定了七種:主人公,對(duì)頭,公主,差遣者,贈(zèng)與者,相助者和假冒主人公。由功能項(xiàng)組成的單一故事是不成熟的,一個(gè)標(biāo)準(zhǔn)的故事往往是由一個(gè)或多個(gè)回合組成,它們可能還會(huì)以復(fù)雜的方式相互交織。功能是一種情節(jié)元素,是“從其對(duì)于行動(dòng)過程意義角度定義的角色行為”[注]弗拉基米爾·普羅普:《故事形態(tài)學(xué)(第2版)》,勞倫斯·斯科特譯,奧斯?。旱每怂_斯大學(xué),1968年,第21頁(yè)。。每個(gè)功能都屬于一種主要的類型,這由它在一個(gè)回合中的位置、情節(jié)的目的、以及所涉及的角色來確定。普羅普識(shí)別出了31種不同的功能項(xiàng)。每個(gè)功能項(xiàng)對(duì)應(yīng)正在發(fā)生的事情,但是不一定能指出事情是如何發(fā)生的——也就是說,功能項(xiàng)可以通過許多不同的方式例示,這就是我所說的功能項(xiàng)的亞型。
在單詞的形式及計(jì)算的意義上,普羅普的情節(jié)結(jié)構(gòu)定義了一種語(yǔ)法。在這項(xiàng)研究中,我努力從文本本身學(xué)習(xí)這種語(yǔ)法的某些部分。正如我們從文法推理[注]伊格拉·科林德拉:《文法推理:學(xué)習(xí)自動(dòng)化與語(yǔ)法》,劍橋:劍橋大學(xué)出版,2010年。中所知道的,語(yǔ)法力量影響了語(yǔ)法學(xué)習(xí)的難度。那么普羅普的語(yǔ)法有多強(qiáng)呢?
普羅普將故事的最高級(jí)結(jié)構(gòu)定義為可選擇的先在序列,其后是一些可能相互交織的回合。這個(gè)級(jí)別的語(yǔ)法復(fù)雜性至少是上下文無關(guān)的(context-free),這與拉科夫的分析一致[注]喬治·拉科夫:《神奇故事的結(jié)構(gòu)復(fù)雜性》,《人的研究》第1卷,加利福尼亞州爾灣:加利福尼亞大學(xué)社會(huì)科學(xué)學(xué)院出版,1972年,第128-150頁(yè)。https://georgelakoff.files.wordpress.com/2010/12/structural-complexity-in-fairy-tales-lakoff-1972.PDF,自然是一種相當(dāng)強(qiáng)大的語(yǔ)法。中級(jí)結(jié)構(gòu)是一種正則文法,其中功能項(xiàng)要以受到限制的順序出現(xiàn),它比上下文無關(guān)文法弱,因此更容易學(xué)習(xí)。亞型級(jí)則可以在故事弧內(nèi)產(chǎn)生長(zhǎng)期影響,因?yàn)樵谝粋€(gè)故事中,早期對(duì)特定亞型的選擇(例如A,加害行為是綁架)會(huì)影響后來對(duì)特定亞型的選擇(例如K,解決方案是對(duì)被綁架者的救助)。這種亞型的影響增加了額外的復(fù)雜性,但可以采取特征文法[注]喬舒亞·古德曼:《概率特征文法》,哈里·邦特,安東·尼霍特:《概率論和其他解析技術(shù)的進(jìn)展》,多德雷赫特:斯普林格,2000年,第63-84頁(yè)?;驈V義短語(yǔ)結(jié)構(gòu)語(yǔ)法[注]加茲達(dá)爾·杰拉爾德、伊萬·克萊因、杰弗里·K·普盧姆、伊萬·A·薩格:《廣義短語(yǔ)結(jié)構(gòu)語(yǔ)法》,牛津:巴茲爾·布萊克韋爾出版公司,1985年。的形式并入到功能級(jí)正則文法(或回合級(jí)上下文無關(guān)文法)中。因此,拋開角色不談,普羅普理論的整體文法,至少是其廣義短語(yǔ)結(jié)構(gòu)語(yǔ)法(GPSG),確實(shí)有很高程度的復(fù)雜性。
目前,我們還沒有可以同時(shí)學(xué)習(xí)普羅普GPSG的字母表、轉(zhuǎn)換及角色類別的計(jì)算技術(shù)。即使給出了角色,學(xué)習(xí)GPSG也仍舊十分困難。因此,在本文中,我只集中學(xué)習(xí)普羅普功能項(xiàng)的指征,并指出可以被看作普羅普最突出貢獻(xiàn)的功能項(xiàng)類別。幾乎所有其他內(nèi)容都是參考功能進(jìn)行定義的:回合是功能的復(fù)合體,亞型是對(duì)功能的調(diào)整,角色也部分地由其所參與的功能來定義。大多數(shù)以普羅普為基礎(chǔ)的民俗學(xué)和計(jì)算工作都集中在功能層面上。[注]例如,阿蘭·鄧迪斯:《北美印第安人民間故事形態(tài)論》,《民俗學(xué)者通訊》第195期,赫爾辛基:芬蘭科學(xué)院,1964年;本杰明·科爾比:《愛斯基摩民間故事的部分語(yǔ)法》,《美國(guó)人類學(xué)家》1973年第75卷第3期,第645-662頁(yè);貝倫·迪亞斯-阿古多、巴勃羅·赫瓦斯、費(fèi)德里科·佩納多:《基于案例推理的故事情節(jié)生成方法》,《案例推理歐洲會(huì)議(ECCBR)論文集》,馬德里,2004年,第142-156頁(yè);哈里·哈爾平、約翰娜·穆爾、朱迪·羅伯遜:《故事改寫情節(jié)的自動(dòng)分析》,《自然語(yǔ)言處理實(shí)驗(yàn)方法會(huì)議(EMNLP)論文集》,巴塞羅那,2004年,第127-133頁(yè)。
我把以下內(nèi)容留待將來研究:角色類別,功能亞型類別,回合級(jí)文法,以及功能級(jí)正則文法的轉(zhuǎn)換結(jié)構(gòu)。在本文中,我的關(guān)注點(diǎn)僅在研究功能項(xiàng)類別上,相當(dāng)于只是學(xué)習(xí)功能級(jí)正則文法的字母表。由于使用已知的字母表學(xué)習(xí)正則文法是一個(gè)頗具吸引力的問題,我利用這項(xiàng)工作為學(xué)習(xí)正則文法的字母表構(gòu)建了一種新算法。
模型融合是一種從正例中學(xué)習(xí)正則文法的自動(dòng)化技術(shù)[注]斯蒂芬·M·奧莫亨德羅:《動(dòng)態(tài)學(xué)習(xí)與識(shí)別的首個(gè)最佳模型融合》,約翰·E·穆迪、斯蒂芬·J·韓森、理查德·P·李普曼:《神經(jīng)信息處理系統(tǒng)研究進(jìn)展5》,加利福尼亞(圣馬特奧):摩根考夫曼,1992年,第958-965頁(yè);安德烈亞斯·斯托克、斯蒂芬·奧莫亨德羅:《由貝葉斯模型融合推導(dǎo)概率文法》,拉斐爾·C·卡拉斯科、何塞·翁西納:《文法推理與應(yīng)用》,柏林:斯普林格,1994年,第106-118頁(yè)。,這是我的研究方法的概念基礎(chǔ)。我的技術(shù)采用了模型融合,并擴(kuò)充了兩個(gè)關(guān)鍵性內(nèi)容。第一,雖然模型融合假設(shè)語(yǔ)法的字母表是已知的,但學(xué)習(xí)普羅普形態(tài)學(xué)的一個(gè)主要挑戰(zhàn)在于學(xué)習(xí)功能項(xiàng)本身的指征。為了達(dá)到這個(gè)目的,我從一個(gè)非常大的可能性字母表開始,并在最后加入一個(gè)篩選階段,用以從最終模型中識(shí)別真正的字母。第二,盡管模型融合認(rèn)為模型狀態(tài)(model states)是相對(duì)微小的,且模型狀態(tài)發(fā)出的符號(hào)只有一種概率分布,但是我的技術(shù)在進(jìn)行融合時(shí),考慮到了每個(gè)模型狀態(tài)豐富的內(nèi)部結(jié)構(gòu)(源于文本上的語(yǔ)義標(biāo)注)。
模型融合可用于從一組正例中導(dǎo)出正則文法。如,兩個(gè)字符序列的集合{ab,abab},最簡(jiǎn)明地描述這兩個(gè)序列的模式是什么?一種猜測(cè)是正則文法(ab|abab),確切地說,是第一個(gè)或第二個(gè)字符串。然而我們覺得這種猜測(cè)并不令人滿意,因?yàn)樗鼪]有超出所提供例子的范圍。大家都能發(fā)現(xiàn),更合理的猜測(cè)是子字符串a(chǎn)b重復(fù)了一次或多次,或者寫成一個(gè)正則文法表達(dá)式:(ab)+。模型融合是一個(gè)框架,它能讓我們找到這種模式的良好近似值;我們所需要的只是一種搜索可能的語(yǔ)法空間的方法。
模型融合遵循文法推理范式,該范式始于一個(gè)模型,其建構(gòu)目的在于接受由觀察而來的正例組成的有限語(yǔ)言。[注]馬修·揚(yáng)-拉伊:《文法推理》,劉玲(音譯)、M·塔梅爾·厄茲敘:《數(shù)據(jù)庫(kù)系統(tǒng)百科全書》,柏林:斯普林格,2009年,第1256-1260頁(yè)。通過對(duì)模型中的狀態(tài)進(jìn)行合并操作以實(shí)現(xiàn)一般化,其中兩種狀態(tài)從模型中被移除并被替換為單一狀態(tài),后者會(huì)繼承前者轉(zhuǎn)換與發(fā)出的內(nèi)容。這種合并操作催生了一個(gè)很大的模型搜索空間。
為了說明我的技術(shù),圖1展示了如何從兩個(gè)非常短的故事中提取一個(gè)簡(jiǎn)單的形態(tài)。編寫這些故事也是為了說明該技術(shù)。第一個(gè)故事是關(guān)于一個(gè)老人和女仆:他們?cè)诼飞舷嘤?,他追逐她,她跑開了,最后她認(rèn)為他是一個(gè)丑陋的男人。第二個(gè)故事是關(guān)于一條龍和一位公主:龍跟蹤公主,這讓她感到害怕,所以她逃跑并躲了起來,最后她認(rèn)定龍是邪惡的生物。在某種抽象層面,這兩個(gè)故事是相似的。追逐與跟蹤事件相似,因?yàn)樗鼈兩婕耙粋€(gè)參與者跟隨另一個(gè)參與者;跑開與逃跑事件相似,因?yàn)樗鼈兩婕耙粋€(gè)參與者遠(yuǎn)離另一個(gè)參與者的行動(dòng);認(rèn)為和認(rèn)定則都是涉及評(píng)估的心理事件。通過這些事件的語(yǔ)義表示,人們可以使用語(yǔ)義距離度量和類比映射算法以發(fā)現(xiàn)語(yǔ)義和結(jié)構(gòu)的相似之處。在圖1所示的一組合并中,首先被合并的是追逐和跟蹤事件,而后是跑開和逃跑項(xiàng),最后是認(rèn)為和認(rèn)定事件。最終的故事形態(tài),可以被看作是一個(gè)泛化的故事,故事開頭是一個(gè)可選擇的玩鬧事件、一個(gè)追逐事件,接著是一個(gè)可選擇的驚嚇事件,而后是一個(gè)逃跑和評(píng)估事件。一旦最終模型被篩選,只剩下三個(gè)狀態(tài),它們可能被命名為:追尋(Pursuit),逃離(Flee)和評(píng)價(jià)(Judgment)。
(1)一個(gè)老人和女仆在路上相遇。他追逐她,她跑開了。她認(rèn)為他是一個(gè)丑陋的男人。
(2)龍跟蹤公主,這讓她感到害怕。她逃跑,躲了起來。她認(rèn)定他是邪惡的。
圖1 兩個(gè)簡(jiǎn)單故事的合并示例。模型M3不僅描述了兩個(gè)被輸入的故事,而且還增加了另外兩個(gè)可以包含或排除節(jié)點(diǎn)1和6的故事。因此,這一模型已經(jīng)在兩個(gè)輸入示例之外實(shí)現(xiàn)了一般化。由篩選步驟產(chǎn)生的模型M4即代表最終形態(tài)。
初始模型是從故事世界本身的事件時(shí)間線導(dǎo)出的。模型中的每個(gè)初始狀態(tài)都來自各個(gè)故事的單一事件,當(dāng)它們?cè)诠适聲r(shí)間線中出現(xiàn)時(shí)會(huì)被排序。然后,每個(gè)單獨(dú)的故事時(shí)間線會(huì)作為一條單獨(dú)的支線并入初始形態(tài)中。在圖1中有一個(gè)被標(biāo)為M0的初始模型示例,其中,兩個(gè)簡(jiǎn)單故事及其各自的四個(gè)構(gòu)成事件都被轉(zhuǎn)換成了一種包含四種狀態(tài)的序列。
有許多方法來驅(qū)動(dòng)搜索合適的合并集。我曾經(jīng)在其他研究中探索過一種常見的方式,是由貝葉斯法則(Bayes’s rule)得出的概率來驅(qū)動(dòng)的搜索。[注]馬克·阿蘭·芬雷森:《從被標(biāo)注的民間故事中學(xué)習(xí)敘事結(jié)構(gòu)》,麻省理工學(xué)院博士學(xué)位論文,2011年。相比之下,此處描述的工作使用了一組源于普羅普專著中的語(yǔ)義和結(jié)構(gòu)合并規(guī)則來驅(qū)動(dòng)搜索。我將在解釋了實(shí)驗(yàn)運(yùn)行的數(shù)據(jù)之后,在標(biāo)題為“合并規(guī)則”的部分對(duì)這些規(guī)則加以概述。但顯而易見的是,我們需要一些規(guī)則、啟示或偏好來發(fā)現(xiàn)一個(gè)好的模型:在大多數(shù)情況下,窮舉搜索是不可能的。[注]對(duì)于非平凡起始故事,模型融合的搜索空間變得太大而難以管理:它相當(dāng)于貝爾數(shù)Bn,其中n是模型中的初始狀態(tài)數(shù)(羅塔,1964)。當(dāng)n增大時(shí),貝爾數(shù)也會(huì)迅速變大。例如,當(dāng)B2=2時(shí),B3=5,當(dāng)B10=115975時(shí),B55≈3.59e+31。
如圖1所示,倒數(shù)第二個(gè)模型(M3)尚且不是一個(gè)形態(tài):它包含的狀態(tài)與兩個(gè)故事之間的抽象相似性(即狀態(tài)2和3)并不對(duì)應(yīng)。這是因?yàn)槌跏寄P蜁?huì)以包含各種可能符號(hào)的字母表開始。使用篩選步驟則可以從融合模型轉(zhuǎn)變?yōu)楸憩F(xiàn)實(shí)際形態(tài)的模型。篩選過程會(huì)在最終的融合模型中構(gòu)造另一個(gè)模型,從中移除所有不符合特定條件的狀態(tài)。篩選后剩下的狀態(tài)成為普羅普的語(yǔ)法或功能項(xiàng)的字母表。有關(guān)此篩選過程的詳細(xì)信息,請(qǐng)參閱下文的“合并規(guī)則”部分。
普羅普選擇了一組特定的故事來分析并導(dǎo)出了他的形態(tài)學(xué):亞歷山大·阿法納西耶夫俄羅斯神奇故事集的前一百個(gè)故事。[注]亞歷山大·N·阿法納西耶夫:《俄羅斯民間故事》3卷本,莫斯科:國(guó)家藝術(shù)出版社,1957年。請(qǐng)注意,普羅普使用的是阿法納西耶夫故事集的舊版。為方便起見,我們?cè)谖闹刑峁┝烁F(xiàn)代的引文。普羅普在他的附錄Ⅲ中,提供了他所分析的約一半故事的功能圖式:在普羅普作品的英譯本中,功能表內(nèi)有45個(gè)故事,整個(gè)文本中散布著少量的附加分析。在本文中,我不打算學(xué)習(xí)回合級(jí)語(yǔ)法、亞型語(yǔ)法以及角色類別。這種范圍限制了數(shù)據(jù)準(zhǔn)備的特定方法。首先,回合級(jí)上的異文被篩選,只留下普羅普認(rèn)定為只包含單一回合的故事。其次,學(xué)習(xí)數(shù)據(jù)明確包含對(duì)人物角色類別的識(shí)別。
由于我將范圍限定在單一故事中,所以普羅普分析的45個(gè)故事中可用的故事減少了一些;在普羅普形態(tài)學(xué)的幾個(gè)譯本中,我發(fā)現(xiàn)總共有21個(gè)單一故事包含了功能分析。我的研究預(yù)算進(jìn)一步限制了我對(duì)這一組故事的詳盡語(yǔ)義標(biāo)注。最后,我留下了共計(jì)18862個(gè)單詞的15個(gè)單一故事,對(duì)此我完全能夠進(jìn)行詳細(xì)標(biāo)注。
此外,雖然普羅普因現(xiàn)實(shí)原因在研究中采用了故事的原始語(yǔ)言(俄語(yǔ),有時(shí)是白俄羅斯語(yǔ)或?yàn)蹩颂m語(yǔ)),但我使用英文翻譯進(jìn)行了我的分析。民俗學(xué)家有時(shí)也會(huì)研究被翻譯過的故事,并且大家的共識(shí)是,對(duì)最初的結(jié)構(gòu)語(yǔ)義分析而言,故事的重要信息應(yīng)保留在一個(gè)良好的譯文中。正如J.L.費(fèi)希爾(J. L. Fischer)所說:“如果一個(gè)人將故事翻譯成另一種語(yǔ)言,那故事的結(jié)構(gòu)和故事圖像的基本特征應(yīng)該保持原貌?!盵注]J.L.費(fèi)希爾:《民間故事的社會(huì)心理分析》,《現(xiàn)代人類學(xué)》1963年第4卷第3期,第249頁(yè)。
我在這里所使用的“標(biāo)注”一詞與語(yǔ)料庫(kù)語(yǔ)言學(xué)相同,它涵蓋了“所有應(yīng)用于原始語(yǔ)言數(shù)據(jù)的描述性或分析性標(biāo)記”[注]史蒂文·伯德、馬克·利伯曼:《語(yǔ)言標(biāo)注的形式框架》,《語(yǔ)言通信》2001年第33卷第1-2期,第23-60頁(yè)。。自動(dòng)生成本文所需的多方面高質(zhì)量語(yǔ)義標(biāo)注超出了當(dāng)前自然語(yǔ)言處理(NLP)的技術(shù)范圍。因此,為了實(shí)現(xiàn)高質(zhì)量、低誤差的語(yǔ)義標(biāo)注,我需要雇用人力,來更正自動(dòng)生成的標(biāo)注(即所謂的半自動(dòng)標(biāo)注)或從一開始就提供完全的人工標(biāo)注。雖然這很慢而且花費(fèi)不菲,但進(jìn)行半自動(dòng)或人工標(biāo)注的好處是,我們可以獲得尚且無法自動(dòng)創(chuàng)建的高質(zhì)量標(biāo)注。因此,雖然對(duì)普羅普功能的學(xué)習(xí)是通過機(jī)器完成的,但研究的原始數(shù)據(jù)“文本的形式化語(yǔ)義”基本上是由人工產(chǎn)生的。
標(biāo)注者為這項(xiàng)工作進(jìn)行的所有自動(dòng)、半自動(dòng)或人工標(biāo)注都是使用Story Workbench標(biāo)注工具完成的。[注]馬克·阿蘭·芬雷森:《在自然環(huán)境中收集語(yǔ)義:Story Workbench》,《人工智能協(xié)會(huì)秋季學(xué)術(shù)研討會(huì)論文集:關(guān)于自然靈感人工智能》,華盛頓特區(qū),2008年,第46-53頁(yè);馬克·阿蘭·芬雷森:《從被標(biāo)注的民間故事中學(xué)習(xí)敘事結(jié)構(gòu)》,麻省理工學(xué)院博士學(xué)位論文,2011年。Story Workbench是一種通用的文本標(biāo)注工具,支持多層語(yǔ)義標(biāo)注,提供容易操作的圖形用戶界面,并支持對(duì)任意文本的標(biāo)注。表1中列出了標(biāo)注層次。普羅普的形態(tài)建立在人物和事件結(jié)構(gòu)之上,即什么時(shí)候誰在對(duì)誰做什么:我稱之為文本的“表面語(yǔ)義”。每個(gè)列出的層次都是從每個(gè)文本中提取表面語(yǔ)義的關(guān)鍵。
表1 本文中使用的標(biāo)注。一致性被同時(shí)表示為F1度量或一個(gè)偶然性校正蘭德指數(shù)(chance-adjusted rand index)。F1度量的范圍從0(無一致性)到1(完全一致)。蘭德指數(shù)范圍從-1(完全不一致)到1(完全一致)。
層次語(yǔ)義捕捉標(biāo)注方式一致性指稱表達(dá)式語(yǔ)義同指時(shí)間表達(dá)式事件時(shí)間連接詞語(yǔ)義角色Wordnet意義事件效價(jià)角色功能世界上的事物可語(yǔ)義同指的指稱表達(dá)式時(shí)間和日期發(fā)生的事情與狀態(tài)文本時(shí)序動(dòng)詞論元字典定義事件對(duì)主人公的影響普羅普的人物類型普羅普的功能項(xiàng)人工人工人工半自動(dòng)人工半自動(dòng)人工半自動(dòng)人工人工0.910.85?0.660.690.590.60?0.780.780.700.71?
*偶然性校正蘭德指數(shù)
?僅核心論元
部分重疊
指稱表達(dá)式與語(yǔ)義同指
用于計(jì)算故事人物的原始信息由“指稱表達(dá)”和語(yǔ)義同指標(biāo)注給出。[注]拉克爾·埃爾瓦斯、馬克·阿蘭·芬雷森:《新聞和敘事中描述性指稱表達(dá)的盛行》,《第48屆計(jì)算語(yǔ)言學(xué)協(xié)會(huì)年會(huì)論文集》,烏普薩拉,2010年,第49-54頁(yè)。指稱表達(dá)的表示(representation)標(biāo)注了指代某些事物的詞語(yǔ)集合,其中的單詞集合連續(xù)與否都可以。這種表示是人工標(biāo)注的。例(1)展示了指稱表達(dá)式的三個(gè)示例,以下劃線標(biāo)出。
(1)伊萬有一把劍。它是鋒利的。
在這句話中,指稱對(duì)象是人和事,是故事世界中的具體事物,但它們并非總是如此。指稱表達(dá)式還可以指代抽象對(duì)象(如想法)、事件、時(shí)間、動(dòng)作、情感和許多其他事物。
例(1)也說明了一個(gè)顯而易見的要點(diǎn),即一個(gè)單一的指稱對(duì)象可以在文本中被多次提到。在本例中,一個(gè)單一的指稱對(duì)象(劍)有兩個(gè)指稱表達(dá)式(短語(yǔ)“劍”和“它”)。句中的后兩個(gè)指稱表達(dá)是語(yǔ)義同指的,因?yàn)樗鼈冎复膶?duì)象相同。為了使用指稱表達(dá)式來標(biāo)注指稱對(duì)象,同指性指稱的表達(dá)式集合被匯集在了語(yǔ)義同指的集合之中。因此,語(yǔ)義同指集是一個(gè)指代同一類事物的指稱表達(dá)式列表。這種表示是人工標(biāo)注的。
被標(biāo)注的語(yǔ)義同指集的第二個(gè)方面是集合內(nèi)成員的關(guān)系。下面的例(2)展示了一種簡(jiǎn)單形式,其中的指稱表達(dá)式“杰克和吉爾”指的是包括杰克和吉爾的集合。該信息對(duì)于確定哪些個(gè)體角色實(shí)際參與了哪些事件非常重要。
(2)杰克和吉爾去了山上。他們?nèi)硪煌八?/p>
為了構(gòu)建故事的時(shí)間線,我使用了TimeML標(biāo)注方案。[注]詹姆斯·普斯捷約夫斯基、何塞·卡斯塔尼奧、羅伯特·因格里亞、羅澤·紹里、羅伯特·蓋佐斯卡斯、安德烈·塞策、格雷厄姆·卡茨:《TimeML:文本中事件和時(shí)間表達(dá)式的穩(wěn)定規(guī)范》,《第五屆計(jì)算語(yǔ)義學(xué)國(guó)際研討會(huì)(IWCS-5)論文集》,蒂爾伯格,2003年,第193頁(yè)。TimeML包含三種表示:時(shí)間表達(dá)式,事件和時(shí)間連接詞。前兩者會(huì)標(biāo)記居于時(shí)間線上的對(duì)象,最后一個(gè)則定義時(shí)間線上各對(duì)象的順序。本節(jié)中的示例來自TimeML標(biāo)注指南。[注]羅澤·紹里、杰西卡·利特曼、鮑勃·克尼彭、羅伯特·蓋佐斯卡斯、安德烈·塞策、詹姆斯·普斯捷約夫斯基:《TimeML標(biāo)注指南》(1.2.1版),2006,http://www.timeml.org/site/publications/timemldocs/annguide_1.2.1.pdf.
時(shí)間表達(dá)式會(huì)標(biāo)記時(shí)態(tài)表達(dá)式的位置、類型和值。每個(gè)表達(dá)式都是一個(gè)可能不連續(xù)的事件符號(hào)序列,表明時(shí)間或日期、某事持續(xù)多長(zhǎng)時(shí)間或某事發(fā)生的頻率。時(shí)態(tài)表達(dá)式可以是日期、一天的時(shí)間,也可以是持續(xù)的一段時(shí)間,例如幾個(gè)小時(shí)、幾天、甚至幾個(gè)世紀(jì)。時(shí)態(tài)表達(dá)式可以精確,也可以模糊。
(3)龍?jiān)谥形鐏砹恕?時(shí)間)
(4)龍?jiān)诖禾斓淖詈笠蝗諄砹恕?日期)
(5)他在地下世界住了將近一年。(一段時(shí)間)
有趣的是,在本項(xiàng)研究分析的神奇故事中,時(shí)間表達(dá)式非常稀少,在18862個(gè)單詞的整個(gè)語(yǔ)料庫(kù)中只有142個(gè)實(shí)例,平均每1000個(gè)單詞只有7.5個(gè)時(shí)間表達(dá)式。事實(shí)上,大多數(shù)故事的時(shí)間表達(dá)式都不到10個(gè),甚至有兩個(gè)故事都只有一個(gè)時(shí)間表達(dá)式。這可能是因?yàn)槊耖g故事通常發(fā)生在不確定的日子,或完全在歷史之外。不管原因是什么,都說明時(shí)間表達(dá)式對(duì)于整體的時(shí)間線并不重要。
事件是居于時(shí)間線上的第二類對(duì)象。事件被定義為發(fā)生的事情或狀態(tài)。它們可以如例(6)所示立即發(fā)生,也可以如例(7)所示持續(xù)一段時(shí)間。在大多數(shù)情況下,達(dá)到或適用某些事物的狀況被視為事件,如例(8)中的“短缺”。
(6)伊萬迅速擊中了龍的頭。
(7)英雄們前往遙遠(yuǎn)的國(guó)度。
(8)整個(gè)國(guó)家食物短缺。
事件和時(shí)間通過表示時(shí)序的連接詞銜接在一起。時(shí)間連接詞分為三大類,包括對(duì)兩個(gè)時(shí)間、兩個(gè)事件、或時(shí)間和事件之間的排序,如例(9)和例(10)所示。
(9)伊萬的兄弟們?cè)趹?zhàn)斗結(jié)束之后才到達(dá)。(時(shí)間——之后)
(10)他在底下住了將近一年。(時(shí)間——期間)[注]例(10)原句為:He lived in the underworld for almost a year.其時(shí)間連接詞為for。——譯者注
體連接詞(aspectual links)表明了一個(gè)事件與它的某個(gè)組成部分之間的關(guān)系,如例(11)所示。從屬性連接詞(subordinating links)表明了帶論元的事件的關(guān)系,如例(12)所示。對(duì)從屬性連接詞出現(xiàn)在開頭的事件而言,好的例子是在其論元中加入部分真值條件,或是暗指其論元與未來或可能世界有關(guān)。
(11)伊萬開始尋找他的妻子。(體——開始)
(12)伊萬忘了帶上咒語(yǔ)。(從屬——敘實(shí)性的)
詞義消歧(WSD)是眾所周知的自然語(yǔ)言處理任務(wù),其中每個(gè)開放類符號(hào)或多詞表達(dá)(即,每個(gè)名詞、動(dòng)詞、形容詞或副詞)會(huì)從詞義清單中被指定一個(gè)單一的意義,這為我們提供了每個(gè)詞實(shí)際意義的指標(biāo)。[注]埃內(nèi)科·阿吉爾、菲利普·埃德蒙茲編:《詞義消歧》,多德雷赫特:斯普林格,2007年。為了本項(xiàng)研究,標(biāo)注者使用電子詞典Wordnet3.0對(duì)每個(gè)單詞進(jìn)行了詞義消歧。[注]克里斯蒂亞娜·費(fèi)爾鮑姆編:《WordNet:電子詞匯數(shù)據(jù)庫(kù)》,劍橋麻省理工學(xué)院:麻省理工出版社,1998年。由于大多數(shù)WSD算法并不比默認(rèn)的高頻詞義基準(zhǔn)好多少,所以這一標(biāo)注完全由標(biāo)注者人工完成。當(dāng)他們指定單詞意義時(shí),還更正了多詞表達(dá)邊界、詞性標(biāo)記、以及詞干。雖然Wordnet的覆蓋面非常廣,但有時(shí)它也會(huì)缺乏一個(gè)適當(dāng)?shù)脑~義。在這類情況下,標(biāo)注者會(huì)用一個(gè)合理的同義詞取代原來的詞義。在極少數(shù)情況下,標(biāo)注者找不到合適的替代詞,則被允許將之標(biāo)記為“沒有可用的適當(dāng)意義”。
標(biāo)注者還捕捉了文本中所有動(dòng)詞的論元結(jié)構(gòu),這一任務(wù)被稱為語(yǔ)義角色標(biāo)注。具體而言,我們使用了PropBank體系。[注]馬莎·帕爾默、保羅·金斯伯里、丹尼爾·吉爾德:命題庫(kù):《命題庫(kù):語(yǔ)義角色標(biāo)注的語(yǔ)料庫(kù)》,《計(jì)算語(yǔ)言學(xué)》2005年第31卷第1期,第71-105頁(yè)。本項(xiàng)標(biāo)注是由一個(gè)統(tǒng)計(jì)語(yǔ)義角色的初級(jí)標(biāo)注器以半自動(dòng)方式完成的,該標(biāo)注器的建?;谘芯空叩奈墨I(xiàn)描述。[注]薩米爾·普拉丹、卡的里·哈吉奧盧、瓦萊麗·克魯格勒、韋恩·沃德、詹姆斯·H·馬丁、丹尼爾·尤爾基:《支持向量學(xué)習(xí)在語(yǔ)義論元分類中的應(yīng)用》,《機(jī)器學(xué)習(xí)》2005年第60卷第1-3期,第11-39頁(yè)。丹尼爾·吉爾德、丹尼爾·尤拉夫斯基:《語(yǔ)義角色的自動(dòng)標(biāo)記》,《計(jì)算語(yǔ)言學(xué)》2002年第28卷第3期,第245-288頁(yè)。這個(gè)標(biāo)注器在文本上運(yùn)行,為每個(gè)動(dòng)詞創(chuàng)建論元邊界和語(yǔ)義角色標(biāo)簽。每個(gè)動(dòng)詞也被分配了一個(gè)PropBank框架,它是被承認(rèn)的語(yǔ)義角色及其描述的列表。這個(gè)框架本身是唯一一則未被自動(dòng)標(biāo)注的信息,標(biāo)注者需要添加其框架、所有缺少的論元、語(yǔ)義角色標(biāo)注,并更正已有的論元邊界和標(biāo)注。與單詞意義的情況一樣,有時(shí),PropBank的框架集內(nèi)并沒有適當(dāng)?shù)目蚣堋_@可能在每個(gè)文本中發(fā)生一兩次,在這類情況下,標(biāo)注者會(huì)找到最相近的匹配框架,并以之取代原來的框架。
事件效價(jià)
每個(gè)TimeML事件也因其效價(jià)而被標(biāo)注,旨在獲取事件對(duì)主人公的正面或負(fù)面影響。其標(biāo)度與溫迪·萊納特(Wendy Lehnert)的積極或消極心理狀態(tài)類似。[注]溫迪·G·萊納特:《情節(jié)單元和敘事概述》,《認(rèn)知科學(xué)》1981年第5卷第4期,第293-331頁(yè)。但我的標(biāo)度數(shù)值是從-3到+3,并以0(中性)作為潛在效價(jià)(potential valence),而不是像萊納特的表述那樣,僅限于正或負(fù)。表2中列出了標(biāo)度范圍內(nèi)每個(gè)效價(jià)的重要性。這一表示是人工標(biāo)注的。
表2 效價(jià)標(biāo)度,描述了每種影響的級(jí)別,并列舉了一些例子
續(xù)表
效價(jià)描 述例 子0不好也不壞-1某人威脅稱某件事將會(huì)-2或-3女巫以死亡威脅主人公-2可能直接導(dǎo)致一個(gè)-3事件主人公與龍交鋒-3對(duì)主人公或其盟友立即不利公主被綁架;主人公被放逐
普羅普從其民間故事人物中識(shí)別出了七種類型,這些人物類型在他的理論中非常重要。如前所述,我打算將角色學(xué)習(xí)留待將來研究。因此,被標(biāo)注的角色信息被用來幫助獲得形態(tài)結(jié)構(gòu)。這種表示包括七個(gè)標(biāo)簽:主人公,對(duì)頭,公主,差遣者,贈(zèng)與者,相助者和假冒主人公。不論多少,它們都可以附在文本中特定的指稱對(duì)象上。正如普羅普所指出的那樣,在某些情況下,某個(gè)人物會(huì)扮演多個(gè)角色。這一表示是人工標(biāo)注的。
最終的標(biāo)注獲取了普羅普的功能項(xiàng)。該標(biāo)注用作度量學(xué)習(xí)算法結(jié)果的標(biāo)準(zhǔn)。標(biāo)注普羅普的功能項(xiàng)是一項(xiàng)精細(xì)的任務(wù)。雖然普羅普非常詳細(xì)地描述了他的形態(tài),但仍未能在文本中以一種清晰標(biāo)注的方式加以明確表示。普羅普的專著富有啟發(fā)性,但并不是一本有效的標(biāo)注指南。普羅普描述的方案中至少有四個(gè)主要問題:布局不清晰;功能項(xiàng)隱含;多重標(biāo)記(連續(xù)重復(fù)兩次、三次或四次的功能組)不一致;而且,在少數(shù)情況下,普羅普自己的分類方案與故事內(nèi)容之間存在明顯分歧。
關(guān)于布局不清晰,可以參考下文摘錄的阿法納西耶夫第148號(hào)故事:
沙皇親自去乞求硝皮匠尼基塔(Nikita),希望他能使沙皇的疆域擺脫惡龍的威脅,并能夠把公主拯救出來。當(dāng)時(shí)尼基塔正在揉搓皮子,他手里拿著十二塊生皮。當(dāng)他見到沙皇親自朝他走來,他膽戰(zhàn)心驚,雙手顫抖起來,把那十二塊皮子都扯破了。但是不管沙皇和皇后怎樣懇求(entreated)他,他都不肯去對(duì)付龍。于是他們召集了五千個(gè)小孩子,并派他們?nèi)グ竽峄M⒆觽兊难蹨I會(huì)讓他產(chǎn)生憐憫之心。孩子們來到尼基塔身邊,流著淚乞求(begged)他去和那條龍戰(zhàn)斗。尼基塔看到孩子們的淚水,也開始流下(shed)眼淚。他弄來一萬二千磅大麻,澆上樹脂,一下子全裹在身上,以防止自己被龍吞下,就找龍去了。[注]亞歷山大·N·阿法納西耶夫:《俄羅斯民間故事》3卷本,莫斯科:國(guó)家藝術(shù)出版社,1957年;亞歷山大·N·阿法納西耶夫:《俄羅斯神奇故事》,諾伯特·古特曼譯,紐約:帕特農(nóng)叢書,1975年,第310-311。
普羅普表示,在這個(gè)故事中存在功能項(xiàng)B和C。普羅普稱B為“調(diào)停,承上啟下的環(huán)節(jié)”,其定義擴(kuò)展為:“災(zāi)難或缺失被告知,向主人公提出請(qǐng)求或發(fā)出命令;派遣他或允許他出發(fā)?!盵注]弗拉基米爾·普羅普:《故事形態(tài)學(xué)(第2版)》,勞倫斯·斯科特譯,奧斯?。旱每怂_斯大學(xué),1968年,第36頁(yè)。。他稱C為“最初的反抗”,其定義擴(kuò)展為:“尋找者應(yīng)允或決定反抗。”[注]弗拉基米爾·普羅普:《故事形態(tài)學(xué)(第2版)》,勞倫斯·斯科特譯,奧斯汀:得克薩斯大學(xué),1968年,第38頁(yè)。大體而言,這兩個(gè)功能項(xiàng)是向主人公呈現(xiàn)任務(wù)(B),以及接受任務(wù)(C)。
在這段故事中找到這兩個(gè)功能項(xiàng)并非易事。B到底在哪里?是整段內(nèi)容嗎?是從“懇求”(entreated)一詞到“乞討”(begged)一詞之間嗎?功能邊界應(yīng)該與句子或段落邊界對(duì)應(yīng)嗎?小孩的哀求可以看作是B的一部分嗎?在識(shí)別功能項(xiàng)時(shí),標(biāo)注者標(biāo)記了兩組符號(hào)。首先,他們標(biāo)記了一個(gè)區(qū)域,該區(qū)域捕捉了一個(gè)功能項(xiàng)的大部分意義及范圍。這通常是一個(gè)句子,但在某些情況下會(huì)擴(kuò)展到一個(gè)或更多段落。其次,他們標(biāo)記了該功能項(xiàng)的定義詞,通常是單個(gè)的動(dòng)詞形式。如果單個(gè)動(dòng)詞或其同義詞在緊鄰第一個(gè)標(biāo)記的地方重復(fù)了,并且指代相同的動(dòng)作,則這些重復(fù)詞也會(huì)被標(biāo)記。在上面的例子中,標(biāo)注者將“不管沙皇和皇后怎樣懇求……流著淚乞求他去和那條龍戰(zhàn)斗”的部分標(biāo)記為B,并將動(dòng)詞“懇求”和“乞求”選為定義詞。
C又究竟在哪里呢?C是指前往對(duì)抗龍的決定。它似乎發(fā)生在尼基塔流淚和他獲取大麻為戰(zhàn)斗做準(zhǔn)備之間的某個(gè)地方,但這并沒有直接用文字表達(dá);也就是說,功能項(xiàng)是隱含的。普羅普提及了發(fā)生在故事中的特定功能,但是當(dāng)標(biāo)注者無法找到其明確體現(xiàn)時(shí),便會(huì)酌情選擇邏輯上與之關(guān)聯(lián)最密切的事件并將其標(biāo)記為前因(Antecedent)或后續(xù)(Subsequent)。引文中C的區(qū)域是句子“尼基塔看到孩子們的淚水,也開始流下(shed)眼淚”,并且“流下”被標(biāo)記為定義動(dòng)詞。這個(gè)隱含的功能項(xiàng)被標(biāo)記為前因。
當(dāng)多重標(biāo)記不一致時(shí),或者當(dāng)所指示的功能似乎與故事本身不匹配時(shí),標(biāo)注者會(huì)盡力確定正確的標(biāo)記。幸運(yùn)的是,普羅普表中的大多數(shù)印刷錯(cuò)誤僅限于功能亞型的不一致,對(duì)這些結(jié)果并沒有直接影響。
度量標(biāo)注者之間的一致性可以對(duì)標(biāo)注質(zhì)量做出評(píng)估。在已建立的層次被標(biāo)注的情況下,我從可用材料中為標(biāo)注團(tuán)隊(duì)準(zhǔn)備了一份標(biāo)注指南。一個(gè)標(biāo)注團(tuán)隊(duì)由兩個(gè)標(biāo)注者和一個(gè)裁定者組成。裁定者要么是對(duì)這種工作已有經(jīng)驗(yàn)的標(biāo)注者,要么是我自己(如果沒有其他裁定者可用的話)。在兩個(gè)標(biāo)注者對(duì)相同的幾千個(gè)單詞(兩到三個(gè)文本)進(jìn)行標(biāo)注之后,整個(gè)標(biāo)注團(tuán)隊(duì)會(huì)面,將標(biāo)注合并為一個(gè)單獨(dú)的文檔,然后在裁定者的指導(dǎo)下進(jìn)行討論更正。重復(fù)該過程直到所有文本都被標(biāo)注。
對(duì)不同層次間一致性的度量,最統(tǒng)一的方式是統(tǒng)計(jì)學(xué)家所熟悉的F1度量,它以標(biāo)準(zhǔn)方式計(jì)算,并提供了查準(zhǔn)率和查全率的調(diào)和平均值。[注]C·J·范·里杰斯伯根:《評(píng)估》,《信息檢索》,倫敦:巴特沃斯,1979,第112-140頁(yè);另參見本期的尼科利奇、巴卡里奇。我采用F1度量而不是更常見的Kappa統(tǒng)計(jì)[注]瓊·卡萊塔:《評(píng)估分類任務(wù)的一致性:Kappa統(tǒng)計(jì)》,《計(jì)算語(yǔ)言學(xué)》1996年第22卷第2期,第249-254頁(yè)。,后者用以評(píng)估去除偶然性后的一致性,是因?yàn)橛?jì)算大多數(shù)層次一致性的偶然性(chance-level)是很困難的。F1度量是合并過程的自然產(chǎn)物,它對(duì)數(shù)據(jù)有明確的解釋,并且允許直接比較不同的層次。表1概括了人工或半自動(dòng)標(biāo)注的不同層次的一致性??傮w而言,一致性的值是很好的。
有了人工標(biāo)注數(shù)據(jù)之后,我們便可以進(jìn)入自動(dòng)化研究部分了。構(gòu)建合并算法的初始模型需要以下步驟:首先,從標(biāo)注中自動(dòng)提取每個(gè)故事的事件時(shí)間線。其次,每個(gè)事件都自動(dòng)與一組施事和受事字符相關(guān)聯(lián)。圖2簡(jiǎn)要展示了初始模型中包含的信息。
TimeML標(biāo)注允許提取每個(gè)故事的事件時(shí)間線。語(yǔ)料庫(kù)中的神奇故事在時(shí)間結(jié)構(gòu)上非常簡(jiǎn)單;除了一個(gè)之外,其他所有的都可以用線性時(shí)間線加以描述。為了給每個(gè)故事構(gòu)建線性時(shí)間線,我首先刪除了所有從屬事件。僅由從屬連接詞銜接的事件表示的是在時(shí)間線上實(shí)際不發(fā)生的事件。其次,我使用時(shí)間連接詞(之前,之后,同時(shí)等)的直接定義,寫了一個(gè)按照起點(diǎn)順序排列事件的簡(jiǎn)單算法。[注]馬克·阿蘭·芬雷森:《從被標(biāo)注的民間故事中學(xué)習(xí)敘事結(jié)構(gòu)》,麻省理工學(xué)院博士學(xué)位論文,2011年。
應(yīng)該注意的是,時(shí)間線上很多事件是通用的,并且僅依據(jù)表面語(yǔ)義是無法與其他非功能性事件區(qū)分開來的。這些事件最終被過濾;這將在“合并規(guī)則”一節(jié)中進(jìn)行更多討論。表3展示了被標(biāo)注的15個(gè)故事[注]表3中15個(gè)故事的中文名稱按表中順序翻譯如下:硝皮匠尼基塔,神奇的天鵝,謝緬七兄弟,布赫坦·布赫坦諾維奇,水晶山,機(jī)靈的工人薩巴爾沙,熊之子伊萬科,蛇與吉普賽人,伊萬·波普洛夫,老坐在那兒的弗羅爾卡,伊瓦什科與巫婆,逃兵與魔鬼,丹尼拉·戈沃里拉王子,商人的女兒和女仆,黎明、黃昏和午夜。——譯者注、事件的數(shù)量、完整時(shí)間線上(不包括從屬事件)的事件數(shù)量以及在最終實(shí)驗(yàn)中使用過的被篩選的時(shí)間線上的事件數(shù)量。
圖2 從標(biāo)注中提取信息的示意圖。每個(gè)故事由一個(gè)有序的事件列表(時(shí)間線)表示,它是從TimeML標(biāo)注中提取的。如果可能的話,為每個(gè)事件分配一組施事和受事角色,這些角色從附加到參與指稱表達(dá)的角色標(biāo)簽中收集,其中的人物群體被替換為個(gè)體。每個(gè)事件也與一個(gè)或多個(gè)PropBank框架、一個(gè)或多個(gè)單詞意義、以及一個(gè)事件效價(jià)相聯(lián)系。
表3 被分析的文本。所有文本都是單一回合的民間故事,普羅普為之提供了功能分析。表中列出的是:英文翻譯中的單詞數(shù);每個(gè)故事中所標(biāo)注的TimeML事件的數(shù)量;在故事完整時(shí)間線中出現(xiàn)的非從屬事件數(shù)量;以及在學(xué)習(xí)實(shí)驗(yàn)中所使用的“篩選”時(shí)間線上出現(xiàn)的事件數(shù)量。
故事序號(hào)俄語(yǔ)標(biāo)題英語(yǔ)標(biāo)題#字?jǐn)?shù)#事件完整時(shí)間線被“篩選”的時(shí)間線148Никита кожемякаNikita the Tanner6461047516113Гуси-лебедиThe Magic Swan Geese6961329443145Семь симеоновThe Seven Simeons7251218742163Бухтан БухтановичBukhtan Bukhtanovich88815010762162Хрустальная гораThe Crystal Mountain98915010443151Шабарша рабочийShabarsha the Laborer120223612255152Иванко МедведкоIvanko the Bears Son121022314365149Змей и цыганThe Serpent and the Gypsy121025013880
續(xù)表
故事序號(hào)俄語(yǔ)標(biāo)題英語(yǔ)標(biāo)題#字?jǐn)?shù)#事件完整時(shí)間線被“篩選”的時(shí)間線135Иван ПопяловIvan Popyalov122822017046131Фролка-сиденьFrolka Stay-at-Home138824816956108Ивашко и ведьмаIvashko and The Witch144827615761154Беглый солдат и чертThe Runaway Soldier and the Devil169831719076114Князь Данила-ГоворилаPrince Danila Govorila177434122392127Купеческая дочь и служанкаThe Merchants Daughter and the Housemaid179433123489140Зорька, вечорка, и полуночкаDawn, Evening, and Midnight193433925078平均數(shù)125822915160總計(jì)1886234382253904
一旦我構(gòu)建了事件時(shí)間線,(如果可能的話)我就會(huì)自動(dòng)為每個(gè)事件分配一個(gè)施事和一個(gè)受事。我從語(yǔ)義角色、指稱表達(dá)和語(yǔ)義同指的標(biāo)注中提取了此信息。語(yǔ)料庫(kù)中的每個(gè)動(dòng)詞都標(biāo)有語(yǔ)義角色,該角色為表現(xiàn)為文本范圍的動(dòng)詞提供了一致性。語(yǔ)料庫(kù)中幾乎每個(gè)事件都通過其動(dòng)詞表達(dá)式與至少一個(gè)語(yǔ)義角色相關(guān)聯(lián)。事實(shí)上,在故事時(shí)間線上的3438個(gè)事件中,只有兩個(gè)事件沒有語(yǔ)義角色。在后期處理中,我手動(dòng)指定了這兩個(gè)事件的施事和受事。當(dāng)一個(gè)事件的語(yǔ)義角色不止一個(gè)時(shí),意味著使用某動(dòng)詞多次提到了該事件,我為每個(gè)相關(guān)聯(lián)的語(yǔ)義角色合并了其主語(yǔ)和賓語(yǔ)的填充詞,在沖突情況下支持首次提到的語(yǔ)義角色。
我使用每個(gè)語(yǔ)義角色的相關(guān)PropBank框架來查找主語(yǔ)和賓語(yǔ)。根據(jù)PropBank的規(guī)則,標(biāo)記為ARG0的動(dòng)詞論元通常是主語(yǔ),標(biāo)記為ARG1的論元通常是賓語(yǔ)。然而,由于框架定義的特殊性,許多PropBank框架沒有這種ARG0-ARG1的主-賓結(jié)構(gòu)。此外,一些PropBank框架可以被認(rèn)為是對(duì)稱的,其中施事和受事的角色在語(yǔ)義上并不是截然不同的(例如,當(dāng)動(dòng)詞“結(jié)婚”以不及物動(dòng)詞被使用時(shí):“安娜和鮑勃結(jié)婚了”)。由于這種信息沒有被PropBank囊括,所以我對(duì)語(yǔ)料庫(kù)中發(fā)現(xiàn)的所有對(duì)稱類PropBank框架及施事受事角色進(jìn)行了人工分類。
一旦正確的主語(yǔ)和賓語(yǔ)范圍被確定后,每個(gè)范圍內(nèi)最大的指稱表達(dá)式將會(huì)被自動(dòng)選擇為最合適的語(yǔ)義角色填充詞。填充一個(gè)事件主賓語(yǔ)角色的指稱表達(dá)式被確定以后,仍會(huì)有一個(gè)或多個(gè)初級(jí)指稱來自動(dòng)替換該指稱表達(dá)式。有時(shí),這需要用部分指稱來替代復(fù)合性指稱。
為了設(shè)計(jì)在模型融合框架內(nèi)再現(xiàn)普羅普功能的合并規(guī)則,我考慮了三個(gè)特征,它們與普羅普本人在其分析中所注意到的相同。普羅普在他的專著中描述了這三個(gè)特征:事件語(yǔ)義、涉及的角色、以及事件在回合弧中的位置,通過這些特征他發(fā)現(xiàn)了事件之間的相似性。我在一個(gè)兩階合并過程中巧妙地利用了這三個(gè)方面的相似性。第一階段將語(yǔ)義相似的事件進(jìn)行粗略合并。第二階段僅合并包含多個(gè)事件的狀態(tài),并在這些狀態(tài)中合并了附近對(duì)主人公具有相同情感效價(jià)的狀態(tài)。
這兩個(gè)階段只合并了包含一致角色集合的狀態(tài)。當(dāng)兩個(gè)事件中的角色完全一樣或者是彼此的固有子集時(shí),它們被認(rèn)為是一致的。更具體而言,就是在施事和受事位置上的每個(gè)參與者,其角色標(biāo)簽都被添加到了一個(gè)施事或受事的標(biāo)簽集合中。如果主人公標(biāo)簽在某個(gè)集合中,則相助者標(biāo)簽也會(huì)被添加進(jìn)去,反之亦然。如果一個(gè)事件中,角色標(biāo)簽的施事和受事集合與另一個(gè)事件的施事和受事集合相同(或者是其固有子集,反之亦然),則認(rèn)為兩個(gè)事件具有一致的角色。如果其中一個(gè)事件被標(biāo)記為對(duì)稱性事件,其中施事和受事的位置可以互換,則每個(gè)事件的角色集合會(huì)被合成一個(gè)以便進(jìn)行匹配。
第一階段的合并規(guī)則如下。兩種狀態(tài)會(huì)自動(dòng)合并的條件是:(1)結(jié)果狀態(tài)(resultant state)中所有事件都是非通用的(參見下文),(2)就Wordnet意義而言,結(jié)果狀態(tài)中所有成對(duì)事件都同義或其上位詞同義(hyper-synonymous),(3)結(jié)果狀態(tài)中,附屬于所有事件的每個(gè)獨(dú)特的PropBank框架都會(huì)被至少表示兩次。我在下文更詳細(xì)地定義了這些條件。
通用事件(Generic Events):我識(shí)別了一種動(dòng)詞類型,并稱之為“通用”動(dòng)詞。它們被自動(dòng)排除在合并之外,因?yàn)闊o法將這些詞的信息性、功能性用法與其通用的填充意義區(qū)分開來。動(dòng)詞“說”及其同義詞就是一個(gè)很好的例子:它們占據(jù)了所有事件的近四分之三,而普羅普的每一個(gè)功能項(xiàng)都包括至少一個(gè)“說”的事件。也就是說,人物可以通過言語(yǔ)行為完成普羅普的所有功能項(xiàng)。角色可以相互威脅(A,加害,或Pr,追捕),初次見面或提供幫助(D,第一次與贈(zèng)與者相遇),對(duì)其他人的行為做出反應(yīng)(E,主人公對(duì)贈(zèng)與者的反應(yīng)),提供某種效勞(C,決定反抗),因某任務(wù)而派出主人公(B,派遣),等等。更確切地說,通用事件是指其動(dòng)詞被Wordnet標(biāo)記為歸屬于詞典編纂者檔案的交際動(dòng)詞、感知?jiǎng)釉~或位移動(dòng)詞的事件。這些動(dòng)詞包括“說”“看”或“走”等。
同義性:如果兩個(gè)事件所附帶的Wordnet意義或這種意義的上位詞共享同義詞,則認(rèn)為它們是同義的。這定義了一種寬泛的語(yǔ)義相似性,允許事件以意義為基礎(chǔ)進(jìn)行聚類。
雙重PropBank框架:如前所述,PropBank框架通過語(yǔ)義角色標(biāo)注被附加到事件上。對(duì)于要合并的兩種狀態(tài),在某個(gè)狀態(tài)中某個(gè)事件上找到的每個(gè)PropBank框架,都需要在該狀態(tài)中其他至少一個(gè)事件中被找到。這種更具體的語(yǔ)義相似性能夠平衡Wordnet同義詞所提供的更豐富的相似性。
在合并的第二階段,兩種狀態(tài)會(huì)自動(dòng)合并的條件是:(1)兩狀態(tài)中都已包含多個(gè)事件,(2)狀態(tài)中的事件效價(jià)是相容的,(3)兩種狀態(tài)是故事弧中最密切的事件對(duì)。
效價(jià)匹配:如果一種狀態(tài)中的事件效價(jià)是相容的,則兩個(gè)狀態(tài)在此階段將會(huì)自動(dòng)合并。如表2所示,事件效價(jià)是在從+3到-3的7點(diǎn)標(biāo)度內(nèi)測(cè)量的。如果兩個(gè)效價(jià)的值相等,則它們是相容的,只有中性效價(jià)(值為0)可以與其他所有效價(jià)相匹配。
最密切的一對(duì):這個(gè)階段也按照特定順序自動(dòng)合并為狀態(tài),其順序視狀態(tài)的組成事件在時(shí)間線上相隔多遠(yuǎn)而定。每個(gè)狀態(tài)的位置計(jì)算如下:事件的位置被定義為0到1之間的分?jǐn)?shù)(包括0和1),對(duì)應(yīng)于其在最初的線性時(shí)間線中的相對(duì)位置。合并節(jié)點(diǎn)的位置是其組成事件位置的平均數(shù)。然后根據(jù)所合并的狀態(tài)之間的位置差異,對(duì)成對(duì)合并的狀態(tài)進(jìn)行排序,其中最小的被推到搜索隊(duì)列的前面。
根據(jù)前文描述的普羅普功能標(biāo)注,我構(gòu)建了度量最終模型的黃金標(biāo)準(zhǔn)。最終模型中,功能標(biāo)記的黃金標(biāo)準(zhǔn)集合實(shí)際上從普羅普專著中的功能項(xiàng)列表中減少了很多,原因有三個(gè):普羅普的省略,功能項(xiàng)沒有在語(yǔ)料庫(kù)數(shù)據(jù)中出現(xiàn)或太稀少,以及功能項(xiàng)隱含。
在31個(gè)功能項(xiàng)中,普羅普沒有說明前7個(gè)功能項(xiàng)的存在(它們是預(yù)備功能項(xiàng),標(biāo)有希臘字母)。因此,必須將這些功能排除在分析之外。在剩下的24個(gè)功能項(xiàng)中,J、L、M和N在我的語(yǔ)料庫(kù)的15個(gè)故事中沒有被找到,因此只剩下了20個(gè)功能項(xiàng)。它們當(dāng)中的四個(gè)功能項(xiàng)——o,Q,Ex和U——只有兩個(gè)或更少的實(shí)例,也都因太稀少無法學(xué)習(xí)而被排除在外。
在276個(gè)功能項(xiàng)標(biāo)記中,有186個(gè)是顯性的(explicit),90個(gè)是隱性的(implicit)。由于我沒有進(jìn)行常識(shí)性推斷,因此這些隱性功能項(xiàng)或超過30%的數(shù)據(jù)在文本中沒有實(shí)際的事件實(shí)例。這個(gè)問題在很大程度上被回避了,因?yàn)槲抑蛔⒁獾酱蠖鄶?shù)隱性功能項(xiàng)是包含在E-F(反應(yīng)和獲益)和H-I(交鋒和戰(zhàn)勝)這兩對(duì)之中的功能項(xiàng)之一。在這些情況下,如果其中一對(duì)是隱性的,則另一對(duì)是顯性的。例如,當(dāng)主人公與對(duì)頭進(jìn)行戰(zhàn)斗時(shí),只有實(shí)際的交鋒被提到而戰(zhàn)勝是隱含的,或是戰(zhàn)勝被提到而交鋒是隱含的。因此,為了進(jìn)行度量,我將這兩組功能項(xiàng)合并在了一起。這導(dǎo)致45個(gè)隱性功能標(biāo)記在合并中轉(zhuǎn)變?yōu)轱@性功能實(shí)例,在276個(gè)中留下了234個(gè)顯性功能項(xiàng)標(biāo)記;其余45個(gè)隱性標(biāo)記被排除在目標(biāo)之外。這些數(shù)據(jù)匯總在表4中,最右邊的一列表示在篩選了通用事件后的功能項(xiàng)數(shù)量(參見下一節(jié))。
我使用了三種不同的度量方式來分析學(xué)習(xí)程序的性能。首先是應(yīng)用偶然性校正蘭德指數(shù)以度量在普羅普功能項(xiàng)中事件聚類的總體質(zhì)量。[注]吉安-卡洛·羅塔:《集合的分區(qū)數(shù)》,《美國(guó)數(shù)學(xué)月刊》1964年第71卷第5期,第498-504頁(yè)。第二個(gè)是應(yīng)用于普羅普每個(gè)功能項(xiàng)的F1度量。第三個(gè)是交叉驗(yàn)證分析,用以測(cè)試該實(shí)現(xiàn)(implementation)與少量數(shù)據(jù)的合作程度。
我使用偶然性校正蘭德指數(shù)[注]勞倫斯·休伯特、菲普斯·阿拉比:《對(duì)比分區(qū)》,《分類期刊》1985年第2卷第1期,第193-218頁(yè)。來檢驗(yàn)普羅普功能項(xiàng)類別中事件聚類的質(zhì)量。我創(chuàng)造了三種標(biāo)準(zhǔn),通俗而言,可以從“嚴(yán)格”(strict)到“寬松”(lenient)進(jìn)行排列。它們是:(1)嚴(yán)格分?jǐn)?shù),最終模型中的聚類與表4“篩選前的顯性功能”縱列所列舉的所有普羅普顯性功能標(biāo)記聚類進(jìn)行比較;(2)僅交互式分?jǐn)?shù)(an Interactive-Only score),最終模型中的聚類與普羅普的顯性功能聚類進(jìn)行比較,并移除非交互事件;(3)僅交互且非通用(Interactive Non-Generics Only)分?jǐn)?shù),最終模型中的聚類與普羅普的顯性功能聚類進(jìn)行比較,并移除非交互的、通用的事件。這三個(gè)結(jié)果列于表5中。對(duì)于最寬松的度量(僅交互且非通用的)而言,該算法性能相當(dāng)好,對(duì)普羅普最初的功能項(xiàng)獲取的偶然性校正蘭德指數(shù)大致為0.714。我之所以在這里說“相當(dāng)好”,是因?yàn)閷?shí)際上我們不清楚這種性能究竟有多好,因?yàn)闆]有先例:有史以來,以計(jì)算機(jī)方式在民間故事中學(xué)習(xí)普羅普的功能,這是首次嘗試,所以沒有以前的技術(shù)與之比較。
表4 時(shí)間線篩選前后存在于語(yǔ)料庫(kù)中的功能
續(xù)表
符號(hào)描述#篩選前的顯性功能#篩選后的顯性功能K災(zāi)難或缺失的消除129down歸來102?Pr追捕1814Rs獲救1310T改頭換面32?W/w回報(bào)128總計(jì)234186
?數(shù)據(jù)中可被提取的實(shí)例太少,不被列入總數(shù)。
表5 關(guān)于聚類質(zhì)量衡量的三種偶然性校正蘭德指數(shù)。分?jǐn)?shù)從最嚴(yán)格到最寬松。
第二種度量是針對(duì)單個(gè)功能項(xiàng)類別的F1度量。在最終數(shù)據(jù)中的14個(gè)功能類別中,有8個(gè)被復(fù)原。這些結(jié)果顯示在表6中對(duì)交互式非通用的功能項(xiàng)O的度量中。重要的是,該算法提取了形態(tài)最核心的功能:最初的加害(A),遇到贈(zèng)與者的三重步驟(DEF),與對(duì)頭的交鋒和戰(zhàn)勝(HI),災(zāi)難的消除(K),追捕—獲救雙重步驟(Pr-Rs),以及最終的回報(bào)(W)。在所分析的故事中乃至普羅普的整個(gè)形態(tài)學(xué)中,這些都是關(guān)鍵功能。
最顯著的成功之處是提取了HI,即交鋒-戰(zhàn)勝這一組功能。完整的51個(gè)實(shí)例被正確分類,并且,在對(duì)被篩選后的時(shí)間線進(jìn)行度量時(shí),這使得整體F1度量值為0.823。這種成功可能歸因于這一特定功能語(yǔ)義的基本一致,因?yàn)樗袆?dòng)詞都是關(guān)于角逐和戰(zhàn)斗的。
另一個(gè)顯著的成功之處是對(duì)A(加害/缺失)和W(回報(bào))的識(shí)別,其F1度量值為0.8。這是兩個(gè)關(guān)鍵性功能,因?yàn)樗鼈兇碇袆?dòng)的開始與結(jié)束。與HI類似,這些功能項(xiàng)的語(yǔ)義一致性對(duì)于它們的成功提取很重要。在俄羅斯故事中,最常見的加害行為是綁架公主或其他弱勢(shì)群體,而回報(bào)通常是公主獲救并與其結(jié)婚或得到金錢報(bào)酬。
表6 功能項(xiàng)識(shí)別的F1度量
續(xù)表
符號(hào)描述語(yǔ)義#假正類#真正類#假負(fù)類F1K災(zāi)難或缺失的消除充滿0340.6Pr追捕追逐,考慮0590.529Rs獲救攻擊,投擲1640.706W回報(bào)禮物,結(jié)婚1620.8
第三個(gè)成功的度量標(biāo)準(zhǔn)是交叉驗(yàn)證研究。在交叉驗(yàn)證研究中,算法在不同的數(shù)據(jù)子集上運(yùn)行,并且在數(shù)據(jù)量較小的情況下表現(xiàn)出了平穩(wěn)下降趨勢(shì)。值得注意的是,在僅有兩個(gè)故事時(shí),該技術(shù)仍獲得了偶然性校正蘭德指數(shù)0.457。圖3以語(yǔ)料庫(kù)不同子集上的最佳參數(shù)值展示了這種性能,表5中的三個(gè)偶然性校正蘭德指數(shù)對(duì)其進(jìn)行了衡量。圖中的每個(gè)數(shù)據(jù)點(diǎn),是民間故事語(yǔ)料庫(kù)的所有故事子集的平均數(shù)??梢钥闯?,該算法的運(yùn)行呈現(xiàn)出平穩(wěn)下降趨勢(shì),直到一次只考慮兩個(gè)故事時(shí),它對(duì)非通用類的度量保留了0.457的驚人良好值,僅交互式度量的值為0.360,嚴(yán)格度量的值為0.325。這一度量方式表明,該工具應(yīng)對(duì)數(shù)據(jù)變化非常穩(wěn)定。
圖3 普羅普ASM實(shí)現(xiàn)在語(yǔ)料庫(kù)所有子集上的性能
雖然這是第一篇通過計(jì)算的方法學(xué)習(xí)敘事結(jié)構(gòu)實(shí)際理論的文章,但最近還有一些關(guān)于學(xué)習(xí)更一般的敘事模式的有趣研究。首先,納撒內(nèi)爾·錢伯斯(Nathanael Chambers)和丹·尤拉夫斯基(Dan Jurafsky)利用對(duì)大型語(yǔ)料庫(kù)的分布式學(xué)習(xí)來識(shí)別常見的事件序列。[注]納撒內(nèi)爾·錢伯斯、丹尼爾·尤拉夫斯基:《敘事事件鏈的無監(jiān)督學(xué)習(xí)》,《計(jì)算語(yǔ)言學(xué)協(xié)會(huì)第46屆年會(huì)論文集》,俄亥俄州哥倫布,2008年,第789-797頁(yè)。納撒內(nèi)爾·錢伯斯、丹尼爾·尤拉夫斯基:《敘事模式及其參與者的無監(jiān)督學(xué)習(xí)》,《計(jì)算語(yǔ)言學(xué)協(xié)會(huì)第47屆年會(huì)論文集》,新達(dá)城,2009年,第602-610頁(yè)。該技術(shù)依賴于動(dòng)詞之間的逐點(diǎn)式交互信息分?jǐn)?shù),這些動(dòng)詞共享論元以構(gòu)建公共事件對(duì)及其順序,然后將這些事件對(duì)編織在一起形成敘事鏈。敘事鏈有幾個(gè)有趣的共同點(diǎn),與本文有所不同。錢伯斯、尤拉夫斯基和我都試圖識(shí)別出各組文本中常見的事件鏈。此外,他們的研究是另一個(gè)數(shù)據(jù)點(diǎn),其支持的觀點(diǎn)是:明白人物的角色(如,誰是主人公)對(duì)識(shí)別常見敘事結(jié)構(gòu)的重要性。另一方面,該技術(shù)依賴于驚人的文本數(shù)量(他們檢驗(yàn)了超過100萬個(gè)文本)來發(fā)現(xiàn)相似之處。這種方法與我的算法形成鮮明對(duì)比,我的交叉驗(yàn)證研究表明,只剩兩個(gè)故事時(shí)其工作效果可能更好。與我的方法相比,錢伯斯和尤拉夫斯基使用的敘事鏈模型非常接近文本的含義:共享詞根的動(dòng)詞被認(rèn)為是相同的。而我的技術(shù)超越了這種表面意義,我從數(shù)據(jù)中進(jìn)行抽象和概括——例如,使用語(yǔ)義知識(shí)統(tǒng)一諸如“綁架”和“抓住”之類的事象,然后用諸如導(dǎo)致“傷害”或“加害”的“折磨”之類的動(dòng)詞進(jìn)一步統(tǒng)一它們。
此外,米夏埃拉·勒涅里(Michaela Regneri)、亞歷山大·科勒(Alexander Koller)和曼弗雷德·平克爾(Manfred Pinkal)的研究力圖從行動(dòng)清單中學(xué)習(xí)事件腳本。[注]米夏埃拉·勒涅里、亞歷山大·科勒、曼弗雷德·平克爾:《利用網(wǎng)絡(luò)實(shí)驗(yàn)學(xué)習(xí)腳本知識(shí)》,《計(jì)算語(yǔ)言學(xué)協(xié)會(huì)第48屆年會(huì)論文集》,烏普薩拉,2010年,第979-988頁(yè)。該技術(shù)是生物信息學(xué)中的多序列比對(duì)技術(shù)的變體。他們能夠從數(shù)據(jù)中提取合理的類似腳本的結(jié)構(gòu)。其數(shù)據(jù)類型(與自然故事相對(duì),在完成一項(xiàng)任務(wù)時(shí)關(guān)鍵行動(dòng)的主題生成列表)與我的工作有所不同,而不能學(xué)習(xí)循環(huán)這一點(diǎn)則與錢伯斯、尤拉夫斯基相同。此外,他們也沒有過濾掉不重要的事件,因?yàn)槠淦鹗紨?shù)據(jù)只包含與特定腳本相關(guān)的事件。
本項(xiàng)研究體現(xiàn)了人工智能領(lǐng)域和民俗學(xué)領(lǐng)域的共同進(jìn)步。對(duì)人工智能而言,它展示了一種學(xué)習(xí)語(yǔ)義級(jí)別的技術(shù),這種技術(shù)很少被嘗試,也從未以這種經(jīng)過驗(yàn)證的方式被學(xué)習(xí)。對(duì)民俗學(xué)而言,它表明計(jì)算技術(shù)可以為檢測(cè)民間文學(xué)的更深層結(jié)構(gòu)提供重要幫助,而不僅是在詞匯或關(guān)鍵詞分析的表面水平進(jìn)行操作。在未來的工作中,還有許多方面可供探索。首先,我們應(yīng)該繼續(xù)擴(kuò)展這些技術(shù),以自動(dòng)學(xué)習(xí)其他級(jí)別的普羅普理論:回合、亞型和主人公。其次,關(guān)于功能項(xiàng),將這項(xiàng)研究應(yīng)用于其他形態(tài)學(xué)分析是很自然的事,如科爾比和鄧迪斯的那些形態(tài)學(xué)分析。[注]本杰明·科爾比:《愛斯基摩民間故事的部分語(yǔ)法》,《美國(guó)人類學(xué)家》1973年第75卷第3期,第645-662頁(yè);阿蘭·鄧迪斯:《北美印第安人民間故事形態(tài)論》,《民俗學(xué)者通訊》第195期,赫爾辛基:芬蘭科學(xué)院,1964年。第三,基礎(chǔ)技術(shù)本身也有很大改進(jìn)空間:如關(guān)于原因、通用類和其他語(yǔ)義的常識(shí)性知識(shí)的更大整合;學(xué)習(xí)隱性功能項(xiàng)的嘗試;以及通過心理或文化實(shí)驗(yàn),驗(yàn)證形態(tài)分析的有效性以結(jié)束循環(huán)。通過這些努力,人工智能和民俗學(xué)可以期待將來諸多令人興奮的跨學(xué)科互動(dòng),這將豐富和推進(jìn)這兩個(gè)領(lǐng)域的研究。