(湖北大學(xué) 文學(xué)院,湖北 武漢 430062)
文本標(biāo)注(tagging)是自然語言機(jī)器處理(NLP)和自然語言人腦處理的基礎(chǔ)和前提。自然語言的文本標(biāo)注一般分為自然標(biāo)注、人工標(biāo)注和(計(jì)算機(jī))自動(dòng)標(biāo)注三類。人工和(計(jì)算機(jī))自動(dòng)標(biāo)注所產(chǎn)生的標(biāo)注資源主要應(yīng)用于自然語言的機(jī)器處理,而且很早就進(jìn)行了廣泛的標(biāo)注實(shí)踐,與此相反,文本的自然標(biāo)注及自然標(biāo)注資源所具有的NLP價(jià)值直到近些年才引起學(xué)界的重視。清華大學(xué)孫茂松教授最早于2010年提出了“基于極大規(guī)模自然標(biāo)注語料庫(kù)的自然語言處理”思想,他立足于互聯(lián)網(wǎng)自然標(biāo)注資源進(jìn)行自然語言處理,初步闡述了自然標(biāo)注資源的定義、基本類型、基于自然標(biāo)注資源的計(jì)算及方法論(1)孫茂松.基于互聯(lián)網(wǎng)自然標(biāo)注資源的自然語言處理[J].中文信息學(xué)報(bào),2011,25(6):26-32.。2013年第一屆基于自然標(biāo)注大數(shù)據(jù)的自然語言處理國(guó)際學(xué)術(shù)研討會(huì)(NLP-NABD2013)與第十二屆全國(guó)計(jì)算語言學(xué)學(xué)術(shù)會(huì)議(CCL2013)同時(shí)召開,大大推進(jìn)了文本自然標(biāo)注及其標(biāo)注資源在NLP上的應(yīng)用。這屆會(huì)議上,學(xué)者們普遍認(rèn)可“自然標(biāo)注”的基本內(nèi)涵是指由互聯(lián)網(wǎng)用戶根據(jù)其自身目的(而不是出于自然語言處理研究的目的)對(duì)各種互聯(lián)網(wǎng)資源進(jìn)行的“不自覺”的手工標(biāo)注。計(jì)算語言學(xué)家們可以將這些標(biāo)注自覺地和系統(tǒng)性地應(yīng)用在自然語言處理的各種研究中。正如孫茂松所言,自然標(biāo)注就是互聯(lián)網(wǎng)用戶在無意中為自然語言處理研究的各種資源所作的一定程度的義務(wù)標(biāo)注,比如網(wǎng)頁上的“空格”“標(biāo)點(diǎn)符號(hào)”和“句子開頭或結(jié)尾”就是所謂的“自然標(biāo)注”,它能“透露”給我們不少關(guān)于詞匯的信息。孫茂松認(rèn)為用戶在無意中為自然語言處理研究的各種資源作了一定程度的義務(wù)“標(biāo)注”——是自然標(biāo)注的說明性含義,并指出自然標(biāo)注有顯式和隱式兩種基本類型(2)孫茂松.基于互聯(lián)網(wǎng)自然標(biāo)注資源的自然語言處理[J].中文信息學(xué)報(bào),2011,25(6):27.。李志義、沈之銳也將自然標(biāo)注定義為:用戶在無意中為語言的處理和結(jié)構(gòu)的識(shí)別作的一定程度的標(biāo)注,用戶本人并沒有意識(shí)到這一點(diǎn);饒高琦、修馳、荀恩東贊同自然標(biāo)注是語料庫(kù)中的自然存在,而不是專家的外生輸入,并進(jìn)一步指出自然標(biāo)注的資源體現(xiàn)了作者的意志和作者使用語言的規(guī)律模式,部分地實(shí)現(xiàn)了語言學(xué)知識(shí)形式化的挑戰(zhàn)(3)見:李志義,沈之銳.基于自然標(biāo)注的網(wǎng)頁信息抽取研究[J].情報(bào)學(xué)報(bào),2013,32(8):853-859;饒高琦,修馳,荀恩東.語料庫(kù)自然標(biāo)注信息與中文分詞應(yīng)用研究(英文)[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2013,49(1):140-146.。
文本標(biāo)注是一種對(duì)文本語言數(shù)據(jù)進(jìn)行識(shí)別、選擇和歸類的工作,為文本語言添加解釋性、說明性、提示性的信息。文本語言標(biāo)注既能將語言中隱藏的意義顯式地表達(dá)出來,也能按照不同的使用需求對(duì)語言數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和模式化處理,有助于將自然語言轉(zhuǎn)換為易于機(jī)器和人腦理解的數(shù)據(jù)信息。
語言人工標(biāo)注和計(jì)算機(jī)自動(dòng)標(biāo)注都需要一定的主體通過對(duì)語言知識(shí)的運(yùn)用對(duì)語言進(jìn)行信息分類,都是有意識(shí)、自覺地為文本的NLP服務(wù),都是面向機(jī)器的行為。文本的自然標(biāo)注盡管也是一定的主體通過對(duì)語言知識(shí)的運(yùn)用對(duì)語言進(jìn)行信息分類,但是這種行為不是“有意識(shí)、自覺”地為文本的NLP服務(wù),而是有意識(shí)、自覺地為文本的人腦理解服務(wù),是為了人的閱讀理解服務(wù)的行為。
基于學(xué)界已有的看法,我們認(rèn)為自然標(biāo)注是人際交往的潛意識(shí)行為,在文本語言中主要體現(xiàn)為語言符號(hào)本身所蘊(yùn)含的背景信息或語言符號(hào)之間相互解釋的現(xiàn)象,在語言信息生成和理解上具有排他性,有助于語言信息交際的準(zhǔn)確和高效。文本語言的自然標(biāo)注是指語言符號(hào)本身所蘊(yùn)含的背景信息而不是詞語本身的意義所給予的信息。因?yàn)樵~語本身意義指的是詞義中的基本義或常用義,而詞的基本義或常用義是滿足最基礎(chǔ)的信息交流的必要條件,不能納入自然標(biāo)注的范圍之中。而詞語在長(zhǎng)期的使用過程中會(huì)與某些詞形成固定的搭配,使人看到其中一個(gè)詞自然地聯(lián)想到另外一個(gè)詞,這是我們說的詞語蘊(yùn)含的背景信息的一個(gè)方面。另一方面,某些詞有很強(qiáng)的示現(xiàn)感,使人一見到這個(gè)詞就能聯(lián)想到詞所指代的具體事物或文本故事發(fā)生的時(shí)間、文體等等信息。詞語之間的相互解釋是自然標(biāo)注的典型特征,既能使語義表達(dá)更加清楚,也是語言經(jīng)濟(jì)性的體現(xiàn)。典型的例子是同位短語,同位短語的不同詞項(xiàng)指代的是相同的事物,從不同的角度來稱呼同一事物,實(shí)際上就是對(duì)同一事物的不同解釋。排他性說明的是自然標(biāo)注從詞義上來說應(yīng)該是單義的,在某個(gè)場(chǎng)合詞語指代了這種事物,就不能表示另外一種事物。如果某個(gè)詞語的表義不清晰則不能稱之為自然標(biāo)注。
我們知道,電子版文獻(xiàn)的網(wǎng)頁相當(dāng)于紙版文獻(xiàn)的書頁,互聯(lián)網(wǎng)就是一部大書,也就是一個(gè)巨大的語料庫(kù)。受互聯(lián)網(wǎng)用戶有關(guān)網(wǎng)頁文本自然標(biāo)注現(xiàn)象的啟發(fā),我們以《阿Q正傳》的作者魯迅對(duì)該文學(xué)作品的文本自然標(biāo)注為研究對(duì)象,考察作者對(duì)文本語言進(jìn)行的自然標(biāo)注狀況,以及這些自然標(biāo)注資源在文本建構(gòu)(生成)和解構(gòu)(理解)上的功能,同時(shí)也對(duì)文本的NLP提供可資借鑒的參考。
《阿Q正傳》是魯迅1921年12月創(chuàng)作的著名中篇小說,共分9章,21 261個(gè)字(含漢字、英文字母和標(biāo)點(diǎn)符號(hào))。本文抽取《阿Q正傳》文本自然標(biāo)注的方法例釋如下。我們看下面的語料:
(1)因?yàn)槲捏w卑下,是“引車賣漿者流”所用的話,所以不敢僭越,便從不入三教九流的小說家所謂“閑話休提,言歸正傳”這一句套話里,取出“正傳”兩個(gè)字來,作為名目。
(2)那是趙太爺?shù)膬鹤舆M(jìn)了秀才的時(shí)候,鑼聲鏜鏜的報(bào)到村里來,阿Q正喝了兩碗黃酒,便手舞足蹈地說,這于他也很光彩。
(3)吳媽此后倘有不測(cè),惟阿Q是問。
(4)我也曾問過趙太爺?shù)膬鹤用畔壬?,誰料博雅如此公,竟也茫然。
(5)他說不出的新鮮而且高興,燭火像元夜似的閃閃地跳,他的思想也迸跳起來了。
(6)……也很有排斥異端——如小尼姑及假洋鬼子之類——的正氣。
(7)…王胡,又癩又胡,別人都叫他王癩胡……
(8)據(jù)阿Q說,他是在舉人老爺家里幫忙。
例(1)中,“因?yàn)椤浴笔瞧玛P(guān)聯(lián)詞,標(biāo)注的是句間因果關(guān)系。“這一句套話”是對(duì)“閑話休提,言歸正傳”這句話的語義定性——套話。例(2)中,“那是(……的)時(shí)候”標(biāo)明了代詞“那”的語義所指是“時(shí)候(時(shí)間)”概念?!暗臅r(shí)候”標(biāo)明“趙太爺?shù)膬鹤舆M(jìn)了秀才”由“事件”轉(zhuǎn)為“時(shí)間”?!皟赏朦S酒”是數(shù)量名結(jié)構(gòu),具有互相標(biāo)注的性質(zhì),量詞前是數(shù)詞,數(shù)詞后是量詞,名詞前是數(shù)量詞。例(3)“吳媽”這個(gè)詞的形式“姓+親屬稱謂詞”標(biāo)注了“吳媽”是一個(gè)社會(huì)稱謂詞,因?yàn)橐粋€(gè)人在稱自己的母親時(shí),不會(huì)冠上姓?!拔┌是問”中的“惟……是……”結(jié)構(gòu)是賓語前置的標(biāo)志,標(biāo)記“問”和“阿Q”是動(dòng)賓關(guān)系。例(4)中的“趙太爺?shù)膬鹤用畔壬笔峭欢陶Z,同位短語兩項(xiàng)指代的是相同的人,前項(xiàng)“趙太爺?shù)膬鹤印睒?biāo)明了“茂才先生”的身份,后項(xiàng)“茂才先生”標(biāo)明了“趙太爺?shù)膬鹤印钡木唧w所指。同時(shí)“趙太爺”和“茂才先生”也是自然標(biāo)注。例(5)中“像……似的”是比喻格的標(biāo)記詞。例(6)中的“之類”標(biāo)注的是“列舉未盡”,也標(biāo)明“小尼姑”“假洋鬼子”具有某種相同的屬性。例(7)中的“別人都叫他王癩胡”標(biāo)明“王癩胡”是他人給“王胡”起的綽號(hào)?!八焙汀巴醢]胡”同指。例(8)中的“據(jù)……說”,標(biāo)明了相關(guān)信息的來源。
基于文本自然標(biāo)注的基本內(nèi)涵和上述基本的操作方法,我們對(duì)《阿Q正傳》文本語言的自然標(biāo)注資源狀況進(jìn)行了窮盡性考察。具體情況如表1所示。
表1《阿Q正傳》的自然標(biāo)注資源狀況
續(xù)表1
標(biāo)注類別標(biāo)注詞語示例標(biāo)注格式標(biāo)注內(nèi)容標(biāo)注的頻數(shù)句間關(guān)系標(biāo)注(502次)但A但B轉(zhuǎn)折179于是A于是B順承110因?yàn)椤砸驗(yàn)锳所以B因果76…的時(shí)候A的時(shí)候+B時(shí)間,23語旨23并且A并且B并列21倘倘A+B假設(shè)18不但…而且不但A而且B遞進(jìn)15或者A或者B選擇14據(jù)…說據(jù)A說+B來源8除了…之外除了A之外+B排除7總而言之A+總而言之+B總括5為了為了A+B目的1每逢…的時(shí)候每逢A的時(shí)候+B時(shí)間,1語旨1詞間關(guān)系標(biāo)注(256次)趙太爺姓A+親屬稱謂B語旨68們A+們語旨68祠/庵A+祠/庵語旨27趙家/府姓A+家語旨24黨A+黨語旨22老把總(A)+職業(yè)稱謂B語旨21兒子(A稱B)兒子語旨13者A者語旨6老Q老+稱謂A語旨<對(duì)A,尊敬/情深>4這個(gè)…這個(gè)…指示代詞A…語旨2輩A+輩語旨1
關(guān)于表1,需要作如下的說明:
1.標(biāo)點(diǎn)符號(hào)也是文本自然標(biāo)注的類別和重要資源,《阿Q正傳》一共有標(biāo)點(diǎn)符號(hào)2 709個(gè)。但是由于其生來就是為標(biāo)注而存在的,標(biāo)注功能顯而易見,所以本表暫不涉及此類資源。
2.文本自然標(biāo)注本質(zhì)上都是為包括句法語義和語用義在內(nèi)的語義服務(wù)的。根據(jù)自然標(biāo)注的語義范圍,我們把標(biāo)注分為“句間關(guān)系標(biāo)注、句內(nèi)關(guān)系標(biāo)注、詞間關(guān)系標(biāo)注”三類。句間關(guān)系標(biāo)注是指對(duì)篇章級(jí)句間關(guān)系進(jìn)行的語義關(guān)聯(lián)、邏輯語義計(jì)算之類的篇章語義標(biāo)注。此類標(biāo)注頻數(shù)為502次,占全部2 517次頻數(shù)的19.94%。句內(nèi)關(guān)系標(biāo)注是指對(duì)句子級(jí)的短語結(jié)構(gòu)進(jìn)行的句法語義標(biāo)注。此類標(biāo)注頻數(shù)為1 759次,占比69.88%。詞間關(guān)系標(biāo)注是指對(duì)語法關(guān)系較少的鄰現(xiàn)組合的詞語進(jìn)行的詞匯語義標(biāo)注。此類標(biāo)注頻數(shù)為256次,占比10.17%。
3.《阿Q正傳》全文有18 552個(gè)漢字(含英文字母)和2 709個(gè)標(biāo)點(diǎn)符號(hào),有2 517次漢字性質(zhì)的自然標(biāo)注。據(jù)此可得,該小說文本漢字性質(zhì)的自然標(biāo)注頻率為7.37字/次(18 552/2 517),也就是說,每7.37個(gè)漢字就有一次自然標(biāo)注。如果把標(biāo)點(diǎn)符號(hào)性質(zhì)的標(biāo)注也計(jì)算進(jìn)來,那么《阿Q正傳》的自然標(biāo)注頻率為4.06字符/次[(18 552+2 709)/(2 709+2 517)],也即每4.34個(gè)字符就有一次自然標(biāo)注??梢姡撔≌f文本的自然標(biāo)注頻率還是比較高的。
4.表1中相關(guān)符號(hào)和公式的內(nèi)涵是:<>內(nèi)的詞項(xiàng)有前后兩項(xiàng),用“,”隔開或者用“=、≠”關(guān)聯(lián),前后兩項(xiàng)連起來表示一條標(biāo)注的知識(shí)。<>外的詞項(xiàng)有兩類,一類是表示句內(nèi)和詞間關(guān)系的“語旨(語義知識(shí))”,是指尖括號(hào)內(nèi)前項(xiàng)的“語旨”是后項(xiàng);一類是表示句間關(guān)系的“選擇、轉(zhuǎn)折、總括、時(shí)間”等詞語,是指尖括號(hào)內(nèi)前后兩項(xiàng)之間在篇章句間關(guān)系上具有該詞語所指的關(guān)系。尖括號(hào)“<>”及其內(nèi)外的詞語聯(lián)合起來構(gòu)成一個(gè)結(jié)構(gòu)式,這個(gè)結(jié)構(gòu)式表示一個(gè)完整的標(biāo)注實(shí)例及其標(biāo)注內(nèi)容。例如“時(shí)間”就是一個(gè)標(biāo)注實(shí)例,其標(biāo)注內(nèi)容是指:事件B發(fā)生的時(shí)間是A?!稗D(zhuǎn)折”也是一個(gè)標(biāo)注實(shí)例,其標(biāo)注的內(nèi)容是:A、B之間是轉(zhuǎn)折關(guān)系?!罢Z旨”也是一個(gè)標(biāo)注實(shí)例,其標(biāo)注內(nèi)容是:A家是名門望族。
自然語言的自然標(biāo)注是語言事實(shí)的一部分。自然標(biāo)注是人-際交際的潛意識(shí)行為。人工/自動(dòng)標(biāo)注是人-機(jī)交際的有意識(shí)行為。文本的自然標(biāo)注資源,在人際交互、人機(jī)交互方面都有重要作用,本文從語法、語義、語用和自然語言處理(NLP)等方面例釋性簡(jiǎn)要說明其功用。
1.自然標(biāo)注在語法上的功用。為了語義和語用方面的需要,有時(shí)候需要在語法上進(jìn)行適當(dāng)?shù)臉?biāo)注,以便更好地進(jìn)行語義和語用表達(dá)。我們知道,用結(jié)構(gòu)助詞“之”嵌在主謂結(jié)構(gòu)中間,從而取消句子獨(dú)立性,是古漢語特有的一種自然標(biāo)注性質(zhì)的語法現(xiàn)象。這使得本來可以獨(dú)立成句的話不獨(dú)立,變得語意未盡。例如,在句子“師道之不傳也久矣”中,“之”取消了主謂結(jié)構(gòu)“師道不傳”的獨(dú)立性,讓這個(gè)主謂結(jié)構(gòu)降級(jí)為句子的主語成分,最終使得“主+謂+補(bǔ)”結(jié)構(gòu)的句子“師道不傳也久矣”變成“主+謂”結(jié)構(gòu)的句子“師道的不傳也久矣”。再比如“惟……是……”結(jié)構(gòu)也具有自然標(biāo)注功能,這能讓賓語提前獲得強(qiáng)調(diào)意義。
2.自然標(biāo)注在語義上的功用。文本自然標(biāo)注主要體現(xiàn)在語義方面,這些自然標(biāo)注能夠使語義表達(dá)更精細(xì)。文本自然標(biāo)注使自然語言的表義系統(tǒng)更加完善,可以大大增強(qiáng)語言的表情達(dá)意功能,有助于更好地生成和理解文本。例如:利用網(wǎng)頁URL規(guī)則對(duì)網(wǎng)頁進(jìn)行類聚,但隨著Ajax技術(shù)的發(fā)展,動(dòng)態(tài)URL的不斷流行,這種方法的準(zhǔn)確性在下降。此例中“規(guī)則、技術(shù)、方法”是“URL、Ajax、類聚”的自然標(biāo)注,有了“規(guī)則、技術(shù)、方法”這三個(gè)自然標(biāo)注詞,我們很容易知道“URL、Ajax、類聚”分別是一種規(guī)則、技術(shù)和方法,這就使得整個(gè)句義表達(dá)明確精細(xì),易于理解(4)見:李志義,沈之銳.基于自然標(biāo)注的網(wǎng)頁信息抽取研究[J].情報(bào)學(xué)報(bào),2013,32(8):853-859.。
3.自然標(biāo)注在語用上的功用。文本自然標(biāo)注在語用方面的功能主要體現(xiàn)在語句言外之意、句間關(guān)系、語體、修辭特征等的標(biāo)注。這不僅有助于文本語義的建構(gòu)和理解,而且有助于形成獨(dú)特的文本作者的用語特征。饒高琦、修馳、荀恩東等人認(rèn)為文本這種自然標(biāo)注體現(xiàn)了作者的意志和作者使用語言的規(guī)律模式(5)饒高琦,修馳,荀恩東.語料庫(kù)自然標(biāo)注信息與中文分詞應(yīng)用研究(英文)[J].北京大學(xué)學(xué)報(bào):自然科學(xué)版,2013,49(1):141.。通過對(duì)《阿Q正傳》中自然標(biāo)注的整理,我們發(fā)現(xiàn)了許多“而立之年、求食之道、不朽之人”等用“之”連接定語和中心語的短語以及大量的“文童、秀才、翰林、知縣大老爺”等社會(huì)稱謂詞。這說明作者在語言使用上有仿古特征,在語義語用上有“批古諷古”之用意。另外,筆者將《阿Q正傳》與同時(shí)代女作家張愛玲的《琉璃瓦》進(jìn)行對(duì)比,發(fā)現(xiàn)魯迅善于使用篇章關(guān)聯(lián)詞來增強(qiáng)文章的形式流暢度。因?yàn)槠玛P(guān)聯(lián)詞表明句間關(guān)系,具有連接篇章、轉(zhuǎn)移推進(jìn)話題的作用,有助于篇章結(jié)構(gòu)的形式建構(gòu)。
4.自然標(biāo)注在自然語言處理(NLP)上的功用。例如,文本中的“空格”“標(biāo)點(diǎn)符號(hào)”和“句子開頭或結(jié)尾”就是所謂的“自然標(biāo)注”,這能“透露”出很多的詞匯信息。網(wǎng)文標(biāo)簽也是一種典型的“自然標(biāo)注”,網(wǎng)文作者可以自由地為自己寫作的文章添加任意的“標(biāo)簽”,以表達(dá)某種意圖或心情。這能“透漏”出作者很多的情感和網(wǎng)文文體信息。本文的參考文獻(xiàn)對(duì)自然標(biāo)注在NLP上的功用已有很多闡釋,此不贅述。
5.自然標(biāo)注研究有助于揭示語言符號(hào)系統(tǒng)的運(yùn)作規(guī)律和機(jī)制,論證語言是一個(gè)自我標(biāo)注的符號(hào)系統(tǒng)。
本文考察發(fā)現(xiàn),《阿Q正傳》中的文本自然標(biāo)注資源是比較豐富的。在標(biāo)注的類別上,“句間關(guān)系、句內(nèi)關(guān)系、詞間關(guān)系”方面都有體現(xiàn),其中句內(nèi)關(guān)系標(biāo)注占比最高,其次是句間關(guān)系和詞間關(guān)系標(biāo)注。在標(biāo)注的頻率上,平均每7.37個(gè)漢字有一次漢字性質(zhì)的自然標(biāo)注,平均每4.06個(gè)字符有一次綜合(漢字和標(biāo)點(diǎn)符號(hào))性質(zhì)的自然標(biāo)注。
我們知道,在接受理論(Reception Aesthetic)視角下,文本是以文字符號(hào)的形式儲(chǔ)存著多種多樣審美信息的硬載體,通過這個(gè)硬載體,作者傳遞自己想要傳遞的信息,讀者吸收自己能夠吸收的信息。問題是,很多時(shí)候作者傳遞的信息和讀者吸收的信息并非完全一致,這種不一致既體現(xiàn)了文本審美信息巨大張力,也體現(xiàn)了作者和讀者之間通過文本傳遞信息的阻力。為了減小這種阻力,作者會(huì)自覺或不自覺在文本中進(jìn)行一些標(biāo)注,這種標(biāo)注對(duì)NLP來說是無意識(shí)的,是作者使用自然語言進(jìn)行自然表達(dá)的一種下意識(shí)行為,這種標(biāo)注就是自然標(biāo)注現(xiàn)象。系統(tǒng)考察文本的自然標(biāo)注資源,有助于從新的角度來把握自然語言這個(gè)符號(hào)系統(tǒng)的運(yùn)作規(guī)律和運(yùn)作機(jī)制,以便更好地接受文本信息,最終完成文學(xué)文本向文學(xué)作品的根本性轉(zhuǎn)變。