劉培奇,黃 苗+,封 昊,周 偉
1.西安建筑科技大學(xué) 信息與控制工程學(xué)院,西安 710055 2.陜西彩虹電子玻璃有限公司,陜西 咸陽 712000
模糊概念圖匹配的語用推理研究*
劉培奇1,黃 苗1+,封 昊1,周 偉2
1.西安建筑科技大學(xué) 信息與控制工程學(xué)院,西安 710055 2.陜西彩虹電子玻璃有限公司,陜西 咸陽 712000
針對(duì)目前計(jì)算機(jī)在自動(dòng)語用分析中不能解析出整個(gè)話語深層含義的問題,設(shè)計(jì)了基于模糊概念圖匹配的關(guān)聯(lián)推理算法。該算法針對(duì)漢語語用分析中的特定對(duì)話模式,用模糊概念圖表示說話人的話語和認(rèn)知語境知識(shí),并從計(jì)算機(jī)學(xué)科出發(fā)進(jìn)行關(guān)聯(lián)推理,解決了話語深層含義的語用分析問題。經(jīng)過實(shí)驗(yàn)分析,該算法準(zhǔn)確率達(dá)78%。該算法已應(yīng)用到輿情分析和IRC聊天室社會(huì)網(wǎng)絡(luò)挖掘中,采用該算法對(duì)大量會(huì)話文本預(yù)處理,有效降低了基于多特征融合的Mutton方法和AdaBoost方法的漏報(bào)率和誤報(bào)率,提高SBV極性傳遞算法的準(zhǔn)確率,有效推出了對(duì)話者文本的深層含義。
語用分析;關(guān)聯(lián)推理;模糊概念圖;認(rèn)知語境
語用分析主要是分析話語在不同語境下的不同具體含義[1],以及語言的隱含意義。在雙方交談中,有時(shí)出于禮貌、幽默和委婉等原因,話語的意圖沒有直接說出來,話語真正傳遞的實(shí)際上是另外一種深層次含義[2]。例如:A說“你在網(wǎng)上買的電腦運(yùn)行快不?”,B回答“跟螞蟻爬一樣!”,“螞蟻爬”僅僅是B所說話語的表面含義,真正含義是“在網(wǎng)上買的電腦運(yùn)行速度很慢”。如果在計(jì)算句子傾向性或僅用文本的表面含義,則會(huì)降低文本理解的準(zhǔn)確率。因此,語用分析對(duì)理解話語深層含義具有十分重要的意義。
語用分析是自然語言理解的重要領(lǐng)域,國內(nèi)外學(xué)者在這一方面展開了廣泛研究。在國外,Grice的會(huì)話含義理論[3],首次對(duì)語用學(xué)進(jìn)行了系統(tǒng)闡述和剖析,提出了語用分析的4個(gè)合作原則,但該原則存在模糊性和重疊性。后來,Horn把4個(gè)合作原則簡(jiǎn)化為兩個(gè)[4]。Levinson指出Horn兩原則的不合理性,并在總結(jié)多位語言學(xué)家研究的基礎(chǔ)上概括出會(huì)話含義分析三原則[4],建立了新Grice會(huì)話含義理論基礎(chǔ)。Sperber&Wilson在上述研究的基礎(chǔ)上,提出了關(guān)聯(lián)理論,構(gòu)成了新Grice會(huì)話含義理論[2]。會(huì)話含義分析的基礎(chǔ)是對(duì)話語的語用推理。近年,國外對(duì)會(huì)話語用推理進(jìn)行了大量研究。在文獻(xiàn)[5]中,為了便于非合作對(duì)話的理解,Brain Pluss從對(duì)話者語言的直接意義定義了DNC(degree of non-cooperative dialogue),提出非合作對(duì)話計(jì)算模型,便于對(duì)話者之間語言理解。但是在DNC中,僅計(jì)算語言表面詞匯意義,沒有涉及語言更深層次的意義。在文獻(xiàn)[6]中,F(xiàn)ranke 在有限理性模型基礎(chǔ)上,針對(duì)博弈中雙方信息(經(jīng)過信息可靠性語用推理)的理解和響應(yīng)問題,提出了IBR(iterated best respones)模型。但是IBR 模型是建立在會(huì)話者的意義聚焦假設(shè)和有限合理性假設(shè)下,一般情況下,這兩個(gè)假設(shè)很難滿足,因此推理效果有限。
與國外的研究相比,國內(nèi)學(xué)者更傾向于語用學(xué)應(yīng)用研究。國內(nèi)最早引入語用分析的是沈家煊,他對(duì)關(guān)聯(lián)理論進(jìn)行了系統(tǒng)闡述和分析[7];熊學(xué)亮對(duì)語用分析進(jìn)行了深入研究,細(xì)化了關(guān)聯(lián)推理,總結(jié)了話語分析的關(guān)聯(lián)推理模式[2];趙彥春將語用分析應(yīng)用到翻譯領(lǐng)域,創(chuàng)建了指導(dǎo)翻譯的理論模型關(guān)聯(lián)翻譯[8]。但是他們僅從語言學(xué)或哲學(xué)角度進(jìn)行理論研究,并沒有從計(jì)算機(jī)科學(xué)方面研究語用分析與推理的算法和實(shí)現(xiàn)。由于語用分析中語境因素繁多而且是動(dòng)態(tài)變化的,在計(jì)算機(jī)中很難設(shè)計(jì)語境庫,并且不同話語很難和語境庫中繁多語境信息匹配,因?yàn)橛?jì)算語用學(xué)發(fā)展緩慢,相關(guān)文獻(xiàn)相對(duì)較少。在現(xiàn)有文獻(xiàn)中,劉根輝[9]對(duì)計(jì)算語用學(xué)進(jìn)行了較完整研究,并構(gòu)建了基于語境的自然語言理解模型,根據(jù)語境信息較好地解決了漢語中一詞多義問題,但該系統(tǒng)并沒有對(duì)整個(gè)話語的深層含義進(jìn)行理解。文獻(xiàn)[10]把語用信息用于關(guān)鍵字?jǐn)U展、專利語料庫構(gòu)建、專利檢索中,在一定程度上提高了檢索答案的準(zhǔn)確率,但該系統(tǒng)對(duì)語境信息考慮較少,僅僅涉及用戶信息,沒有做到對(duì)整個(gè)話語深層含義的解析。文獻(xiàn)[11]提出了一個(gè)基于語用信息的候選答案排序模型,提高了問答系統(tǒng)的準(zhǔn)確率,但該模型中涉及的語境信息也僅僅為答案提供者的信息和用戶對(duì)答案提供者所提供答案的評(píng)價(jià)信息,也沒有做到理解整句話的深層含義。
目前,在語用分析領(lǐng)域主要有Grice的會(huì)話含義理論和Sperber&Wilson的關(guān)聯(lián)理論,其中關(guān)聯(lián)理論是對(duì)Grice會(huì)話含義理論的繼承和批判,是為推導(dǎo)出交際意圖而尋找能滿足[新信息+關(guān)聯(lián)信息]組合的相關(guān)假設(shè),并且在特定的場(chǎng)合中推導(dǎo)出話語的深層含義。關(guān)聯(lián)理論主要涉及會(huì)話分析、傳媒話語、文學(xué)、翻譯和言語幽默等領(lǐng)域,本文主要討論話語分析問題。
在計(jì)算機(jī)的話語分析中,模糊概念圖知識(shí)表示方法既有準(zhǔn)確而嚴(yán)格的語義定義,又能表示深層語義知識(shí)和實(shí)現(xiàn)多種匹配推理。本文在模糊概念圖表示話語和認(rèn)知語境基礎(chǔ)上,設(shè)計(jì)了基于模糊概念圖匹配的關(guān)聯(lián)推理算法(relevance inference algorithm based on fuzzy conceptual graph matching,RIAFM),解決了特定對(duì)話模式(即對(duì)話者A是一個(gè)問句,而回答者B對(duì)A沒有正面回答)的語用推理問題,推導(dǎo)出對(duì)話者B話語的深層含義,并對(duì)A的問題進(jìn)行正面回答。本文以QQ聊天記錄中對(duì)話為基本數(shù)據(jù),對(duì)RIAFM算法理解對(duì)話的正確性進(jìn)行了實(shí)驗(yàn)分析,對(duì)話語理解的準(zhǔn)確率得到明顯提高。最后,將本文算法應(yīng)用于句子傾向性計(jì)算和聊天室社會(huì)網(wǎng)絡(luò)挖掘中,本文算法明顯提高了計(jì)算句子傾向性分析和社會(huì)網(wǎng)絡(luò)挖掘的準(zhǔn)確率。
概念圖(conceptual graph,CG)是美國計(jì)算機(jī)科學(xué)家Sowa提出的一種基于語義分析的知識(shí)表示方法[12-13]。由于概念圖具有表示形式直觀,表達(dá)能力強(qiáng),推理簡(jiǎn)單,語言功能強(qiáng)等優(yōu)點(diǎn),目前已成為一種理想的知識(shí)表示方式。
定義1概念圖是由概念節(jié)點(diǎn)、關(guān)系節(jié)點(diǎn)、有向弧組成的有向連通圖,即:
其中,Concept={C1,C2,…,Cm}為概念節(jié)點(diǎn)集,表示實(shí)體、動(dòng)作、狀態(tài)和事件等;Relation={R1,R2,…,Rn}為關(guān)系節(jié)點(diǎn)集,表示概念節(jié)點(diǎn)間的關(guān)系;F=(Concept×Relation)?(Relation×Concept)為有向弧集[14]。
在概念圖的線性表示中,用方括號(hào)表示概念節(jié)點(diǎn),用圓括號(hào)表示關(guān)系節(jié)點(diǎn)。例如,語句“A dog eats the meat with the paw.”可線性表示為:
為了表示和處理模糊知識(shí),Morton和Wuwongse等人結(jié)合模糊數(shù)學(xué)理論,研究了模糊概念圖[15-16]。
定義2設(shè)Le為實(shí)體子類,I為標(biāo)記集合,則概念C的模糊度 ρ:Le×I→[0,1],模糊概念C可表示為[t:x|ρ]。其中 t=type(C);t∈Le,x=referent(C),x∈I。如果ρ為1,則可以省略[17]。
定義3由模糊概念集合、關(guān)系集合和有向弧組成的有向二分圖,稱為模糊概念圖。
例如,一個(gè)年輕的女孩為L(zhǎng)ucy的可能性為0.8可表示為:
在概念圖中,匹配算法主要包括完全匹配、投影匹配和最大連接匹配。
定義4設(shè)概念節(jié)點(diǎn)C1,C2∈C,若C1≤C2,則稱C2是 C1的概化,C1是 C2的特化[18]。
定義5如果概念節(jié)點(diǎn)C1和C2有最大公共子類C3,即對(duì)任意的概念節(jié)點(diǎn)C,若C≤C1,C≤C2,都有C≤C3,則稱概念節(jié)點(diǎn)C1和C2相容[19]。
定義6對(duì)于概念圖u、v和w,若w中的關(guān)系是u和v的并集,w中的概念是u和v中相容概念,則稱w是u和v的最大連接概念圖,記為w=u?v[18]。
例如:
則u和v的最大連接概念圖w為:
定義7對(duì)于模糊概念圖u、v和w,如果w中的關(guān)系是u和v的并集,w中的概念是u和v中相容的概念集合,且w中相容概念的模糊度為u和v中相容概念模糊度最小值,則稱w是u和v的最大連接模糊概念圖,記為w=u?v。
關(guān)聯(lián)推理的本質(zhì)是語言交際者對(duì)交際意圖的表達(dá)和識(shí)別。本文通過關(guān)聯(lián)推理模式對(duì)特定對(duì)話模式進(jìn)行推理。
定義8關(guān)聯(lián)推理模式就是在理解交際者話語的過程中,搜索滿足[新信息+關(guān)聯(lián)信息]組合的相關(guān)語境假設(shè)[20],即:對(duì)話者A和對(duì)話者B談話時(shí),當(dāng)B說完話時(shí),A對(duì)B的話語有關(guān)聯(lián)期待,就值得A花費(fèi)努力去加工和推理B所說的話語,即B所說的話語會(huì)激活A(yù)大腦中原有的相關(guān)知識(shí)結(jié)構(gòu)(對(duì)A話語的各種假設(shè))和推理,然后在具體的交際場(chǎng)合內(nèi)互動(dòng)。
通過對(duì)語境因素的研究,包羅萬象的語境歸納成為物理語境、語言語境、認(rèn)知語境三大范疇[20]。認(rèn)知語境庫作為心理構(gòu)建體,和心理學(xué)上的構(gòu)建一樣,都強(qiáng)調(diào)主體基于原有的知識(shí)與經(jīng)驗(yàn)對(duì)新信息意義的構(gòu)建,它是新輸入的信息與大腦中已有信息相互作用、相互整合而凸顯的結(jié)果[21]。本文的認(rèn)知語境知識(shí)庫(cognitive context knowledge library,CCKL)是專家通過訓(xùn)練大量該特定對(duì)話模式樣本,總結(jié)并建立很多特定主題詞的各種相關(guān)假設(shè)。由于人與人所處的物理環(huán)境不同,記憶能力和認(rèn)知結(jié)構(gòu)也明顯不同,他們大腦中認(rèn)知語境信息則不一樣。當(dāng)兩個(gè)人處在同一個(gè)語境中,受到相同的明示刺激,他們做出的反應(yīng)與激活的認(rèn)知語境知識(shí)塊也不同。正因?yàn)檫@種不存在“共有知識(shí)”,交際一方對(duì)另一方所說話語的理解,充其量只是給交際的成功提供了可能,但絕對(duì)無法保證交際雙方達(dá)到百分之百的準(zhǔn)確理解[20]。在本算法中,認(rèn)知語境知識(shí)庫中每個(gè)主題詞的相關(guān)知識(shí)都用模糊概念圖集合表示,其中每一條相關(guān)知識(shí)的假設(shè)為集合中一個(gè)模糊概念圖,該模糊概念圖標(biāo)注了該種假設(shè)成功交際的可能性。每一條相關(guān)知識(shí)假設(shè)都有一個(gè)模糊度,該模糊度是通過訓(xùn)練大量談話事件,從中找出提問和回答都一樣的談話記錄,并記錄回答者涉及該談話的實(shí)際情況。設(shè)某特定的相同提問和回答的談話記錄有m對(duì),實(shí)際結(jié)果為第一種情況的有n個(gè),為第二種情況的有k個(gè),則該相關(guān)知識(shí)假設(shè)的模糊度α為:
實(shí)際上α是一種先驗(yàn)概率,表示對(duì)于某個(gè)特定的回答,而最終是某個(gè)特定實(shí)際情況的概率。
根據(jù)人們理解話語的思維過程,決定了語用推理的過程就是對(duì)話雙方話語的模糊概念圖和認(rèn)知語境知識(shí)庫中模糊概念圖的匹配過程。根據(jù)以上思想,本文設(shè)計(jì)了RIAFM算法。
設(shè)對(duì)話者A的話語生成的模糊概念圖為u,回答者B的話語生成的模糊概念圖為v,w中概念節(jié)點(diǎn)集合為Cw,w中概念節(jié)點(diǎn)個(gè)數(shù)為k,與Cwt相連的關(guān)系節(jié)點(diǎn)集合為Rwtc,在CCKL中關(guān)于Cwi的主題詞的模糊概念圖集合為Q,q∈Q中概念節(jié)點(diǎn)集合為Cq,與Cqt相連的關(guān)系節(jié)點(diǎn)集合為Rqtc。RIAFM算法流程如圖1所示。
算法RIAFM
輸入:u,v,談話雙方話語生成的模糊概念圖;
CCKL,認(rèn)知語境知識(shí)庫;
Cu0,概念圖u中模糊度為0的概念節(jié)點(diǎn)。
輸出:Cu0?ρ,概念圖u中模糊度為0的概念節(jié)點(diǎn)的新模糊度。
Begin
1.w=u?v;
2.Cw={Cwi|Cwi為w中概念節(jié)點(diǎn)};
Rw={rwi|rwi為w中關(guān)系節(jié)點(diǎn)};
3.(?Cwi)Cwi∈ Cw;Cwi?ρ=0;
4.foreach(Cwiiscontainof(CCKL)){//判斷 CCKDB 中主題詞是否包含概念節(jié)點(diǎn)Cwi
5.Q=search(Cwi)//在CCKL中主題詞c的模糊概念圖集合為Q
Fig.1 Flow chart of RIAFM algorithm圖1RIAFM算法流程
6.(?Qi)Qi∈ Q
7.q=Qi;
8.Cq={Cqi|Cqi為q中概念節(jié)點(diǎn)};
Rq={rqi|rqi為q中關(guān)系節(jié)點(diǎn)};
9.Cqt=Cwt=Cwi;Cq=Cq-Cwi;temp1=1;temp2=1;
10.while(?(r)r∈Rw∧CwtrCwj∧Cwt,Cwj∈Cw∧r∈Rq∧CqrrCqj∧Cqt,Cqj∈Cq){
11.if(Cwj=Cqj∨CwjisHomonym(Cqj)){//如果 Cw和 Cqj相等或互為近義詞
12. if(Cwi?ρ=0){temp1=Cqi?ρ}
13. else{temp2=min(Cwi?ρ,Cqi?ρ)}}
14. if(Cq!=null){
15. Cq=Cq-Cqi;
16. if(Cq!=null){Cwt=Cwj;Cqt=Cqj;
free(Cwj,Cqj);重復(fù)執(zhí)行(10);}
17. else{Cu0?ρ=temp1*temp2;return;}}}
18.elseif(CwjisAntonym(Cqj)){//如果 Cw和 Cqj互為反義詞
19. if(Cwj?ρ){temp1=-Cqj?ρ}
20. else{temp2=-min(Cwj?ρ,Cqj?ρ)}
21. if(Cq!=null){
22. Cq=Cq-Cqi;
23. if(Cq=null){Cwi?ρ=temp1*temp2;break;}
24. else{break;}}}
25.else{break;}
26.Cu0?ρ=min(Cwi?ρ)(i=1,2,…,n)//n 為 w 中概念節(jié)點(diǎn)數(shù)}
End
在RIAFM算法中,輸入是談話雙方話語生成的模糊概念圖u、v,認(rèn)知語境庫中相關(guān)主題的概念圖集合和概念圖u中模糊度為0的概念節(jié)點(diǎn)Cu0;輸出是概念圖u中模糊度為0的概念節(jié)點(diǎn)的新模糊度。從第3步開始,循環(huán)u和v的最大連接概念圖w中的概念節(jié)點(diǎn),設(shè)w的概念節(jié)點(diǎn)數(shù)為m;從第5步開始,為w中概念節(jié)點(diǎn)Ci搜索認(rèn)知語境庫中關(guān)于Ci主題詞的概念圖集合Q,設(shè)認(rèn)知語境庫中主題詞數(shù)為n;從第6步開始,循環(huán)Q中每個(gè)概念圖q,Q中概念圖數(shù)為h;從第10步開始,w和Q中概念圖q進(jìn)行匹配,只有q中的所有概念節(jié)點(diǎn)都與w中概念圖匹配時(shí),算法匹配成功,而temp1×temp2的值才能正確地賦給Cu0。因此算法最多執(zhí)行m×n×h次,最壞情況下時(shí)間復(fù)雜度為O(mnh)。
RIAFM算法空間復(fù)雜度為存儲(chǔ)模糊概念圖u、v、w和CCKL主題詞索引占用的空間,再加上臨時(shí)變量占用空間,因此該算法空間復(fù)雜度為| Ru|+| Rv|+|Rw|+| Cu|+| Cv|+| Cw|+h| Rq|+h| Cq|+n+3。對(duì) 二 元 關(guān) 系的模糊概念圖,算法近似存儲(chǔ)空間大約為2(| Ru|+|Rv|+| Rw|)+2h| Rq|+n+3,因此該算法總的空間復(fù)雜度為O(n)。
例如:
A:Tom個(gè)頭高嗎?
B:Tom以前是籃球隊(duì)的!
步驟1經(jīng)過命題充實(shí)后,生成模糊概念圖為:
u:[人:Tom|1]→(PART)→[個(gè)頭|1]→(ATTR)→[高|0].
v:[以前|1]←(TIME)←[籃球隊(duì)|1]←[CONS]←[人:Tom|1].
步驟2w=u?v。
w:[以前|1]←(TIME)←[籃球隊(duì)|1]←[CONS]←[人:Tom|1]→(PART)→[個(gè)頭|1]→(ATTR)→[高|0].
步驟3w中概念節(jié)點(diǎn)只有[籃球隊(duì)]在認(rèn)知語境知識(shí)庫中的“籃球隊(duì)”主題詞的概念圖集合Q中概念圖 q匹配成功,則 Cu0?ρ=temp1×temp2=0.9×1=0.9,q的概念圖如下:
[籃球隊(duì)|1]←[CONS]←[隊(duì)員|1]—(PART)→
[身高|1]→(ATTR)→[高|0.9].
步驟4w和q匹配后,輸出Cu0為[高|0.9],再用Cu0替換u中對(duì)應(yīng)概念節(jié)點(diǎn),最后得出u的概念圖為:
u:[人:Tom|1]→(PART)→[個(gè)頭|1]→(ATTR)→[高|0.9].
從u中得出,對(duì)話者B的意思為:Tom個(gè)頭高的可能為0.9。
本文主要研究針對(duì)特定對(duì)話模式的話語自動(dòng)關(guān)聯(lián)推理,推導(dǎo)出對(duì)話者B話語的深層含義,即對(duì)A的正面回答。本文實(shí)驗(yàn)中,在Intel Core i5計(jì)算機(jī)Windows 7環(huán)境下用Java語言設(shè)計(jì)了RIAFM程序,并從QQ聊天軟件中收集到的10 372對(duì)聊天記錄中人工篩選出172對(duì)符合該特定模式的對(duì)話記錄進(jìn)行了實(shí)驗(yàn)分析。
首先,實(shí)驗(yàn)選取172對(duì)該特定模式的對(duì)話記錄進(jìn)行測(cè)試,部分原始數(shù)據(jù)對(duì)話記錄測(cè)試結(jié)果見表1。
Table 1 Experimental results of partial raw data表1 部分原始數(shù)據(jù)實(shí)驗(yàn)結(jié)果
表1中,人工標(biāo)注結(jié)果一欄為測(cè)試實(shí)驗(yàn)結(jié)果的準(zhǔn)確性而人工表示的正確結(jié)果,實(shí)驗(yàn)結(jié)果一欄表示RIAFM算法運(yùn)行的結(jié)果。實(shí)驗(yàn)中,當(dāng)人工標(biāo)注的模糊度為+1而實(shí)驗(yàn)結(jié)果標(biāo)注的模糊度為正數(shù)時(shí),或人工標(biāo)注的模糊度為-1而實(shí)驗(yàn)結(jié)果標(biāo)注的模糊度為負(fù)數(shù)時(shí),實(shí)驗(yàn)結(jié)果正確;當(dāng)人工標(biāo)注的模糊度為+1而實(shí)驗(yàn)結(jié)果標(biāo)注的模糊度為負(fù)數(shù)時(shí),或人工標(biāo)注的模糊度為-1而實(shí)驗(yàn)結(jié)果標(biāo)注的模糊度為正數(shù)時(shí),實(shí)驗(yàn)結(jié)果錯(cuò)誤??倢?duì)話數(shù)S=172對(duì);正確的對(duì)話數(shù)T=134對(duì);錯(cuò)誤的對(duì)話數(shù)F=9對(duì);未識(shí)別對(duì)話數(shù)U=29對(duì),則準(zhǔn)確率、錯(cuò)誤率和未識(shí)別率如下:
實(shí)驗(yàn)中前50條的運(yùn)行結(jié)果如圖2所示。
Fig.2 Partial experimental results and error values圖2 部分實(shí)驗(yàn)結(jié)果及其誤差值
通過實(shí)驗(yàn)分析,本系統(tǒng)對(duì)對(duì)話者B的話語文本較長(zhǎng)或B與A的話語關(guān)聯(lián)性不大的文本的匹配成功率不高。究其原因:其一是本文算法中話語模糊概念圖和認(rèn)知語境知識(shí)庫中模糊概念圖匹配規(guī)則過于嚴(yán)格,降低了匹配成功率;其二是認(rèn)知語境庫中相關(guān)知識(shí)不全面,需進(jìn)一步建設(shè)認(rèn)知語境知識(shí)庫。
算法的可靠性可通過標(biāo)準(zhǔn)誤差計(jì)算,在實(shí)驗(yàn)中,匹配成功的對(duì)話總數(shù)目為n,人工標(biāo)注結(jié)果的模糊度為a,實(shí)驗(yàn)結(jié)果的模糊度為b,則標(biāo)準(zhǔn)誤差σ為:
在本實(shí)驗(yàn)中,除去匹配不成功的31對(duì)對(duì)話,對(duì)129對(duì)實(shí)驗(yàn)結(jié)果正確的對(duì)話和12對(duì)實(shí)驗(yàn)結(jié)果錯(cuò)誤的對(duì)話進(jìn)行計(jì)算,標(biāo)準(zhǔn)誤差為0.298。
搜集新浪微博關(guān)于某公司的6 000多條評(píng)論,其中“手機(jī)”主題1 683條、“贈(zèng)品”主題1 257條、“物流”主題1 039條、“客服”主題953條和“假貨”主題1 117條。先用SBV極性傳遞算法對(duì)該素材進(jìn)行計(jì)算,計(jì)算出未經(jīng)RIAFM預(yù)處理的SBV算法準(zhǔn)確率。然后使用RIAFM計(jì)算出句子深層含義并替代原文本,再使用SBV極性傳遞算法計(jì)算句子傾向性,得出經(jīng)過RIAFM預(yù)處理的SBV算法準(zhǔn)確率。兩個(gè)準(zhǔn)確率對(duì)比如圖3所示。
Fig.3 Accuracy comparison圖3 準(zhǔn)確率對(duì)比圖
從圖3中可以看出,經(jīng)過RIAFM對(duì)評(píng)論文本預(yù)處理后的SBV算法的準(zhǔn)確率高于未經(jīng)過RIAFM對(duì)評(píng)論文本預(yù)處理的SBV算法的準(zhǔn)確率。經(jīng)過RIAFM預(yù)處理后的SBV算法的平均準(zhǔn)確率為85.3%,未經(jīng)RIAFM預(yù)處理后的SBV算法的平均準(zhǔn)確率為74.5%,經(jīng)過RIAFM預(yù)處理后的SBV算法的平均準(zhǔn)確率高出未經(jīng)RIAFM預(yù)處理后的SBV算法11個(gè)百分點(diǎn),說明經(jīng)過RIAFM對(duì)文本預(yù)處理后能有效提高SBV極性傳遞算法的準(zhǔn)確率。
在IRC聊天室的社會(huì)網(wǎng)絡(luò)挖掘中,使用RIAFM進(jìn)行文本預(yù)處理,明確對(duì)話者B的話語隱含義,用基于多特征融合的Mutton方法和AdaBoost方法挖掘社會(huì)網(wǎng)絡(luò)[22]。在該程序中,寂靜時(shí)間閾值ST=120 s,響應(yīng)時(shí)間閾值RT=20 s,時(shí)間跨度閾值SPT=180 s,序列長(zhǎng)度閾值SN=5,相似度閾值SimT=0.2,時(shí)間片閾值TS=17 min。為了進(jìn)行量化分析,經(jīng)過人工分析得出社會(huì)網(wǎng)絡(luò)的數(shù)目為N,程序推斷出社會(huì)網(wǎng)絡(luò)的數(shù)目為M,程序挖掘出正確的社會(huì)網(wǎng)絡(luò)數(shù)目為TM,則漏報(bào)率和誤報(bào)率表示如下:
在IRC聊天室中,將每50 000條聊天記錄作為一篇文檔,收集了2 000篇文檔,將多特征融合的Mutton方法和AdaBoost方法,同使用RIAFM算法進(jìn)行文本預(yù)處理后得出隱含義,并用隱含義替代原聊天記錄后再用基于多特征融合的Mutton方法和AdaBoost方法進(jìn)行比較,其漏報(bào)率和誤報(bào)率如圖4和圖5所示。
Fig.4 Missed alarm rate圖4 漏報(bào)率
Fig.5 False alarm rate圖5 誤報(bào)率
從圖4中可以看出,經(jīng)過RIAFM預(yù)處理過的Mutton方法漏報(bào)率下降了16.1%,經(jīng)過RIAFM預(yù)處理過的AdaBoost方法漏報(bào)率下降了10.2%。從圖5中可以看出,經(jīng)過RIAFM預(yù)處理過的Mutton方法的誤報(bào)率下降了7.4%,經(jīng)過RIAFM預(yù)處理過的Ada-Boost方法的誤報(bào)率下降了3.8%。實(shí)驗(yàn)結(jié)果表明,經(jīng)過RIAFM預(yù)處理過的基于多特征融合的Mutton方法的漏報(bào)率和誤報(bào)率都有明顯的下降。
本文從自然語言理解語用分析的角度,利用計(jì)算機(jī)對(duì)特定對(duì)話模式自動(dòng)進(jìn)行語用分析,并設(shè)計(jì)了基于模糊概念圖匹配的關(guān)聯(lián)推理算法RIAFM,解決了用計(jì)算機(jī)自動(dòng)推導(dǎo)出整個(gè)話語深層含義的問題。經(jīng)過試驗(yàn)分析,準(zhǔn)確率達(dá)78%,標(biāo)準(zhǔn)誤差為0.298,具有較好的可靠性。RIAFM在SBV極性傳遞算法的傾向性文本計(jì)算中,有效地提高了文本傾向性計(jì)算的準(zhǔn)確率。最后,將RIAFM應(yīng)用于基于多特征融合的Mutton方法和AdaBoost方法的聊天室社會(huì)網(wǎng)絡(luò)分析中,有效降低了漏報(bào)率和誤報(bào)率。本文首次將計(jì)算語用學(xué)和模糊概念圖的知識(shí)應(yīng)用到網(wǎng)絡(luò)聊天軟件的對(duì)話分析、微博評(píng)論文本的傾向性分析和聊天室的社會(huì)網(wǎng)絡(luò)挖掘中,對(duì)其他領(lǐng)域的話語深層次理解也有一定的參考價(jià)值。
[1]Leech G.N.Principles of pragmatics[J].Journal of Linguistics,1983,21(2):459-470.
[2]Xiong Xueliang.Inferences in language use[M].Shanghai:Shanghai Foreign Language Education Press,2007:51-60.
[3]Qin Shanshan.The study of the pragmatic reasoning of Grice's theory of conversational implicature[D].Chongqing:Southwest University,2014.
[4]Jiang Wangqi.My view on pragmatic inference[J].Modern Foreign Languages,2014,37(3):293-302.
[5]Pluss B.Towards a computational pragmatics for non-cooperative dialogue[D].Milton Keynes,UK:The Open University,2009.
[6]Franke M.Semantic meaning and pragmatic inference in non-cooperative conversation[C]//LNCS 6211:Proceedings of the 2008 International Conference on Interfaces:Explorations in Logic,Language and Computation,Hamburg,Germany,Aug 11-15,2008.Berlin,Heidelberg:Springer,2008:13-24.
[7]Yao Jigang,Wang Zhe.Mr.Shen Jiaxuan's academic studies for thirty years[J].Journal of Foreign Languages,2015(1):97-106.
[8]Zhao Yanchun.Relevance theory and the nature of Translation:a relevance theoretic interpretation of translation default[J].Journal of Sichuan International Studies University,2003,19(3):117-121.
[9]Liu Genhui.A study on computational pragmatics:theories and application[D].Wuhan:Huazhong University of Science and Technology,2005.
[10]Wu Liping.The Chinese patient retrieval system based on pragmatic information[D].Beijing:Beijing University of Posts and Telecommunications,2011.
[11]Sun Yueping.Comprehensive information based community question answering system[D].Beijing:Beijing University of Posts and Telecommunications,2014.
[12]Sowa J F.Conceptual structures:information processing in mind and machine[M].Addison-Wesley Publishing Company,1984.
[13]Sowa J F.Conceptual graphs for database interface[J].IBM Journal of Research&Development,1976,20(4):336-357.
[14]Liu Peiqi,Fan Xing,Duan Zhongxing.The research of conceptual graphs filtering technology for tendency text[J].Journal of Microelectronics and Computer,2012,29(12):84-87.
[15]Morton S.Conceptual graphs and fuzziness in artificial intelligence[D].Bristol:University of Bristol,1987.
[16]Wuwongse V,Manzano M.Fuzzy conceptual graph[C]//LNCS 699:Proceedings of the Conceptual Graphs for Knowledge Representation,Quebec City,Canada,Aug 4-7,1993.Berlin,Heidelberg:Springer,1993:430-449.
[17]Liu Peiqi,Zhang Linye.Study and implement of the knowledge representation of fuzzy conceptual graph[J].Journal of Microelectronics and Computer,2010,27(11):25-29.
[18]Liu Peiqi,Li Zengzhi,Zhao Yinliang.Knowledge representation of extended production rule[J].Journal of Xi’an Jiaotong University,2004,38(6):587-590.
[19]Liu Peiqi,Li Zengzhi.Research on knowledge representation and inference mechanisms about fuzzy conceptual graphs[J].Journal of Application Research of Computers,2010,27(6):2119-2122.
[20]Xiong Xueliang.Concise pragmatics tutorial[M].Shanghai:Fudan University Press,2008:76-95.
[21]Huang Huaxin,Hu Xia.Construction of cognitive context to explore[J].Journal of Modern Foreign Languages,2004,27(3):249-254.
[22]Zhang Wei,Cao Xianbin,Yin Hongzhang.Chat room socialnetwork mining based on multi-features fusion[J].Journal of University of Science and Technology of China,2009,39(5):540-546.
附中文參考文獻(xiàn):
[2]熊學(xué)亮.語言使用中的推理[M].上海:上海外語教育出版社,2007:51-60.
[3]秦姍姍.格萊斯會(huì)話含義理論的語用推理研究[D].重慶:西南大學(xué),2014.
[4]姜望琪.語用推理之我見[J].現(xiàn)代外語,2014,37(3):293-302.
[7]姚吉?jiǎng)?王喆.沈家煊先生學(xué)術(shù)研究三十年[J].外國語:上海外國語大學(xué)學(xué)報(bào),2015(1):97-106.
[8]趙彥春.關(guān)聯(lián)理論與翻譯的本質(zhì)-對(duì)翻譯缺省問題的關(guān)聯(lián)論解釋[J].四川外語學(xué)院學(xué)報(bào),2003,19(3):117-121.
[9]劉根輝.計(jì)算機(jī)語用學(xué)基礎(chǔ)理論及其應(yīng)用研究[D].武漢:華中科技大學(xué),2005.
[10]武麗平.基于語用信息的中文專利檢索系統(tǒng)[D].北京:北京郵電大學(xué),2011.
[11]孫月憑.基于全信息的社區(qū)問答系統(tǒng)研究[D].北京:北京郵電大學(xué),2014.
[14]劉培奇,凡星,段中興.傾向性文本的概念圖過濾技術(shù)的研究[J].微電子學(xué)與計(jì)算機(jī),2012,29(12):84-87.
[17]劉培奇,張林葉.模糊概念圖知識(shí)表示方法的研究與實(shí)現(xiàn)[J].微電子學(xué)與計(jì)算機(jī),2010,27(11):25-29.
[18]劉培奇,李增智,趙銀亮.擴(kuò)展產(chǎn)生式規(guī)則知識(shí)表示方法[J].西安交通大學(xué)學(xué)報(bào),2004,38(6):587-590.
[19]劉培奇,李增智.模糊概念圖知識(shí)表示及其推理機(jī)制研究[J].計(jì)算機(jī)應(yīng)用研究,2010,27(6):2119-2122.
[20]熊學(xué)亮.簡(jiǎn)明語用學(xué)教程[M].上海:復(fù)旦大學(xué)出版社,2008:76-95.
[21]黃華新,胡霞.認(rèn)知語境的建構(gòu)性探討[J].現(xiàn)代外語,2004,27(3):249-254.
[22]張衛(wèi),曹先彬,尹紅章.基于多特征融合的聊天室社會(huì)網(wǎng)絡(luò)挖掘方法[J].中國科學(xué)技術(shù)大學(xué)學(xué)報(bào),2009,39(5):540-546.
劉培奇(1959—),男,陜西西安人,博士,西安建筑科技大學(xué)教授,主要研究領(lǐng)域?yàn)槿斯ぶ悄?,?shù)據(jù)挖掘,模式識(shí)別,計(jì)算機(jī)網(wǎng)絡(luò)。發(fā)表學(xué)術(shù)論文50余篇,其中EI檢索16篇。
HUANG Miao was born in 1989.She is an M.S.candidate at Xi'an University of Architecture and Technology.Her research interests include machine learning and data mining.
黃苗(1989—),女,河南嵩縣人,西安建筑科技大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)槿斯ぶ悄?,?shù)據(jù)挖掘。
FENG Hao was born in 1994.He is an M.S.candidate at Xi'an University of Architecture and Technology.His research interests include machine learning and data mining.
封昊(1994—),男,陜西榆林人,西安建筑科技大學(xué)碩士研究生,主要研究領(lǐng)域?yàn)槿斯ぶ悄?,?shù)據(jù)挖掘。
ZHOU Wei was born in 1980.His research interests include industrial automation and process control.周偉(1980—),男,甘肅景泰人,電氣工程師,主要研究領(lǐng)域?yàn)楣I(yè)自動(dòng)化,過程控制。
Research on Pragmatic Inference of Fuzzy Conceptual Graph Matching*
LIU Peiqi1,HUANG Miao1+,FENG Hao1,ZHOU Wei2
1.School of Information and Control Engineering,Xi'an University of Architecture and Technology,Xi'an 710055,China 2.Shaanxi Caihong Electronic Glass Co.,Ltd.,Xianyang,Shaanxi 712000,China
Focused on the issue that computer cannot automatically carry out a pragmatic analysis of the deep meaning of whole discourse at present,this paper designs the relevance inference algorithm based on fuzzy conceptual graph.In the algorithm,aiming at the specific dialog mode of Chinese pragmatic analysis,the discourses of speakers and the knowledge of cognitive context are expressed in fuzzy conceptual graph,and the relevance inference is conducted from computer science.The problem that computer automatically deduces the deep meaning of whole discourse is resolved.Through the experimental analysis,accuracy can reach 78%.In addition,the algorithm has been applied in analyzing public opinion and mining social network.After the preprocessed discourses of speaker by this relevance inference algorithm based on fuzzy conceptual graph,this algorithm can reduce the missed alarm rate and false alarm rate of Mutton and AdaBoost methods based on multi-features fusion and increase the accuracy of SBV polar transfer algorithm.The algorithm can deduce the deeper meaning of answerer's discourse at specific dialog mode.
the Ph.D.degree from Xi'an Jiaotong University.New he is a professor at Xi'an University of Architecture and Technology.His research interests include artificial intelligence,data mining,pattern recognition and computer network.He has published more than 50 papers,including 16 papers indexed by EI.
2016-06, Accepted 2016-10.
A
TP181
+Corresponding author:E-mail:690765865@qq.com
LIU Peiqi,HUANG Miao,FENG Hao,et al.Research on pragmatic inference of fuzzy conceptual graph matching.Journal of Frontiers of Computer Science and Technology,2017,11(9):1513-1522.
10.3778/j.issn.1673-9418.1606027
*The National Natural Science Foundation of China under Grant No.51178373(國家自然科學(xué)基金);the Natural Science Foundation of Shaanxi Province under Grant No.2014JM2-6114(陜西省自然科學(xué)基金).
CNKI網(wǎng)絡(luò)優(yōu)先出版: 2016-10-31, http://www.cnki.net/kcms/detail/11.5602.TP.20161031.1650.002.html
Key words:pragmatic analysis;relevance inference;fuzzy conceptual graph;cognitive context