劉作國,陳笑蓉
(貴州大學 計算機科學與技術學院,貴州 貴陽 550025)
近年來,語義實體建模逐漸成為信息挖掘領域的研究熱點。語義實體建模挖掘文本中有價值的命名實體(人物、事件等),建立實體間的關聯(lián),構建實體鏈接和知識庫,在信息抽取、句法分析、機器翻譯、語義消歧、問答系統(tǒng)等諸多應用領域具有巨大的研究價值和深遠的應用前景。
目前,國內外的大多數實體建模技術主要面向信息挖掘領域[1-2]和問答系統(tǒng)[3-4],關注實體的領域概念及映射關聯(lián)。挖掘深度主要停留在詞匯層面,缺少句法層面的分析[5-7],挖掘出的特征實體可能不是語句謂詞的施體或受體,在語句中并不充當主要成分。例如語句“刺殺肯尼迪的兇手被捕了”,通常很多模型能挖掘出命名實體“肯尼迪”,但也很容易受此誤導,認為肯尼迪被捕。
現行的實體描述模型注重刻畫實體關系而忽略了行為及狀態(tài)[8-9]。模型能夠描述家族族譜、組織機構關系等靜態(tài)關聯(lián),但難以刻畫實體的動作行為、狀態(tài)變遷及屬性變化。例如“Joe送給Bob玩具”的行為,Bob很開心的狀態(tài)都難以刻畫。
目前國內外有一些建立在句法分析層面上的文本實體挖掘研究[10]。本文認為,這些研究關注“是什么”的問題,而文本聚類更關心“關于什么”的問題。例如以下兩個語句:
例1A: 中國隊戰(zhàn)勝了日本隊。
例2B: 日本隊戰(zhàn)勝了中國隊。
兩個語句所表述的語義截然相反,但它們都涉及了中國隊與日本隊的比賽。從聚類分析的角度來看,兩句話是相似的。本文希望建立一個以漢語文本聚類為目標的實體—動作關聯(lián)模型(entity-action relationship model,EARM),通過句法分析挖掘文本中的實體關系,描述動作及參與主體,并實施聚類分析。
漢語的功能同其他人類語言一樣,都是描述主觀和客觀的世界,即描述事物發(fā)生的行為、所處的狀態(tài)及具有的認知等。本文希望從漢語語句中實體的行為及狀態(tài)出發(fā),挖掘行為的參與者或狀態(tài)主體,建立表示文本的實體—動作關聯(lián)模型。以下對本文論述的相關概念進行闡述。
動作: 對行為、關系、狀態(tài)、認知等的描述。
實體: 動作的施體或受體。
動作元: 動作發(fā)生時關聯(lián)的實體。
本文將事物的行為、關系、狀態(tài)、認知等關聯(lián)統(tǒng)稱為動作。動作可以是單獨的謂詞,也可以是謂詞的復合結構。借鑒動詞配價理論,將動作分為零元、一元、二元、三元這四類動作[11]。零元動作發(fā)生時沒有關聯(lián)的實體,如“下雨”“刮風”。一元動作具有一個關聯(lián)主體,如“[我]累了”。二元動作具有主體(也稱施體)和受體,如“[他]打[我]”“[我]擦[桌子]”。三元動作多出現在雙賓語句型中,具有主體(施體)、直接賓語(受體)、間接賓語(受體)這三個關聯(lián)實體,如“[他]遞給[我][錢]”。值得注意的是,在漢語語句中有時動作的關聯(lián)實體可以省略,如“[我]已經給(你)(錢)了”。
實體可以是單獨的體詞,也可以是復合結構[12]。實體與體詞的區(qū)別在于,體詞只描述客觀存在或抽象的概念,但未必參與動作。例如“我送給他的禮物被偷了”,語句涉及三個體詞“我”、“他”、“禮物”,但動作“偷”則只涉及一個實體“禮物”。
根據前文闡述,基于實體動作關聯(lián)的EARM模型定義如下:
定義1EARM: EARM由實體、動作、動作元這三個要素構成,描述形式如式(1)所示。
EARM=Action(R(E))
(1)
Action為動作集合;E為實體集合;R(E)表示動作元,即發(fā)生關聯(lián)的實體。例如,“市長/來到/西吉縣將臺堡/瞻仰/紅軍/長征/會師/紀念碑”,該語句屬于連謂句型:
E={市長, 西吉縣將臺堡, 紅軍, 紀念碑};
R= {(市長, 西吉縣將臺堡),(市長, 紀念碑), (紅軍, 長征),(紅軍, 會師)};
Action={來到, 瞻仰, 長征, 會師}。EARM= {來到(市長, 西吉縣將臺堡), 瞻仰(市長, 紀念碑), 長征(紅軍), 會師(紅軍)}
對應實體—動作關系如圖1所示。
圖1 實體關聯(lián)模型
漢語句法分析比印歐語系的句法分析更為困難,這是由漢語本身的語法特點決定的。朱德熙先生在《語法答問》[13]中提到: 漢語屬于非形態(tài)語言。與印歐語系相比,雖然漢語語法靈活多變,但又強調詞序;雖然漢語虛詞對描述語義有重要貢獻,但又時常省略部分虛詞。朱先生總結了漢語的兩大特點: 一是漢語詞類跟句法成分之間并非簡單的一一對應關系,其句法成分對應關系如圖2所示;二是漢語句子的構造原則跟詞組的構造原則基本一致。
圖2 漢語句法成分對應關系
基于漢語句法這兩個特點,必須建立成分識別機制,識別語句中的動作和實體。由于漢語詞匯沒有時態(tài)、語態(tài)的變化,句法格式也不像英語那樣嚴格,語句成分缺省和倒裝的現象比英語更普遍[14-15]。為了準確分析出動作的參與者,應當建立句法關聯(lián)分析器。
相關研究顯示,體詞通常作為語句的主語或賓語,謂詞主要作為謂語成分。本文參考文獻[16]提出的實體關系模式獲取策略,設計了基于句型結構的EARM模型構造器。構造器包括成分識別器(recognizing machine)、關聯(lián)分析器(analyzing machine)、體詞特征規(guī)則(nominal rules)、謂詞特征規(guī)則(predicate rules)、句型特征庫(syntax library),如圖3所示。
(1) 成分識別
建立EARM的關鍵在于識別實體及動作。本文借助復旦大學中文語料庫,對其中的大量語句進行了人工標注,并參考朱德熙先生的觀點(圖2的句法成分對應關系),對漢語的體詞及謂詞類別特征進行了研究和總結,分別建立體詞規(guī)則庫和謂詞規(guī)則庫,概括了各類體詞和謂詞的特征。
圖3 EARM構造器
體詞特征包括:
① 名詞;
② 動詞;
③ 以名詞為中心的偏正短語結構;
④ 以動詞為中心的偏正短語結構;
⑤ 多個體詞構成的聯(lián)合結構。
謂詞特征包括:
① 動詞;
② 形容詞,語句結構為體詞+形容詞或體詞+副詞+形容詞;
③ 以謂詞為中心的偏正短語結構;
④ 多個謂詞構成的聯(lián)合結構。
成分識別器根據特征規(guī)則識別實體及動作,下面介紹相關規(guī)則。
規(guī)則1實體識別規(guī)則: 以下結構特征識別為實體:
① 單獨的體詞;
② 多個體詞形成的聯(lián)合結構,如并列結構、緊縮結構等;
③ 以體詞為中心的偏正結構,如“產生的煙霧”;
④ 謂詞+體詞構成的動賓結構,如“練習游泳”。
規(guī)則2動作識別規(guī)則: 以下結構特征識別為動作:
① 單獨的謂詞;
② 多個謂詞構成的聯(lián)合結構,如“進行分析”;
③ 以謂詞為核心的偏正結構,如“奮勇地拼搏”。
(2) 關聯(lián)分析
文獻[17-18]指出,漢語句型包括主謂結構、動賓結構、偏正結構、補充結構、聯(lián)合結構五類基本句型。由這五類基本句型可以構成連謂結構、同位語結構、雙賓語結構、兼語結構等復雜句型。作者對各類句型特征進行了分析歸納,建立句型特征庫。例如以下是連謂句型的特征。
特征1連謂句型特征: 實體1+動作1+實體2+動作2+實體3
EARM描述: 動作1(實體1,實體2),動作2(實體1,實體3)。
例如“他E/伸出A/手E/接過A/煙E”,對應描述為: “他伸出手”“他接過煙”。
以下是兼語句型的特征。
特征2兼語句型特征: 實體1+動作1+實體2+動作2,且實體2是動作2的施體。
EARM描述: 動作1(實體1,實體2),動作2(實體2)。
例如,“他的話E/讓A/我E/落淚A”,對應描述為: “他的話讓我”“我落淚”。
(3) 模型建立
借助體詞特征規(guī)則和謂詞特征規(guī)則,由成分識別器識別語句成分(體詞、謂詞),關聯(lián)分析器檢驗句型結構并挖掘實體關系。設語句s長度為n,構建s的EARM的總體過程如下:
過程1語句EARM構建總體過程
Function: CreateEARM(s)
Begin
Sets=(w1,w2,…,wn);
Loop: eachwins:
Matchwwith Nomial and Predicate rules;
EndLoop
Return matchedresult;
Loop: eachsyntaxin Syntax library
If:resultmatchessyntax
Create a newEARMbyrule;
EndIf
EndLoop
Output all EARM;
End
通常情況下實體與動作具有如下關聯(lián):
規(guī)則3一般實體—動作關聯(lián)規(guī)則:
① 零元動作無實體與之關聯(lián);
② 一元動作通常為主謂結構,它的施體位于動作之前,如“我困了”;
③ 二元動作通常為主謂賓結構,動作的施體位于動作之前,受體位于動作之后,如“我擦桌子”;
④ 三元動作通常為雙賓結構,動作的施體位于動作之前、直接賓語和間接賓語位于動作之后,如“他遞給我一支煙”。
規(guī)則3總結了一般情況下的實體關聯(lián)規(guī)則,但漢語句法結構較為靈活,有時會出現語句成分(實體、動作)缺省或移位的情況[19-20],例如,“桌子我已經擦了”。
根據實體的定義及規(guī)則1,作者認為體詞的連續(xù)(緊鄰)出現有多種情況,但實體的連續(xù)出現只能由以下兩類情況引發(fā):
① 雙賓語或賓語從句,例如,“我告訴她這件事”;
② 語句成分移位現象。
若模型構造器識別到緊鄰的實體a和b,從句型庫匹配雙賓語句型,若匹配失敗則說明不屬于①類情形而屬于②類現象。檢查匹配程度最高的句型特征進行實體調序。設語句s經過模型構造器識別后抽象出ne個實體,na個動作,k=ne+na。則s=(s1,s2,…,sk),實體調序過程如下:
過程2實體調序過程
Function: EntityReorg(s)
Begin
Sets=(s1,s2,…,sk);
Loop: eachsiins,i If:siandsi+1belong EntitySet //find continuous Entity Checkswith Syntax library; Loop:sdoesn’t match Double Object Syntax //entity recoganizing Get another nearestsyntax from Syntax library; Get location ofsi,si+1, predicatep; //assumesi+1is closer top Movesireference onsyntax; Get new sentences′; If:s′ matches Syntax library //s′ is a Chinese sentence Outputs′; EndIf EndLoop EndIf EndLoop End 例:s=“桌子我已經擦了”,句型為實體a(桌子)+實體b(我)+動作v(已經擦了)。b距離v更近。 ① 采用雙實語句型實施調序:syntax=動作+實體+動作。將實體a(桌子)進行試移位,但對于a的所有位移結果s′,syntax均無法成功匹配,故syntax不是最佳句型; ② 再以主謂賓句型實施調序:syntax=實體+動作+實體進行匹配,將實體a(桌子)進行試移位,s′=“我已經擦了桌子”與syntax成功匹配。動作v為二元動作,動作描述為: 已經擦了(我,桌子)。 ③ 如果對實體b(我)進行位移,則匹配結果為s’=“桌子已經擦了我”,動作描述為: 已經擦了(桌子,我)。雖然動作施體和受體顛倒,但前文已經論述過聚類分析并不強調區(qū)別施體和受體,②和③的動作差別在聚類分析中可以忽略。 本節(jié)基于EARM進行文本表示。一個文本包含多個語句,每個語句對應一個實體—動作關聯(lián)模型: EARM=Action(R(E))。合并各語句的實體和動作可建立文本的EARM表示模型。 語句中的各動作可能處于不同的層級。例如圖1中動作“來到”、“瞻仰”處于第一層級,“長征”、“會師”處于第二層級。建立EARM時應當對多級動作實施層次分解,合并實體及動作關聯(lián)。 本文認為EARM的動作通常沒有分解的必要,語句分解主要是對關聯(lián)實體進行遞歸分解,將復雜的實體分解為簡單的體詞或語句。漢語句型結構通常不超過二層,三層以下的語句成分對EARM的貢獻已經較小。本文設定動作層次分解的最大深度為三層,采用底層替換規(guī)則將第三層的動作替換為簡單句型。 規(guī)則4動作層次分解規(guī)則: ① 由高層向低層逐層分解; ② 將復雜語句分解為簡單語句,例如1.3節(jié)連謂句特征和兼語特征; ③ 對復雜結構的實體,如賓語從句,從句+體詞構成的偏正結構等,分解為主句和從句,主句實體簡化為原實體的中心詞,從句按照以上過程遞歸分解; ④ 如果存在第三層結構,則進行底層替換。 規(guī)則5底層替換規(guī)則: ① 偏正短語替換為該短語的中心詞; ② 一元動作和二元動作替換為動作的謂詞; ③ 三元動作替換為動作的直接賓語,如“他遞給我一支煙”替換為“煙”; ④ 多個實體或動作構成的聯(lián)合句型,按照①~③分別替換,構造成并列結構“X和Y”。 以圖1的例句“市長E/來到A/西吉縣將臺堡E/瞻仰A/紅軍E/長征A/會師A/紀念碑E”為例,該語句屬于連謂句型。動作層次分解結果如圖4所示,語句分解為“市長來到西吉縣將臺堡”“市長瞻仰紀念碑”“紅軍長征和會師”三個簡單語句。 圖4 動作層次分解 (1) 合并語句模型 基于語句EARM構建文本的EARM,設動作Action1(R(E1))、Action2(R(E2)),有E=E1∩E2≠?。合并相同實體集E,即將中心詞相同的實體進行合并;合并實體后若Action1=Action2,合并Action。建立文本的表示模型EARM=Action(R(E))。 (2) 實施權重量化 經過動作層次分解,復雜實體已經簡化為簡單實體,本節(jié)借助詞頻TF來量化實體和動作對表示文本的貢獻。實體e在文本d中的權重量化為e在d中的詞頻,如式(2)所示。 WE(e,d)=TF(e,d) (2) n元動作a在文本d中的權重量化為a的所有動作元的共現頻率,如式(3)所示。 (3) 其中TF(e,d)為實體e在文本d中的詞頻,TF(e1,Λ,en,d)為n個實體e1,Λ,en在文本d中的共現頻率。 兩個文本中,實體及謂詞完全相同的動作是極少的,但相同的實體或相同的謂詞是廣泛存在的。作者將單個文本的EARM視為一個有向圖結構,如式(4)所示。 EARM=G= (4) Node為圖的節(jié)點集合,對應EARM實體集合E,?i∈E,Wnode(i)=WE(i);Edge為圖的邊集,對應EARM謂詞集合Action,?i∈Action,Wedge(i)=WA(i)。兩個文本的相似度即對應的實體—動作關聯(lián)模型EARM的相似度,等價于有向圖G的相似度。 本文在文獻[21]中設計并實現了一種基于最大公共子圖的文本相似度計算模型GBTS。本文沿用相關計算策略,將有向圖GA、GB的相似度定義為其最大公共子圖的節(jié)點相似度NS與邊相似度ES之和,如式(5)所示。 Sim(A,B)=NS(A,B)+ES(A,B) (5) 節(jié)點相似度NS計算如式(6)所示。 (6) 邊點相似度ES計算為如式(7)所示。 (7) 其中0≤α≤1為權重調節(jié)因子。若α→1,算法強調節(jié)點相似度;若α→0,算法強調邊相似度。Sum()為權重累加函數,如式(8)所示。 (8) VSM和EARM均采用相同的聚類算法實施聚類,本節(jié)只討論兩種模型在提取文本特征和計算文本相似度時的差異。 設文本集為S=(t1,…,tk),包含N個特征項,實體及動作總數為M,文本集語句總數量為P;文本ti的語句數量為pi,動作層次分解后文本ti的語句數量為qi,文本集語句數量為Q。在一般情況下pi≤qiP≤QM VSM空間維度等于文本集的特征數目n,構建n維空間向量并計算兩個文本的距離,時間復雜度為O(N),空間復雜度為O(N)。 EARM處理整個文本集需要分析P個語句,M個實體及動作,并存儲Q個關聯(lián)模型,時間復雜度為O(P+M),空間復雜度為O(Q)。EARM的時間復雜度及存儲空間開銷均比VSM更低。 此外,就單個文本ti的分析而言,EARM時間復雜度僅為O(pi),空間復雜度為O(qi),VSM時間復雜度和空間復雜度仍為O(N)??梢姴徽撌菃蝹€文本的挖掘還是整個文本集合的分析,EARM都更有效率。 本文共包括兩個實驗: 語句實體動作分析實驗檢驗EARM對語句分析的效果。聚類實驗檢驗EARM計算文本相似度的準確性。本文語料庫來自復旦大學中文語料庫。分別選取藝術、哲學、經濟、政治、軍事、農業(yè)、通信、運輸、法律、醫(yī)藥十個類別的文本進行實驗。 從十個類別的文本中隨機選取5 000個語句,共計五萬個語句構成本實驗的數據。本文對語句集進行了人工標注。使用無標注的數據集進行EARM句法分析,并與人工標注結果進行比較,由人工來評價EARM對每個語句的實體動作挖掘是否正確,根據EARM分析結果與人工標注結果的一致性進行評分,評分原則如下: ① 5分: 完全一致,即動作及實體分析完全正確; ② 3分: 基本一致,即動作分析正確且實體分析部分正確; ③ 1分: 部分一致,即動作分析不正確但實體分析完全或部分正確; ④ 0分: 完全不一致,動作及實體完全錯誤。 實驗結果如表1所示。 表1 語句實體動作分析實驗結果 續(xù)表 表1顯示語句EARM分析總體上是有效的,各類別語句完全識別(5分)率為81.30%,錯誤(0分)率0.64%。各類別語句關聯(lián)分析的平均得分為4.4~4.6??梢奅ARM實體和動作的挖掘是比較成功的。本實驗錯誤的分析結果主要出現在歧義句,尤其是復雜的歧義句。如“咬死獵人的狗跑了”可能包括以下兩種實體動作劃分,①“咬死A/獵人的狗E/跑了A”;②“咬死獵人的狗E/跑了A”。模型在歧義句處理能力上尚嫌在不足。 本文在文獻[22]中設計并實現了一種基于高斯加權的重構性K-NN聚類算法GWR K-NN。本小節(jié)設計了均衡樣本實驗和非均衡樣本實驗,采用GWR K-NN實施聚類。 均衡樣本實驗: 從語料庫十個類別的文本中,每類選擇1 000個樣本,共計10 000個樣本構成實驗數據,分別使用經典的VSM和EARM模型進行文本表示,并使用GWR K-NN進行聚類,對比所得聚類結果的準確率和召回率。實驗結果如表2所示。 非均衡樣本實驗: 在語料庫十個類別中隨機選取10 000個樣本構成實驗數據,每個類別的樣本規(guī)模存在差距。分別使用經典的VSM模型和EARM進行文本表示,并使用GWR K-NN進行聚類。實驗結果如表3所示。 表2 均衡樣本聚類實驗對比 表3 非均衡樣本聚類實驗對比 續(xù)表 類別Ci的準確率Pi、召回率Ri及Fi值定義如式(9)~式(11)所示。 均衡樣本與非均衡樣本下,各聚類F-Score值對比如圖5、圖6所示。 圖5 VSM聚類性能對比 圖6 EARM聚類性能對比 實驗結果顯示: 在均衡樣本和非均衡樣本下,基于EARM模型的聚類性能更為優(yōu)秀。各個類別下,EARM聚類的準確率和召回率比VSM模型更高。非均衡樣本下,軍事類和農業(yè)類樣本規(guī)模較小,傳統(tǒng)VSM模型受到樣本規(guī)模及樣本分布的影響,效率明顯下降。基于EARM的重構性K-NN能夠很好地適應非均衡的樣本空間,不論是均衡樣本下還是非均衡樣本下,EARM性能的波動都比VSM小。 本文面向文本聚類問題,設計并實現了一種基于實體—動作關聯(lián)的文本表示模型EARM。模型構造器根據詞庫特征和句型特征挖掘實體和動作,構造EARM。對不同層級的動作進行動作層次分解,將復雜語句拆分簡化為簡單句型。本文采用統(tǒng)計學原理量化EARM模型的實體和動作的權重,基于加權的EARM模型計算文本相似度并實施聚類。 本文將EARM模型與VSM模型進行了對比實驗,實驗結果表明EARM是有效的。模型能識別常見的漢語句型和詞匯,但是對歧義句的鑒別能力不足,下一步將引入多值函數或借助機器學習的方法來增強EARM處理歧義的能力。 [1] 宋巍, 張宇, 劉挺, 等.基于檢索歷史上下文的個性化查詢重構技術研究[J].中文信息學報,2010, 24(3): 144-152. [2] 曹雷, 郭嘉豐, 白露, 等. 基于半監(jiān)督話題模型的用戶查詢日志命名實體挖掘[J]. 中文信息學報,2012, 26(5): 26-32. [3] Kuznetsov V A, Mochalov V A, Mochalova A V. Ontological-semantic text analysis and the question answering system using data from ontology[C]//Proceedings of the 18th International Conference on Advanced Communication Technology. Pyeongchang, South Korea. IEEE, 2016: 651-658. [4] Shen Haiying, Liu Guoxin, Wang Haoyu, et al. Social Q&A: An online social network based question and answer system[J]. IEEE Transactions on Big Data, 2017, 3(1): 91-106. [5] 劉丹丹, 彭成, 錢龍華, 等. 《同義詞詞林》在中文實體關系抽取中的作用[J]. 中文信息學報,2014, 28(2): 91-99. [6] 劉丹丹, 彭成, 錢龍華, 等. 詞匯語義信息對中文實體關系抽取影響的比較[J]. 計算機應用,2014, 32(8): 2238-2244. [7] Fei Wu, Daniel S W. Open information extraction using Wikipedia[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Pennsylvania, USA. Association for Computational Linguistics, 2010: 118-127. [8] 楊丹, 申德榮, 聶鐵錚, 等. 異構信息空間中實體關聯(lián)關系挖掘算法[J]. 計算機研究與發(fā)展,2014,51(4): 895-904. [9] Yuenhsien Tseng, Lunghao Lee, Shuyen Lin, et al. Chinese open relation extraction for knowledge acquisition[C]//Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. Gothenburg, Sweden. Association for Computational Linguistics, 2014: 12-16. [10] Qiu Likun, Zhang Yue. ZORE: A syntax-based system for Chinese open relation extraction[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: Association for Computational Linguistics, 2014: 1870-1880. [11] Bai Xiaopeng, Li Bin.Comparing argument structure in Chinese verb taxonomy and Chinese propbank[C] //Proceedings of 2015 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. Singapore: IEEE, 2015: 188-190. [12] Ma Hong, Lian Xin, Jiang Kun, et al. Research on delay ambiguity solving method based on Chinese remainder theorem[C]//Proceedings of 2014 International Conference on Information and Communications Technologies. Nanjing, China. IET, 2014: 1-4. [13] 朱德熙. 語法答問[M]. 北京: 商務印書館,1985. [14] 范婷. 現代漢語歧義表層結構形式及其分化方法研究[D]. 成都: 四川外語學院碩士學位論文,2012. [15] 懷寶興, 寶騰飛, 祝恒書, 等. 一種基于概率主題模型的命名實體鏈接方法[J]. 軟件學報,2014,25(9): 2076-2087. [16] 鄧擘, 鄭彥寧, 傅繼彬. 漢語實體關系模式的自動獲取研究[J]. 計算機科學,2010,37(2): 183-185. [17] 朱德熙. 語法講義[M]. 北京: 商務印書館,1982: 38-55. [18] Huang C T J, Li Y H A,Yafei Li. The Syntax of Chinese[M]. America: World Book Inc,2013: 108-113. [19] 趙元任. 漢語口語語法[M]. 北京: 商務印書館,1979. [20] 何鐘豪, 蘇勁松, 史曉東, 等. 引入集成學習的最大熵短語調序模型[J]. 中文信息學報,2014,28(1): 87-93. [21] Liu Zuoguo, Chen Xiaorong. Mapping texts into graphs: An improved text similarity algorithm[C]//Proceedings of 2012 2nd International Conference on Computer Science and Network Technology. Changchun: Springer, 2012: 1357-1361. [22] 劉作國, 陳笑蓉. 高斯加權的重構性K-NN算法研究[J]. 中文信息學報,2015,29(5): 112-116.2 文本表示
2.1 動作層次分解
2.2 建立EARM
2.3 文本相似性度量
2.4 計算復雜性分析
3 實驗分析
3.1 語句實體動作分析實驗
3.2 文本聚類實驗
4 結束語
——論胡好對邏輯謂詞的誤讀