溫 浩,何茜茹
(西安建筑科技大學(xué)信息與控制工程學(xué)院,西安 710055)
如何有效利用海量文本學(xué)術(shù)資源為人類提供最直接的內(nèi)容知識問答服務(wù),而不僅僅是信息檢索服務(wù),一直是人工智能在自然語言處理領(lǐng)域研究的目標。目前的科技學(xué)術(shù)文摘是以文本方式組織而成的,如果想要利用人工智能技術(shù)解決知識服務(wù)問題,就需從科技學(xué)術(shù)文摘內(nèi)容中挖掘出具有獨立存在的創(chuàng)新點事實單元,將其分解為問題、方法、結(jié)果的實體和語義關(guān)系,建立以創(chuàng)新點事實為知識單元的知識庫。文獻[1]對《計算機學(xué)報》文摘進行數(shù)據(jù)統(tǒng)計分析,研究了文摘創(chuàng)新點中特征詞匯的句子分布規(guī)律,對文摘創(chuàng)新點中名詞-動詞的語義關(guān)系進行了聚類分析,構(gòu)建了期刊文摘創(chuàng)新點的語義本體模型,建立了文摘創(chuàng)新點的對象名詞與語義動詞部分詞庫。實驗結(jié)果表明,研究具有很好的語義識別與分類準確率,但是這一基于統(tǒng)計學(xué)習(xí)的方法受到詞庫數(shù)量、領(lǐng)域變化、寫作者風(fēng)格等因素的限制,嚴重地影響著從中文科技期刊文摘中挖掘表達創(chuàng)新點的“問題、方法、結(jié)果”三元組知識單元的挖全率,影響著基于三元組建設(shè)智能化知識創(chuàng)新點問答服務(wù)系統(tǒng)需求的急迫性。
在前期研究的基礎(chǔ)上,本文對科技文摘創(chuàng)新點的報道性、詞匯語義分布的一致性、謂語動詞的語義理解性、語用功能的分類性和句法模型的隱含性五種認知分析方法進行了深入的研究,期望找到科技文摘創(chuàng)新點挖掘的認知分析方法,對基于創(chuàng)新點知識庫的建設(shè)和智能問答系統(tǒng)的服務(wù)提供理論和方法的指導(dǎo)作用。
為了規(guī)范文摘編寫和便于國際化信息交流,國際標準化組織頒布了國際標準ISO 214-1976(E)(Documentation-Abstracts for Publications and Docu‐mentation)[2];我國也公布了相應(yīng)的國家標準《文摘編寫規(guī)則》(GB 6447-86)[3]和國家標準《科學(xué)技術(shù)報告、學(xué)位論文和學(xué)術(shù)論文的編寫格式》(GB 7713-87)[4]。
國際標準ISO 214-1976(E)指出,文摘是對原文獻內(nèi)容準確、扼要而不附加解釋或評論的簡略表述,其規(guī)定:文摘應(yīng)包括目的、方法、結(jié)果與結(jié)論以及附帶信息。國家標準(GB 7713-87)規(guī)定,摘要是報告、論文的內(nèi)容不加注釋和評論的簡短陳述。摘要應(yīng)具有獨立性和自含性,即不閱讀報告、論文的全文,就能獲得必要的信息,要便于檢索。摘要應(yīng)說明研究工作的目的、方法、成果和結(jié)論,要突出本論文的新見解,語言精練。
國家標準(GB 6447-86)還規(guī)定了文摘編寫詳細規(guī)則的5個要素:①目的(研究、研制、調(diào)查等的前提、目的和任務(wù),所涉及的主題范圍);②方法(所用的原理、理論、條件、對象、材料、工藝、結(jié)構(gòu)、手段、裝備、程序等);③結(jié)果(實驗的結(jié)果、研究的結(jié)果、數(shù)據(jù),被確定的關(guān)系,觀察結(jié)果,得到的效果,性能等);④結(jié)論(結(jié)果的分析、研究、比較、評價、應(yīng)用,提出的問題,今后的課題,假設(shè),啟發(fā),建議,預(yù)測等);⑤其他(不屬于研究、研制、調(diào)查的主要目的,但就其見識和情報價值而言也是重要的信息)。
對于文摘研究的文章有很多,文獻[5]把科技文摘的形式分為4類:報道性(informative)、指示性(indicative)、混合性(indicative-informative)和評論性(review abstract)。并強調(diào)報道性文摘概述原文內(nèi)容的要點,特別是創(chuàng)新點,向讀者提供定量和定性信息,反映原文的技術(shù)內(nèi)容,包括研究對象、工作目的、結(jié)果、性質(zhì)、方法和條件等有關(guān)的各種資料,適用于學(xué)術(shù)論文和技術(shù)報告。
本文對學(xué)術(shù)文摘的認知分析方法可以歸納為:①學(xué)術(shù)文摘是論文內(nèi)容要點的概括;②報道創(chuàng)新點是學(xué)術(shù)文摘的核心;③文摘具有與原文的獨立性和自含性;④文摘的功能便于信息檢索;⑤文摘報道創(chuàng)新點的核心內(nèi)容便于今后用于知識發(fā)現(xiàn)。
目前,文摘的信息檢索功能已經(jīng)被普遍使用,但由于受到技術(shù)的制約,利用文摘的創(chuàng)新點進行知識發(fā)現(xiàn)還未實現(xiàn),本文的研究目的就是對自然語言表述的文摘的創(chuàng)新點語句進行詞匯特征統(tǒng)計,語義關(guān)系識別,語用功能分類、句法模式挖掘,建立以“問題方法-結(jié)果”為三元組結(jié)構(gòu)的知識庫,基于三元組知識庫開展知識問答服務(wù)、加速新知識的發(fā)現(xiàn)。
雖然國際標準和國家標準均對文摘的寫作規(guī)范給出了明確的規(guī)定,但作者寫作的語言表達風(fēng)格卻是不一樣的,因此,智能挖掘文摘創(chuàng)新點首先需要進行語義識別。語言學(xué)家認為,作為語義分析的基本單位是從詞(比語素高一層的語言單位)開始的,因為詞是語言中能夠獨立運用的最小單位,所以要找出語義的基本單位必須先從詞入手[6]。為揭示學(xué)術(shù)文摘中作者表達創(chuàng)新點的詞匯語義分布特征,需要了解文摘的語言特點,包括高頻詞匯的分布信息。本文從北京萬方數(shù)據(jù)股份有限公司獲得的3410篇《計算機學(xué)報》文摘和8235篇《電子學(xué)報》文摘,對這些文摘進行動詞和名詞的統(tǒng)計分析工作。統(tǒng)計方法有:①利用ICTCLAS分詞工具對文摘進行分詞;②統(tǒng)計文摘動詞的詞頻和名詞的詞頻;③統(tǒng)計兩種學(xué)報文摘的高頻動詞和高頻名詞分布的一致性;④統(tǒng)計文摘動詞在句子中的分布特征。
統(tǒng)計結(jié)果表明,3410篇《計算機學(xué)報》文摘的總字數(shù)為226111個,動詞的數(shù)量為30944個,平均每篇文摘有9.07個動詞,詞頻最高的動詞是“提出”,詞頻高達到5284次,占總動詞30944的17.1%,平均每篇文摘有1.55個“提出”這個動詞。8235篇《電子學(xué)報》文摘的總字數(shù)為1681116個,動詞的總數(shù)為224048個,平均每篇文摘有27.02個動詞,頻率最高的動詞是“提出”,頻率高達到8423次,占動詞總數(shù)224048個3.8%,平均每篇文摘有1.023個“提出”這個動詞。
《計算機學(xué)報》文摘和《電子學(xué)報》文摘的部分高頻動詞和高頻名詞統(tǒng)計結(jié)果如表1所示。
表1《計算機學(xué)報》文摘和《電子學(xué)報》文摘的高頻動詞和名詞
取兩種學(xué)報文摘動詞詞頻最高的前2286個動詞進行分析。其中,兩種學(xué)報共有的動詞為1403個,平均一致性為0.61。兩種學(xué)報文摘共有的動詞詞頻最高的是“提出”,兩者前10個動詞共同有的為7個,前50個動詞共同有的為31個,前100個動詞共同有的為61個,前500個動詞共同有的為326個,前1000個動詞共同有的為650個,前2000個動詞共同有的為1262個。兩種學(xué)報文摘的高頻動詞一致性分布如圖1所示,橫坐標為對數(shù)坐標。
圖1 兩種學(xué)報文摘的高頻動詞一致性分布
取兩種學(xué)報文摘名詞最高的前2949個名詞,兩種學(xué)報最高詞頻共同有的名詞為1076個,平均一致性為0.36。兩種學(xué)報文摘共有的最高詞頻名詞為“算法”,兩者前10個名詞共同有的為7個,前50個名詞共同有的為34個,前100個名詞共同有的為54個,前500個名詞共同有的為263個,前1000個名詞共同有的為477個,前2000個名詞共同有的為810個。兩種學(xué)報文摘的高頻名詞一致性分布如圖2所示,橫坐標為對數(shù)坐標。
圖2 兩種學(xué)報文摘的高頻名詞一致性分布
統(tǒng)計結(jié)果表明,兩種學(xué)報文摘的動詞一致性為0.61,名詞的一致性為0.36。這說明了高頻動詞的變化規(guī)律比較平穩(wěn),而高頻名詞隨著專業(yè)的不同和數(shù)量的增大變化比較大。這一結(jié)果說明,建立動詞庫比建立名詞庫更具有分析文摘創(chuàng)新點特征的價值。然而,實驗結(jié)果表明,僅使用高頻動詞的分類,效果不夠理想,因為一個句子中的動詞有多個,有的分詞工具會將名詞分為動詞,只采用動詞對文摘進行問題、方法和結(jié)果分類的準確率只能達到0.36,因此,還需要考慮動詞在句子中的位置分布特征。
動詞的詞頻變化規(guī)律對于文摘創(chuàng)新點的分析具有重要意義,同時,高頻動詞的句子位置分布特征信息也具有重要價值。為了尋找高頻動詞的句子位置分布規(guī)律,本文對《計算機學(xué)報》文摘中的高頻動詞句子位置分布特征進行統(tǒng)計分析。《計算機學(xué)報》文摘的句子最多為10句、最少為3句。部分高頻動詞的句子位置分布如表2所示,表中列出了前23個高頻動詞在文摘的每個句子中的分布數(shù)量。
從表2可以看出,動詞不僅有頻率的分布信息,還有位置的分布信息。動詞主要集中分布在文摘句的第1~4句上,每個動詞在句子的分布上具有其一定的位置特征。例如,“提出,利用,分析,提高,證明,得到,研究,解決,處理,建立,介紹”在第1句上分布較多,“實現(xiàn),具有,采用,使用,能夠,求解,設(shè)計,存在”在第2句上分布較多,“表明”在第4、3、5句上較多,“提供”在第4、5句上分布較多。因此,通過動詞在文摘句的位置分布信息可以掌握動詞表達句子的語義信息,但由于位置信息的分布還比較廣泛,通過動詞的詞頻和位置信息還難以對文摘創(chuàng)新點進行有效分類。
為了進一步對文摘的動詞進行深入分析,本文把文摘句進一步細分為以句號結(jié)尾的句子和以分號與逗號結(jié)尾的子句,分析文摘中的動詞在某個句子的某個子句中的位置信息。表3給出了前10個高頻動詞在前4個句子中的子句位置上的分布特征。表3中用x表示句子,y表示子句,如x1y2表示每個文摘中第1個句子中的第2個子句中的動詞位置數(shù)量。
表2 高頻動詞的句子位置數(shù)量分布特征
從表3可以看出,高頻動詞在每個句子和其子句的分布上表現(xiàn)出明顯的個性化分布特性。例如,“提出”在1個句子上出現(xiàn)的次數(shù)最高(1932次),在第1句的子句上出現(xiàn)次數(shù)分別是:1047、518、196、92、34、14、5、8、6、3。又如,“表明”在第4句上出現(xiàn)的次數(shù)最高(431次),在第4句的子句上出現(xiàn)的次數(shù)分別是:351、44、23、9、2、0、1、1、0、0。
表3 高頻動詞在子句中的位置數(shù)量分布特征
本文利用表2和表3文摘中動詞在句子和子句中的分布特性,可以為建立創(chuàng)新點的本體結(jié)構(gòu)圖的語義關(guān)系提供理論依據(jù)和技術(shù)方案。例如,通過問題類的動詞{針對、存在},方法類的動詞{提出,利用,采用},結(jié)果類的動詞{表明,提高,得到,解決}。問題類的名詞{問題,不足,熱點,瓶頸,難題},方法類的名詞{模型,定義,模式,性質(zhì),誤差,算法,方法,理論},結(jié)果類的名詞{策略,效率,優(yōu)點,冗余度,指標,穩(wěn)定性},建立文摘創(chuàng)新點的語義本體結(jié)構(gòu)。
考慮了動詞的位置分布特性后,本文對文摘的問題、方法、結(jié)果分類的準確率可達到78%,比未考慮動詞位置的準確率提高了1倍。
研究結(jié)果表明,統(tǒng)計分析的挖掘方法操作起來比較簡單,但從表1和表2可以看出,同一個詞匯被標記成動詞和名詞,如“研究、分析、設(shè)計、應(yīng)用、仿真、影響”,這不僅表現(xiàn)出目前的分詞工具質(zhì)量不高的問題,還在于缺乏對句子的謂語動詞的語義識別,也是影響文摘創(chuàng)新點準確分類的本質(zhì)問題。
目前,中文分詞工具的準確性不高會造成中文句子語義理解的困難。本文采用了三種分詞工具對《電子學(xué)報》文摘進行分詞實驗,下面給出一條文摘(8089號)的分詞結(jié)果。選擇這條文摘是因為這條文摘只有兩句話,第一句話為一條獨立的句號句的句子;第二句話是含有14個逗號句的句子。這類文摘在以后的分類中也會帶來很多分類處理上的麻煩。表4~表6分別給出了三種分詞工具對這條文摘部分內(nèi)容的分詞處理結(jié)果:表4為采用ICTCLAS分詞工具的分詞結(jié)果,表5為采用Stanford Parser分詞工具的分詞結(jié)果,表6為采用哈工大-SecureCRT.rar分詞工具的分詞結(jié)果。展示的(8089號)文摘部分內(nèi)容帶有6個逗號、分號和句號。比較幾個分詞工具可以看出,ICTCLAS分出20個動詞,Stan‐ford Parser分出8個動詞,哈工大-SecureCRT.rar分出18個動詞。其中,哈工大-SecureCRT.rar依存樹工具對這條兩個句號的文摘句只給出了一個句子的謂語動詞,另一句話沒有識別出來。
表4 ICTCLAS分詞處理后的文摘句
表5 Stanford Parser分詞處理后的文摘句
表6 哈工大-SecureCRT.rar分詞處理后的文摘句
通過表4~表6的分詞結(jié)果可以看出,Stanford Parser分詞工具分詞的準確性相對較高,對逗號句也能給出謂語動詞,但仍然有分錯的地方。例如,在這一例子中,Stanford Parser分詞處理結(jié)果中的“支持/VV,并行/VV,存在/VV,面臨/VV”,這4個動詞都不是謂語動詞。在ICTCLAS分詞處理結(jié)果中的“構(gòu)/v,計算/v,構(gòu)/v,編程/v,支持/v,應(yīng)用/v,構(gòu)/v,構(gòu)/v,構(gòu)/v,并行/v,優(yōu)化/v,構(gòu)/v,存在/v,面臨/v,挑戰(zhàn)/v”,這15個動詞都不是句子的謂語動詞。在哈工大-SecureCRT.rar分詞處理結(jié)果中的“異v,計算v,發(fā)展v,支持v,應(yīng)用v,發(fā)展v,并行v,編程v,優(yōu)化v存在v,面臨v,挑戰(zhàn)v”,這12個詞也不是句子的謂語動詞。
目前,常用的分詞工具雖然取得了很大的進展,但還存在一些問題:①準確率還需要進一步提高;②對名詞等不起語法和語義作用的詞進行了過細的劃分。例如,“提出了一種能夠解決現(xiàn)有問題的方法?!苯?jīng)過分詞系統(tǒng)的劃分之后,能夠/解決/有/都被標定為動詞,那么這些詞就有可能被誤判為這句話的謂詞。然而,這句話的謂語應(yīng)該是“提出了”。所以對名詞再進行細分有時候是得不償失的;③有些介詞雖然不是句子的核心成分(謂語),但是卻起到了引導(dǎo)特定類別句子、短語的引導(dǎo)詞的作用。例如,“針對這個問題,提出了一種算法。”在這句話中,“針對”是個介詞,當然也不是這句話的謂語,然而這個詞卻引出了問題句的短語,相應(yīng)的該問題句應(yīng)該被分離出來。所以綜合這三個問題,現(xiàn)有的分詞工具還不能被用于進行語義單元的提取。
因此,利用目前的分詞工具進行分詞和詞性處理后的句子,仍然達不到機器語義理解的要求。
在對句法、語義關(guān)系這個語法學(xué)中心問題的研究上,中外許多語法學(xué)家和語法流派都十分強調(diào)動詞是敘事句的中心。文獻[7]認為,“從語義結(jié)構(gòu)探討句子的形式與意義的關(guān)系,有益于正確認識句子的表層結(jié)構(gòu)(形式結(jié)構(gòu)、結(jié)構(gòu)模式)和深層結(jié)構(gòu)(語義模式)之間的相互聯(lián)系,加深理解句子形式與意義的關(guān)系?!蔽墨I[8]認為,“動詞是句子的中心、核心、重心,別的成分都跟它掛鉤,被它吸引?!蔽墨I[9]認為,“以動詞謂語句而言,謂語動詞是語義結(jié)構(gòu)的核心(動核),而句中的名詞性成分都是這一核心的種關(guān)系(動元)?!蔽墨I[10]認為,“動詞跟受其支配的語義成分可以構(gòu)成一個最小的語義結(jié)構(gòu)。這些最小的語義結(jié)構(gòu),都具有一定的表述性,能表達一個相對完整的命題或意義,能投射成一個具有相對獨立表述功能的意義自足的最小主謂句?!?/p>
更為重要的是,因為一個漢語句子可以有多個動詞,每個逗號短語句都可包含有謂語成分的語義關(guān)系。文獻[11]認為,“漢語多動詞謂語句是漢語句子基本結(jié)構(gòu)的一個重要特點。理解這類句子時,必須分析這些動詞之間的語義聯(lián)系,譯成英語時,常常只將其中的一個動詞譯成英語謂語動詞,而將其他動詞轉(zhuǎn)換成非謂語動詞或其他形式?!蔽墨I[12]認為,“在確定一個句子和基本單元時,把句點顯性標識的一個語言片段稱為句子,以逗號分隔的語言片段稱為小句,認為小句對應(yīng)于句子關(guān)系的基本單元。”因此,本文認為對于科技文摘創(chuàng)新點句子的謂語動詞分析,不僅僅是句子結(jié)構(gòu)的分析,還要從最小的逗號句進行分析,所以識別句子的謂語動詞,挖掘句子的主謂賓結(jié)構(gòu)是文摘創(chuàng)新點句子理解的關(guān)鍵。由此漢語文本語言的語義識別的核心問題可以看作是尋找句子和逗號子句(或小句)準確的謂語動詞的難題。
因此,本文提出了通過句子的謂語動詞的識別來解決語義理解的認知分析方法結(jié)構(gòu),開發(fā)了一套《中文科技文摘句謂語動詞識別與句子的主謂賓結(jié)構(gòu)轉(zhuǎn)換軟件工具》,這個軟件工具能夠?qū)⒅形目萍嘉恼浜芎玫霓D(zhuǎn)換為機器理解所需要的語義關(guān)系結(jié)構(gòu),并且這種語義結(jié)構(gòu)的句子在后續(xù)建立知識庫和謂詞的語義推理中將發(fā)揮重要作用。
為了建立高準確率的文摘句的謂語動詞的語義識別率,為今后的謂詞推理建立可靠的基礎(chǔ),本文研究了句子謂語動詞的智能識別問題,先利用ICT‐CLAS分詞工具對《電子學(xué)報》文摘句進行了分詞;然后對分詞后的文摘句進行謂語動詞識別,并將句子的其他標記成分取掉,把句子改造成為主謂賓結(jié)構(gòu)。表7給出用中文科技文摘句子謂語動詞識別與主謂賓轉(zhuǎn)換軟件對文摘(8089號)處理的結(jié)果。
表7 句子謂語動詞識別與主謂賓轉(zhuǎn)換后的文摘句
由表7可以看出,文摘(8089號)為2個句號句子,14個逗號子句,共識別出16個謂語動詞。每個由“逗號、分號、句號”組成的句子都包含有謂語動詞,這些謂語動詞準確的表達了句子的語義和語用關(guān)系,去掉了其他多余的詞性標記會更能清晰的表達句子的語用功能,這對機器理解中文文本的語義和語用功能帶來了更大的好處。
按照文摘中句子所表達語用功能的特征,本文把文摘句子分為6種語用類型:第1類(問題句)、第2類(方法句)、第3類(結(jié)果句)、第4類(問題句、方法句)、第5類(方法句、結(jié)果句)、第6類(問題句、方法句、結(jié)果句)。先進行第一次6分類,然后將6分類中的第4、5、6類混合類進行二次單一類分類,最后與第一次分出的第1、2、3類句合并,完成三種語用功能的分類任務(wù)。
本次研究對象來自萬方數(shù)據(jù)庫提供的文摘,經(jīng)過預(yù)處理后為8235條(32686個句號句),平均每條文摘3.48句,最長的一條文摘為13個句號句子。表8是本文對8235條文摘進行第一次6分類結(jié)果的統(tǒng)計數(shù)據(jù)。
表8 語用功能的文摘句子6分類數(shù)量分布
我們把表8分為兩部分,第一部分為可直接分類為第1、2、3類的單一類句子,這類句子表達的語用功能單一。第1、2、3類的句子數(shù)為26382,占總句子32686的81%。此外,從表8可以看出,第1類主要分布在第一句、第二句、第三句上,第2類主要分布在第二句、第一句、第三句上,第3類主要分布在第三句、第四句、第二句上。第二部分為第4、5、6類句子,這類句子的語用功能結(jié)構(gòu)復(fù)雜、有多個語用關(guān)系,不能直接分為第1、2、3類。第4、5、6類句子數(shù)量為6304,占總句子32686的19%。第4、5、6類句子屬于混合類句,需要進行二次分類。此外,第4類主要分布在第一句、第二句上,第5類分布在第二句、第三句上,第6類分布在第一句、第二句上。
第4~6類句子的二次分類結(jié)果如表9所示。
由表9可以看出,“句子大序號”是本文對《電子學(xué)報》8235條文摘按逗號分句后建立的數(shù)據(jù)庫順序號;“文摘號”是數(shù)據(jù)庫的文摘編號;“文摘內(nèi)句子號”是對每條文摘中句子的編號,其中,1、2分別表示這條文摘的第1個句號句和第2個句號句,這條文摘只有2個句號句子;“原分類號”指的是經(jīng)過第一次6分類后給出的分類結(jié)果,其中,6表示這個文摘的第2句被分為第6類;“新分類號”是經(jīng)過二次分類后給出的分類號,文摘號為8098文摘的第2句話被第二次分類分成了1、2、3類,并分成了14個逗號句。
經(jīng)過二次分類與一次分類的1、2、3類合并后,全部文摘分類的1、2、3總分類句的數(shù)量分布如表10所示。一次分類的句子(句號句)數(shù)量為32685,二次分類合并后的句子(逗號、分號、句號)為43999。
由表10可以看出《電子學(xué)報》文摘創(chuàng)新點的1、2、3類的分布有兩個特點:①第1類占總句(包括逗號、分號、句號)的31.1%,第2類占總句的45%,第3類占總句的24%,說明了文摘表達第2類的句子數(shù)量比較多。②第1類主要分布在第1、2、3、4句,第2類分布在2、1、3、4句,第3類主要分布在第3、2、4、5、1句。
通過人工抽查驗證,本文提出的按照文摘句的語用功能進行6分類,再二次分類方法操作簡單,且取得的分類準確率較高。經(jīng)過人工對300條文摘檢驗,準確率高到達96%以上。
參與實際分類的《電子學(xué)報》文摘數(shù)為8235條,經(jīng)過二次分類合并后每條文摘同時含有第1、2、3類的文摘數(shù)量為6505條,占84%;同時,含有第1、2、3類的句子數(shù)為37399句(包括逗號,分號,句號),占85%。如表11所示。
表9 二次分類(新分類)與一次分類的對比舉例
表10 全部文摘的1、2、3類句數(shù)量分布
表11 同時含有第1、2、3類的文摘數(shù)量
由表11可以看出,①第1類占總文摘的84%,第2類占總文摘的96.6%,第3類占總文摘的91%。②每篇文摘中同時都含有第1、2、3類的文摘只到達到84%。因此,尋找第1類句子缺失的問題就變成為文摘寫作語言模式的深度認知分析方法的任務(wù)。
經(jīng)過大量統(tǒng)計分析發(fā)現(xiàn)《電子學(xué)報》文摘不直接給出表達問題句和結(jié)果句的概率很高。這一特點表現(xiàn)在《電子學(xué)報》文摘的第一句為第2類的文摘達到25615條,占總文摘8235條的31.1%,而且此類文摘沒有直接的顯性問題句,這是《電子學(xué)報》文摘的特點,也是提取問題句的難點。為了方便研究,本文把這類文摘句稱為“問題隱含特殊句”。經(jīng)過二次分類合并后《電子學(xué)報》文摘的這種“問題隱含特殊句”有1571條,占總文摘數(shù)8235的19.0%。
“問題隱含特殊句”的舉例:本文/r提出了/V一種在相控陣雷達回波數(shù)據(jù)序列中用高斯混合體模型(GMM)檢測與跟蹤運動目標的在線算法/n。
為此,本文從語言學(xué)的角度對這類文摘句進行語法結(jié)構(gòu)分析。語言學(xué)文獻[13]指出,“謂詞特別是謂語動詞是整個句子的中心,與謂語動詞左側(cè)最近的名詞短語鄰居即為主語,與名詞左側(cè)最近的形容詞或形容詞性短語鄰居即為定語,與動詞左側(cè)最近的副詞或副詞短語鄰居為狀語,與動詞右側(cè)最近的副詞短語、介賓短語、動詞短語、孤立形容詞鄰居(不修飾名詞)為補語,除此之外的名詞或名詞短語為賓語?!睂τ谫e語來說,在很多情況下,賓語的核心詞并沒有包含太多的信息,而賓語前的定語卻包含了很多信息。因此就會出現(xiàn),“問題隱含特殊句”這種情況,即“問題隱含特殊句”是由賓語前的定語包含了要解決的問題的信息的句子。例如,將一個文摘的例句表達成下面的結(jié)構(gòu):
{[主語]本文/r}||{[謂語]提出了/V}||{[定語]一種在相控陣雷達回波數(shù)據(jù)序列中用高斯混合體模型(GMM)檢測/v與跟蹤/v運動目標的}||{[賓語]在線算法/n}。
在上述的例子中,“一種在相控陣雷達回波數(shù)據(jù)序列中用高斯混合體模型(GMM)檢測與跟蹤運動目標的”是“在線算法”的定語。在這個定語中,指明了直接賓語“在線算法”的適用范圍、前提條件和適用目的。也就表明了“在線算法”所要解決的問題。因此,把這類“問題隱含特殊句”的寫作方式可歸納為如表12所示的模板。
表12“問題隱含特殊句”的句法結(jié)構(gòu)
按照表12處理“問題隱含特殊句”的模板結(jié)構(gòu),本文對“問題隱含特殊句”進行模式識別,并把定語中的“在XXXXXX中”和“處理對象ZZZZZZ”等抽取出來,為該文摘補充兩條第1類短語。這樣上述舉例文摘的第1類可以補充為:在相控陣雷達回波數(shù)據(jù)序列中,運動目標的檢測與跟蹤。
通過對“問題隱含特殊句”的處理,使得總文摘的第1類的數(shù)量由84%提高到92%,第1、2、3類全有的文摘數(shù)量由80%提高到89%,有效的解決了由于科技文摘寫作語言表述的豐富性帶來的分類和挖掘的困難,大大提高了科技文摘創(chuàng)新點的準確分類和有效挖掘的目標。為建立“問題(p)”“方法(M)”“結(jié)果(R)”三元組知識庫的問答服務(wù)系統(tǒng)提供了知識挖掘的理論和方法。
通過對本文提出的學(xué)術(shù)文摘創(chuàng)新點挖掘的5個認知分析方法的實驗,驗證了這5個認知分析方法在文本挖掘過程中具有明顯的階段性和遞增性現(xiàn)實特點,其是實現(xiàn)科技文摘創(chuàng)新點挖掘需要考慮的5個認知分析方法。經(jīng)過5個階段的實驗,驗證了科技文摘中的創(chuàng)新點具有一定的事實性和動詞分布的一致性,謂語動詞的語義對語用分類的理解具有重要的決定性作用,科技文摘為了突出其創(chuàng)新點的表達,常常會采用復(fù)雜的句子和隱含的表達方式。下面將幾個認知階段的研究結(jié)果匯總在一起,如圖3和圖4所示。
圖3 識別率改善的幾個階段
圖4 考慮隱含句法的第1、2、3類全有的文摘數(shù)量
科技文摘最初設(shè)置的目的不僅是為了快速檢索,其有標題和關(guān)鍵詞的檢索功能,更重要的是表達文章創(chuàng)新點的核心功能。經(jīng)過上百年來的發(fā)展,科技文摘的核心功能并沒有變,但承載科技文摘的介質(zhì)從紙質(zhì)形式上升到了數(shù)字化形式,數(shù)字化的形式使得人們對科技文摘的利用方式已不再只是人工閱讀的方式了,借助計算機技術(shù)和人工智能技術(shù)可能使科技文摘成為智能化的問答方式為人們服務(wù)。但是科技文摘創(chuàng)新點內(nèi)容的表現(xiàn)方式不是結(jié)構(gòu)化數(shù)據(jù),而是人類使用的自然語言形式。目前的計算機技術(shù)和人工智能技術(shù)使用的是機器語言形式,自然語言形式和機器語言形式不能直接交流,需要將人類自然語言形式通過智能的模式轉(zhuǎn)換為機器可以理解的模式。本文對科技文摘的創(chuàng)新點做了認知分析方法的研究,從創(chuàng)新點的報道功能、詞匯語義分布的一致性、謂語動詞的語義理解性、語用功能的分類性和句法模型的隱含性五個方面進行了深入研究,期望能夠為機器處理自然語言的研究提供智能認幫助,對基于創(chuàng)新點知識庫建設(shè)和智能問答系統(tǒng)建立提供理論和方法的認知分析方法。后續(xù)的工作將建立創(chuàng)新點知識庫,進一步研究智能問答系統(tǒng)的推理技術(shù),探索文摘創(chuàng)新點的智能化服務(wù)。