呼媛玲
(西安職業(yè)技術(shù)學(xué)院,陜西 西安 710017)
計算機(jī)與互聯(lián)網(wǎng)飛速發(fā)展,各類信息形式呈指數(shù)級增長,但龐大的信息數(shù)據(jù)淹沒了真正所需的信息,準(zhǔn)確、及時地提取、整理眾多無序信息是時代發(fā)展的必然趨勢,信息抽取(Information Extraction,IE)技術(shù)應(yīng)運(yùn)而生,該項技術(shù)的發(fā)展與研究方向因MUC(Message Understanding Conference,消息理解會議)的確立而受到一定程度的推動,其主要是從自然語言文本中獲取事實(shí)信息,用結(jié)構(gòu)化形式表達(dá)信息,為用戶提供更好的信息獲取工具,便于后續(xù)的信息查詢、文本深層挖掘操作等[1]。網(wǎng)絡(luò)信息載體以文本形式為主,信息抽取技術(shù)的主要目的是提升互聯(lián)網(wǎng)知識使用者的體驗(yàn)感。作為自然語言處理中發(fā)展較快的研究領(lǐng)域,該項技術(shù)融合了語料資源、自然語言處理與語義技術(shù),發(fā)展形勢逐漸成熟。
在國外,關(guān)于信息抽取的研究始于20世紀(jì)60年代,僅是從文本中抽取出一些結(jié)構(gòu)化的信息,后來逐漸發(fā)展為信息抽取系統(tǒng),該系統(tǒng)主要是針對故事內(nèi)容來進(jìn)行,有學(xué)者發(fā)展至20 世紀(jì)80年代末,信息抽取已成為自然語言處理領(lǐng)域的獨(dú)立分支。隨著信息技術(shù)的不斷發(fā)展,有學(xué)者基于知識圖譜進(jìn)行信息抽取,但只能局限于知識圖譜范圍內(nèi)的問題,此外,羅明等人[2]為解決因自然語言歧義性、多樣性以及結(jié)構(gòu)性等屬性造成的信息抽取復(fù)雜問題,構(gòu)建一種金融事件下信息抽取的層次化詞匯-語義模式方法,基于界定的某個金融事件表示模型,利用深度學(xué)習(xí)詞向量策略,完成同義概念詞典的自動生成,通過有限狀態(tài)機(jī)驅(qū)動層次化詞匯-語義規(guī)則模式,自動抽取各種金融事件信息。楊兵等人[3]針對醫(yī)學(xué)領(lǐng)域的文本數(shù)據(jù),構(gòu)建一種結(jié)構(gòu)化信息抽取方法,根據(jù)聚類的文本與提取的關(guān)鍵詞,獲得常用術(shù)語特征,基于術(shù)語庫輔助完成分詞處理,依據(jù)詞間的語義依存關(guān)系,架構(gòu)依存句法樹,實(shí)現(xiàn)文本信息所描述關(guān)鍵指標(biāo)與指標(biāo)值的識別與抽取。
隨著信息抽取技術(shù)的不斷發(fā)展,信息抽取的范圍逐漸從封閉的語料庫轉(zhuǎn)變?yōu)殚_放的語料庫,故本文以Word-Smith4.0 語料庫的英文詞匯為研究目標(biāo),設(shè)計一種新的結(jié)構(gòu)信息抽取方法,以提高英文詞匯結(jié)構(gòu)的信息抽取適用性。在已有信息抽取方法的基礎(chǔ)上,通過標(biāo)注詞性,來提升詞性標(biāo)記準(zhǔn)則的統(tǒng)一性;根據(jù)解得的詞匯結(jié)構(gòu)相似度,來提升信息分類準(zhǔn)確度;利用各模式簇,奠定泛化操作基礎(chǔ);設(shè)計基于逆向最短編輯距離的泛化流程,加快簇收斂速率,以提升簇內(nèi)模式的覆蓋性能;采用各映射模式階段,判定信息匹配是否成功。
自由詞根與粘著詞根共同構(gòu)成詞根[4],前者具有獨(dú)立使用性,后者則要結(jié)合其他詞素組成詞匯。例如粘著詞根port的含義是“搬運(yùn)、帶”,fect/fact的含義是“做”,表1中所示的是兩粘著詞根與其他詞素組成的部分詞匯。
表1 粘著詞根構(gòu)成詞匯表
根據(jù)表格中的構(gòu)成詞匯可以看出,由port 與fect/fact組成的各個詞匯中,“搬運(yùn)、帶”與“做”的意義仍然突出。英文詞匯結(jié)構(gòu)的認(rèn)知參照點(diǎn)即為此中心意義的詞根,詞匯之間存在的關(guān)聯(lián)性即為相似度。
依據(jù)功能將詞綴[5]分成派生詞綴與曲折詞綴,若按照詞匯結(jié)構(gòu)位置,詞綴又分為前綴與后綴。例如be-為behead前綴,-ish為boyish后綴。表2所示為語義“和……一起、共同”的前綴與“……的人”的后綴。
表2 各語義的前綴與后綴表
此類詞匯結(jié)構(gòu)形成的原因是,中心成分規(guī)約化的變化形式以及以中心成分為基點(diǎn)向外擴(kuò)散而構(gòu)成的擴(kuò)展結(jié)構(gòu)。圖1所示即為語義“和……一起、共同”的擴(kuò)展結(jié)構(gòu)示意圖。
圖1 語義“和……一起、共同”擴(kuò)展結(jié)構(gòu)示意圖
另外一些不是詞根也不是詞綴的字母組合通常也存在一定的含義,比如由st-與fl-構(gòu)成的單詞多數(shù)含有“靜止”與“動態(tài)”的語義,其組成的單詞如表3所示。
表3 字母組合st-與fl-單詞構(gòu)成統(tǒng)計表
綜上所述,多數(shù)英文詞匯的結(jié)構(gòu)組成部分為詞根與詞綴。以“引導(dǎo)”的-duct為例,若在該詞根上附加前綴、后綴,則可得到下列派生詞[6]:
(1)con+duct+ive=conductive(導(dǎo)電的)
(2)con+duct+ible=conductible(可導(dǎo)電的)
(3)con+duct+ion=conduction(導(dǎo)電)
(4)semi+con+duct+or=semiconductor(半導(dǎo)體)
例如“建造”-struct可延伸出下列派生詞:
(1)con+struct=construct(構(gòu)筑、建筑)
(2)de+struct=destruct(破壞)
(3)re+con+struct+ion=reconstruction(重建)
(4)mis+con+struct+ion=misconstruction(曲解、誤解)
因此,詞匯的結(jié)構(gòu)與含義具有顯著的理據(jù)性,各詞素含義相加后即為整個詞匯的意義,可用下列表達(dá)式簡單描述:
上式中,詞匯為W,詞素為M,一個含有三個詞素的詞匯結(jié)構(gòu)中通常是前綴M1、詞根M2以及后綴M3。
抽取英文詞匯結(jié)構(gòu)信息之前,應(yīng)先獲取WordSmith4.0語料庫中的英文詞匯集合,劃分詞匯結(jié)構(gòu)與標(biāo)注詞匯屬性,通過計算詞匯結(jié)構(gòu)的相似度,完成閾值設(shè)定,根據(jù)詞匯的語義距離[7],判定相似度,計算公式如下所示:
上式中,單詞W1與W2的共同祖先節(jié)點(diǎn)為sim(W1,W2),單詞具有的信息量用IW(W)表示。詞匯之間的語義相似度隨著兩者共同祖先信息的增多而變大,兩指標(biāo)呈正相關(guān)關(guān)系。
假設(shè)用Unigram 表示詞匯的一元特征,用CWS+表示一元字符特征與詞匯特征,那么將一元特征Unigram 或者字符特征CWS+與詞性特征相結(jié)合,用POS+表示,將詞匯特征與字符特征POS+與詞典特征相結(jié)合,用Dictionary+表示,綜上,用Unigram、POS+、Dictionary+等詞匯特征與CWS+、POS+、Dictionary+等字特征完成對等特征的界定。將信息提取的過程簡化為如下內(nèi)容:
(1)一元字符特征:設(shè)定組成詞匯的字符集合為D={d1,d2,…,dn},其中,字符用di(i=1,2,…,n)表示,假設(shè)VUnigram(E)={vu1,vu2,…,vun}指代各字符E的一元特征矢量,字符集合與該特征矢量的維數(shù)一致,且vui(i=1,2,…,n)取值使下列條件式成立:
(2)詞匯特征:提取的一元特征已經(jīng)展示出詞匯特征,詞匯特征主要是對結(jié)構(gòu)信息做整體描述。假設(shè)任意四維向量為VCWS(E)={vc1,vc2,vc3,vc4},且該四維向量取值令下列條件式成立:
(3)詞性特征:通過標(biāo)注各詞匯詞性,以統(tǒng)一詞性的標(biāo)記準(zhǔn)則。假設(shè)標(biāo)記詞性后的詞匯集合為,p表示字符E的詞性,Vpos(E)=(vp1,vp2,…,vpm)表示特征向量,則vpi取值使下列條件式成立:
經(jīng)過上述操作后,按照詞性、結(jié)構(gòu)聚類各集合中的詞匯,獲取簇內(nèi)高相似度、類間低相似度的各模式簇,具體流程描述如下:
(1)根據(jù)得到的詞匯標(biāo)注集合,構(gòu)建關(guān)鍵字符的特征集合P=(P1,P2,…,Pn)與聚類閾值Cp,且將Cp設(shè)置為0.31-0.81之間;
(2)對關(guān)鍵字符簇集合Clusterkeyword={cluster1,cluster2,clustern}進(jìn)行初始化,令clusteri={Pi},其中,1≤i≤n;
(3)如果簇clusteri與clusterj的特征集合Pl與Pk滿足下列不等式,則將兩簇合并:
采用下列計算公式求取簇相似度:
(4)迭代操作上述步驟,待全部簇不再收斂時結(jié)束;
(5)迭代操作以上步驟,待全部關(guān)鍵字符聚類完成時終止。
Pl與Pk中的字符個數(shù)為L和K,關(guān)鍵字符間的距離為δ,Pl與Pk的最短編輯距離[8]為δ(Pl,Pk)=H(i,j),計算公式如下所示:
上式中,h(i,j)的取值條件公式如下所示:
上式中,簇X與Y的中第i個與第j個保留字符分別是Xi與Yj,通配符Xi在簇X里的角色為R(Xi),通配符Xi的詞性為P(Xi),子串X1…Xi與Y1…Yi的編輯距離為H(i,j),Xi與Yj的編輯距離為h(i,j),若Xi與Yj存在不同角色、相同詞性,其編輯距離為α(0<α<1)。
為加快簇收斂速率,提升簇內(nèi)模式的覆蓋性能,利用編輯距離矩陣的逆向最短編輯距離,設(shè)計如下泛化流程:
(1)令i=m,j=n;
(2)當(dāng)i=1,j=1時,返回XY;相反,則進(jìn)入下一步;
(3)假 設(shè)i'與j'是min{H(i-1,j-1),H(i-1,j),H(i,j-1)}下標(biāo),△Hij=H(i,j)-H(i',j'),進(jìn)入下一步;
(4)當(dāng)i'=i-1,j'=j-1 時,進(jìn)行第七步操作;反之,則進(jìn)入下一步;
(5)當(dāng)下標(biāo)滿足i'=i-1、j'=j時,實(shí)施第八步操作;反之,則進(jìn)入下一步;
(6)當(dāng)下標(biāo)滿足i'=i、j'=j-1時,執(zhí)行最后一步操作;
(7)當(dāng)H(i,j)-H(i',j')=0 時,在XY中引入Xi;當(dāng)H(i,j)-H(i',j')=α?xí)r,引入;當(dāng)H(i,j)-H(i',j')=1 時,引入(Xi|Yj);返回第二步;
(8)當(dāng)△Hij=0 時,引入Xi;當(dāng)△Hij=α 時,引入[Xi]*;當(dāng)△Hij=1時,引入(Xi);返回第二步;
(9)當(dāng)△Hij=0 時,引入Yj;當(dāng)△Hij=α 時,引入[Yj]*;當(dāng)△Hij=1時,引入(Yj)完成泛化處理。
將當(dāng)前信息項中的詞匯WS結(jié)構(gòu)序列用下列表達(dá)式描述:
上式中,詞匯結(jié)構(gòu)序列的第i個字符為wi,各字符對應(yīng)屬性為xi。
若任意模式Pl的關(guān)鍵字符詞性是x,則結(jié)構(gòu)序列WS內(nèi)與關(guān)鍵字符詞性一致的集合表達(dá)式如下所示:
針對集合KS的wj/xj,將其中的序號設(shè)定為k,采用下列公式計算詞匯WS與模式Pl的相似度cj(WS,Pl):
根據(jù)信息抽取策略依據(jù),架構(gòu)信息抽取流程,描述如下:
(1)映射模式邊界到詞匯結(jié)構(gòu)序列邊界,明確模式匹配的有限范圍;
(2)映射模式所含關(guān)鍵字符到詞匯結(jié)構(gòu)序列里;
(3)映射模式內(nèi)定長模塊至詞匯結(jié)構(gòu)序列;
(4)映射模式內(nèi)變長模塊至詞匯結(jié)構(gòu)序列;
(5)完成映射說明匹配成功,進(jìn)入下一步;如果未完成任意步驟映射,或因映射操作導(dǎo)致模塊相對順序發(fā)生變化,則說明匹配不成功;
(6)抽取詞匯結(jié)構(gòu)序列的關(guān)鍵字符、詞綴、詞根以及帶有含義的字母組合。
表4所示為實(shí)驗(yàn)開發(fā)環(huán)境。
表4 實(shí)驗(yàn)開發(fā)環(huán)境
以WordSmith4.0作為英文語料庫,采用準(zhǔn)確率、召回率以及F1作為評價指標(biāo),來評估抽取方法的效果,三種指標(biāo)計算公式分別如下所示:
為驗(yàn)證方法的有效性與可行性,分別采用基于詞匯-語義模式的抽取方法、采用結(jié)構(gòu)化信息的抽取方法以及本文方法,展開信息抽取仿真實(shí)驗(yàn),經(jīng)整理各項實(shí)驗(yàn)指標(biāo)結(jié)果,如表5-表7所示。
表5 本文方法的實(shí)驗(yàn)結(jié)果
表6 基于詞匯-語義模式的抽取方法實(shí)驗(yàn)結(jié)果
表7 采用結(jié)構(gòu)化信息的抽取方法實(shí)驗(yàn)結(jié)果
通過上列表格可以看出,相比較基于詞匯-語義模式的抽取方法以及采用結(jié)構(gòu)化信息的抽取方法,本文方法的信息抽取效果最優(yōu),這是由于本文方法在獲取詞匯結(jié)構(gòu)集合后,劃分了詞匯結(jié)構(gòu)與標(biāo)注詞匯屬性,計算了詞匯結(jié)構(gòu)的相似度,并逐步采取了分類、泛化等策略,因此,具有較高的抽取準(zhǔn)確率、召回率以及F1值。
由于信息抽取技術(shù)受到一些因素的制約與限制,因此,本文以英文詞匯結(jié)構(gòu)為研究對象,提出一種WordSmith4.0語料庫下信息抽取方法。因詞匯樣本容量存在局限性,應(yīng)繼續(xù)探索更理想的分類與抽取方法,提升結(jié)果準(zhǔn)確度;深入研究抽取模式的關(guān)鍵字符分類,實(shí)現(xiàn)抽取模式與模式簇收斂。在今后的工作中需進(jìn)一步分析方法的時間性能,加快抽取速率。