劉利
(瀘州職業(yè)技術(shù)學院信息工程系,四川 瀘州 646005)
互聯(lián)網(wǎng)作為開放式的知識庫,信息具有海量、多樣、散亂等特點,網(wǎng)頁作為信息的載體,利用互聯(lián)網(wǎng)構(gòu)建知識庫,則演變?yōu)閷A烤W(wǎng)頁文本信息的抽取及結(jié)構(gòu)化的研究。當前,文本信息抽取的對象有結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化信息,而抽取文本信息方式主要分為兩類[1],一類是機器學習方式[2],從結(jié)構(gòu)化和半結(jié)構(gòu)化信息抽取數(shù)據(jù);一類是自然語言處理[3],從非結(jié)構(gòu)化的文本信息中抽取有價值的數(shù)據(jù),就網(wǎng)頁自由文本信息特點而言更加適用。
在利用淺層句法分析方法上,錢偉中等人[4]提出了融合淺層句法分析的蛋白質(zhì)互作用信息抽取方法,在生物學方面的文本抽取效果較好;周順先等人[5]提出基于規(guī)則和統(tǒng)計抽取模型的主動學習算法,需要先標記訓練集才能達到抽取同類信息的較好效果,不能很好地適應(yīng)多樣式的文本;龐文斌等人[6]進行基于規(guī)則和統(tǒng)計的漢語淺層句法分析的研究,利用統(tǒng)計的方式通過先識別謂詞實現(xiàn)信息抽取,但缺乏考慮句式和代詞帶來的問題。
呂叔湘[7]早在多年前在其《中國文法要略》中提出“主-謂-賓”為句子的主干部分,它能反映句子的主要信息,而“句子的中心是一個動詞”,對句子動詞成分的確定有助于句子成分的整體分析?;诖?,本文提出基于詞性合并的淺層句法分析方法,在文本信息抽取比同類方法效果較好。
文本信息抽取模塊主要實現(xiàn)的功能是抽取文本信息的主旨內(nèi)容,為進一步的信息結(jié)構(gòu)化提供保障。本文算法從句子詞性合并和句式分析兩個方面著手,結(jié)合中樞論的觀點分析句子的成分,抽取文本信息。
漢語中可把復(fù)雜的句子轉(zhuǎn)變?yōu)槎鄠€簡單句,便于提高在句法分析中識別句子成分的準確率。對句子進行分詞,將分詞根據(jù)詞性進行合并,共同組成句子成分,合并規(guī)則如下:
規(guī)則1:相鄰并詞性相同的詞語進行合并,詞性和末尾詞詞性一致。如:“法新社/nt記者/n經(jīng)/p調(diào)查/vn后/f證實/v”經(jīng)過轉(zhuǎn)化后變?yōu)椤胺ㄐ律缬浾?n調(diào)查/vn后/f證實/v”。
規(guī)則2:對連詞、“比/p”、頓號左右詞性的合并,因為左右兩邊詞性為并列關(guān)系,最后詞性為末尾詞詞性。如:“北京/ns、/w天津/ns和/cc重慶/ns都/d是/vshi直轄市/n”轉(zhuǎn)變?yōu)椤氨本⑻旖蚝椭貞c/ns都/d是/vshi直轄市/n”。
規(guī)則3:合并數(shù)詞到距離它最近的名詞,最后合并詞詞性為末尾詞詞性。如“一/m本/q書/n”經(jīng)過轉(zhuǎn)化后為“一本書/n”。
規(guī)則4:合并時間詞,若其后為主語或謂語詞詞性則合并;若其后為助詞,先判斷助詞后面是否有詞,有則合并時間詞到助詞后面的詞,沒有則合并時間詞及其前面的詞。兩種方式合并后的詞性為末尾詞詞性,如“我/rr是/vshi 1995年5月/t的/ude1生日/n”轉(zhuǎn)化后變?yōu)椤拔?rr是/vshi 1995年5月的生日/n”。
規(guī)則5:合并名詞短語,具體為合并“的”字前后詞,合并詞性為末尾詞的詞性。“的”字短如“今天/t的/ude1天氣/n”轉(zhuǎn)化后變?yōu)椤敖裉斓奶鞖?n”。
按漢語句式可分為一般句式和特殊句式,前者由主謂賓構(gòu)成,句子成分順序容易判斷;后者是將句子成分順序進行變換,如倒裝、前置等結(jié)構(gòu)。
一般句式成分分析采用謂詞中樞論觀點,先確定謂語成分,謂語可由動詞和形容詞擔任,通過對“知網(wǎng)-中文信息結(jié)構(gòu)庫”的詞頻統(tǒng)計可知動詞作為謂語的概率比形容詞大,故若在一個句子中同時出現(xiàn)動詞和形容詞時,則優(yōu)先選用動詞做謂語,其次是選用形容詞。確定謂語后,再分析主語、狀語、補語、賓語成分。復(fù)雜句拆分為簡單句處理,處理后的結(jié)果合并為復(fù)雜句。如:主1謂1賓1和主2謂2賓2,如果賓1與主2相同,則合并為主1謂1賓1謂2賓2。
特殊句式為了突出句子某個成分通過特殊詞語將句子成分之間進行交換。通常有把字句、被動句、判斷句、連動句、兼語句和存現(xiàn)句。
(1)把字句是通過“把”字將賓語提前,并同賓語構(gòu)成狀語。識別方式為查找“把”前面的主語,后面的賓語和謂語。
(2)被動句是通過“被”關(guān)鍵字,將賓語提前到關(guān)鍵字之前,主語置于關(guān)鍵字之后。識別方式為查找“被”關(guān)鍵字,向前查找賓語,向后查找主語和謂語。
(3)判斷句同普通句式一致,故處理方式按簡單句處理。
(4)連動句是存在某種聯(lián)系(如目的、因果、先后等聯(lián)系)的多個謂語一起組成連動短語充當句子的謂語。處理方式為將多個相鄰的謂語合并成一個,成分識別按簡單句的方式處理。
(5)兼語句是句子某個詞或短語句子多個成分,如:“老師讓小明坐最后一個位置”,其中小明為兼語詞。處理方式為將復(fù)雜句式拆解為多個簡單句,然后按謂語中樞論觀點識別句子成分,最后將簡單句進行合并。
(6)存現(xiàn)句是表示某個事物或某個人的出現(xiàn)、產(chǎn)生、存在和消失的狀態(tài),如:“辦公室坐著個人”。處理方式同一般句式處理方式一致。
對網(wǎng)頁文本信息經(jīng)過網(wǎng)頁信息抽取、指代消解、詞性合并、特殊句式識別、簡單句式識別、句子信息提取和篩選過程。本文利用網(wǎng)頁信息標題的特點,提取標題信息中出現(xiàn)詞頻最高的兩個詞(下面統(tǒng)稱F詞和S詞),對文本信息篩選有很大幫助。句法分析具體算法實現(xiàn)如下:
輸入:抽取的網(wǎng)頁文本信息
輸出:文本信息的抽取結(jié)果
步驟:
(1)利用交大分詞對網(wǎng)頁標題和正文信息進行分詞,并統(tǒng)計出標題的F詞和S詞。
(2)指代消解文本信息,還原代詞指代內(nèi)容。
(3)按詞性合并規(guī)則簡化文本信息中句子結(jié)構(gòu)。
(4)以“?!碧柡汀?;”號對文本信息分句,舍棄沒有識別主謂賓的句子,再按上述句式處理規(guī)則先處理特殊句式,后處理一般句式,詞性出現(xiàn)頻率大小查找謂語位置,向前查找主語,向后查找賓語,統(tǒng)計知網(wǎng)后得出主、賓語查找的順序是名詞、數(shù)詞、代詞。若句子中包含時間詞則保留時間詞的位置。
(5)由于以段為單位進行文本信息抽取,如果經(jīng)過句法分析的段落沒有包含F(xiàn)詞和S詞,最后存儲某段主旨信息時格式為“F詞##S詞##標題##某段主旨內(nèi)容”。
(6)將所有段落文本主旨信息分析完成后,返回的結(jié)果即為整個文本的主旨信息。
本文方法在謂語識別過程與龐文斌等人[7]都結(jié)合中樞論的觀點,但使用算法不同,實驗上將同他們的方法效果進行比較,文本信息抽取常用評價標準查全率(也叫召回率,Recall)和查準率(Precision)進行評價,計算公式如下:
其中,C1表示待提取的信息個數(shù),C2表示已提取的信息個數(shù),C3表示提取信息中的正確個數(shù)。查全率是在網(wǎng)頁總數(shù)的基礎(chǔ)上計算的,而查準率則是在已提取信息個數(shù)基礎(chǔ)上計算的。
實驗文本集選自1998年1月《人民日報》標注語料庫,隨機選取里面的文章,以句子為單位統(tǒng)計其查全率,用公式1。
表1 謂語識別實驗對比
通過表1對比可知,本文在謂語識別查全率較高,通過詞性合并能簡化句子成分,有助于謂語的識別。
通過詞性合并和句式分析提取句子的主旨信息,并能達到閱讀信息效果,本文對網(wǎng)頁信息抽取的文本集為基準,利用詞性合并的淺層句法分析方法抽取文本主旨信息,分別隨機抽取100-500個句子,用公式1和2對最后結(jié)果進行評價。
表2 句子識別結(jié)果實驗
由實驗結(jié)果可知,利用本文方法對句子主謂賓識別效果較好,查全率和查準率都保持在80%以上,能識別文本信息的主旨信息。同時,也發(fā)現(xiàn)有很多不常見句式和短語對識別效果產(chǎn)生干擾,后期可對這些問題更加深入研究,這將提升句子識別的準確性。