亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于雙層語料過濾器的短語抽取方法

2015-11-25 03:00:48林偉佳郭靖羽丁東輝

計(jì)算機(jī)與現(xiàn)代化 2015年12期

林波，林偉佳，郭靖羽，丁東輝，黃翰

(1.中國移動(dòng)通信集團(tuán)廣東有限公司，廣東廣州 510006;2.華南理工大學(xué)軟件學(xué)院，廣東廣州 510006)

0 引言

互聯(lián)網(wǎng)在給予人們豐富信息的過程中，也給予人們急切獲取第一手重要熱點(diǎn)信息帶來的困擾。在信息爆炸的時(shí)代，人們被動(dòng)地接受大量無效的垃圾信息，也花費(fèi)大量的時(shí)間和精力去尋找關(guān)注感興趣的網(wǎng)絡(luò)話題［1-2］。盡管目前的搜索引擎能在一定程度上引導(dǎo)用戶去獲取特定的信息，針對(duì)時(shí)效性較高的網(wǎng)絡(luò)話題，還是無法提供較為深入的隱含話題信息挖掘以及話題跟蹤的統(tǒng)計(jì)顯示。人們迫切需要在網(wǎng)絡(luò)信息搜索方面能提供較為全面的網(wǎng)絡(luò)話題挖掘與跟蹤的服務(wù)，能夠無論從時(shí)間線或者熱門程度方面都能有直觀的話題信息演化過程。人們不僅需要獲知網(wǎng)絡(luò)話題所涉及的概括性描述，也希望從中獲知其他人針對(duì)該話題的具體細(xì)節(jié)評(píng)價(jià)和討論。

國外針對(duì)短文本的提取已經(jīng)有很多指導(dǎo)性工作。例如Mehran Sahami［3］等采用以Web 語義核函數(shù)為基礎(chǔ)方法來抽取概念類似的短語，應(yīng)用于文檔的信息語義概括。D.Metaler［4］等從相似性的度量角度來挖掘發(fā)現(xiàn)短文本之間的關(guān)聯(lián)程度。W.Yih［5］等通過對(duì)前人的工作進(jìn)行方法完善，結(jié)合當(dāng)時(shí)Web 的發(fā)展趨勢(shì)適時(shí)擴(kuò)展Web 語義核函數(shù)，深化了語義核函數(shù)的影響。Xuan-Hieu Phan［6］等人為了解決短文本的稀疏性問題，嘗試性地提供采用隱匿的文檔主題來建立較為廣泛的模型架構(gòu)。J.Hyneck 擴(kuò)展了Apriori 的詞集分類方法，并應(yīng)用于文獻(xiàn)的文檔分類工作中。D.Song 以領(lǐng)域知識(shí)庫的建立作為基本出發(fā)點(diǎn)，通過采集消息流和研究并預(yù)測(cè)其趨向來對(duì)短文本實(shí)現(xiàn)分類工作。S.Tant［7］等結(jié)合專利知識(shí)數(shù)據(jù)以及術(shù)語庫來進(jìn)行跨領(lǐng)域的術(shù)語提取。Dacheng Liu［8］等提出半自動(dòng)的語料分割器針對(duì)專利知識(shí)數(shù)據(jù)進(jìn)行專利術(shù)語的信息抽取。K.K.Bharti［9］等通過對(duì)文本不同維度的特征重要度進(jìn)行排序，提出混合維度的文本特征選擇方法來改進(jìn)文本特征表示。

由于中文漢字的復(fù)雜性以及前期缺乏相關(guān)研究，學(xué)者未針對(duì)短文本進(jìn)行系統(tǒng)分析，國內(nèi)針對(duì)短文本的研究相對(duì)比較晚，其研究方向基本可以分為2 類:

1)基于詞語規(guī)則的方法?；谠~語規(guī)則方法本質(zhì)是總結(jié)并分析不同詞語之間相互關(guān)系來進(jìn)行規(guī)則歸納，并對(duì)待處理文本執(zhí)行后續(xù)工作。例如吳薇［10］利用正則表達(dá)式規(guī)則初始化步驟來對(duì)海量文本實(shí)現(xiàn)規(guī)則過濾。王鵬［11］使用詞語之間的依存關(guān)聯(lián)來進(jìn)行詞語的提煉，進(jìn)而擴(kuò)充文本的基本維度屬性。王細(xì)薇［12］首先對(duì)短文本抽象概念詞進(jìn)行統(tǒng)計(jì)，然后使用詞語的關(guān)聯(lián)關(guān)系對(duì)候選詞實(shí)現(xiàn)表征擴(kuò)充。胡吉祥［13］基于短文本中詞頻或短語串頻的統(tǒng)計(jì)信息來進(jìn)行細(xì)粒度信息的提取以及特征表示。

2)基于文本語義的規(guī)則方法?；谡Z義方法本質(zhì)是搜索通用知識(shí)庫來進(jìn)行文本語義信息的抽取。如寧亞輝［14］首先利用《知網(wǎng)》來獲取不同層次的基礎(chǔ)詞匯本體，在這些候選種子詞的基礎(chǔ)上采用中心鄰近的分類方法。盛宇利［15］基于“熟悉原理”、“典型原理”的心理認(rèn)知學(xué)知識(shí)對(duì)文本進(jìn)行初步的預(yù)處理，包括引入白名單詞庫以及典型詞庫來進(jìn)行分詞，提高詞語的辨別準(zhǔn)確度。王永恒利用詞語語義特征構(gòu)建了特征網(wǎng)絡(luò)圖，然后通過描述網(wǎng)絡(luò)圖的中心鄰近程度來實(shí)現(xiàn)分類。

本文以文本短語為基本語義信息單位，針對(duì)中文短語抽取進(jìn)行研究，提出基于雙層語料過濾器(詞性過濾器與短語擴(kuò)展規(guī)則過濾器)的方法來進(jìn)行文本語料的冗余信息過濾，并抽取文本主題短語信息。其中詞性過濾器從通用的中文本質(zhì)的詞性規(guī)則出發(fā)來進(jìn)行初步候選短語過濾，短語擴(kuò)展規(guī)則過濾器從特點(diǎn)語料知識(shí)的統(tǒng)計(jì)分析規(guī)則來進(jìn)行二次過濾。

1 短語串的語義表達(dá)優(yōu)勢(shì)

從中文的自然語言角度分析，漢語的語言結(jié)構(gòu)的語義表達(dá)單元為:漢字-詞匯-短語-句子-段落-文檔［16］。其語義單元的級(jí)別越高，其包含的信息量也越多。由于漢語本身并非只有漢字的語義信息進(jìn)行拼接，其信息內(nèi)容本身存在上下文關(guān)系，因此隨著語義表達(dá)單元包含的基本語素(漢字)單元數(shù)目增加，其信息內(nèi)容的豐富程度遠(yuǎn)超于線性增長，其信息粒度也是隨著層次的增加而逐步增大［17］。在日常的人類社會(huì)中，句子是作為常見的溝通交流的語義表達(dá)單元，能夠清晰傳遞信息。句子盡管可作為基本的信息載體單元，但由于句子受限于客觀的語法結(jié)構(gòu)，其中也包含了大量冗余的無價(jià)值信息。其語義表達(dá)不夠簡練，人們理解句子的語義也是需要無意識(shí)地快速篩選出句子的主干意思來進(jìn)行消息接收。

本文考慮采用相比句子較低層次的短語來作為語義表達(dá)單元。中文短語串相對(duì)于句子而言也有類似的詞法結(jié)構(gòu)(主謂結(jié)構(gòu)、動(dòng)賓結(jié)構(gòu)等)，在語義表達(dá)方面滿足最基本的要求。中文短語串相對(duì)于低層次級(jí)別的詞匯，其信息豐富量更多，短語串中的詞匯間通過特定的組合搭配結(jié)構(gòu)，能夠表達(dá)出遠(yuǎn)多于純粹詞匯之間拼湊而成的信息。

目前在文本特征表示步驟中，詞匯作為文檔的特征項(xiàng)實(shí)際上僅僅作為一個(gè)標(biāo)簽屬性值的形式存在，詞匯自身并沒有為特征表征提供更多的語義信息。然而通過短語抽取，在文本特征表達(dá)的同時(shí)還可以直觀地理解文本的語義含義。在探索和挖掘中文短語結(jié)構(gòu)組成的同時(shí)，有助于對(duì)中文自然語言處理研究提供可參考性的意見。

2 雙層語料過濾器的主要思想

語料過濾器主要是基于中文短語本質(zhì)的詞性規(guī)則組成方式和基于統(tǒng)計(jì)分析理論來進(jìn)行設(shè)計(jì)。

1)從詞性規(guī)則組成方式:適用于大多數(shù)符合中文詞法語法規(guī)則的中文短語，具有一般普遍性。

2)從統(tǒng)計(jì)分析理論出發(fā):適用于針對(duì)某一類專有知識(shí)資料的語料過濾。由于針對(duì)特定某類的專有知識(shí)的短語特征較為明顯，許多詞語形成固定的短語搭配，容易從統(tǒng)計(jì)角度來獲取詞語之間的基于前后位置的頻次關(guān)聯(lián)關(guān)系。

圖1 短語抽取方法的主要處理步驟流程

短語抽取方法的主要處理流程步驟(見圖1):

1)預(yù)處理階段。在預(yù)處理階段主要包括了常規(guī)的文本分析的預(yù)處理步驟，包括中文分詞、停用詞處理和詞性標(biāo)注。針對(duì)本文需要處理的文本語料由于其專有性比較強(qiáng)，語料中存在大量的專有名詞，因此引入另外的擴(kuò)展詞庫來提高中文分詞的準(zhǔn)確度和精度，擴(kuò)展詞庫可不斷進(jìn)行知識(shí)術(shù)語關(guān)鍵詞的存儲(chǔ)和更新維護(hù)。

2)第一層過濾器處理階段。第一層語料過濾器的輸入文本是基于結(jié)構(gòu)化的文本集合，該文本集合由最基本的中文詞語所構(gòu)成，每個(gè)詞語都已經(jīng)標(biāo)注了詞性。其中由于并非所有詞性的詞都能構(gòu)成句子的細(xì)粒度短語，因此重點(diǎn)研究其中的名詞、形容詞、動(dòng)詞和副詞4 種詞性的詞語，并根據(jù)中文的短語語法知識(shí)歸納出這4 種詞性短語所構(gòu)成的所有可能形式。從短語的結(jié)構(gòu)考查分析，其中并列短語、偏正短語、動(dòng)賓短語、主謂短語構(gòu)成了句子的主要短語信息，因此根據(jù)這4 種基本短語規(guī)則組成方式作為第一層語料過濾器的模式匹配規(guī)則。通過輸入短語規(guī)則組成的正則表達(dá)式，建立了相對(duì)應(yīng)的第一層語料過濾器的短語抽取確定性有限狀態(tài)自動(dòng)機(jī)(Deterministic Finite Automaton，DFA)，進(jìn)而作為具體的算法處理來得到初步的短語篩選結(jié)果，這部分短語篩選結(jié)果將作為第二層語料過濾器的輸入樣本。

3)第二層過濾器處理階段。第二層語料過濾器是基于詞語串頻的統(tǒng)計(jì)分析而建立的。詞語串頻信息是在測(cè)試樣本中指前后2 個(gè)詞同時(shí)出現(xiàn)的頻次，同時(shí)包括2 個(gè)詞語的字符內(nèi)容以及位置信息。由于第一層過濾器是基于短語本質(zhì)的規(guī)則組成方式而建立，其抽取出來的短語結(jié)果中有部分顯然不是實(shí)際的短語，會(huì)出現(xiàn)信息冗余或者信息截?cái)嗟默F(xiàn)象。因此，針對(duì)包含了大量固定短語搭配的專有語料，分析詞語串頻次的信息來獲取其中固定短語串的詞語組成方式。在對(duì)所有初次篩選過后的短語結(jié)果中，以詞語為單位來統(tǒng)計(jì)詞語串頻信息，然后在短語結(jié)果中選取候選種子詞，并從最基本的候選種子詞出發(fā)，從前向和后向2 個(gè)方向進(jìn)行短語擴(kuò)展，其擴(kuò)展的主要判斷依據(jù)也是依賴詞語串頻信息。當(dāng)短語擴(kuò)展達(dá)到了擴(kuò)展的終止條件，則停止擴(kuò)展步驟，獲取最終的短語抽取結(jié)果。

3 第一層語料過濾器——詞性過濾器

第一層語料過濾器是從短語結(jié)構(gòu)構(gòu)成的詞性角度出發(fā)，采用正則表達(dá)式的規(guī)則來進(jìn)行數(shù)學(xué)模型描述。詞性過濾器的設(shè)計(jì)是通過DFA 的處理來進(jìn)行實(shí)現(xiàn)。

3.1 基于詞性的正則表達(dá)式匹配

筆者從搜狗實(shí)驗(yàn)室下載了100 篇較短的新聞?wù)Z料文章，其中包含的句子數(shù)目為1 610 個(gè)，從中標(biāo)注了句子的短語數(shù)目，進(jìn)行統(tǒng)計(jì)分析，中文短語的含詞量基本分布在1～7 個(gè)，因此以7 個(gè)詞語作為短語長度的上限，見圖2。

圖2 搜狗新聞?wù)Z料含詞量占比

對(duì)其中的語料短語進(jìn)行結(jié)構(gòu)上的分析，短語的詞性包括4 種詞語詞性:名詞n、動(dòng)詞v、形容詞adj 和副詞adv。參考目前的中文漢語語法，用于表達(dá)中文語義的短語類型主要分類如下:

1)并列短語。地位平等，互不修飾，其形式包括:n+n/v+v/adj+adj/adv+adv。

2)偏正短語。前一個(gè)詞語對(duì)后一個(gè)詞語進(jìn)行修飾限制，其形式包括:adj+n/adv+adj/adv+v。

3)動(dòng)賓短語。動(dòng)詞和賓語是支配關(guān)系，其形式包括:v+n/v+v/v+adj。

4)主謂結(jié)構(gòu)。形式包括:n+v/n+adj。

正則表達(dá)式(Regular Expressions)的本質(zhì)核心是通過字符的格式匹配來進(jìn)行詞法分析。目前已經(jīng)被ISO 國際標(biāo)準(zhǔn)組織批準(zhǔn)認(rèn)定，已經(jīng)廣泛應(yīng)用到信息技術(shù)領(lǐng)域，許多計(jì)算機(jī)應(yīng)用平臺(tái)和腳本語言支持正則表達(dá)式的詞法規(guī)則?；谏鲜鲋形亩陶Z的長度上限為7個(gè)詞語，根據(jù)短語結(jié)構(gòu)的詞性組成內(nèi)容，在短長度內(nèi)能夠枚舉相對(duì)可能出現(xiàn)的詞性短語組成的正則表達(dá)式:

1)以名詞作為短語首詞:

2)以動(dòng)詞作為短語首詞:

3)以形容詞作為短語首詞:

4)以副詞作為短語首詞:

以上基本包含了7 個(gè)或7 個(gè)詞語長度以下的短語結(jié)構(gòu)的組成方式，通過3.2 節(jié)中的DFA 處理和代碼實(shí)現(xiàn)來獲取初步的短語抽取結(jié)果。

3.2 基于詞性的正則表達(dá)式匹配

基于3.1 節(jié)所列舉的基于詞性的正則表達(dá)式，設(shè)計(jì)確定性有限狀態(tài)自動(dòng)機(jī)來進(jìn)行短語的抽取。圖3～圖6 分別為以不同詞性(n，v，adj，adv)為開頭的DFA 匹配處理過程。

圖3 以名詞n 為開始的有限狀態(tài)自動(dòng)機(jī)

圖4 以動(dòng)詞v 為開始的有限狀態(tài)自動(dòng)機(jī)

其中，在以上確定性有限狀態(tài)自動(dòng)機(jī)的狀態(tài)中的轉(zhuǎn)移條件如下:

1)n:匹配到名詞n。

2)v:匹配到動(dòng)詞v。

3)adj:匹配到形容詞adj。

4)adv:匹配到副詞adv。

5)c1:匹配到除了adv 和v 以外的詞。

6)c2:匹配到除了n、v、adj 和adv 以外的詞。

7)c3:匹配到除了adj 和n 以外的詞。

圖5 以形容詞adj 為開始的有限狀態(tài)自動(dòng)機(jī)

圖6 以副詞adv 為開始的有限狀態(tài)自動(dòng)機(jī)

在代碼實(shí)現(xiàn)中，采用DFA 作為短語文本匹配的主要實(shí)現(xiàn)方式，并得到最初的短語抽取實(shí)驗(yàn)結(jié)果。由于在進(jìn)行詞性規(guī)則匹配的過程中，詞語的詞性有限并且可枚舉，其狀態(tài)轉(zhuǎn)移條件相對(duì)簡單，使用DFA 能夠直觀地表示整個(gè)詞性規(guī)則匹配的過程。同時(shí)DFA 也具有良好的擴(kuò)展性，例如在進(jìn)行詞性規(guī)則重構(gòu)時(shí)出現(xiàn)了另外的詞性需要處理(介詞、代詞等)，只需要在原有的DFA 基礎(chǔ)上增加狀態(tài)轉(zhuǎn)移條件即可完成擴(kuò)展。

4 第二層語料過濾器——短語擴(kuò)展過濾器

4.1 詞語串頻信息統(tǒng)計(jì)

詞語串頻信息包括前綴詞語串頻集合和后綴詞語串頻集合。前綴詞語串頻集合是指候選種子詞的前綴詞語所組成的集合，包括前綴詞語的詞語內(nèi)容以及出現(xiàn)頻次。本文用數(shù)學(xué)集合進(jìn)行表示，對(duì)于某一種子詞t，前綴詞語串頻集合p_set(prefix-set)定義如下:

其中，pwi是第i 個(gè)前綴詞，pfi是第i 個(gè)前綴詞出現(xiàn)的頻次。

類似地，后綴詞語串頻集合是指候選種子詞的后綴詞語所組成的集合，也包含了詞語的詞語內(nèi)容以及出現(xiàn)頻次。對(duì)于某一種子詞t，后綴詞語串頻集合s_set(suffix-set)定義如下:

其中，swi是第i 個(gè)后綴詞，sfi是第i 個(gè)后綴詞出現(xiàn)的頻次。

對(duì)于種子詞，最頻繁前綴詞是前綴詞語集合中頻次最高的前綴詞，最頻繁后綴詞是后綴詞語集合中頻次最高的后綴詞。其定義分別如下:

前綴詞最高頻比max_p_freqt是最頻繁前綴詞的頻次與所有前綴詞頻次求和的比率。

后綴詞最高頻比max_s_freqt是最頻繁后綴詞的頻次與所有后綴詞頻次求和的比率。

針對(duì)目前熱門詞“股市”在網(wǎng)絡(luò)上進(jìn)行搜索，摘錄了一些句子文本集合進(jìn)行舉例說明。

1)安本亞洲高管周二警告稱，中國股市資金流動(dòng)情況已經(jīng)“有點(diǎn)像賭場”。

2)因全球股市上漲和美元走堅(jiān)，打擊了黃金作為避險(xiǎn)資產(chǎn)的魅力。

3)股市市場是已經(jīng)發(fā)行的股票轉(zhuǎn)讓、買賣和流通的場所，包括交易所市場和場外交易市場2 大類別。

4)繁榮股市幫助實(shí)體經(jīng)濟(jì)擴(kuò)大股權(quán)融資、降低過高負(fù)債、減少財(cái)務(wù)成本創(chuàng)造了條件。

5)比如，16 日中國股市上漲，創(chuàng)5 年來的新高，就在于市場預(yù)期央行降準(zhǔn)降息會(huì)陸續(xù)出臺(tái)。

6)在其看來，股市上漲的根本原因是均值回歸。

7)近日有一種觀點(diǎn)認(rèn)為，股市上漲與樓市低迷是密不可分的，是樓市釋放了大量資金，提供了強(qiáng)有力的貨幣基礎(chǔ)。

8)股市行情大盤指數(shù)飆高，同時(shí)余額寶收益受影響。

9)GDP 在增長，卻導(dǎo)致股市低迷。

通過對(duì)文本集合進(jìn)行分詞并統(tǒng)計(jì)詞語串頻信息，候選種子詞“股市”的詞語串頻信息如下(見圖7):

圖7 基于種子詞“股市”的前綴詞語串頻集合和后綴詞語串頻集合

4.2 詞語串頻信息參數(shù)分析

前綴詞語串頻集合p_set 和后綴詞語串頻集合s_set 包含了種子詞在上下文中的詞語串共現(xiàn)的信息。p_set 和s_set 的集合越大，表示該種子詞越容易和其他詞語進(jìn)行組合，從而完成詞語的擴(kuò)展。然而對(duì)于文本的大規(guī)模統(tǒng)計(jì)分析而言，p_set 和s_set 中每個(gè)前綴詞語或者后綴詞語相對(duì)應(yīng)的頻次pf 和sf 大小決定了該前綴詞語或者后綴詞語是否會(huì)成為種子詞擴(kuò)展。本文定義一個(gè)閾值thresholdt來進(jìn)行pf 和sf 的對(duì)比，當(dāng)pf 和sf 的值高于閾值threshold，則判斷前綴詞語或者后綴詞語符合短語擴(kuò)展的條件從而進(jìn)行短語擴(kuò)展。假設(shè)qi，t為布爾變量對(duì)應(yīng)于某個(gè)前綴或后綴詞語能否作為種子詞t 的擴(kuò)展詞來進(jìn)行短語擴(kuò)展，那么:

因此對(duì)于4.1 節(jié)的例子，當(dāng)threshold=2 時(shí)，那么“股市”作為其種子詞將會(huì)在文本1)中擴(kuò)展為“中國股市”，在文本2)、6)、7)中將擴(kuò)展為“股市上漲”，在文本5)中將擴(kuò)展為“中國股市上漲”。然而當(dāng)threshold=4 時(shí)，“股市”作為其種子詞只能擴(kuò)展為在文本2)、5)～7)中擴(kuò)展成為“股市上漲”。

4.3 候選種子詞選取與短語擴(kuò)展

基于4.2 節(jié)對(duì)于種子詞的分析，p_set 和s_set 的集合大小越大越容易成為種子詞。單純計(jì)算p_set和s_set 的集合元素的個(gè)數(shù)進(jìn)行求和是有所欠缺考慮的。

假設(shè)某種子詞p 的p_set 元素個(gè)數(shù)為10，s_set 的元素個(gè)數(shù)為2，其元素個(gè)數(shù)總和為12。然而同一短語中的另外一個(gè)種子詞q 的s_set 元素個(gè)數(shù)為5，s_set的元素個(gè)數(shù)為2，其元素個(gè)數(shù)總和為7。直觀而言，在集合元素大小的比較中，種子詞q 與種子詞p 相比處于劣勢(shì)。從詞語擴(kuò)展性的角度而言，種子詞p 很有可能作為其他詞語的后綴詞而出現(xiàn)(因?yàn)槠鋚_set 的元素個(gè)數(shù)遠(yuǎn)遠(yuǎn)大于s_set 的個(gè)數(shù))，其后綴擴(kuò)展性比較差，而種子詞q 的p_set 與s_set 的元素個(gè)數(shù)相當(dāng)，因此種子詞q 容易作為文本短語中位置處于中心的詞，起著聯(lián)系前后的作用。因此在候選種子詞的選擇上，仿照笛卡兒乘積的思想，選取p_set 和s_set 的集合元素的個(gè)數(shù)分別加上1，再進(jìn)行乘積計(jì)算作為判斷依據(jù)，用candidate-value 表示:

2 個(gè)乘數(shù)之所以要加上1，主要是避免某些詞語的p_set 或者s_set 中元素個(gè)數(shù)為0 直接導(dǎo)致其candidate-value 的值為0，但是實(shí)際上該詞語在進(jìn)行候選種子詞時(shí)依然有其貢獻(xiàn)度。

假設(shè)seed_word 是所需尋找的候選種子詞用于擴(kuò)展，{t1，t2，...，tn}是短語中的詞語集合，那么:

在選取種子詞后就能夠?qū)Χ陶Z進(jìn)行擴(kuò)展，因此其主要的第二層語料過濾器的流程步驟如下:

1)輸入中間短語結(jié)果。

2)遍歷短語中每一個(gè)詞，統(tǒng)計(jì)每個(gè)詞語的詞語串頻信息，包括得到p_set 和s_set，max_pw，max_p_freq，max_sw，max_s_freq。

3)根據(jù)公式(10)選取候選種子詞。

4)進(jìn)行并行操作:向前進(jìn)行短語擴(kuò)展和向后進(jìn)行短語擴(kuò)展。在擴(kuò)展的過程中，如果達(dá)到短語的擴(kuò)展邊界則認(rèn)為達(dá)到擴(kuò)展終止條件，或者當(dāng)找不到前綴詞或者后綴詞作為新的擴(kuò)展種子詞時(shí)則停止擴(kuò)展。

5)輸出短語抽取結(jié)果。

第二層語料過濾器的流程步驟如圖8 所示。

圖8 第二層語料過濾器的流程步驟

第二層語料過濾器的偽代碼如下:

算法1 第二層語料過濾器算法描述

5 實(shí)驗(yàn)與計(jì)算結(jié)果

本文根據(jù)第一層語料過濾器設(shè)計(jì)了DFA 進(jìn)行初步的短語抽取，同時(shí)根據(jù)算法1 設(shè)計(jì)第二層語料過濾器，并對(duì)目前已有的文本數(shù)據(jù)資源進(jìn)行實(shí)驗(yàn)結(jié)果分析。算法采用Java 語言編寫實(shí)現(xiàn)。

本實(shí)驗(yàn)運(yùn)行在CPU 為Intel(R)Core(TM)i5-3210M，內(nèi)存為DDR3 1333，4 GB，顯卡為NVIDIA Ge-Force GT 540M，硬盤容量為500GB，操作系統(tǒng)為Window 7 x64 的機(jī)器上(見表1)。

表1 軟硬件系統(tǒng)環(huán)境

該文本數(shù)據(jù)資源來源于廣東移動(dòng)公司的投訴文本記錄(已經(jīng)對(duì)移動(dòng)客戶的私隱信息進(jìn)行消除)，抽取了其中500 條投訴文本記錄，并逐條擬定其關(guān)鍵短語并進(jìn)行實(shí)驗(yàn)對(duì)比。該500 條投訴文本記錄分成10組進(jìn)行測(cè)試。平均每條投訴文本記錄的長度為51.7個(gè)漢語字符。

采用準(zhǔn)確率、召回率來評(píng)價(jià)實(shí)驗(yàn)的結(jié)果，定義如下:

其中，{result_phrase}是自動(dòng)抽取的關(guān)鍵短語結(jié)果，{tag_phrase}是筆者擬定的關(guān)鍵短語結(jié)果。

表2 是基于實(shí)驗(yàn)結(jié)果的數(shù)據(jù)，圖9～圖11 是實(shí)驗(yàn)的P 值、R 值、F1 值曲線圖。

表2 基于10 個(gè)結(jié)果測(cè)試集的P 值、R 值、F1 值

圖9 基于10 組結(jié)果測(cè)試集的P 值曲線圖

圖10 基于10 組結(jié)果測(cè)試集的R 值曲線圖

圖11 基于10 組結(jié)果測(cè)試集的F1 值曲線圖

從實(shí)驗(yàn)結(jié)果來看，雙層語料過濾器在查全率的效果比較優(yōu)異，R 值基本上都位于0.8 以上(除了第6組測(cè)試數(shù)據(jù)比較低)，這說明抽取出來的短語集合里包含了大多數(shù)預(yù)期中的短語。

P 值基本在0.4～0.6 之間波動(dòng)，主要原因是在文本中會(huì)出現(xiàn)一些修飾意義比較高的短語成分，這些成分對(duì)于文本的表達(dá)起著補(bǔ)充的作用，但并非文本的主旨意思。然而雙層語料過濾器也會(huì)把這些修飾的短語提取出來，如何進(jìn)一步通過語義的方法把這些噪聲信息剔除出去是值得研究的改進(jìn)之處。

雙層語料過濾器目前只考慮了4 種詞性的規(guī)則關(guān)系，具有較強(qiáng)的擴(kuò)展性。對(duì)于不同的文檔數(shù)據(jù)集，通過分析文本數(shù)據(jù)詞性規(guī)則還能夠加入其他詞性的詞語進(jìn)行規(guī)則重構(gòu)，進(jìn)一步提高P 值以及F1 值。

6 結(jié)束語

本文首先對(duì)目前在文本信息抽取研究領(lǐng)域進(jìn)行了介紹和分析，梳理了目前技術(shù)發(fā)展的主流趨勢(shì)以及遇到的瓶頸問題，并基于中文短語串在文本主題語義表達(dá)上的優(yōu)勢(shì)，論證了短語串在細(xì)粒度主題抽取方面的重要性，為下一步對(duì)文本片段的信息抽取奠定了一定的基礎(chǔ)。從語料知識(shí)的通用性和專有性2 方面出發(fā)，設(shè)計(jì)了雙層的語料過濾器。第一層語料過濾器是從通用的語料詞性規(guī)則組成出發(fā)，研究了最為常見的短語搭配形式，枚舉所有可能的詞性組成規(guī)則，通過分詞后對(duì)文本片段進(jìn)行詞性分析處理，過濾掉規(guī)則以外的冗余信息。第二層語料過濾器是從語料知識(shí)的統(tǒng)計(jì)出發(fā)，研究了某一專有語料知識(shí)在短語構(gòu)成中特有的短語規(guī)則組成形式，在第一層語料過濾器的結(jié)果的基礎(chǔ)上選取候選詞進(jìn)行短語擴(kuò)展，直至滿足擴(kuò)展終止條件，最終完成短語抽取。雙層語料過濾器不需要對(duì)語料樣本進(jìn)行先行的知識(shí)庫輸入或者詞性語義的模型建立，通用性較強(qiáng)。隨著語料樣本的規(guī)模擴(kuò)大，語料過濾器的短語抽取效果會(huì)更好。

［1］中國互聯(lián)網(wǎng)絡(luò)信息中心.第35 次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告［DB/OL］.http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/201502/P020150203551802054676.pdf，2015-03-26.

［2］魯明羽，姚曉娜，魏善嶺.基于模糊聚類的網(wǎng)絡(luò)論壇熱點(diǎn)話題挖掘［J］.大連海事大學(xué)學(xué)報(bào)(自然科學(xué)版)，2008，34(4):52-54.

［3］Sahami Mehran，Heilman Timothy D.A Web-based kernel function for measuring the similarity of short text snippets［C］// Proceedings of ACM the 15th International Conference on World Wide Web.2006:377-386.

［4］Metaler D，Dumais S，Meek C.Similarity measures for short segments of text［C］// European Colloquium on IR Research-ECIR.2007:16-27.

［5］Yih W，Meek C.Improving similarity measures for short segments of text［C］// National Conference on Artificial Intelligence-AAAI.2007:1489-1494.

［6］Phan Xuan-Hieu，Nguyen Le-Minh，Horiguchi Susumu.Learning to classify short and sparse Text＆Web with hidden topics from large-scale data collections［C］// World Wide Web Conference Series-WWW.2008:91-100.

［7］Tantanasiriwong Supaporn，Haruechaiyasak Choochart，Guha Sumanta.A comparative study of key phrase extraction for cross-domain document collections［C］// The 16th International Conference on Asia-Pacific Digital Libraries.2014:393-398.

［8］Liu Dacheng，Peng Zhiyong，Liu Bin，et al.Technology effect phrase extraction in Chinese patent abstracts［C］//Web Technologies and Applications，Lecture Notes in Computer Science.2014，8709:141-152.

［9］Bharti Kusum Kumari，Singh Pramod Kumar.Hybrid dimension reduction by integrating feature selection with feature extraction method for text clustering［J］.Expert Systems with Applications，2015，42(6):3105-3114.

［10］吳薇.大規(guī)模短文本的分類過濾方法研究［D］.北京:北京郵電大學(xué)，2007.

［11］王鵬.文本分類中利用依存關(guān)系的實(shí)驗(yàn)研究［J］.計(jì)算機(jī)工程，2010，46(3):131-133.

［12］王細(xì)薇.基于特征擴(kuò)展的中文短文本分類方法［J］.計(jì)算機(jī)應(yīng)用，2009，29(3):843-845.

［13］胡吉祥.基于頻繁模式的消息文本聚類研究［D］.北京:中科院研究生院，2006.

［14］寧亞輝.基于領(lǐng)域詞語本體的短文本分類［J］.計(jì)算機(jī)科學(xué)，2009，36(3):142-145.

［15］盛宇利.自然語言理解心理學(xué)在短文本分類中的實(shí)證研究［J］.現(xiàn)代情報(bào)，2009，29(8):4-7.

［16］桂卓民.基于事件的多文檔自動(dòng)文摘系統(tǒng)的研究［D］.武漢:華中師范大學(xué)，2010.

［17］馮琴榮，苗奪謙，程昳.決策表屬性約簡的相對(duì)劃分粒度表示［J］.小型微型計(jì)算機(jī)系統(tǒng)，2008，29(12):2305-2308.