亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙層語料過濾器的短語抽取方法

        2015-11-25 03:00:48林偉佳郭靖羽丁東輝
        計(jì)算機(jī)與現(xiàn)代化 2015年12期
        關(guān)鍵詞:后綴過濾器語料

        林 波,林偉佳,郭靖羽,丁東輝,黃 翰

        (1.中國移動(dòng)通信集團(tuán)廣東有限公司,廣東 廣州 510006;2.華南理工大學(xué)軟件學(xué)院,廣東 廣州 510006)

        0 引言

        互聯(lián)網(wǎng)在給予人們豐富信息的過程中,也給予人們急切獲取第一手重要熱點(diǎn)信息帶來的困擾。在信息爆炸的時(shí)代,人們被動(dòng)地接受大量無效的垃圾信息,也花費(fèi)大量的時(shí)間和精力去尋找關(guān)注感興趣的網(wǎng)絡(luò)話題[1-2]。盡管目前的搜索引擎能在一定程度上引導(dǎo)用戶去獲取特定的信息,針對(duì)時(shí)效性較高的網(wǎng)絡(luò)話題,還是無法提供較為深入的隱含話題信息挖掘以及話題跟蹤的統(tǒng)計(jì)顯示。人們迫切需要在網(wǎng)絡(luò)信息搜索方面能提供較為全面的網(wǎng)絡(luò)話題挖掘與跟蹤的服務(wù),能夠無論從時(shí)間線或者熱門程度方面都能有直觀的話題信息演化過程。人們不僅需要獲知網(wǎng)絡(luò)話題所涉及的概括性描述,也希望從中獲知其他人針對(duì)該話題的具體細(xì)節(jié)評(píng)價(jià)和討論。

        國外針對(duì)短文本的提取已經(jīng)有很多指導(dǎo)性工作。例如Mehran Sahami[3]等采用以Web 語義核函數(shù)為基礎(chǔ)方法來抽取概念類似的短語,應(yīng)用于文檔的信息語義概括。D.Metaler[4]等從相似性的度量角度來挖掘發(fā)現(xiàn)短文本之間的關(guān)聯(lián)程度。W.Yih[5]等通過對(duì)前人的工作進(jìn)行方法完善,結(jié)合當(dāng)時(shí)Web 的發(fā)展趨勢(shì)適時(shí)擴(kuò)展Web 語義核函數(shù),深化了語義核函數(shù)的影響。Xuan-Hieu Phan[6]等人為了解決短文本的稀疏性問題,嘗試性地提供采用隱匿的文檔主題來建立較為廣泛的模型架構(gòu)。J.Hyneck 擴(kuò)展了Apriori 的詞集分類方法,并應(yīng)用于文獻(xiàn)的文檔分類工作中。D.Song 以領(lǐng)域知識(shí)庫的建立作為基本出發(fā)點(diǎn),通過采集消息流和研究并預(yù)測(cè)其趨向來對(duì)短文本實(shí)現(xiàn)分類工作。S.Tant[7]等結(jié)合專利知識(shí)數(shù)據(jù)以及術(shù)語庫來進(jìn)行跨領(lǐng)域的術(shù)語提取。Dacheng Liu[8]等提出半自動(dòng)的語料分割器針對(duì)專利知識(shí)數(shù)據(jù)進(jìn)行專利術(shù)語的信息抽取。K.K.Bharti[9]等通過對(duì)文本不同維度的特征重要度進(jìn)行排序,提出混合維度的文本特征選擇方法來改進(jìn)文本特征表示。

        由于中文漢字的復(fù)雜性以及前期缺乏相關(guān)研究,學(xué)者未針對(duì)短文本進(jìn)行系統(tǒng)分析,國內(nèi)針對(duì)短文本的研究相對(duì)比較晚,其研究方向基本可以分為2 類:

        1)基于詞語規(guī)則的方法?;谠~語規(guī)則方法本質(zhì)是總結(jié)并分析不同詞語之間相互關(guān)系來進(jìn)行規(guī)則歸納,并對(duì)待處理文本執(zhí)行后續(xù)工作。例如吳薇[10]利用正則表達(dá)式規(guī)則初始化步驟來對(duì)海量文本實(shí)現(xiàn)規(guī)則過濾。王鵬[11]使用詞語之間的依存關(guān)聯(lián)來進(jìn)行詞語的提煉,進(jìn)而擴(kuò)充文本的基本維度屬性。王細(xì)薇[12]首先對(duì)短文本抽象概念詞進(jìn)行統(tǒng)計(jì),然后使用詞語的關(guān)聯(lián)關(guān)系對(duì)候選詞實(shí)現(xiàn)表征擴(kuò)充。胡吉祥[13]基于短文本中詞頻或短語串頻的統(tǒng)計(jì)信息來進(jìn)行細(xì)粒度信息的提取以及特征表示。

        2)基于文本語義的規(guī)則方法?;谡Z義方法本質(zhì)是搜索通用知識(shí)庫來進(jìn)行文本語義信息的抽取。如寧亞輝[14]首先利用《知網(wǎng)》來獲取不同層次的基礎(chǔ)詞匯本體,在這些候選種子詞的基礎(chǔ)上采用中心鄰近的分類方法。盛宇利[15]基于“熟悉原理”、“典型原理”的心理認(rèn)知學(xué)知識(shí)對(duì)文本進(jìn)行初步的預(yù)處理,包括引入白名單詞庫以及典型詞庫來進(jìn)行分詞,提高詞語的辨別準(zhǔn)確度。王永恒利用詞語語義特征構(gòu)建了特征網(wǎng)絡(luò)圖,然后通過描述網(wǎng)絡(luò)圖的中心鄰近程度來實(shí)現(xiàn)分類。

        本文以文本短語為基本語義信息單位,針對(duì)中文短語抽取進(jìn)行研究,提出基于雙層語料過濾器(詞性過濾器與短語擴(kuò)展規(guī)則過濾器)的方法來進(jìn)行文本語料的冗余信息過濾,并抽取文本主題短語信息。其中詞性過濾器從通用的中文本質(zhì)的詞性規(guī)則出發(fā)來進(jìn)行初步候選短語過濾,短語擴(kuò)展規(guī)則過濾器從特點(diǎn)語料知識(shí)的統(tǒng)計(jì)分析規(guī)則來進(jìn)行二次過濾。

        1 短語串的語義表達(dá)優(yōu)勢(shì)

        從中文的自然語言角度分析,漢語的語言結(jié)構(gòu)的語義表達(dá)單元為:漢字-詞匯-短語-句子-段落-文檔[16]。其語義單元的級(jí)別越高,其包含的信息量也越多。由于漢語本身并非只有漢字的語義信息進(jìn)行拼接,其信息內(nèi)容本身存在上下文關(guān)系,因此隨著語義表達(dá)單元包含的基本語素(漢字)單元數(shù)目增加,其信息內(nèi)容的豐富程度遠(yuǎn)超于線性增長,其信息粒度也是隨著層次的增加而逐步增大[17]。在日常的人類社會(huì)中,句子是作為常見的溝通交流的語義表達(dá)單元,能夠清晰傳遞信息。句子盡管可作為基本的信息載體單元,但由于句子受限于客觀的語法結(jié)構(gòu),其中也包含了大量冗余的無價(jià)值信息。其語義表達(dá)不夠簡練,人們理解句子的語義也是需要無意識(shí)地快速篩選出句子的主干意思來進(jìn)行消息接收。

        本文考慮采用相比句子較低層次的短語來作為語義表達(dá)單元。中文短語串相對(duì)于句子而言也有類似的詞法結(jié)構(gòu)(主謂結(jié)構(gòu)、動(dòng)賓結(jié)構(gòu)等),在語義表達(dá)方面滿足最基本的要求。中文短語串相對(duì)于低層次級(jí)別的詞匯,其信息豐富量更多,短語串中的詞匯間通過特定的組合搭配結(jié)構(gòu),能夠表達(dá)出遠(yuǎn)多于純粹詞匯之間拼湊而成的信息。

        目前在文本特征表示步驟中,詞匯作為文檔的特征項(xiàng)實(shí)際上僅僅作為一個(gè)標(biāo)簽屬性值的形式存在,詞匯自身并沒有為特征表征提供更多的語義信息。然而通過短語抽取,在文本特征表達(dá)的同時(shí)還可以直觀地理解文本的語義含義。在探索和挖掘中文短語結(jié)構(gòu)組成的同時(shí),有助于對(duì)中文自然語言處理研究提供可參考性的意見。

        2 雙層語料過濾器的主要思想

        語料過濾器主要是基于中文短語本質(zhì)的詞性規(guī)則組成方式和基于統(tǒng)計(jì)分析理論來進(jìn)行設(shè)計(jì)。

        1)從詞性規(guī)則組成方式:適用于大多數(shù)符合中文詞法語法規(guī)則的中文短語,具有一般普遍性。

        2)從統(tǒng)計(jì)分析理論出發(fā):適用于針對(duì)某一類專有知識(shí)資料的語料過濾。由于針對(duì)特定某類的專有知識(shí)的短語特征較為明顯,許多詞語形成固定的短語搭配,容易從統(tǒng)計(jì)角度來獲取詞語之間的基于前后位置的頻次關(guān)聯(lián)關(guān)系。

        圖1 短語抽取方法的主要處理步驟流程

        短語抽取方法的主要處理流程步驟(見圖1):

        1)預(yù)處理階段。在預(yù)處理階段主要包括了常規(guī)的文本分析的預(yù)處理步驟,包括中文分詞、停用詞處理和詞性標(biāo)注。針對(duì)本文需要處理的文本語料由于其專有性比較強(qiáng),語料中存在大量的專有名詞,因此引入另外的擴(kuò)展詞庫來提高中文分詞的準(zhǔn)確度和精度,擴(kuò)展詞庫可不斷進(jìn)行知識(shí)術(shù)語關(guān)鍵詞的存儲(chǔ)和更新維護(hù)。

        2)第一層過濾器處理階段。第一層語料過濾器的輸入文本是基于結(jié)構(gòu)化的文本集合,該文本集合由最基本的中文詞語所構(gòu)成,每個(gè)詞語都已經(jīng)標(biāo)注了詞性。其中由于并非所有詞性的詞都能構(gòu)成句子的細(xì)粒度短語,因此重點(diǎn)研究其中的名詞、形容詞、動(dòng)詞和副詞4 種詞性的詞語,并根據(jù)中文的短語語法知識(shí)歸納出這4 種詞性短語所構(gòu)成的所有可能形式。從短語的結(jié)構(gòu)考查分析,其中并列短語、偏正短語、動(dòng)賓短語、主謂短語構(gòu)成了句子的主要短語信息,因此根據(jù)這4 種基本短語規(guī)則組成方式作為第一層語料過濾器的模式匹配規(guī)則。通過輸入短語規(guī)則組成的正則表達(dá)式,建立了相對(duì)應(yīng)的第一層語料過濾器的短語抽取確定性有限狀態(tài)自動(dòng)機(jī)(Deterministic Finite Automaton,DFA),進(jìn)而作為具體的算法處理來得到初步的短語篩選結(jié)果,這部分短語篩選結(jié)果將作為第二層語料過濾器的輸入樣本。

        3)第二層過濾器處理階段。第二層語料過濾器是基于詞語串頻的統(tǒng)計(jì)分析而建立的。詞語串頻信息是在測(cè)試樣本中指前后2 個(gè)詞同時(shí)出現(xiàn)的頻次,同時(shí)包括2 個(gè)詞語的字符內(nèi)容以及位置信息。由于第一層過濾器是基于短語本質(zhì)的規(guī)則組成方式而建立,其抽取出來的短語結(jié)果中有部分顯然不是實(shí)際的短語,會(huì)出現(xiàn)信息冗余或者信息截?cái)嗟默F(xiàn)象。因此,針對(duì)包含了大量固定短語搭配的專有語料,分析詞語串頻次的信息來獲取其中固定短語串的詞語組成方式。在對(duì)所有初次篩選過后的短語結(jié)果中,以詞語為單位來統(tǒng)計(jì)詞語串頻信息,然后在短語結(jié)果中選取候選種子詞,并從最基本的候選種子詞出發(fā),從前向和后向2 個(gè)方向進(jìn)行短語擴(kuò)展,其擴(kuò)展的主要判斷依據(jù)也是依賴詞語串頻信息。當(dāng)短語擴(kuò)展達(dá)到了擴(kuò)展的終止條件,則停止擴(kuò)展步驟,獲取最終的短語抽取結(jié)果。

        3 第一層語料過濾器——詞性過濾器

        第一層語料過濾器是從短語結(jié)構(gòu)構(gòu)成的詞性角度出發(fā),采用正則表達(dá)式的規(guī)則來進(jìn)行數(shù)學(xué)模型描述。詞性過濾器的設(shè)計(jì)是通過DFA 的處理來進(jìn)行實(shí)現(xiàn)。

        3.1 基于詞性的正則表達(dá)式匹配

        筆者從搜狗實(shí)驗(yàn)室下載了100 篇較短的新聞?wù)Z料文章,其中包含的句子數(shù)目為1 610 個(gè),從中標(biāo)注了句子的短語數(shù)目,進(jìn)行統(tǒng)計(jì)分析,中文短語的含詞量基本分布在1~7 個(gè),因此以7 個(gè)詞語作為短語長度的上限,見圖2。

        圖2 搜狗新聞?wù)Z料含詞量占比

        對(duì)其中的語料短語進(jìn)行結(jié)構(gòu)上的分析,短語的詞性包括4 種詞語詞性:名詞n、動(dòng)詞v、形容詞adj 和副詞adv。參考目前的中文漢語語法,用于表達(dá)中文語義的短語類型主要分類如下:

        1)并列短語。地位平等,互不修飾,其形式包括:n+n/v+v/adj+adj/adv+adv。

        2)偏正短語。前一個(gè)詞語對(duì)后一個(gè)詞語進(jìn)行修飾限制,其形式包括:adj+n/adv+adj/adv+v。

        3)動(dòng)賓短語。動(dòng)詞和賓語是支配關(guān)系,其形式包括:v+n/v+v/v+adj。

        4)主謂結(jié)構(gòu)。形式包括:n+v/n+adj。

        正則表達(dá)式(Regular Expressions)的本質(zhì)核心是通過字符的格式匹配來進(jìn)行詞法分析。目前已經(jīng)被ISO 國際標(biāo)準(zhǔn)組織批準(zhǔn)認(rèn)定,已經(jīng)廣泛應(yīng)用到信息技術(shù)領(lǐng)域,許多計(jì)算機(jī)應(yīng)用平臺(tái)和腳本語言支持正則表達(dá)式的詞法規(guī)則?;谏鲜鲋形亩陶Z的長度上限為7個(gè)詞語,根據(jù)短語結(jié)構(gòu)的詞性組成內(nèi)容,在短長度內(nèi)能夠枚舉相對(duì)可能出現(xiàn)的詞性短語組成的正則表達(dá)式:

        1)以名詞作為短語首詞:

        2)以動(dòng)詞作為短語首詞:

        3)以形容詞作為短語首詞:

        4)以副詞作為短語首詞:

        以上基本包含了7 個(gè)或7 個(gè)詞語長度以下的短語結(jié)構(gòu)的組成方式,通過3.2 節(jié)中的DFA 處理和代碼實(shí)現(xiàn)來獲取初步的短語抽取結(jié)果。

        3.2 基于詞性的正則表達(dá)式匹配

        基于3.1 節(jié)所列舉的基于詞性的正則表達(dá)式,設(shè)計(jì)確定性有限狀態(tài)自動(dòng)機(jī)來進(jìn)行短語的抽取。圖3~圖6 分別為以不同詞性(n,v,adj,adv)為開頭的DFA 匹配處理過程。

        圖3 以名詞n 為開始的有限狀態(tài)自動(dòng)機(jī)

        圖4 以動(dòng)詞v 為開始的有限狀態(tài)自動(dòng)機(jī)

        其中,在以上確定性有限狀態(tài)自動(dòng)機(jī)的狀態(tài)中的轉(zhuǎn)移條件如下:

        1)n:匹配到名詞n。

        2)v:匹配到動(dòng)詞v。

        3)adj:匹配到形容詞adj。

        4)adv:匹配到副詞adv。

        5)c1:匹配到除了adv 和v 以外的詞。

        6)c2:匹配到除了n、v、adj 和adv 以外的詞。

        7)c3:匹配到除了adj 和n 以外的詞。

        圖5 以形容詞adj 為開始的有限狀態(tài)自動(dòng)機(jī)

        圖6 以副詞adv 為開始的有限狀態(tài)自動(dòng)機(jī)

        在代碼實(shí)現(xiàn)中,采用DFA 作為短語文本匹配的主要實(shí)現(xiàn)方式,并得到最初的短語抽取實(shí)驗(yàn)結(jié)果。由于在進(jìn)行詞性規(guī)則匹配的過程中,詞語的詞性有限并且可枚舉,其狀態(tài)轉(zhuǎn)移條件相對(duì)簡單,使用DFA 能夠直觀地表示整個(gè)詞性規(guī)則匹配的過程。同時(shí)DFA 也具有良好的擴(kuò)展性,例如在進(jìn)行詞性規(guī)則重構(gòu)時(shí)出現(xiàn)了另外的詞性需要處理(介詞、代詞等),只需要在原有的DFA 基礎(chǔ)上增加狀態(tài)轉(zhuǎn)移條件即可完成擴(kuò)展。

        4 第二層語料過濾器——短語擴(kuò)展過濾器

        4.1 詞語串頻信息統(tǒng)計(jì)

        詞語串頻信息包括前綴詞語串頻集合和后綴詞語串頻集合。前綴詞語串頻集合是指候選種子詞的前綴詞語所組成的集合,包括前綴詞語的詞語內(nèi)容以及出現(xiàn)頻次。本文用數(shù)學(xué)集合進(jìn)行表示,對(duì)于某一種子詞t,前綴詞語串頻集合p_set(prefix-set)定義如下:

        其中,pwi是第i 個(gè)前綴詞,pfi是第i 個(gè)前綴詞出現(xiàn)的頻次。

        類似地,后綴詞語串頻集合是指候選種子詞的后綴詞語所組成的集合,也包含了詞語的詞語內(nèi)容以及出現(xiàn)頻次。對(duì)于某一種子詞t,后綴詞語串頻集合s_set(suffix-set)定義如下:

        其中,swi是第i 個(gè)后綴詞,sfi是第i 個(gè)后綴詞出現(xiàn)的頻次。

        對(duì)于種子詞,最頻繁前綴詞是前綴詞語集合中頻次最高的前綴詞,最頻繁后綴詞是后綴詞語集合中頻次最高的后綴詞。其定義分別如下:

        前綴詞最高頻比max_p_freqt是最頻繁前綴詞的頻次與所有前綴詞頻次求和的比率。

        后綴詞最高頻比max_s_freqt是最頻繁后綴詞的頻次與所有后綴詞頻次求和的比率。

        針對(duì)目前熱門詞“股市”在網(wǎng)絡(luò)上進(jìn)行搜索,摘錄了一些句子文本集合進(jìn)行舉例說明。

        1)安本亞洲高管周二警告稱,中國股市資金流動(dòng)情況已經(jīng)“有點(diǎn)像賭場”。

        2)因全球股市上漲和美元走堅(jiān),打擊了黃金作為避險(xiǎn)資產(chǎn)的魅力。

        3)股市市場是已經(jīng)發(fā)行的股票轉(zhuǎn)讓、買賣和流通的場所,包括交易所市場和場外交易市場2 大類別。

        4)繁榮股市幫助實(shí)體經(jīng)濟(jì)擴(kuò)大股權(quán)融資、降低過高負(fù)債、減少財(cái)務(wù)成本創(chuàng)造了條件。

        5)比如,16 日中國股市上漲,創(chuàng)5 年來的新高,就在于市場預(yù)期央行降準(zhǔn)降息會(huì)陸續(xù)出臺(tái)。

        6)在其看來,股市上漲的根本原因是均值回歸。

        7)近日有一種觀點(diǎn)認(rèn)為,股市上漲與樓市低迷是密不可分的,是樓市釋放了大量資金,提供了強(qiáng)有力的貨幣基礎(chǔ)。

        8)股市行情大盤指數(shù)飆高,同時(shí)余額寶收益受影響。

        9)GDP 在增長,卻導(dǎo)致股市低迷。

        通過對(duì)文本集合進(jìn)行分詞并統(tǒng)計(jì)詞語串頻信息,候選種子詞“股市”的詞語串頻信息如下(見圖7):

        圖7 基于種子詞“股市”的前綴詞語串頻集合和后綴詞語串頻集合

        4.2 詞語串頻信息參數(shù)分析

        前綴詞語串頻集合p_set 和后綴詞語串頻集合s_set 包含了種子詞在上下文中的詞語串共現(xiàn)的信息。p_set 和s_set 的集合越大,表示該種子詞越容易和其他詞語進(jìn)行組合,從而完成詞語的擴(kuò)展。然而對(duì)于文本的大規(guī)模統(tǒng)計(jì)分析而言,p_set 和s_set 中每個(gè)前綴詞語或者后綴詞語相對(duì)應(yīng)的頻次pf 和sf 大小決定了該前綴詞語或者后綴詞語是否會(huì)成為種子詞擴(kuò)展。本文定義一個(gè)閾值thresholdt來進(jìn)行pf 和sf 的對(duì)比,當(dāng)pf 和sf 的值高于閾值threshold,則判斷前綴詞語或者后綴詞語符合短語擴(kuò)展的條件從而進(jìn)行短語擴(kuò)展。假設(shè)qi,t為布爾變量對(duì)應(yīng)于某個(gè)前綴或后綴詞語能否作為種子詞t 的擴(kuò)展詞來進(jìn)行短語擴(kuò)展,那么:

        因此對(duì)于4.1 節(jié)的例子,當(dāng)threshold=2 時(shí),那么“股市”作為其種子詞將會(huì)在文本1)中擴(kuò)展為“中國股市”,在文本2)、6)、7)中將擴(kuò)展為“股市上漲”,在文本5)中將擴(kuò)展為“中國股市上漲”。然而當(dāng)threshold=4 時(shí),“股市”作為其種子詞只能擴(kuò)展為在文本2)、5)~7)中擴(kuò)展成為“股市上漲”。

        4.3 候選種子詞選取與短語擴(kuò)展

        基于4.2 節(jié)對(duì)于種子詞的分析,p_set 和s_set 的集合大小越大越容易成為種子詞。單純計(jì)算p_set和s_set 的集合元素的個(gè)數(shù)進(jìn)行求和是有所欠缺考慮的。

        假設(shè)某種子詞p 的p_set 元素個(gè)數(shù)為10,s_set 的元素個(gè)數(shù)為2,其元素個(gè)數(shù)總和為12。然而同一短語中的另外一個(gè)種子詞q 的s_set 元素個(gè)數(shù)為5,s_set的元素個(gè)數(shù)為2,其元素個(gè)數(shù)總和為7。直觀而言,在集合元素大小的比較中,種子詞q 與種子詞p 相比處于劣勢(shì)。從詞語擴(kuò)展性的角度而言,種子詞p 很有可能作為其他詞語的后綴詞而出現(xiàn)(因?yàn)槠鋚_set 的元素個(gè)數(shù)遠(yuǎn)遠(yuǎn)大于s_set 的個(gè)數(shù)),其后綴擴(kuò)展性比較差,而種子詞q 的p_set 與s_set 的元素個(gè)數(shù)相當(dāng),因此種子詞q 容易作為文本短語中位置處于中心的詞,起著聯(lián)系前后的作用。因此在候選種子詞的選擇上,仿照笛卡兒乘積的思想,選取p_set 和s_set 的集合元素的個(gè)數(shù)分別加上1,再進(jìn)行乘積計(jì)算作為判斷依據(jù),用candidate-value 表示:

        2 個(gè)乘數(shù)之所以要加上1,主要是避免某些詞語的p_set 或者s_set 中元素個(gè)數(shù)為0 直接導(dǎo)致其candidate-value 的值為0,但是實(shí)際上該詞語在進(jìn)行候選種子詞時(shí)依然有其貢獻(xiàn)度。

        假設(shè)seed_word 是所需尋找的候選種子詞用于擴(kuò)展,{t1,t2,...,tn}是短語中的詞語集合,那么:

        在選取種子詞后就能夠?qū)Χ陶Z進(jìn)行擴(kuò)展,因此其主要的第二層語料過濾器的流程步驟如下:

        1)輸入中間短語結(jié)果。

        2)遍歷短語中每一個(gè)詞,統(tǒng)計(jì)每個(gè)詞語的詞語串頻信息,包括得到p_set 和s_set,max_pw,max_p_freq,max_sw,max_s_freq。

        3)根據(jù)公式(10)選取候選種子詞。

        4)進(jìn)行并行操作:向前進(jìn)行短語擴(kuò)展和向后進(jìn)行短語擴(kuò)展。在擴(kuò)展的過程中,如果達(dá)到短語的擴(kuò)展邊界則認(rèn)為達(dá)到擴(kuò)展終止條件,或者當(dāng)找不到前綴詞或者后綴詞作為新的擴(kuò)展種子詞時(shí)則停止擴(kuò)展。

        5)輸出短語抽取結(jié)果。

        第二層語料過濾器的流程步驟如圖8 所示。

        圖8 第二層語料過濾器的流程步驟

        第二層語料過濾器的偽代碼如下:

        算法1 第二層語料過濾器算法描述

        5 實(shí)驗(yàn)與計(jì)算結(jié)果

        本文根據(jù)第一層語料過濾器設(shè)計(jì)了DFA 進(jìn)行初步的短語抽取,同時(shí)根據(jù)算法1 設(shè)計(jì)第二層語料過濾器,并對(duì)目前已有的文本數(shù)據(jù)資源進(jìn)行實(shí)驗(yàn)結(jié)果分析。算法采用Java 語言編寫實(shí)現(xiàn)。

        本實(shí)驗(yàn)運(yùn)行在CPU 為Intel(R)Core(TM)i5-3210M,內(nèi)存為DDR3 1333,4 GB,顯卡為NVIDIA Ge-Force GT 540M,硬盤容量為500GB,操作系統(tǒng)為Window 7 x64 的機(jī)器上(見表1)。

        表1 軟硬件系統(tǒng)環(huán)境

        該文本數(shù)據(jù)資源來源于廣東移動(dòng)公司的投訴文本記錄(已經(jīng)對(duì)移動(dòng)客戶的私隱信息進(jìn)行消除),抽取了其中500 條投訴文本記錄,并逐條擬定其關(guān)鍵短語并進(jìn)行實(shí)驗(yàn)對(duì)比。該500 條投訴文本記錄分成10組進(jìn)行測(cè)試。平均每條投訴文本記錄的長度為51.7個(gè)漢語字符。

        采用準(zhǔn)確率、召回率來評(píng)價(jià)實(shí)驗(yàn)的結(jié)果,定義如下:

        其中,{result_phrase}是自動(dòng)抽取的關(guān)鍵短語結(jié)果,{tag_phrase}是筆者擬定的關(guān)鍵短語結(jié)果。

        表2 是基于實(shí)驗(yàn)結(jié)果的數(shù)據(jù),圖9~圖11 是實(shí)驗(yàn)的P 值、R 值、F1 值曲線圖。

        表2 基于10 個(gè)結(jié)果測(cè)試集的P 值、R 值、F1 值

        圖9 基于10 組結(jié)果測(cè)試集的P 值曲線圖

        圖10 基于10 組結(jié)果測(cè)試集的R 值曲線圖

        圖11 基于10 組結(jié)果測(cè)試集的F1 值曲線圖

        從實(shí)驗(yàn)結(jié)果來看,雙層語料過濾器在查全率的效果比較優(yōu)異,R 值基本上都位于0.8 以上(除了第6組測(cè)試數(shù)據(jù)比較低),這說明抽取出來的短語集合里包含了大多數(shù)預(yù)期中的短語。

        P 值基本在0.4~0.6 之間波動(dòng),主要原因是在文本中會(huì)出現(xiàn)一些修飾意義比較高的短語成分,這些成分對(duì)于文本的表達(dá)起著補(bǔ)充的作用,但并非文本的主旨意思。然而雙層語料過濾器也會(huì)把這些修飾的短語提取出來,如何進(jìn)一步通過語義的方法把這些噪聲信息剔除出去是值得研究的改進(jìn)之處。

        雙層語料過濾器目前只考慮了4 種詞性的規(guī)則關(guān)系,具有較強(qiáng)的擴(kuò)展性。對(duì)于不同的文檔數(shù)據(jù)集,通過分析文本數(shù)據(jù)詞性規(guī)則還能夠加入其他詞性的詞語進(jìn)行規(guī)則重構(gòu),進(jìn)一步提高P 值以及F1 值。

        6 結(jié)束語

        本文首先對(duì)目前在文本信息抽取研究領(lǐng)域進(jìn)行了介紹和分析,梳理了目前技術(shù)發(fā)展的主流趨勢(shì)以及遇到的瓶頸問題,并基于中文短語串在文本主題語義表達(dá)上的優(yōu)勢(shì),論證了短語串在細(xì)粒度主題抽取方面的重要性,為下一步對(duì)文本片段的信息抽取奠定了一定的基礎(chǔ)。從語料知識(shí)的通用性和專有性2 方面出發(fā),設(shè)計(jì)了雙層的語料過濾器。第一層語料過濾器是從通用的語料詞性規(guī)則組成出發(fā),研究了最為常見的短語搭配形式,枚舉所有可能的詞性組成規(guī)則,通過分詞后對(duì)文本片段進(jìn)行詞性分析處理,過濾掉規(guī)則以外的冗余信息。第二層語料過濾器是從語料知識(shí)的統(tǒng)計(jì)出發(fā),研究了某一專有語料知識(shí)在短語構(gòu)成中特有的短語規(guī)則組成形式,在第一層語料過濾器的結(jié)果的基礎(chǔ)上選取候選詞進(jìn)行短語擴(kuò)展,直至滿足擴(kuò)展終止條件,最終完成短語抽取。雙層語料過濾器不需要對(duì)語料樣本進(jìn)行先行的知識(shí)庫輸入或者詞性語義的模型建立,通用性較強(qiáng)。隨著語料樣本的規(guī)模擴(kuò)大,語料過濾器的短語抽取效果會(huì)更好。

        [1]中國互聯(lián)網(wǎng)絡(luò)信息中心.第35 次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[DB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/201502/P020150203551802054676.pdf,2015-03-26.

        [2]魯明羽,姚曉娜,魏善嶺.基于模糊聚類的網(wǎng)絡(luò)論壇熱點(diǎn)話題挖掘[J].大連海事大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,34(4):52-54.

        [3]Sahami Mehran,Heilman Timothy D.A Web-based kernel function for measuring the similarity of short text snippets[C]// Proceedings of ACM the 15th International Conference on World Wide Web.2006:377-386.

        [4]Metaler D,Dumais S,Meek C.Similarity measures for short segments of text[C]// European Colloquium on IR Research-ECIR.2007:16-27.

        [5]Yih W,Meek C.Improving similarity measures for short segments of text[C]// National Conference on Artificial Intelligence-AAAI.2007:1489-1494.

        [6]Phan Xuan-Hieu,Nguyen Le-Minh,Horiguchi Susumu.Learning to classify short and sparse Text&Web with hidden topics from large-scale data collections[C]// World Wide Web Conference Series-WWW.2008:91-100.

        [7]Tantanasiriwong Supaporn,Haruechaiyasak Choochart,Guha Sumanta.A comparative study of key phrase extraction for cross-domain document collections[C]// The 16th International Conference on Asia-Pacific Digital Libraries.2014:393-398.

        [8]Liu Dacheng,Peng Zhiyong,Liu Bin,et al.Technology effect phrase extraction in Chinese patent abstracts[C]//Web Technologies and Applications,Lecture Notes in Computer Science.2014,8709:141-152.

        [9]Bharti Kusum Kumari,Singh Pramod Kumar.Hybrid dimension reduction by integrating feature selection with feature extraction method for text clustering[J].Expert Systems with Applications,2015,42(6):3105-3114.

        [10]吳薇.大規(guī)模短文本的分類過濾方法研究[D].北京:北京郵電大學(xué),2007.

        [11]王鵬.文本分類中利用依存關(guān)系的實(shí)驗(yàn)研究[J].計(jì)算機(jī)工程,2010,46(3):131-133.

        [12]王細(xì)薇.基于特征擴(kuò)展的中文短文本分類方法[J].計(jì)算機(jī)應(yīng)用,2009,29(3):843-845.

        [13]胡吉祥.基于頻繁模式的消息文本聚類研究[D].北京:中科院研究生院,2006.

        [14]寧亞輝.基于領(lǐng)域詞語本體的短文本分類[J].計(jì)算機(jī)科學(xué),2009,36(3):142-145.

        [15]盛宇利.自然語言理解心理學(xué)在短文本分類中的實(shí)證研究[J].現(xiàn)代情報(bào),2009,29(8):4-7.

        [16]桂卓民.基于事件的多文檔自動(dòng)文摘系統(tǒng)的研究[D].武漢:華中師范大學(xué),2010.

        [17]馮琴榮,苗奪謙,程昳.決策表屬性約簡的相對(duì)劃分粒度表示[J].小型微型計(jì)算機(jī)系統(tǒng),2008,29(12):2305-2308.

        猜你喜歡
        后綴過濾器語料
        支持過濾器的REST模型研究與實(shí)現(xiàn)
        聲音過濾器
        趣味(語文)(2018年2期)2018-05-26 09:17:55
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        河北霸州方言后綴“乎”的研究
        TalKaholic話癆
        說“迪烈子”——關(guān)于遼金元時(shí)期族名后綴問題
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        一種基于后綴排序快速實(shí)現(xiàn)Burrows-Wheeler變換的方法
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
        99久久人人爽亚洲精品美女| 中文有码人妻字幕在线| 国产成人亚洲精品无码青| 边啃奶头边躁狠狠躁| AV永久天堂网| av天堂一区二区三区| 中国国产不卡视频在线观看| 亚洲精品乱码久久久久久蜜桃不卡 | 国产精品久久国产三级国| 亚洲国产精品av在线| 人妻丝袜av中文系列先锋影音| 国产亚洲欧美在线| 亚洲av成人久久精品| 久久亚洲道色综合久久| 中文字幕天天躁日日躁狠狠躁免费 | 日本在线视频www色| 老师翘臀高潮流白浆| 色综合久久精品中文字幕| 亚洲成人av在线播放不卡| 风韵少妇性饥渴推油按摩视频| 台湾佬综合网| 粉嫩小泬无遮挡久久久久久| 激情久久黄色免费网站| 无码成人一区二区| 精品国产亚洲一区二区在线3d| 国产自产在线视频一区| 一本色道久久hezyo无码| 免费无码毛片一区二区三区a片| 亚洲国产欧美久久香综合| 国产成人亚洲精品91专区高清| 少妇愉情理伦片高潮日本| 国产一及毛片| 羞涩色进入亚洲一区二区av| 欧洲美女熟乱av| 欧美老妇与禽交| 精品亚洲人伦一区二区三区| 蜜臀av一区二区三区免费观看 | 99久久婷婷国产精品综合网站| 一本一道av无码中文字幕麻豆| 久99久热只有精品国产男同| 久久麻豆精亚洲av品国产蜜臀|