亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        越南語分詞詞典半監(jiān)督集成構建算法

        2018-03-07 09:22:26劉伍穎
        鄭州大學學報(理學版) 2018年1期
        關鍵詞:單詞實驗

        劉伍穎, 王 琳

        (1.廣東外語外貿(mào)大學 語言工程與計算實驗室 廣東 廣州 510420;2.上海外國語大學 賢達經(jīng)濟人文學院 上海 200083)

        0 引言

        越南語是一種以音節(jié)為基礎的非通用語言,其文本在詞與詞之間并沒有任何顯式的形式分隔符.因此,越南語分詞在很多自然語言處理應用中顯得格外重要[1].用于越南語分詞的機讀詞典在存儲內容方面僅僅需要保留多音節(jié)詞,而這種基礎資源在一定程度上決定著分詞算法的性能.

        計算技術的飛速發(fā)展帶來了語言信息的爆炸式增長,各種語言中的新詞匯不斷涌現(xiàn).但人工詞典編纂是一種代價高昂的工作,而且人工編纂的時效性也極大限制了分詞算法的提高.幸運的是,語言信息爆炸所產(chǎn)生的大規(guī)模越南語文本文檔為越南語多音節(jié)詞動態(tài)提取提供了一種新機遇[2].已有研究表明,一些基于分詞詞典的越南語分詞算法可以達到較高的性能[3],通過個性化定制一個單獨的子詞典能夠使大詞典在分詞中發(fā)揮大性能[4].本文主要研究越南語分詞詞典構建問題,并提出一種新的半監(jiān)督集成構建方法,該方法能夠結合人工干預,從大規(guī)模未標注越南語語料中提取多音節(jié)單詞.

        1 半監(jiān)督集成構建算法

        1.1 框架

        半監(jiān)督學習能夠充分發(fā)揮大規(guī)模未標注語料的優(yōu)勢[5],又能夠大大降低人工標注的需求[6-7].集成學習能夠組合多個單獨的學習器以獲得更優(yōu)的結果[8].因此,綜合這兩種機器學習方法的優(yōu)勢,提出一種新的半監(jiān)督集成構建(semi-supervised ensemble construction, SEC)框架,如圖1所示.該框架輸入大規(guī)模未標注越南語語料,根據(jù)預設閾值和人工干預最終生成3個單獨詞典DIC1、DIC2、DIC3和1個集成詞典DICE,并以此支撐詞典分詞算法的運行.此外,3個單詞提取器人工檢測后的正確單詞形成一種動態(tài)反饋.當框架輸入是在線實時數(shù)據(jù)流時,通過設置一定長度的時間窗口,動態(tài)反饋能夠阻止以前提取并正確識別的單詞,使得框架能夠循環(huán)迭代并增量學習.

        圖1 半監(jiān)督集成構建框架Fig.1 Semi-supervised ensemble construction framework

        在圖1所示的SEC框架中,n元音節(jié)詞產(chǎn)生器是一個重要部件,它負責生成盡可能多的候選多音節(jié)詞.并且這一生成過程只需要n元音節(jié)詞模型,而不需要額外的人工干預.接著,每個單詞提取器根據(jù)統(tǒng)計特征值進行候選多音節(jié)詞排序,通過對比預設的百分比閾值提取排在前面的多音節(jié)詞,并提交給越南語專家進行檢測并修正.專家檢測修正的結果形成分詞詞典,并以動態(tài)反饋的形式發(fā)給n元音節(jié)詞產(chǎn)生器.最后,詞典合成器充分利用不同單詞提取器的優(yōu)勢,合并這幾個提取出的分詞詞典形成一個集成詞典,這些單獨的分詞詞典和集成詞典可以被用于基于詞典的分詞器.

        n元音節(jié)詞模型蘊含豐富的有用特征[9],并且n值決定候選多音節(jié)詞的總數(shù).采用4種交疊n元音節(jié)詞模型(2元模型、3元模型、4元模型、5元模型)來表示越南語多音節(jié)詞,并通過統(tǒng)計數(shù)據(jù)進行進一步分析.利用Wiki Dump工具從互聯(lián)網(wǎng)下載了越南語Wikipedia語料(viwiki-20170101-pages-articles.xml.bz2),再通過Wikipedia Extractor軟件抽取獲得1 152 603篇越南語純文本文檔.根據(jù)上述4種n元音節(jié)詞模型,從這些越南語文本文檔中提取出10 849 903個候選多音節(jié)詞,并為每個候選多音節(jié)詞統(tǒng)計詞頻和出現(xiàn)文檔頻率.繪制詞頻-詞秩和文檔頻率-詞秩圖,結果如圖2所示.針對兩幅圖中的數(shù)據(jù)分別擬合出趨勢線,結果表明,詞頻分布和文檔頻率分布都近似遵循冪律,而泛在的冪律分布給去除低頻詞提供了一個機會[10].

        圖2 詞頻-詞秩和文檔頻率-詞秩Fig.2 Word frequency versus rank and document frequency versus rank

        1.2 算法

        一個越南語單詞可以由單個音節(jié)構成,也可以由空格連接起來的多個音節(jié)構成.在越南語文本中,空格是一種重載符,既可以表示單詞內部的連接符,又可以表示單詞之間的分隔符.因此,越南語多音節(jié)詞提取任務可以定義為連續(xù)多音節(jié)的共現(xiàn)規(guī)律發(fā)現(xiàn).如果幾個音節(jié)傾向于高頻共現(xiàn),可以預判它們是一個多音節(jié)詞.基于冪律分布支撐,可以通過統(tǒng)計候選多音節(jié)詞的詞頻(WF)和出現(xiàn)文檔頻率(DF)兩種簡單特征,并根據(jù)預設的百分比閾值提取出一些高頻共現(xiàn)多音節(jié)詞,而這些高頻詞和高文檔頻率詞往往是通用詞匯.此外,詞頻除以文檔頻率(WFiDF)也是一種廣泛用于自然語言處理的重要特征.通過統(tǒng)計WFiDF特征,往往能夠提取專業(yè)詞匯.

        在SEC框架下所提出的越南語分詞詞典半監(jiān)督集成構建算法如表1所示.首先,循環(huán)調用ngram()方法生成候選多音節(jié)詞(CMW).在這個過程中需要對越南語文本進行切片預處理,片段是由標點符號、阿拉伯數(shù)字、外來詞分割開的越南語音節(jié)段.接著,分別調用3個單詞提取器(WFextractor,DFextractor,WFiDFextractor).其中每個提取器運行3個方法:rank()方法根據(jù)統(tǒng)計特征值排序候選多音節(jié)詞;truncate()方法根據(jù)預設閾值(T)截斷低頻詞;sendfeedback()方法回傳動態(tài)反饋.當然,每個提取器生成的詞典還需要進行人工檢測.最后,詞典合成器運行merge()方法,將上述3個詞典(DIC1、DIC2、DIC3)去重合并成集成詞典(DICE).3個單詞提取器運行的并行性能夠進一步提高算法的時空高效性.

        表1越南語分詞詞典半監(jiān)督集成構建算法
        Tab.1SEC algorithm of Vietnamese word-segmentation dictionary

        2 實驗部分

        2.1 語料與評價

        實驗中大規(guī)模未標注越南語語料就是1.1節(jié)所述的越南語Wikipedia語料,包括1 152 603篇越南語純文本文檔.在實驗前實現(xiàn)了表1的算法,能夠從未標注語料中提取3個單獨詞典和1個集成詞典.以下將通過直接實驗和間接實驗來評價越南語分詞詞典半監(jiān)督集成構建算法的效力.在直接實驗中,利用一個人工構建的包含159 214個越南語多音節(jié)詞的大詞典來模擬人工檢測,以此計算每個詞典的準確率.評價指標是在閾值T上的準確率(P@T).在間接實驗中,針對每個構建出的詞典,分別運行兩個基于詞典的分詞算法MM(maximum matching)和RMM(reverse maximum matching).

        分詞算法運行使用公開的標準數(shù)據(jù)集(corpus for Vietnamese word-segmentation, CVWS),該數(shù)據(jù)集包括305篇多領域越南語新聞文本,共7 807個已標注詞邊界的句子.使用國際bakeoff[11]評價標準和相關評價方法,用準確率(P)、召回率(R)、F1值和錯誤率(ER)評價分詞算法的性能.P、R、F1的值域為[0, 1],1為最優(yōu),ER的值域也為[0, 1],但0為最優(yōu).以上5項評價指標的計算公式為

        P@T=V/W,(1)

        P=C/(C+M),(2)

        R=C/N,(3)

        F1=2PR/(P+R),(4)

        ER=M/N,(5)

        式中:W表示自動提取器提取的多音節(jié)詞數(shù);V表示自動提取詞典和人工構建詞典共同包含的多音節(jié)詞數(shù);N表示人工分詞語料的總詞數(shù);C表示自動分詞結果中正確切分的詞數(shù);M表示自動分詞結果中錯誤切分的詞數(shù).

        2.2 結果與討論

        在直接實驗中閾值分別被設置為20%、40%、60%、80%,由此產(chǎn)生的多音節(jié)詞數(shù)和準確率結果如表2所示.例如,根據(jù)詞頻排序10 849 903個候選多音節(jié)詞,采用20%閾值能夠提取前1 270個詞,這其中有37.72%的詞命中人工構建的大詞典.表2還顯示了4個詞典具有類似的結果趨勢.盡管準確率不是特別高,但未命中的詞中間還有很多是算法發(fā)現(xiàn)的新詞.此外,準確率不高的原因是大規(guī)模未標注越南語語料和人工構建的大詞典之間相互獨立.

        表2 不同閾值下的詞數(shù)和準確率Tab.2 Word number and precision at different thresholds

        在間接實驗中先分別在3個單獨詞典下運行MM算法,實驗結果如表3所示,3個單獨詞典中DIC3性能最優(yōu).例如DIC3詞典下最優(yōu)的P值(0.682 8)、R值(0.753 8)、F1值(0.691 0)、ER值(0.314 0)分別是當閾值為40%、20%、40%、60%時達到的.結果表明,WFiDF特征比單獨的WF特征或DF特征更加有效.

        表4展示了在3個單獨詞典下運行RMM算法的實驗結果,和MM算法的實驗結果具有相同的趨勢,4項評價指標的最優(yōu)值也是DIC3詞典的.

        表3 MM算法在3個單獨詞典下的實驗結果Tab.3 Experimental results of MM algorithm in three individual dictionaries

        表4 RMM算法在3個單獨詞典下的實驗結果Tab.4 Experimental results of RMM algorithm in three individual dictionaries

        圖3展示了集成詞典下MM算法的實驗結果,結果表明,閾值既非越大越好,又非越小越好,一個合適的閾值(40%)能夠使集成詞典下MM算法達到最優(yōu)性能.盡管性能提升不太顯著,但最優(yōu)的F1值(0.706 3)還是超越了其他3個單獨的詞典,這也驗證了越南語分詞詞典半監(jiān)督集成構建算法在統(tǒng)計、計算、表示方面的優(yōu)越性[12].圖4展示了集成詞典下RMM算法的實驗結果,和MM算法的實驗結果具有相同的趨勢.但RMM算法4項評價指標的最優(yōu)值均超過了MM算法.例如,MM算法的最優(yōu)F1值為0.706 3,而RMM算法的最優(yōu)F1值為0.713 3,這之間的差距主要是和越南語的語序有關.

        通過對上述實驗結果的分析,發(fā)現(xiàn)詞頻和文檔頻率這兩種簡單特征的統(tǒng)計能夠有助于高效提取通用的越南語多音節(jié)詞.正因為如此,所以僅僅4 847詞的RMM算法能夠達到0.685 7的F1值.盡管WFiDF特征的統(tǒng)計有助于提取專業(yè)詞匯,但不幸的是CVWS數(shù)據(jù)集與越南語Wikipedia語料也沒有很強的相關性,所以仍然有大量的“長尾”詞被預設閾值剔除了.如果還想進一步提高分詞詞典的準確率,算法中的人工干預過程ManualFilter.check()至關重要.

        圖3 MM算法在集成詞典下的實驗結果Fig.3 Experimental result of MM algorithm in ensemble dictionary

        圖4 RMM算法在集成詞典下的實驗結果Fig.4 Experimental result of RMM algorithm in ensemble dictionary

        為了展示詞典的具體細節(jié),給出了部分分詞詞典數(shù)據(jù).表5是閾值為40%時按照字母序顯示的集成詞典命中的前100個多音節(jié)詞.該詞典總共包含590 481個詞,而如此之多的單詞的確出乎人們的意料.經(jīng)過辨認不難發(fā)現(xiàn)越南語復合韻母的新舊拼寫形式差異也增加了單詞規(guī)模.例如表5中biên hoà和biên hòa就是這種原因的等義異形詞,它們都表示“邊和”這個越南地名.因此,可以通過編列復合韻母新舊拼寫規(guī)則來進一步提高越南語分詞詞典的效率.

        表5分詞詞典數(shù)據(jù)樣例
        Tab.5Data sample of word-segmentation dictionary

        3 結論

        研究了如何從大規(guī)模越南語文本文檔中半監(jiān)督構建分詞詞典,所提出的半監(jiān)督集成構建算法充分利用了越南語連續(xù)多音節(jié)的高頻共現(xiàn).研究結果表明,采用動態(tài)提取詞典的MM和RMM算法能夠取得理想的結果.進一步的研究將關注其他知識對多音節(jié)詞提取的影響,例如停用詞、句法規(guī)則、語義上下文等.此外,為了進行越南語到漢語的有效處理,漢越詞提取也是值得深入研究的有趣問題.同時希望將上述研究成果遷移到其他合適的亞洲語言,例如泰國語、日本語、漢語等.

        [1] DINH Q T, LE H P, NGUYEN T M H, et al. Word segmentation of Vietnamese texts: a comparison of approaches [C] // Proceedings of the 6th International Conference on Language Resources and Evaluation. Marrakech, 2008: 1933-1936.

        [2] TRUNG H L, ANH V L, DANG V H, et al. Recognizing and tagging Vietnamese words based on statistics and word order patterns [C] // Proceedings of the Advanced Methods for Computational Collective Intelligence. Berlin, 2013: 3-12.

        [3] LIU W Y, LIN L. Probabilistic ensemble learning for Vietnamese word segmentation [C] // Proceedings of the 37th International ACM SIGIR Conference on Research and Development in Information Retrieval. Gold Coast, 2014: 931-934.

        [4] LIU W Y, WANG L. How does dictionary size influence performance of Vietnamese word segmentation?[C] // Proceedings of the 10th International Conference on Language Resources and Evaluation. Portoro, 2016: 1079-1083.

        [5] 王紅蔚, 席紅旗, 孔波. 一種新的半監(jiān)督支持向量機[J]. 鄭州大學學報(理學版), 2012, 44(3): 66-68.

        [6] VLACHOS A. Evaluating unsupervised learning for natural language processing tasks [C] // Proceedings of the 1st Workshop on Unsupervised Learning in NLP. Edinburgh, 2011: 35-42.

        [7] 姚冬冬, 袁方, 王煜, 等. 基于半監(jiān)督DPMM的新聞話題檢測[J]. 鄭州大學學報(理學版), 2016, 48(3): 63-68.

        [8] LIU W Y, WANG T. Online active multi-field learning for efficient email spam filtering [J]. Knowledge and information systems, 2012, 33(1): 117-136.

        [9] KANARIS I, KANARIS K, HOUVARDAS I, et al. Words versus character n-grams for anti-spam filtering [J]. International journal on artificial intelligence tools, 2007, 16(6): 1047-1067.

        [10] LIU W Y, WANG L, YI M Z. Power law for text categorization [C] // Proceedings of the 12th National Conference on Computational Linguistics. Suzhou, 2013: 131-143.

        [11] SPROAT R, EMERSON T. The first international Chinese word segmentation bakeoff [C] // Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing. Sapporo, 2003: 133-143.

        [12] DIETTERICH T G. Ensemble methods in machine learning [C] // Proceedings of the 1st International Workshop on Multiple Classifier Systems. Cagliari, 2000: 1-15.

        猜你喜歡
        單詞實驗
        What’s This?
        Exercise 1
        記一次有趣的實驗
        微型實驗里看“燃燒”
        單詞連一連
        做個怪怪長實驗
        看圖填單詞
        看完這些單詞的翻譯,整個人都不好了
        NO與NO2相互轉化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        国产AV无码专区亚洲AWWW| 一区二区三区国产在线视频| 亚洲乱码av乱码国产精品| 黑人巨茎大战俄罗斯美女| 爱情岛论坛亚洲品质自拍hd| 亚洲无码精品免费片| 久久精品中文字幕第一页| 亚洲黄色官网在线观看| 精品一区2区3区4区| 久草手机视频在线观看| 亚洲av成人片在线观看| 丰满人妻熟妇乱又伦精品视| 人妻少妇偷人精品无码| 在线丝袜欧美日韩制服| 玩弄极品少妇被弄到高潮| 婷婷久久精品国产色蜜蜜麻豆 | 中文字幕日本韩国精品免费观看 | 国产激情久久久久影院小草| 欧美日韩精品| 精品高潮呻吟99av无码视频| 在线观看av国产自拍| 一区二区在线视频大片| 手机在线播放成人av| 亚洲国产精品成人久久| 亚洲精品午夜无码专区| 人人妻人人爽人人做夜欢视频九色 | 日本一区二区精品88| 国产高清国内精品福利99久久 | 精品国产黑色丝袜高跟鞋| 中文亚洲成a人片在线观看 | 在线a亚洲视频播放在线播放| 狠狠噜狠狠狠狠丁香五月| 五级黄高潮片90分钟视频| 久久精品—区二区三区无码伊人色| 中文字幕色视频在线播放| 中文字幕久久精品一区二区| 成人欧美一区二区三区在线观看| 特级婬片国产高清视频| 91麻豆精品激情在线观看最新| 国产丰满乱子伦无码专| 亚洲福利一区二区不卡|