亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于松弛平方交疊率的分詞詞典無監(jiān)督優(yōu)選方法

        2025-04-13 00:00:00王琳劉伍穎

        關(guān)鍵詞:松弛平方交疊率,平方交疊率,分詞詞典,無監(jiān)督優(yōu)選,越南語

        從自然語言文本到語匯(Token)序列的處理過程是傳統(tǒng)自然語言處理和深度學(xué)習(xí)自然語言處理都需要的基礎(chǔ)步驟.像緬甸語[1]、泰語[2]和老撾語[3]一樣,越南語文本中詞與詞之間也沒有明顯的分隔符,但得到詞序列往往是各種自然語言處理任務(wù)的第一步.因此,在上述低資源亞洲語言信息處理中,詞邊界自動識別成為了具有一定挑戰(zhàn)的關(guān)鍵科學(xué)問題,相應(yīng)算法在各種自然語言處理應(yīng)用中具有廣泛的需求[4].

        越南語是一種基于音節(jié)的語言,越南語文本的基本形式單位是Ting,而基本語義單位是詞,也就是最小能獨立表義的語言單元.正是由于基本形式單位與基本語義單位不是完全一一映射,因此在采用計算機處理越南語文本的意義時,需要為每個基本語義單位識別形式上的邊界,也就是越南語分詞.

        越南語文本可視為一個連續(xù)的音節(jié)序列,并且每兩個音節(jié)之間都由一個空格符分隔.在原始文本中,空格符屬于一種重載標(biāo)識符,即在詞內(nèi)作為連接符,而在詞間作為分隔符.因此將越南語分詞任務(wù)定義為針對每個空格符的二值分類問題.在分詞結(jié)果中,若某個空格符是詞內(nèi)連接符,就替換輸出一個下劃線('_');若某個空格符是詞間分隔符,就將其作為空格符('')保留.

        1相關(guān)研究

        越南語分詞結(jié)果的優(yōu)劣制約著各層次信息處理應(yīng)用的性能.例如,對于傳統(tǒng)自然語言處理而言,某個詞被錯分,隨后的命名實體識別、詞性標(biāo)注、句法分析和語義角色標(biāo)注等會受到影響.而對于深度學(xué)習(xí)自然語言處理而言,錯分詞不僅增加向量空間中無意義詞的數(shù)量,而且擾動嵌入統(tǒng)計結(jié)果.因此研究者很早就開始關(guān)注越南語分詞問題,迄今已提出多種有效的越南語分詞算法[5].

        最早的分詞算法主要是基于詞典,包括最大匹配(MaximumMatching)算法和逆向最大匹配(ReverseMaximumMatching)算法.基于詞典的算法易于實現(xiàn),但其效果在很大程度上取決于詞典的規(guī)模與質(zhì)量[6].

        后來,有些高級機器學(xué)習(xí)方法將分詞視為序列標(biāo)注問題,如最大熵(MaximumEntropy)、條件隨機場(ConditionalRandomFields,CRF)和支持向量機(SupportVectorMachines,SVM)[7]等方法,在越南語分詞中取得了較好的效果.已有的研究成果包括結(jié)合加權(quán)有限狀態(tài)機和神經(jīng)網(wǎng)絡(luò)的分詞模型[8]:構(gòu)建了10MB的原始語料庫,使用N?gram信息優(yōu)化分詞概率總和[9];使用ME框架和迭代算法對標(biāo)注語料庫進行訓(xùn)練[10];使用CRF和SVM模型進行分詞[11].

        接著,混合方法和面向具體任務(wù)(如文本分類和自動問答)的分詞研究逐漸興起,同時也有研究者嘗試?yán)盟阉饕鏄?gòu)建大規(guī)模語料庫進行分詞.為了解決分詞歧義問題,還出現(xiàn)了結(jié)合有限狀態(tài)機、正則表達式和最大匹配技術(shù)的混合算法,并據(jù)此實現(xiàn)了一個高精度的越南語分詞器(vn?Tokenizer)[12].面向文本分類,不使用標(biāo)注訓(xùn)練語料庫,使用商業(yè)搜索引擎直接抽取統(tǒng)計信息,用遺傳算法尋找最合理的分詞結(jié)果[13].把詞性標(biāo)簽作為一種附加資源用于分詞算法中[14-15],也有研究采用有監(jiān)督集成學(xué)習(xí)框架組合多個基本分詞器形成一個集成分詞器[16].

        近來,預(yù)訓(xùn)練模型和深度神經(jīng)網(wǎng)絡(luò)被用于越南語分詞.有研究采用上下文預(yù)訓(xùn)練模型XLM?RoBERTa在越南語Treebank基準(zhǔn)測試上實現(xiàn)了比序列標(biāo)記方法更優(yōu)的分詞效果[17].還有研究提出一種基于改進的長短時記憶(LongShort?TermMemory,LSTM)神經(jīng)網(wǎng)絡(luò)的越南語分詞算法,該算法由LSTM編碼和CNN(Convolu?tionalNeuralNetwork)特征提取兩部分組成.與單一LSTM、單一CNN以及傳統(tǒng)方法相比,該算法對性能的提升更加明顯[18].

        在上述越南語分詞算法中,分詞精度越高的模型往往越復(fù)雜,也越耗時.然而真實的大規(guī)模應(yīng)用傾向采用簡潔高效的模型,尤其是在深度學(xué)習(xí)時代,簡單模型加大數(shù)據(jù)通常勝過基于一定數(shù)據(jù)的復(fù)雜模型[19].同理,在真實的大規(guī)模越南語文本處理項目中,采用基于詞典的越南語分詞算法加上海量詞典.最初以為詞典規(guī)模越大分詞效果越好,可實踐證明,盡管基于詞典的分詞算法容易實現(xiàn),但它的性能很大程度上取決于適合的詞典.詞典規(guī)模如何影響分詞性能?多大規(guī)模是適合的?這兩個實際問題成為本文的研究動機.

        2基于詞典的越南語分詞

        使用不同的詞典來測試基于最大匹配和基于逆向最大匹配兩種越南語分詞算法,根據(jù)測試結(jié)果重新審視詞典規(guī)模對基于詞典的分詞算法的影響.

        2.1 算法與詞典 為了再現(xiàn)項目中遇到的情形,選擇兩個經(jīng)典的基于詞典的越南語分詞器MMSegmenter(MM)和RMMSegmenter(RMM,http://cbd.nichesite.org/CBD2013S002.htm),它們分別是基于最大匹配算法和逆向最大匹配算法實現(xiàn)的.MM和RMM分詞器本身各自集成了一個包含87399個多音節(jié)詞的越南語分詞詞典.為了進行比較,測試了另外兩個分詞詞典.一個是從JVnSegmenter(http://jvnsegmenter.source?forge.net)工具中抽取出來,包含64546個多音節(jié)詞;另一個是我們工程項目中的大詞典,包含122727個多音節(jié)詞.

        2.2 語料與評測 采用公開的標(biāo)準(zhǔn)數(shù)據(jù)集CVWS(CorpusforVietnameseWordSegmenta?tion,http://www.jaist.ac.jp/~hieuxuan/vnword?seg/data/),該數(shù)據(jù)集包括305篇多領(lǐng)域越南語新聞文本,共7807個已標(biāo)注詞邊界的句子.

        使用國際Bakeoff[20]評價標(biāo)準(zhǔn)和相關(guān)評價方法,利用準(zhǔn)確率(P)、召回率(R)、F1值(F1)和錯誤率(ER)來評價分詞器的性能.P,R和F1的值域為[0,1],1表示最優(yōu);ER的值域也為[0,1],但0表示最優(yōu).如式(1)~(4)所示:

        其中,N表示手工分詞文本的總詞數(shù),C表示自動分詞結(jié)果中正確切分的詞數(shù),M表示自動分詞結(jié)果中錯誤切分的詞數(shù).

        2.3 結(jié)果與討論 表1展示了利用上述三個詞典分別運行MM和RMM分詞器的結(jié)果,表中黑體字表示結(jié)果最優(yōu).由表可見,兩個分詞器在詞典規(guī)模為87399時,P,R和F1數(shù)值最大,ER數(shù)值最小,分詞效果最優(yōu).例如,MM分詞器在詞典dict87399中的F1(0.9477)最大,而RMM分詞器在詞典dict87399中的錯誤率ER(0.0396)在三個詞典中最小.

        此外,在最優(yōu)詞典下MM分詞器的性能優(yōu)于RMM分詞器的性能.例如,在詞典dict87399中MM分詞器和RMM分詞器的準(zhǔn)確率P分別為0.9625和0.9591,而二者的召回率R分別為0.9332和0.9299,這和越南語語序有關(guān).

        上述實驗結(jié)果驗證了詞典規(guī)模會影響基于詞典的越南語分詞器的效果,既不是詞典規(guī)模越大越好,更不是詞典規(guī)模越小越好.下述研究將圍繞如何預(yù)測最優(yōu)的詞典進行深入分析.

        3最優(yōu)分詞詞典預(yù)測

        根據(jù)有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩種前提條件分別提出相應(yīng)的最優(yōu)分詞詞典預(yù)測框架.

        3.1 有監(jiān)督學(xué)習(xí)預(yù)測框架 基于詞典的越南語分詞算法效果取決于分詞詞典和待分詞的目標(biāo)語料.對于一個給定的越南語語料,最優(yōu)分詞詞典就是由語料中全部多音節(jié)詞構(gòu)成的詞典.在該語料分詞過程中,每個多音節(jié)詞都能在分詞詞典中找到匹配詞,因此幾乎每個詞都能夠被正確切分,最大限度地降低組合歧義和交疊歧義的影響.

        在有監(jiān)督學(xué)習(xí)前提下,有標(biāo)注的訓(xùn)練語料與待標(biāo)注的測試語料具有相同的文本特征分布,這對預(yù)測分詞詞典的效果有幫助.因此,提出一種平方交疊率(SquareOverlapRatio,SOR)量度用于預(yù)測分詞詞典的效果.SOR定義為詞典交疊率(DictionaryOverlapRatio,DOR)和語料交疊率(CorpusOverlapRatio,COR)的乘積,如式(5)~(7)所示.上述三種交疊率數(shù)值上屬于[0,1],最優(yōu)值為1.

        其中,Wo表示詞典和語料中同時包含的多音節(jié)詞數(shù)量,Wd表示詞典中包含的多音節(jié)詞數(shù)量,Wc表示語料中包含的多音節(jié)詞數(shù)量.

        圖1展示了基于SOR量度提出的一種有監(jiān)督學(xué)習(xí)預(yù)測框架.該框架主要包括一個SOR計算器(SquareOverlapRatioCalculator,SORC)、一個詞典效果預(yù)測器(DictionaryPerformancePredictor,DPP)和一個基于詞典的分詞器(Dic?tionary?basedSegmenter,DS).當(dāng)該框架運作時,SORC負責(zé)從訓(xùn)練語料庫中接收已標(biāo)注訓(xùn)練文本,為每個詞典計算出一個SOR;DPP負責(zé)接收多個SOR,根據(jù)數(shù)值最大的SOR推薦相應(yīng)的詞典;DS負責(zé)從測試語料庫中接收未標(biāo)注測試文本,根據(jù)DPP推薦的詞典進行分詞,并輸出標(biāo)注的測試文本.

        3.2 無監(jiān)督學(xué)習(xí)預(yù)測框架 如果獲得一個標(biāo)注不需要代價,那么有監(jiān)督學(xué)習(xí)預(yù)測是一種理想的方法.不幸的是,實際上每獲得一個標(biāo)注都需要一定的代價,尤其是在無監(jiān)督學(xué)習(xí)條件下無法獲得標(biāo)注,這使得上述有監(jiān)督學(xué)習(xí)預(yù)測方法無能為力.

        為了應(yīng)對無監(jiān)督學(xué)習(xí)情況,放松SOR的計算約束,提出了一種松弛平方交疊率(RelaxedSquareOverlapRatio,RSOR)量度.RSOR在數(shù)值上定義為松弛詞典交疊率(RelaxedDiction?aryOverlapRatio,RDOR)和松弛語料交疊率(RelaxedCorpusOverlapRatio,RCOR)的乘積.這三種交疊率數(shù)值上屬于[0,1],最優(yōu)值為1.RSOR的計算過程如式(8)~(10)所示:

        RDOR=So/Sd(8)

        RCOR=So/Sc(9)

        RSOR=RDOR?RCOR(10)

        其中,So表示詞典和語料中同時包含的音節(jié)數(shù)量,Sd表示詞典中包含的音節(jié)數(shù)量,Sc表示語料中包含的音節(jié)數(shù)量.

        圖2展示了基于RSOR量度提出的一種無需標(biāo)注的無監(jiān)督學(xué)習(xí)預(yù)測框架.該框架主要包含一個RSOR計算器(RelaxedSquareOverlapRatioCalculator,RSORC)、一個DPP和一個DS.與有監(jiān)督學(xué)習(xí)預(yù)測框架最大的區(qū)別是計算對象不同,一個是多音節(jié)詞,而另一個是音節(jié).

        4實驗

        實驗中算法需要從四個詞典中預(yù)測一個最適合的詞典,其中,三個詞典在2.1進行了詳細介紹.新加的詞典是一個人造的用于參考比對的詞典dict9113,來自CVWS數(shù)據(jù)集,包含9113個多音節(jié)詞,即將CVWS數(shù)據(jù)集中所有的多音節(jié)詞歸集去重后得到的9113條詞條當(dāng)作詞典dict9113.

        4.1 有監(jiān)督學(xué)習(xí)預(yù)測結(jié)果 在有監(jiān)督學(xué)習(xí)實驗中,采用三折交叉驗證,將CVWS數(shù)據(jù)集平分為三份,兩份訓(xùn)練,一份測試.該實驗需要運行“訓(xùn)練?測試”過程三次,最終報告三次運行結(jié)果的算術(shù)平均值.

        表2展示了不同詞典規(guī)模下的交疊率,表中黑體字表示結(jié)果最優(yōu).由表可見,詞典dict9113的SOR(0.8098)明顯優(yōu)于其他三個詞典中最優(yōu)的SOR(0.0445).實驗結(jié)果表明,四個詞典效果排序為詞典dict9113,dict87399,dict64546和dict122727.

        圖3展示了MM分詞器在不同詞典規(guī)模下的實驗結(jié)果,由圖可見,詞典dict9113的四項指標(biāo)均超過其他詞典,例如dict9113的F1為0.9553,而dict87399,dict64546和dict122727的F1分別為0.9365,0.9244和0.9146.除人造參考詞典外,詞典dict87399的指標(biāo)是最優(yōu)的,例如dict87399的ER為0.0489,而dict64546和dict122727的ER分別為0.0726和0.0739.證明有監(jiān)督學(xué)習(xí)預(yù)測方法得出的詞典效果排序是有效的.

        圖4展示了RMM分詞器在不同詞典規(guī)模下的實驗結(jié)果,該結(jié)果和上述MM分詞器的結(jié)果類似,也證明有監(jiān)督學(xué)習(xí)預(yù)測方法得出的詞典效果排序是合理的.

        4.2 無監(jiān)督學(xué)習(xí)預(yù)測結(jié)果 在無監(jiān)督學(xué)習(xí)實驗中預(yù)測上述四個詞典的效果,不同的是無監(jiān)督學(xué)習(xí)實驗不需要訓(xùn)練語料.因此無監(jiān)督學(xué)習(xí)實驗只需要根據(jù)四個詞典和CVWS全集數(shù)據(jù)直接計算RSOR,不需要三折交叉驗證.

        表3展示了不同詞典規(guī)模下的松弛交疊率結(jié)果,表中黑體字表示結(jié)果最優(yōu).由表可見,RSOR排序是0.5606,0.1731,0.1678和0.1581.同有監(jiān)督學(xué)習(xí)預(yù)測結(jié)果一致,詞典dict9113效果最優(yōu),其他三個詞典效果排序為dict87399,dict64546和dict122727.MM分詞器和RMM分詞器在其他三個詞典上得出的四個指標(biāo)P,R,F(xiàn)1和ER結(jié)果如表1所示.例如,在詞典dict87399,dict64546和dict122727上,MM分詞器的P分別為0.9625,0.9587和0.9515,RMM分詞器的R分別為0.9299,0.9230和0.9094.證明無監(jiān)督學(xué)習(xí)預(yù)測方法也是有效的.

        5結(jié)論

        本文研究了詞典規(guī)模對越南語分詞的影響,提出了有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)最優(yōu)分詞詞典預(yù)測框架,這些框架通過選擇適合的詞典,能使基于詞典的越南語分詞算法更加勝任特定的越南語分詞任務(wù).如果有足夠大的詞典,那么該優(yōu)選方法能為待分詞語料自動定制一個最優(yōu)的子詞典.在深度學(xué)習(xí)時代,簡單算法融合大數(shù)據(jù)能為真實的大規(guī)模應(yīng)用提供一種新的解決思路.

        未來的研究主要關(guān)注組合歧義和交疊歧義對詞典優(yōu)選的影響,并且將上述研究成果遷移到其他適合的亞洲語言處理中,如緬甸語、泰語和老撾語等.

        国产精品久久婷婷六月| 亚洲欧美精品aaaaaa片| 国产aⅴ夜夜欢一区二区三区| 亚洲一区日本一区二区| 麻神在线观看免费观看| 国产无遮挡又爽又刺激的视频老师| 亚洲av永久无码精品秋霞电影影院 | 国产免费网站看v片元遮挡| 97自拍视频国产在线观看| 国产最新女主播福利在线观看| 精品久久久久成人码免费动漫| 欧美中文在线观看| 亚洲黄色一插一抽动态图在线看| 日本a级一级淫片免费观看| 国模无码一区二区三区不卡| 四虎影视国产在线观看精品| 青青草视频国产在线观看| av天堂最新在线播放| 欧美日韩国产码高清综合人成| 亚洲免费视频播放| 日韩精品有码中文字幕 | 日本精品av中文字幕| 大肉大捧一进一出好爽视频动漫| 国产真人无码作爱视频免费| 久久久亚洲精品午夜福利| 一区视频免费观看播放| 亚洲男同gay在线观看| 五十路熟妇亲子交尾| 久久久精品亚洲懂色av| 亚洲av午夜一区二区三| 国产成人av片在线观看| 中文字幕亚洲好看有码| av成人综合在线资源站| 久久国产加勒比精品无码| 国产精品天堂| 一区二区三区在线观看视频免费| 亚洲中文无码av永久| 98久9在线 | 免费| 亚洲av永久青草无码精品| 日本在线观看不卡一区二区| 无码少妇一区二区性色av|