亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏文文本分類技術(shù)研究綜述

        2021-03-22 02:53:17蘇慧婧群諾
        電腦知識與技術(shù) 2021年4期
        關(guān)鍵詞:機(jī)器學(xué)習(xí)特征選擇

        蘇慧婧 群諾

        摘要:該文介紹了藏文文本分類技術(shù)的研究與進(jìn)展。首先對現(xiàn)階段常用的文本表示以及文本特征選擇方法進(jìn)行了分析和比較,接著回顧了藏文在機(jī)器學(xué)習(xí)方面的分類算法特點(diǎn),深入討論了不同算法應(yīng)用在藏文文本分類技術(shù)上的研究情況,最后指出了當(dāng)前藏文文本分類所面臨的問題和挑戰(zhàn),并對未來的研究提出了建議。

        關(guān)鍵詞:藏文文本分類;文本表示;特征選擇;機(jī)器學(xué)習(xí)

        中圖分類號: TP391? ? ? ? 文獻(xiàn)標(biāo)識碼:A

        文章編號:1009-3044(2021)04-0190-03

        Abstract :This article introduces the research and development of Tibetan text classification technology. First, it analyzes and compares the commonly used text representation and text feature selection methods at this stage, then reviews the characteristics of Tibetan classification algorithms in machine learning, and discusses the application of different algorithms in Tibetan text classification technology. Finally, it points out the current problems and challenges of Tibetan text classification, and puts forward suggestions for future research.

        Key words :Tibetan text classification; text representation; feature selection; machine learning

        自然語言是人們?nèi)粘J褂玫恼Z言,是人類學(xué)習(xí)生活的重要工具。為此,自然語言處理是人工智能的一個(gè)重要應(yīng)用領(lǐng)域,也是新一代計(jì)算機(jī)必須研究的課題。隨著我國藏族聚居區(qū)信息化事業(yè)的快速發(fā)展,藏族網(wǎng)民人數(shù)快速增長,以藏語為載體的內(nèi)容也在增多。對藏文文本分類技術(shù)的研究,能夠拓寬藏文信息處理的應(yīng)用領(lǐng)域,推動藏文語言文學(xué)在網(wǎng)絡(luò)時(shí)代的發(fā)展。文本特征的表示方法和分類器模型的設(shè)計(jì)是有關(guān)文本分類技術(shù)的關(guān)鍵步驟,本文簡要提出了文本分類系統(tǒng)的各個(gè)功能,依據(jù)現(xiàn)階段藏文文本分類技術(shù)的研究進(jìn)展,詳細(xì)分析了文本表示以及特征選擇的不同方法和多種分類器模型的算法特點(diǎn)和應(yīng)用前景。目前,我國對藏文古籍文獻(xiàn)的經(jīng)典信息需求量很大,因此,針對藏文文本,深入研究高效精準(zhǔn)的文本分類技術(shù),具有十分重要的現(xiàn)實(shí)價(jià)值和歷史意義。

        1 藏文文本分類研究現(xiàn)狀和發(fā)展趨勢

        在信息化時(shí)代背景下,藏文文本分類技術(shù)作為藏文信息處理的一個(gè)重要組成部分,在情感分類、檢測垃圾郵件、用戶意圖識別、客服工單自動分類等方面應(yīng)用廣泛。賈會強(qiáng)[1]等人提出了基于規(guī)則的藏文文本分類方法;才讓加[2,3]等人對藏文語料進(jìn)行分詞標(biāo)注并利用詞性特征建立分類語料庫;孟祥和[4]提出了基于改進(jìn)的聚類算法和KNN分類算法實(shí)現(xiàn)藏文網(wǎng)站話題發(fā)現(xiàn)與跟蹤;袁斌[5]提出選用不同情感特征表示,基于SVM+TF-IDF進(jìn)行藏文微博情感分類能達(dá)到比較不錯(cuò)的效果;周登[6]采用基于N-Gram模型的藏文文本分類技術(shù);安見才讓等人[7]實(shí)現(xiàn)了互聯(lián)網(wǎng)藏文信息輿情分析的系統(tǒng)設(shè)計(jì);胥桂仙等人[8]設(shè)計(jì)了基于欄目的藏文網(wǎng)頁文本自動分類系統(tǒng)。賈宏云等人[9,10,11]分別選用藏文詞以及n-gram的藏文音節(jié)作為文本特征,采用信息增益算法、前向逐步回歸算法篩選最優(yōu)特征子集進(jìn)行文本表示,基于Logistic回歸模型、SVM模型以及AdaBoost模型實(shí)現(xiàn)藏文文本分類并取得了不錯(cuò)的進(jìn)展。王莉莉等人[12]采用長短時(shí)記憶加條件隨機(jī)場模型的方法對藏文分類文本進(jìn)行分詞,運(yùn)用TF-IDF公式計(jì)算特征權(quán)重得到向量空間模型以進(jìn)行文本表示,通過互信息方法提取和選擇特征,基于多種深度神經(jīng)網(wǎng)絡(luò)模型得到了較好的分類結(jié)果,但是該文選用的數(shù)據(jù)集在類別數(shù)量以及文本規(guī)模上都相對較少,這將使得分類模型性能不夠穩(wěn)定,泛化能力較低。

        在目前藏文文本分類研究中,已有少量基于規(guī)則和使用傳統(tǒng)機(jī)器學(xué)習(xí)方法的分類研究,將神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于藏文文本分類的研究仍處于最淺顯層面,又因?yàn)槠脚_上缺乏開源的藏文語料,而每個(gè)研究人員所使用的語料也大不相同,因此使得實(shí)驗(yàn)研究數(shù)據(jù)缺乏可比性,其分類準(zhǔn)確率難以評估與分析。通過借鑒中英文中較為成熟的文本分類方法,如何在資源不足的條件下訓(xùn)練模型,如何將人類的先驗(yàn)知識融入神經(jīng)網(wǎng)絡(luò)中是藏文文本分類面臨的挑戰(zhàn)和亟待解決的難題。

        2 藏文文本分類相關(guān)技術(shù)

        藏文文本分類由四個(gè)模塊組成:藏文語料獲取、文本表示以及特征選擇、模型訓(xùn)練、模型性能評價(jià)。

        2.1 藏文語料獲取

        在對文本進(jìn)行分類之前,首先要獲取藏文語料,建立藏文數(shù)據(jù)集。我們可以從網(wǎng)上爬取藏文語料或者下載別人整理好的數(shù)據(jù)集,對其進(jìn)行預(yù)處理,通過預(yù)處理過程,減少特征維數(shù)、去除噪聲特征,以此提高機(jī)器學(xué)習(xí)算法的精準(zhǔn)度和分類效果。過程包括分詞、剔除符號和停用詞,按類別進(jìn)行人工分類,再按一定比例劃分訓(xùn)練集和測試集。

        2.2 分詞

        在英語的分詞中,詞與詞之間具有很自然的空格作為標(biāo)記,而對于藏文分詞,藏文與漢語相同,文檔的詞語之間沒有明顯的分隔標(biāo)志。藏文分詞領(lǐng)域的主要困難在于詞義消歧、命名實(shí)體識別。藏文自動分詞技術(shù)主要有以下4類:

        ①通過最小匹配或最大匹配、正向匹配或逆向匹配方法切分字符串的機(jī)械分詞方法;

        ②根據(jù)字符串的語義、句法信息進(jìn)行詞性標(biāo)注的基于規(guī)則的分詞方法;

        ③通過匹配方法然后將統(tǒng)計(jì)語言模型引入分詞過程的基于統(tǒng)計(jì)的分詞方法;

        ④基于統(tǒng)計(jì)與規(guī)則相結(jié)合的方法,目前使用最為廣泛的是第四種方法。

        2.3 剔除符號和停用詞

        在文本預(yù)處理過程中,會剔除掉對分類結(jié)果沒有實(shí)際意義的詞語和符號,比如藏文文本中存在的一些特殊符號、標(biāo)點(diǎn)符號以及數(shù)字等。通過構(gòu)造停用詞表剔除掉這些對文本分類無意義的詞項(xiàng),利用已建好的藏文語料庫,使用公式n/N來計(jì)算權(quán)重,(n表示文檔中出現(xiàn)詞w的文檔數(shù),N表示總的文檔數(shù)),把其中權(quán)重高過某一閾值的詞列入停用詞表,閾值將由具體實(shí)驗(yàn)確定。

        2.4 藏文文本分類特征工程

        對于計(jì)算機(jī)而言,它不能夠識別普通的文本中的字符串所要表達(dá)的信息,因此必須對文本中的字符串進(jìn)行處理,這樣的過程稱為文本表示。藏文文本一般以音節(jié)為特征單位,按照一定的描述模型對文本進(jìn)行表示,使機(jī)器能夠?qū)ξ谋具M(jìn)行處理和運(yùn)算。

        2.4.1 文本表示

        在藏文文本分類過程中,主要采用向量空間模型進(jìn)行文本表示。向量空間模型以空間上的相似度表達(dá)語義的相似度,表示如下:[V(d)=((t1,a1),(t2,a2),...,(tn,an))],其中,[ti]為文檔 d 中的特征項(xiàng),[ai] 為[ti] 的特征值,一般取為詞頻的函數(shù)。有了這樣的表示以后,就可以用分類器對樣本分類。

        2.4.2 文本特征選擇

        藏文語料文本經(jīng)過處理,從文本中產(chǎn)生的特征數(shù)量可能非常龐大,特征空間的維數(shù)會高達(dá)幾萬維甚至幾十萬維。如果用這些特征向量來進(jìn)行分類訓(xùn)練,不但會占用很大的存儲資源,造成時(shí)間和空間的浪費(fèi),而且還會極大地影響分類算法的運(yùn)行速度和降低分類準(zhǔn)確度。為此可構(gòu)造一個(gè)評價(jià)函數(shù),通過實(shí)驗(yàn)設(shè)定一個(gè)閾值α,當(dāng)評估分?jǐn)?shù)低于閾值α就予以刪除,高于閾值α的若干特征項(xiàng)重新組成一個(gè)新的低維特征空間。利用特征評價(jià)函數(shù)來計(jì)算每個(gè)特征的重要程度。目前,在藏文文本分類的研究過程中,常被運(yùn)用的特征選擇評估函數(shù)有逆文檔頻率(TF-IDF)、文檔頻率(DF)、互信息(MI)、信息增益(IG)、c2統(tǒng)計(jì)(CHI)、期望交叉熵(ECE)等。

        大量的實(shí)驗(yàn)結(jié)果表明,過高的特征維數(shù)會導(dǎo)致時(shí)間空間復(fù)雜度急劇增加,造成更大的計(jì)算代價(jià);特征項(xiàng)維數(shù)過低則可能造成文檔重要信息的丟失,對文本的分類效果造成影響。所以如何高效地選擇和提取特征,進(jìn)行文本特征表示需要綜合多種算法,反復(fù)實(shí)驗(yàn)。

        2.5 分類器的選擇與訓(xùn)練

        現(xiàn)階段,有關(guān)中英文的文本分類模型種類很多,實(shí)際應(yīng)用也相當(dāng)成熟,在藏文文本分類研究領(lǐng)域,最近幾年藏文文本分類技術(shù)研究的成果見表1所示。

        表1實(shí)驗(yàn)中針對實(shí)際語料,選用特定特征選擇算法進(jìn)行特征降維和提取有效特征,基于淺層機(jī)器學(xué)習(xí)模型進(jìn)行文本分類,可以看出將多種算法集成的分類模型可以有效提升分類效果。但這些算法大都需要人工參與定制規(guī)則,并且分類模型泛化能力較低。樸素貝葉斯算法簡單,分類效果穩(wěn)定;所需估算的參數(shù)少,但此算法適用于小規(guī)模數(shù)據(jù)的訓(xùn)練,且需要假設(shè)屬性之間相互獨(dú)立,而實(shí)際中往往難以成立。支持向量機(jī)可用于高維數(shù)據(jù)的計(jì)算,但對缺失數(shù)據(jù)較敏感;針對非線性問題沒有通用的解決方案。近年來興起的深度神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的并行處理能力,自學(xué)習(xí)能力強(qiáng),能解決復(fù)雜的非線性關(guān)系,具有記憶的功能,但是在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中需預(yù)先確定大量參數(shù),且所得信息高度編碼不易被解讀,輸出結(jié)果難以解釋。

        綜合分析以上算法的優(yōu)缺點(diǎn),本文選用K近鄰(KNN)、高斯貝葉斯(Gaussian NB)兩種淺層機(jī)器學(xué)習(xí)模型算法和多層感知機(jī)(MLP)、深度可分離卷積(SepCNN)兩種神經(jīng)網(wǎng)絡(luò)模型進(jìn)行分類實(shí)驗(yàn),整理實(shí)驗(yàn)數(shù)據(jù),得到表2。

        從表2實(shí)驗(yàn)數(shù)據(jù)可以看出,在大規(guī)模數(shù)據(jù)集下,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型比基于淺層機(jī)器學(xué)習(xí)的單一模型分類效果要好,避免了煩瑣的人工特征工程,節(jié)省了部分人力開銷。因此研究文本分類,其方法與模型的選擇和要解決的問題及問題的規(guī)模有關(guān),根據(jù)文本分類的各個(gè)流程采取對應(yīng)的解決辦法,是當(dāng)前藏文文本分類研究的重要方向。

        2.6 分類結(jié)果的評價(jià)與反饋

        模型最終常用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值來對分類器的性能進(jìn)行綜合評價(jià)。假設(shè)只有兩類樣本,即正例(positive)和負(fù)例(negative)。TP表示將實(shí)際正類預(yù)測為正類預(yù)測正確的數(shù)值,F(xiàn)N表示將實(shí)際正類預(yù)測為負(fù)類預(yù)測錯(cuò)誤的數(shù)值,F(xiàn)P表示將實(shí)際負(fù)類預(yù)測為正類預(yù)測錯(cuò)誤的數(shù)值,TN表示將實(shí)際負(fù)類預(yù)測為負(fù)類預(yù)測正確的數(shù)值[13]。形成表3如下所示。

        表中AB模式:第二個(gè)符號表示預(yù)測的類別,第一個(gè)表示預(yù)測結(jié)果對了(True)還是錯(cuò)了(False)。分類準(zhǔn)確率(accuracy):分類器正確分類的樣本數(shù)與總樣本數(shù)之比, 精確率(Precision)反映了模型判定的正例中真正正例的比重,召回率(Recall)反映了總正例中被模型正確判定正例的比重[13]。F值是精確率和召回率的調(diào)和平均。各測評標(biāo)準(zhǔn)如表4所示。

        3 面臨的問題與挑戰(zhàn)

        目前藏文文本分類技術(shù)依舊面臨著諸多問題與挑戰(zhàn)。由于藏文信息處理技術(shù)缺乏統(tǒng)一規(guī)范化的標(biāo)準(zhǔn),導(dǎo)致部分網(wǎng)頁藏文資源字符編碼方式不統(tǒng)一,使得計(jì)算機(jī)不能有效處理藏文字符;現(xiàn)階段該領(lǐng)域還未能研究出較為成熟的分詞技術(shù);藏文文本分類的相關(guān)技術(shù)大都借鑒漢語、英語的處理方法,針對藏語自身的特點(diǎn)和規(guī)律研究欠缺;近年來發(fā)展較成熟的word2vec詞向量預(yù)訓(xùn)練模型在藏文方面的遷移應(yīng)用研究尚淺;藏文信息方面不僅缺少開源語料,也缺少基于深度學(xué)習(xí)取得的成果,這些問題都制約了藏文文本分類技術(shù)的研究與發(fā)展。

        4 結(jié)束語

        本文總結(jié)了到目前為止藏文文本分類技術(shù)的研究現(xiàn)狀,分析了當(dāng)前研究所面臨的問題與困難,并針對問題的解決和未來的研究提出了建設(shè)性的建議。藏文文本分類系統(tǒng)和其他語種的文本分類系統(tǒng)相比還存在著很大的差距,對于藏文自身的語言特點(diǎn),適用于大語種的研究方法并不能完全適用于藏文的研究。因此,對藏文在文本分類的基本理論和處理模型上進(jìn)行針對性的創(chuàng)新是我們未來的研究方向。后續(xù)希望研究者能夠不斷對比各種分類技術(shù)并且參考各領(lǐng)域最新的文本分類的研究成果,在深度學(xué)習(xí)方法上,尋求突破,探討實(shí)踐出更加優(yōu)化的藏文文本分類系統(tǒng)。

        參考文獻(xiàn):

        [1] 賈會強(qiáng),李永宏.藏文文本分類器的設(shè)計(jì)與實(shí)現(xiàn)[J].科技致富向?qū)В?010(12):30-31.

        [2] 才讓加.藏語語料庫加工方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(6):138-139,146.

        [3] 才讓加,吉太加.藏語語料庫的詞性分類方法研究[J].青海師范大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版),2005,27(4):112-114.

        [4] 孟祥和.藏文網(wǎng)站話題發(fā)現(xiàn)與跟蹤技術(shù)研究[D].西北民族大學(xué),2013.

        [5] 袁斌.藏文微博情感分類研究與實(shí)現(xiàn)[D].西北民族大學(xué),2016.

        [6] 周登.基于N-Gram模型的藏文文本分類技術(shù)研究[D].西北民族大學(xué),2010.

        [7] 安見才讓,拉毛措,孫琦龍.互聯(lián)網(wǎng)藏文信息輿情分析系統(tǒng)設(shè)計(jì)[J].微處理機(jī),2017,38(2):56-58,63.

        [8] 胥桂仙,向春丞,翁彧,等.基于欄目的藏文網(wǎng)頁文本自動分類方法[J].中文信息學(xué)報(bào),2011,25(4):20-23.

        [9] 群諾,賈宏云.基于Logistic回歸模型的藏文文本分類研究與實(shí)現(xiàn)[J].信息與電腦(理論版),2018(5):70-73.

        [10] 賈宏云,群諾,蘇慧婧,等.基于SVM藏文文本分類的研究與實(shí)現(xiàn)[J].電子技術(shù)與軟件工程,2018(9):144-146.

        [11] 賈宏云.基于AdaBoost模型的藏文文本分類研究與實(shí)現(xiàn)[D].西藏大學(xué),2019.

        [12] 王莉莉,楊鴻武,宋志蒙.基于多分類器的藏文文本分類方法[J].南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,40(1):102-110.

        [13] 鄭雅文. 基于特征選擇和支持向量機(jī)的乳腺癌診斷研究[D].太原理工大學(xué),2019.

        【通聯(lián)編輯:唐一東】

        猜你喜歡
        機(jī)器學(xué)習(xí)特征選擇
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        前綴字母為特征在維吾爾語文本情感分類中的研究
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        基于GA和ELM的電能質(zhì)量擾動識別特征選擇方法
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
        国产精品毛片无码| 黄色国产一区二区99| 一个人看的www片免费高清视频| 亚洲综合久久精品无码色欲| 亚洲欧美日韩国产色另类| 亚洲精品一品二品av| 久久综合精品国产丝袜长腿| 日本丰满熟妇videossex一| 久久人人爽人人爽人人av东京热| 国产欧美亚洲另类第一页| 成人自拍偷拍视频在线观看 | 亚洲AV无码一区二区一二区色戒| 久久少妇高潮免费观看| 免费网站内射红桃视频| 特级毛片a级毛片免费播放| 久久国产A∨一二三| 日本不卡一区二区三区久久精品| 乱中年女人伦av三区| 亚洲国产精品一区二区第四页 | 精品国产三级a∨在线观看| 精品的一区二区三区| 国产在线精品观看一区二区三区 | 国产精品亚洲av高清二区| 正在播放国产多p交换视频| 丁香六月婷婷综合| 日本人妻伦理片在线观看| 97cp在线视频免费观看| 99久久综合精品五月天| 国产亚洲女在线线精品| 亚洲av一区二区在线| 五月丁香六月综合缴清无码| 美女高潮无遮挡免费视频| 中日韩字幕中文字幕一区| 中文字幕乱码熟女人妻在线| 少妇久久久久久被弄到高潮| 欧美成人精品三级在线观看| 国产精品亚洲二区在线| 性饥渴的农村熟妇| 国产91成人精品亚洲精品| 国产自拍伦理在线观看| 成人艳情一二三区|