亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞典與機(jī)器學(xué)習(xí)的藏文微博情感分析研究

        2017-12-07 02:16:19
        軟件 2017年11期
        關(guān)鍵詞:藏文詞典機(jī)器

        楊 志

        (青海民族大學(xué)計(jì)算機(jī)學(xué)院,青海 西寧 810000)

        基于詞典與機(jī)器學(xué)習(xí)的藏文微博情感分析研究

        楊 志

        (青海民族大學(xué)計(jì)算機(jī)學(xué)院,青海 西寧 810000)

        隨著互聯(lián)網(wǎng)自媒體的興起,越來越多的藏族人開始使用微博,并在其發(fā)表自己的觀點(diǎn)和看法,與微博相關(guān)的藏文信息處理研究隨之得到了學(xué)術(shù)層面的廣泛關(guān)注。本文根據(jù)藏文微博的行文特征,提出了基于詞典與機(jī)器學(xué)習(xí)算法多特征融合的藏文情感分類方法。在特征選擇方面,運(yùn)用藏漢情感詞、表情符號等作為特征項(xiàng)。實(shí)驗(yàn)發(fā)現(xiàn)由于所構(gòu)建的情感詞典覆蓋率不夠髙導(dǎo)致分類效果不太理想。為了優(yōu)化實(shí)驗(yàn)結(jié)果,本文引入了信息增益特征選擇的措施,實(shí)驗(yàn)顯示該措施完全較人工選擇特征方法的分類結(jié)果有較大的提高。針對特定領(lǐng)域,實(shí)驗(yàn)證明融合后的分類效果有了一定程度的提升。

        自然語言處理;情感分類;微博;機(jī)器學(xué)習(xí);特征選取;特征項(xiàng)權(quán)重

        0 引言

        微博(微型博客 MicroBlog),當(dāng)下較為流行的一種自媒體,是通過用戶關(guān)系來實(shí)施分享、傳遞以及獲取信息的平臺。字符限制在140字(包括標(biāo)點(diǎn)符號)之內(nèi),通常是為了表達(dá)自己的心情或看法,其更注重時(shí)效性和隨意性。情感分析(Sentiment Analysis)也稱為傾向性分析、主觀分析(Subjectivity analysis)、觀點(diǎn)挖掘(Opinion Mining)等,是對文本情感進(jìn)行分析、處理、推理和歸納的過程。對于時(shí)事與熱點(diǎn)話題評論的情感分析,有助于商家及時(shí)掌握產(chǎn)品的反饋信息,也有利于政府機(jī)構(gòu)收集與分析輿情信息。目前國內(nèi)外關(guān)于中文文本的情感挖掘的相關(guān)工作研究已經(jīng)非常成熟[1]。但是,對于藏文尤其短文本領(lǐng)域的相關(guān)研究工作并未得到深入開展。藏文微博相較于中文微博,存在著以下幾方面的特點(diǎn),首先在內(nèi)容上,藏文微博表述更為精煉且簡短,所表述主題相對集中,其次,從表述形式看,雙語甚至是多語種混合表達(dá)的情況較多。

        本文根據(jù)藏文微博文本的特點(diǎn),借鑒當(dāng)前基于詞典和基于機(jī)器學(xué)習(xí)的情感分析的方法各自存在的優(yōu)劣,針對藏文微博文本,提出了基于詞典和機(jī)器學(xué)習(xí)相結(jié)合的措施,用于藏文短文本方面的研究。

        1 相關(guān)工作

        文本情感分類,目前主要使用的兩種技術(shù)實(shí)施方案,一是情感詞典方法,二是機(jī)器學(xué)習(xí)方法。基于情感詞典的分析方法,依據(jù)文本中所包含的正向和負(fù)向情感詞的個(gè)數(shù)進(jìn)行情感分類;而基于機(jī)器學(xué)習(xí)的方法,則依據(jù)文本特征,標(biāo)注訓(xùn)練集和測試集,使用各種分類算法(KNN、NB、RF、SVM、DL等),進(jìn)行情感分類。

        1.1 基于情感詞典的方法

        基于情感詞典的分類方法,使用一個(gè)標(biāo)有極性的情感詞典,其內(nèi)容主要包含正向情感詞和負(fù)向情感詞。利用情感詞典,統(tǒng)計(jì)待分析藏文本中的正向和負(fù)向情感詞的數(shù)量,繼而通過兩者的差值來實(shí)施情感極性的判斷[2]。由于藏文微博中出現(xiàn)藏漢混排的情況較為普遍,我們分別建立了藏文和中文情感詞典。中文情感詞典基于Hownet和NTUSD提供的第三方情感語料庫建立,藏文情感詞典則采取人工采集方式,選擇情感極性較為飽滿和使用較為普遍的情感詞匯作為基準(zhǔn)詞匯,然后從微薄文本中抽取形容詞、名詞和動詞并將其作為情感詞的候選詞,使用基于擴(kuò)展的點(diǎn)間互信息(so-PMI)的方法計(jì)算候選詞與基準(zhǔn)詞的相似度,從而判斷候選詞的情感傾向,將情感傾向極性較強(qiáng)的詞語收錄到藏文詞典[3]。

        1.2 基于機(jī)器學(xué)習(xí)的方法

        基于機(jī)器學(xué)習(xí)的分類方法,通常是人工標(biāo)注訓(xùn)練集和測試集,通過對文本進(jìn)行特征選取、特征降維、特征權(quán)重計(jì)算等,然后利用一些常見的分類器對文本進(jìn)行分類的過程。常見的分類算法有樸素貝葉斯算法(Naive Bayes)、支持向量機(jī)(Support Vector Machine,SVM)算法、最大熵(Maximum Entropy)算法、K 最近鄰(K-Nearest Neighbor,kNN)算法等[4]。在本實(shí)驗(yàn)中采用SVM作為情感分類的方法。

        2 詞典與機(jī)器學(xué)習(xí)相結(jié)合的藏文微博文本情感分析

        文本情感分析以帶有主觀性信息的文本為研討對象,目標(biāo)是辨別、分類、抽取、標(biāo)注文本里表述的觀點(diǎn)、情感。選取的含有表情圖片以及情感詞匯等情緒特征的文本后,先進(jìn)行自動和人工標(biāo)注,然后利用機(jī)器學(xué)習(xí)分類算法進(jìn)行分類,并提出算法改進(jìn)、建立分類模型,為文本分析的智能系統(tǒng)提供幫助,圖1為本實(shí)驗(yàn)構(gòu)建藏文向量空間模型的過程。

        2.1 數(shù)據(jù)預(yù)處理

        使用新浪微博和網(wǎng)絡(luò)爬蟲采集微博數(shù)據(jù),對微博數(shù)據(jù)進(jìn)行預(yù)處理,去除數(shù)據(jù)中的噪聲,使用改進(jìn)的CRF算法工具對微博數(shù)據(jù)進(jìn)行分詞處理[5]。

        圖1 藏文微博情感分析過程Fig.1 The sentiment analysis process of tibetan microblog

        表1 藏文語料類型Tab.1 T ibetan corpus type

        2.2 構(gòu)建詞典庫信息

        表2 基礎(chǔ)情感詞典Tab.2 Basic semantic lexicon

        2.3 特征選取

        在文本分類中,文本特征詞的獲取通常是基于詞典或者使用一些分詞算法以及詞頻統(tǒng)計(jì)的方式,從文檔中選出盡可能多的詞、詞組和短語,由它們來構(gòu)成文檔矢量[6]。這種措施一方面將會造成文本特征空間的髙維性和文本向量的稀疏化,極大的耗費(fèi)計(jì)算資源,并給后續(xù)的文檔處理帶來巨大的計(jì)算開支,降低了處理過程的效率,因而須采取特定的措施進(jìn)行文檔矢量的降維。目前常見的方式是對文本特征進(jìn)行選擇,如下:

        (1)詞頻。詞頻方法是最簡單的文本特征選擇措施,根據(jù)詞語出現(xiàn)的頻次區(qū)分詞的重要程度,最終依照詞頻從高到低排序,取前K個(gè)詞作為特征。

        (2)信息增益。在信息増益中,越重要的特征,帶給分類系統(tǒng)的信息越多。基于此來進(jìn)行特征的選擇信息増益是針對某個(gè)特征而言的,分別計(jì)算系統(tǒng)包括與不包括特征X的信息量,兩者差值即是該特征給本體帶來的信息量,即信息增益。按照信息增益從大到小的順序取前K個(gè)詞語作為特征[7]。

        (3)卡方統(tǒng)計(jì)量。通過卡方檢驗(yàn)得出詞語與情感極性相關(guān)性,依照卡方值從大到小的次序取前K個(gè)詞語作為特征。

        2.4 特征權(quán)值計(jì)算

        TF-IDF(Term Frequency-Inverse Document Frequency)是在詞頻的基礎(chǔ)上使用了逆文檔頻率IDF,逆文檔頻率縮放因子把常見詞的權(quán)重進(jìn)行減小,提高了在該篇文檔中出現(xiàn)頻數(shù)高同時(shí)在總的語料中出現(xiàn)頻數(shù)較低的特征的權(quán)重[8]。TF-IDF權(quán)衡特征的重要程度不僅僅與特征在該文檔中呈現(xiàn)的頻數(shù)有關(guān),而且還與該特征在整個(gè)語料中的頻數(shù)有關(guān)。本文基于TF-IDF進(jìn)行權(quán)重計(jì)算,對公式實(shí)施歸一化后TF-IDF計(jì)算公式變?yōu)椋?/p>

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        首先分析新浪微博上較為活躍的藏族微博博主,選擇微博內(nèi)容較為豐富且關(guān)注度較高的微博博主作為種子用戶,通過社交網(wǎng)絡(luò)(Social Network,SNS)關(guān)系,遍歷朋友圈,利用微博 API接口以及爬蟲工具從新浪微博上抓取了部分?jǐn)?shù)據(jù)。因?yàn)樾吕宋⒉]有針對藏文微博做主題分類,所以首先進(jìn)行人工分類和篩選[9];然后選取了三個(gè)不同的主題,分別對語料進(jìn)行情感標(biāo)注,作為接下來的實(shí)驗(yàn)數(shù)據(jù)。

        3.2 實(shí)驗(yàn)結(jié)果

        本文針對藏文微博短文本進(jìn)行情感分析的分類過程中,以正確率、召回率、F值作為評價(jià)指標(biāo)。計(jì)算公式如下:

        其中,correct表示情感分類器分類正確的微博個(gè)數(shù);propose指所有標(biāo)注為該分類的數(shù)量;all為測試樣本中人工標(biāo)記的數(shù)量。

        表3 雙語和單語特征情感分析實(shí)驗(yàn)結(jié)果Tab.3 Bilingual and monolingual sentiment analysis

        3.3 結(jié)果分析

        實(shí)驗(yàn)結(jié)果說明,本文所提出的基于跨語言情感分類方法是行之有效的?;诙喾N特征選取方式和特征權(quán)值計(jì)算方法,隨著所選特征維數(shù)的不斷增長,情感分類結(jié)果正確率也不斷提高[10],特征維度達(dá)到200維時(shí),藏漢混合特征和藏文特征兩種方式的測試結(jié)果的正確率都達(dá)到了頂點(diǎn);當(dāng)特征維數(shù)繼續(xù)增長時(shí),正確率開始出現(xiàn)了不同程度的回落。究其原因,由于測試集中的藏文微博文本語料普遍相對較短,選取的特征維數(shù)過高時(shí)會產(chǎn)生嚴(yán)重的數(shù)據(jù)稀疏問題,導(dǎo)致分類正確率下降。由此表明,并非特征選取的越多、特征維數(shù)越高,計(jì)算產(chǎn)生的分類效果就越好[11]。

        圖2 兩種文本特征效果Fig.2 Two text feature effects

        4 結(jié)論

        本文針對藏文微博文本進(jìn)行了初步研究,探討了對其進(jìn)行情感分析的方法。與中文微博文本的情感分析相關(guān)工作相比,藏文微博存在藏漢多語種混排的情況,采用抽取單語特征進(jìn)行情感計(jì)算,并在此基礎(chǔ)上建立藏漢情感詞典,基于多種特征選取方式和特征權(quán)值的計(jì)算方法。研究并改進(jìn)了目前情感分析的方法,并采取一系列實(shí)驗(yàn)對改進(jìn)方法的效果進(jìn)行了評估。結(jié)果表明,通過這些改進(jìn)措施,使之更適合藏文情感分析方法,能夠有效的對藏文微博進(jìn)行分析和處理。當(dāng)然本文實(shí)驗(yàn)還存在較大的提升空間,例如受制于現(xiàn)有分詞系統(tǒng),網(wǎng)絡(luò)中的一些新詞,無法識別;另外由于語料庫規(guī)模較小,從而對藏文情感分類的結(jié)果也有不小的影響。

        [1] 文坤梅, 徐帥, 李瑞軒. 微博及中文微博信息處理研究綜述[J]. 中文信息學(xué)報(bào), 2012, 26(6): 27-37.

        [2] 徐軍, 下宇新, 王曉龍. 使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動分類[J]. 中文信息學(xué)報(bào), 2007, (1): 95-100.

        [3] 謝麗星, 周明, 孫茂松. 基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 中文信息學(xué)報(bào), 2012, 26(1):73-83.

        [4] 劉志明, 劉魯. 基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2012, 48(2): 1-4.

        [5] 李婷婷, 姬東鴻. 基于SVM 和CRF多特征組合的微博情感分析[J]. 計(jì)算機(jī)應(yīng)用研究, 2015.

        [6] 劉全超, 黃河燕, 馮沖. 基于多特征微博話題情感傾向性判定算法研究[J]. 中文信息學(xué)報(bào), 2014, 28(4): 123-131.

        [7] 徐琳宏, 林鴻飛, 楊志豪. 基于語義理解的文本傾向性識別機(jī)制[J]. 中文信息學(xué)報(bào), 2007, (1): 96-100.

        [8] 李培, 何中市, 黃永文. 基于依存關(guān)系分析的網(wǎng)絡(luò)評論極性分類研究[J]. 可計(jì)算機(jī)工程與應(yīng)用, 2010.

        [9] 李海剛, 于洪志. 藏文文本情感分類系統(tǒng)設(shè)計(jì)[J]. 甘肅科技縱橫, 2011, (1): 106-107.

        [10] 張俊, 李應(yīng)興. 基于情感詞典的藏文微博情感分析研究[J].珪谷, 2014, 7(20):

        [11] 韓忠明, 張玉沙, 張慧, 等. 有效的中文微博短文本傾向性分類算法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2012, 29(10): 89-93.

        Lexicon and Machine Learning Based Sentiment Analysis of Tibetan Microblogs

        YANG Zhi
        (Qinghai University For Nationalities, Xining 810007)

        With the development of Web2.0 era, more and more Tibetans began to express their own opinions and views on microblog. The Tibetan information processing research related to Tibetan microblog has drawn wide attention from academic communities.According to the expression features of Tibetan micro-blogs, this paper puts forward a method of multi-feature sentiment analysis which based on three kinds of machine learning algorithms.In the aspect of feature selection, it used of emotional words, morphological sequences, emojis and other features.The experimental results indicate that the classification performance was not ideal due to the inadequate coverage of the emotional dictionary constructed.In order to address this problem, the information gain feature selection method is introduced in this paper, and the experiment shows that the method is better than the classification effect of artificial selection feature.In the field of film topic, it is found that the classifier effect of fusion is better than that of single classifier.

        NLP; Sentiment classification; Microblog; Feature selection; Term weight

        TP391

        A

        10.3969/j.issn.1003-6970.2017.11.008

        本文著錄格式:楊志. 基于詞典與機(jī)器學(xué)習(xí)的藏文微博情感分析研究[J]. 軟件,2017,38(11):46-48

        青海民族大學(xué)校級理工科項(xiàng)目(2016XJQ06)

        楊志(1979-),男,青海西寧人,專業(yè)技術(shù)職稱:高級軟件工程師,現(xiàn)從事的研究工作:自然語言處理,教育信息化及大數(shù)據(jù)。

        猜你喜歡
        藏文詞典機(jī)器
        機(jī)器狗
        機(jī)器狗
        西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
        布達(dá)拉(2020年3期)2020-04-13 10:00:07
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
        西夏學(xué)(2019年1期)2019-02-10 06:22:34
        未來機(jī)器城
        電影(2018年8期)2018-09-21 08:00:06
        評《現(xiàn)代漢語詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        藏文音節(jié)字的頻次統(tǒng)計(jì)
        現(xiàn)代語境下的藏文報(bào)刊
        新聞傳播(2016年17期)2016-07-19 10:12:05
        麻豆精品在线视频观看| 无码专区中文字幕DVD| 青青在线精品2022国产| 青青手机在线视频观看| 成年网站在线91九色| 国模冰莲自慰肥美胞极品人体图| 国产精品成年片在线观看| 百合av一区二区三区| av免费一区在线播放| 91在线视频在线视频| 人妻有码中文字幕| 精品第一页| 视频福利一区二区三区| 国产日本精品一二三四区| 国产成人a人亚洲精品无码| 国产小毛片| 91九色国产在线观看| 一区二区三区四区国产99| 欧美成人免费全部| 久久av高潮av喷水av无码| 久久狠狠髙潮曰十八女人| 日本在线视频www色| 亚洲国产精品久久久久婷婷老年| 亚州AV无码乱码精品国产| av有码在线一区二区三区| 国产精品视频永久免费播放| 午夜亚洲av永久无码精品| 国产亚洲欧美在线播放网站| 日韩精品免费视频久久| 亚洲av成人片在线观看| av网站免费线看| 日韩在线手机专区av| 日韩有码中文字幕在线观看| 亚洲中文久久精品无码| 免费在线国产不卡视频| 国产91成人自拍视频| 日韩不卡av高清中文字幕| 激情视频在线观看好大| 67194熟妇人妻欧美日韩| 免费的毛片视频| 国产一区二区三区涩涩涩|