亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進樸素貝葉斯算法實現(xiàn)評教評語情感分析

        2018-12-19 12:44:28張俊飛
        現(xiàn)代計算機 2018年32期
        關(guān)鍵詞:評語分類文本

        張俊飛

        (廣州醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)學(xué)院,廣州 511436)

        0 引言

        課堂教學(xué)評價是對教學(xué)效果的反饋,有利于促進教學(xué)活動的開展。根據(jù)教學(xué)評價方式的不同,評價可分為定量評價和定性評價。課堂教學(xué)定量評價是指對評價量化數(shù)據(jù)利用軟件如SPSS、Excel等或程序算法計算其平均值、方差、標(biāo)準(zhǔn)差等反映教學(xué)效果的指標(biāo);定性評價則是利用質(zhì)性數(shù)據(jù)對課堂教學(xué)效果的描述。一般教學(xué)的定性評價形式有學(xué)生的評語、教學(xué)督導(dǎo)的聽課意見等。然而,課堂教學(xué)定性評價數(shù)據(jù)處理很少見有研究,傳統(tǒng)的評教質(zhì)性數(shù)據(jù)處理方式是把數(shù)據(jù)直接呈現(xiàn)給教師、教學(xué)管理者,方便他們逐條閱讀。這種采用人工方式對浩瀚的信息進行查詢和統(tǒng)計是勞動密集型的方法,顯然是低效和不切實際的[1]。

        隨著信息技術(shù)的發(fā)展,機器學(xué)習(xí)技術(shù)的成熟,為質(zhì)性數(shù)據(jù)處理帶來了契機。本研究采用對定性評價數(shù)據(jù)情感分析實現(xiàn)質(zhì)性數(shù)據(jù)處理,方便用戶分門別類去了解質(zhì)性評價數(shù)據(jù),更具有針對性,便于歸納總結(jié)。情感分析通過建立一個有效的分析方法、模型和系統(tǒng),對研究數(shù)據(jù)的情感信息做出情緒表達判斷,如情感極性、強度等。

        樸素貝葉斯是經(jīng)典的基于概率論的機器學(xué)習(xí)分類算法之一,被廣泛地應(yīng)用于模式識別、自然語言處理、機器學(xué)習(xí)、機器人項目以及一些信息分析軟件系統(tǒng)。樸素貝葉斯算法是基于貝葉斯定理與特征條件獨立假設(shè)的分類方法[2]。特征值間獨立假設(shè)與現(xiàn)實是不符合的,在中文語句表達中肯定要區(qū)分核心情感詞匯、一般情感詞匯和非情感詞匯。因此當(dāng)前學(xué)者圍繞特征值屬性對樸素貝葉斯進行了改進研究,主要體現(xiàn)在兩個方面:①特征值選擇預(yù)處理;②根據(jù)特征值和情感類別的關(guān)系,加權(quán)特征值,弱化獨立假設(shè)。Geenen P L[3]提出了基于互信息選擇特征屬性的方法,并整合到樸素貝葉斯算法中,實現(xiàn)對獸醫(yī)很好的決策支持。曾宇[4]等利用HowNet情感詞典、NTUSD情感詞典以及收集的網(wǎng)絡(luò)情感詞集進行情感特征值提取,再根據(jù)情感詞對文本的貢獻度計算權(quán)重,實現(xiàn)特征加權(quán)樸素貝葉斯分類。饒麗麗[5]通過改進互信息,考慮情感詞詞頻提取特征值,并通過TF-IDF-FC算法實現(xiàn)對特征值權(quán)重的計算,最后實現(xiàn)加權(quán)樸素貝葉斯分類算法。

        基于情感詞典的特征值選取,受限與詞典詞庫大小,情感詞匯數(shù)據(jù)的稀疏問題將嚴(yán)重影響對情感極性的判斷。綜合先前學(xué)者研究成果,本文采用點互信息(Point Mutual Information,PMI)實現(xiàn)對特征值的選取,利用TF-IDF函數(shù)實現(xiàn)對特征值權(quán)重的計算,最后實現(xiàn)對傳統(tǒng)樸素貝葉斯算法基于PMI特征值TF-IDF加權(quán)改進,通過對評教評語的分類實驗檢驗算法效果。

        1 樸素貝葉斯

        樸素貝葉斯算法描述如下:

        輸入:評語文本集合訓(xùn)練數(shù)據(jù) T={(x1,y1),(x2,y2),…,(xN,yN)},其中是第i個評語的第 j個特征詞,j=1,2,…,n,l=1,2,…,Sj,yi∈{c1,c2,…,cK};測試評語x。

        輸出:測試評語x的分類。

        (1)極大似然估計計算先驗概率及條件概率

        (2)計算評語x=(x(1),x(2),…,x(n))T歸屬每個類別的后驗概率,根據(jù)樸素貝葉斯特征值間條件獨立假定可知:

        (3)取最大后驗概率P(ck|x),ck即為X的類別y

        在實際的應(yīng)用中為防止概率計算值為0和下溢出問題,經(jīng)常采用拉普拉斯平滑和概率運算對數(shù)化來解決。

        2 改進樸素貝葉斯算法

        本文從特征值選取和特征值權(quán)重兩個維度,實現(xiàn)對樸素貝葉斯算法的改進。特征值選取使得樸素貝葉斯概率計算更具有情感代表性;特征值加權(quán)弱化獨立假設(shè),更加符合現(xiàn)實。

        2.1 利用PPMMII實現(xiàn)特征值選取

        訓(xùn)練集評語文本表示成特征向量,需要經(jīng)過分詞處理,去掉停用詞,但是構(gòu)成的特征空間通常還是高達幾萬維,直接在這樣的高維向量上進行分類器的訓(xùn)練和測試,計算量過大。因此,在不影響分類準(zhǔn)確率的前提下,需要對原始特征空間降維,將特征維數(shù)壓縮到與訓(xùn)練文本個數(shù)相適應(yīng)的情況[6]。

        PMI(Point Mutual Information)點互信息通過計算詞語與基準(zhǔn)詞在語料庫中共現(xiàn)概率[7],體現(xiàn)與基準(zhǔn)詞的關(guān)系。利用PMI算法實現(xiàn)評教評語特征值的選取,首先計算特征詞語與種子集中元素的關(guān)聯(lián)程度,其中種子集為類別詞集E=(E1,E2,…,EK)。

        其中P(x(j)Ek)為x(j)和Ek在評語訓(xùn)練集合T中共現(xiàn)概率;P(x(j))為包含特征值x(j)評語在T中出現(xiàn)的概率;P(Ek)為類別Ek在T中出現(xiàn)的概率。

        點互信息易受臨界文本特征概率影響,當(dāng)P(x(j)Ek)值相等時,P(x(j))小的PMI值較大,從而導(dǎo)致概率相差太大的PMI值不具有可比性。沒有考慮詞頻特性是PMI算法的缺點,借鑒饒麗麗[8]文本特征選取算法設(shè)計,對 PMI公式(5)改進:

        其中,P(TF(x(j)))為x(j)的頻數(shù)在集合評語語料庫中的概率;P(Ek|x(j))表示x(j)屬于類別Ek的概率,P(Ek)為詞集項Ek的概率。

        其中閾值θpmi值的大小依賴訓(xùn)練數(shù)據(jù)集中的表現(xiàn)。當(dāng)高于θpmi時,選為特征值。

        2.2 利用TFF--IIDDFF函數(shù)計算特征值權(quán)重

        一個優(yōu)秀的文本特征集,應(yīng)具備:①完全性,即能夠涉獵文本內(nèi)容;②區(qū)別性,即將目標(biāo)本文和其他文本分開的特性。文本特征值的選取不僅應(yīng)考慮特征值的詞頻特性,還應(yīng)該考慮其權(quán)重,文本特征詞權(quán)重綜合反映了該文本特征詞對表示文本內(nèi)容的貢獻度和文本之間的區(qū)別能力[9]。

        假設(shè)x(j)的權(quán)重wi,依據(jù)朱顥東[10]關(guān)于TF-IDF函數(shù)設(shè)計,并對wi進行歸一化處理,特征值權(quán)重公式(8)

        2.3 基于PPMMII特征值TFF--IIDDFF加權(quán)樸素貝葉斯評語情感計算

        樸素貝葉斯分類認(rèn)為所有特征值屬性在分類過程中權(quán)重一樣,這樣就使得與情感分類無關(guān)的、相互有影響的特征值,對有效的情感分類的特征值造成污染,降低了分類的準(zhǔn)確率。將加權(quán)算法應(yīng)用到樸素貝葉斯分類器中,有效地解決了訓(xùn)練樣本的數(shù)據(jù)不均衡問題,弱化特征間相對獨立假設(shè),提高分類型的性能。根據(jù)文獻[11]加權(quán)樸素貝葉斯算法設(shè)計為如下:

        (1)對評語語料庫和待計算極性的詞x進行分詞處理并去掉停用詞,基于HowNet情感詞庫和PMI實現(xiàn)評語特征詞提取。

        (2)計算x(j)特征值的權(quán)重Wj。

        (3)基于評教評語語料庫,整合TF-IDF權(quán)重算法計算評語x(j)特征值的后驗概率,然后計算出x歸屬ck(k=1,2,…,K)的概率。計算公式(9)如下:

        (4)選擇后驗概率最大P( ck|x),對應(yīng)的ck即為x歸類情感y。計算公式(10)如下:

        3 實驗與分析

        情感分析領(lǐng)域通常采用準(zhǔn)確率P(Precision)、召回率 R(Recall)和 F1 值(F1-measure)作為分類結(jié)果的指標(biāo)。準(zhǔn)確率是用來衡量檢測系統(tǒng)的查準(zhǔn)率的指標(biāo),準(zhǔn)確率值越大說明實驗的分類效果越好,反之分類效果越差。召回率是用來衡量檢測系統(tǒng)查全率的指標(biāo)。F1值是召回率與準(zhǔn)確率的綜合體現(xiàn),當(dāng)F1值較高時說明分類方法效果較好[12]。假設(shè)實驗語料的數(shù)量為N條,從中提取出M條進行分類,分類后正確的語料數(shù)量為n條,則準(zhǔn)確率、召回率和F1值的計算公式如公式(11)所示。

        采用廣州醫(yī)科大學(xué)2014年全校的教師教學(xué)學(xué)生評價數(shù)據(jù)集作為語料,并把它分為訓(xùn)練語料和測試預(yù)料。數(shù)據(jù)集包含9854條數(shù)據(jù),每條數(shù)據(jù)都由量化評分和質(zhì)性評語構(gòu)成。質(zhì)性評語集合構(gòu)成了語料庫中的Data(數(shù)據(jù)屬性),量化評分經(jīng)過如下規(guī)則構(gòu)成語料庫中的Label(目標(biāo)屬性)值。

        表1 目標(biāo)屬性構(gòu)建規(guī)則

        分5次進行傳統(tǒng)樸素貝葉斯評語情感分類算法和加權(quán)樸素貝葉斯算法實驗,學(xué)生評教數(shù)據(jù)集分別取1000條、1500條、2000條、2500條、3000條作為測試集,剩余為訓(xùn)練數(shù)據(jù)集。實驗對比結(jié)果,如表2所示。

        表2 分類對比實驗

        從表2中可以看出,改進后的加權(quán)樸素貝葉斯算法分類效果有一定的提高。通過計算數(shù)據(jù)集中每條評語的詞語元素與類別間的PMI相關(guān)性選擇特征值,并計算其權(quán)重值,對后驗概率的每個概率項進行加權(quán)修正??梢钥闯觯瑢MI特征值進行TF-IDF加權(quán)有效地利用了語料數(shù)據(jù)信息,提升了分類器的性能。

        4 結(jié)語

        特征值間獨立性假設(shè)在現(xiàn)實中很難達到,數(shù)據(jù)分布不均衡等因素都影響著樸素貝葉斯文本分類效果。為了實現(xiàn)評教評語的準(zhǔn)確情感分類,本文提出了改進特征值加權(quán)樸素貝葉斯文本分類算法。該算法基于點互信息實現(xiàn)特征值提取,并對篩選后的特征值進行TF-IDF權(quán)重計算,最后把計算得到權(quán)重應(yīng)用到樸素貝葉斯算法上。通過特征值權(quán)重的計算,減小了數(shù)據(jù)分布不均衡的影響,使得數(shù)據(jù)特征值間弱化獨立假設(shè),權(quán)重越大,則代表歸屬類的能力越大。通過實驗表明改進后的樸素貝葉斯算法較傳統(tǒng)的樸素貝葉斯算法分類效果更好。在教學(xué)評教質(zhì)性評語情感分析中,本研究算法具有較大的意義。

        猜你喜歡
        評語分類文本
        分類算一算
        流沙河語錄及諸家評語
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        怎樣為作文寫評語
        散文百家(2014年11期)2014-08-21 07:16:36
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        亚洲中文字幕在线观看| 色噜噜精品一区二区三区| 中文字幕日本av网站| 亚洲色大成网站www永久| 成av免费大片黄在线观看| 中文字幕久久久久人妻无码| 一个人看的在线播放视频| 男女射黄视频网站在线免费观看| 天天爽夜夜爱| 99er视频| 日本最新在线一区二区| 日本一区二区精品高清| 无码少妇精品一区二区免费动态 | 开心激情网,开心五月天| 91超精品碰国产在线观看| 国产如狼似虎富婆找强壮黑人| 四虎在线播放免费永久视频| 男女男生精精品视频网站| 日本av一区二区三区视频| 黑人巨大无码中文字幕无码| 国产精品毛片久久久久久l| 亚洲免费福利视频网站| 男人的天堂中文字幕熟女人妻| 亚洲精品一区二区三区大桥未久 | 草草网站影院白丝内射| 亚洲又黄又大又爽毛片| 国模冰莲自慰肥美胞极品人体图| 中文字幕视频二区三区| 免费高清日本一区二区| 色婷婷精品久久二区二区蜜桃| 精品人妻少妇嫩草av无码专区| 欧美白人最猛性xxxxx| 国产西西裸体一级黄色大片| 国产精品黑丝美腿美臀| 国内成+人 亚洲+欧美+综合在线| 欧美激情二区| 亚洲码无人客一区二区三区| 成人区人妻精品一区二区三区| 国产欧美日韩精品a在线观看| 在线偷窥制服另类| 亚洲国产色婷婷久久精品|