亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高校微博話題的情感分析

        2014-01-13 08:59:42捷宋正榮
        銅陵學(xué)院學(xué)報(bào) 2014年5期
        關(guān)鍵詞:詞匯文本情感

        翁 捷宋正榮 李 旸

        (1.安徽農(nóng)業(yè)大學(xué),安徽 合肥 230036;2.銅陵學(xué)院,安徽 銅陵 244000)

        一、引言

        在2011年1月發(fā)布的《第27次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》里,中年和青少年成為了網(wǎng)民的最主要組成部分,而其中大多數(shù)是在校大學(xué)生。微博作為一種信息交流平臺(tái),以其短小精悍、傳播速度快、用戶交互性強(qiáng)等優(yōu)勢,逐步成為人們喜愛的信息交流空間。高校是一個(gè)充滿活力的場所,不僅僅在校學(xué)生,很多老師、部門也都開始使用微信參與學(xué)生和學(xué)校的話題交流。

        微博的特點(diǎn)在于“微”。和BBS、Blog等相比,用戶發(fā)言的信息長度很短,語言更加口語化。同時(shí),因?yàn)楸砬榉柕幕钣?,用戶樂于在微博上用帶有較強(qiáng)情感色彩的語言或表情,來表達(dá)自己的觀點(diǎn)、情感、興趣和對事件的看法等等。因此,“情感”成為了微博信息研究中很重要的一環(huán),我們可以通過數(shù)據(jù)挖掘的方法,對微博的信息進(jìn)行情感分析,判斷話題的傾向性和情感強(qiáng)度,便于我們了解學(xué)生的情感趨向。

        二、分析方法

        1.?dāng)?shù)據(jù)預(yù)處理

        對于獲得的微博信息文本,首先要做的工作就是對數(shù)據(jù)進(jìn)行預(yù)處理,即通過中文分詞和排重過濾,獲得我們需要的數(shù)據(jù)。

        首先,基于分詞字典進(jìn)行中文分詞,把文本劃分為一個(gè)個(gè)詞單元,常用的中文分詞字典有《中國分類主題詞表》和《中科院分詞詞典》等,同時(shí)還可以添加自定義的詞表,比如新生的網(wǎng)絡(luò)詞匯或者特定事件發(fā)生后出現(xiàn)的詞匯等等。中文分詞后,會(huì)出現(xiàn)大量無意義、重復(fù)的數(shù)據(jù),通過排重過濾可以去掉多余的噪聲數(shù)據(jù),僅僅保留需要的關(guān)鍵字,比如帶有情感趨向的關(guān)鍵字、能夠作為該段文本主題詞的關(guān)鍵字等等。

        2.基于情感詞字典計(jì)算情感強(qiáng)度和傾向性

        情感字典是計(jì)算文本情感強(qiáng)度和情感傾向性的主要依據(jù)。國內(nèi)外的學(xué)者在對大量的詞匯進(jìn)行整理、研究后,制作出了專門的情感字典。比較著名的中文情感字典有知網(wǎng)(How Net)的情感詞語集、臺(tái)灣大學(xué)的NTUSD簡體中文情感極性詞典、大連理工大學(xué)信息檢索研究室的中文情感詞匯本體庫、哈爾濱工業(yè)大學(xué)信息檢索研究室的情感詞庫、中科院的漢語情感語料庫等等。在這些情感字典中,搜集并整理了貶義的負(fù)面情感詞語、褒義的正面情感詞語、情感表達(dá)強(qiáng)度的程度副詞等等,并對表達(dá)不同強(qiáng)度的詞語做了情感強(qiáng)度的劃分。

        和中文分詞的分詞字典一樣,可以根據(jù)需求引入新的情感詞,并且給出這些情感詞匯的情感強(qiáng)度。這些情感詞一般以網(wǎng)絡(luò)中新生的網(wǎng)絡(luò)流行語為主,也包括一些標(biāo)點(diǎn)符合或漢字的特殊組合(即日本網(wǎng)絡(luò)文化中出現(xiàn)的“顏文字”)。一些平??此坪翢o意義的符號組合,往往在網(wǎng)絡(luò)中會(huì)有著表達(dá)特殊情感的功能,而這些顏文字在我們?nèi)粘5闹形姆衷~、斷句過程中,往往容易把它們按照無意義的符號文本處理,比如“(TДT)”表示傷心,“\(*T△T*)/”表示高興等等。

        除了情感詞外,在微博的情感計(jì)算中,還需要考慮到在微博中廣泛使用的表情符號。微博中的表情往往以“/表情含義”來表示,因此有人提出只要根據(jù)表情含義對表情的情感傾向和情感強(qiáng)度進(jìn)行分類和定義即可。但是實(shí)際上的結(jié)果卻是,在微博中出現(xiàn)的絕大多數(shù)的表情,其實(shí)都是中性化的表情,本身并不帶有絕對化的情感傾向。如果文本本身并沒有很強(qiáng)的情感傾向,大部分的表情符號都會(huì)以帶有調(diào)侃性質(zhì)的中性情感出現(xiàn);如果文本本身帶有比較強(qiáng)的情感傾向,表情符號的情感傾向會(huì)和文本的情感傾向保持一致,所表達(dá)的情感強(qiáng)度也僅僅是對文本的情感強(qiáng)度進(jìn)行加強(qiáng)。所以,在計(jì)算表情符號對微博文本的情感影響時(shí),可以進(jìn)行有取舍的計(jì)算。如果微博文本的情感強(qiáng)度達(dá)到了一定的閥值,可以把表情符號的情感強(qiáng)度計(jì)算進(jìn)去,否則就忽略表情符號的情感強(qiáng)度。

        根據(jù)從微博文本中提取出來的情感詞、程度副詞、否定詞,可以在各個(gè)詞單元之間聯(lián)系的基礎(chǔ)上計(jì)算出整段微博文本的情感強(qiáng)度和情感傾向。

        三、情感計(jì)算方法

        1.微博文本的情感強(qiáng)度計(jì)算

        對于微博文本的情感度進(jìn)行計(jì)算時(shí),思路大致和通常的網(wǎng)絡(luò)文本一致。即先把每個(gè)獨(dú)立的微博文本T分成一個(gè)個(gè)單獨(dú)的句單元,即T={s1,s2,s3……,sn}。根據(jù)情感詞的情感強(qiáng)度和情感趨向、情感程度副詞對于情感詞情感強(qiáng)度的影響、否定詞對于情感詞情感傾向的影響,以及表情符號對于文本情感強(qiáng)度、情感傾向的影響,求出用戶發(fā)言中每個(gè)句子si的情感得分sentiment(i),再求出該發(fā)言中的整體情感得分。計(jì)算方法如下:

        首先計(jì)算詞匯的情感傾向,其中p表示詞匯w的褒義傾向,n表示詞匯w的貶義趨向:

        再引入否定詞對于情感的影響,u表示否定詞n出現(xiàn)的次數(shù):

        再引入程度副詞對于情感的影響,adv表示程度副詞,S(adv)表示程度副詞的強(qiáng)度:

        話題T的情感強(qiáng)度計(jì)算方法如下,其中w表示沒有被否定詞和程度副詞修飾的情感詞,n表示有否定詞修飾的情感詞,adv表示有程度副詞修飾的情感詞:

        2.對于擴(kuò)展情感詞的情感強(qiáng)度和傾向性計(jì)算

        由于網(wǎng)絡(luò)上會(huì)經(jīng)常出現(xiàn)新興的網(wǎng)絡(luò)流行語,有些流行語是網(wǎng)民新造的詞匯,有些是把原有詞匯的意思做了引申或改變?;蛘呤窃谀承┦录l(fā)生后,和事件相關(guān)的一些詞匯會(huì)出現(xiàn)語義或情感傾向的改變。因此,需要對情感詞詞典進(jìn)行更新,重新計(jì)算或者賦予某些詞相應(yīng)的情感強(qiáng)度或者情感傾向。

        計(jì)算的一種思路是,根據(jù)詞匯中各個(gè)字單元的情感傾向來計(jì)算該詞匯的情感度。即統(tǒng)計(jì)情感字典中,組成這個(gè)情感詞的各個(gè)字單元在不同情感傾向下出現(xiàn)的概率,再求出字單元各個(gè)情感傾向的權(quán)重,最終求出這個(gè)詞的完整情感傾向。計(jì)算方法如下:

        其中,pci是字單元ci在情感字典中作為褒義詞的權(quán)重,nci是字單元ci在情感字典中作為貶義詞的權(quán)重。fpci是字單元出現(xiàn)在褒義詞詞典里的概率,fnci是字單元ci出現(xiàn)在貶義詞詞典里的概率。pn表示褒義詞詞表的字單元個(gè)數(shù),nn表示貶義詞詞表的字單元個(gè)數(shù)。

        通過情感詞的字單元情感強(qiáng)度和情感傾向的統(tǒng)計(jì),可以求出新的情感詞的情感強(qiáng)度和情感傾向。

        四、實(shí)驗(yàn)分析

        實(shí)驗(yàn)的語料來自銅陵學(xué)院部份學(xué)生微博信息的收集。對于各條微博進(jìn)行了情感傾向的分類分析。使用的分詞軟件是中科院的ICTCLAS2014,基礎(chǔ)情感字典是中科院的漢語情感語料庫。采用了通用的SVM算法進(jìn)行分析。

        收集的學(xué)生微博3531條,其中帶有褒義傾向的1274條,帶有貶義傾向的973條,中性的1284條。每次隨機(jī)從褒義傾向和貶義傾向的微博文本集中各抽取200條進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)抽取三次。得出的結(jié)果如下:

        第一次 第二次 第三次正面 負(fù)面 正面 負(fù)面 正面 負(fù)面查準(zhǔn)率 73.50%79.00%75.00%78.00%79.00%77.00%查全率 77.78%74.88%77.32%75.73%77.45%78.57%F1值 75.58%76.89%76.14%76.85%78.22%77.78%

        查準(zhǔn)率指正確分類的文本數(shù)與實(shí)際分類為該類文本數(shù)的百分比,查全率指正確分類的文本數(shù)與屬于該類別的文本數(shù)的百分比。F1值是由Van Rijsbergen提出的對查準(zhǔn)率和查全率進(jìn)行評判的標(biāo)準(zhǔn)指標(biāo)。這三個(gè)數(shù)值越高,表示分類的準(zhǔn)確度越高。

        從實(shí)驗(yàn)結(jié)果可見,通過SVM法對于微博話題情感傾向的判斷準(zhǔn)確度還是比較高的。但是由于用戶在微博里的發(fā)言隨意性很大,新興的網(wǎng)絡(luò)用語層出不窮,需要不斷增加情感字典里的情感詞才能達(dá)到更高的準(zhǔn)確度。但是在一般的情感字典基礎(chǔ)上,現(xiàn)有的傾向性分析已經(jīng)可以作為我們對微博話題傾向性的一種參考,便于從微博的話題中,自動(dòng)判斷話題的傾向性,作為輿情考量的一種參考。

        五、結(jié)語

        作為國家人才培養(yǎng)者的高校,在教授學(xué)生專業(yè)知識(shí)外,還必須了解學(xué)生、引導(dǎo)學(xué)生,使其成為國家需要的合格人才。隨著網(wǎng)絡(luò)的日益發(fā)達(dá)、電子產(chǎn)品的日益成熟,學(xué)生越來越多地在網(wǎng)上發(fā)起話題、討論話題,網(wǎng)絡(luò)成為學(xué)校了解學(xué)生的一個(gè)重要舞臺(tái)。因此,高校在原有的學(xué)生管理模式上,需要增加信息化的方法去觀察、收集、處理各類網(wǎng)絡(luò)信息。通過信息化的方法,尋找更加科學(xué)有效的方法對學(xué)生進(jìn)行管理和引導(dǎo)。

        作為了解學(xué)生網(wǎng)絡(luò)行為的一種途徑,微博話題的情感度分析可以幫助學(xué)校了解學(xué)生對一些話題的態(tài)度及傾向性,對一些發(fā)生在學(xué)生身邊的事件進(jìn)行輿情分析,或者對事件的發(fā)展進(jìn)行預(yù)測,進(jìn)而為學(xué)校處理一些事件提供參考。

        目前對于微博話題的情感傾向研究還處于起步階段。原有的對BBS、Blog、WEB等平臺(tái)上的文字進(jìn)行的情感傾向研究,雖然適用于微博話題的情感傾向研究,但由于微博話題更加短小明快,更加口語化和無規(guī)則化,因此還需要對微博話題的特點(diǎn)做更進(jìn)一步的分析,特別是對于網(wǎng)絡(luò)用語的探索,將會(huì)是影響到微博話題情感傾向的關(guān)鍵因素。同時(shí),對于微博話題的情感傾向性研究,也可以延伸到網(wǎng)絡(luò)文本及各種網(wǎng)絡(luò)社交平臺(tái)上,成為人們監(jiān)控、分析輿情的有效輔助手段。

        [1]張偉舒,呂云翔.微博情感傾向算法的改進(jìn)與實(shí)現(xiàn)[J].知識(shí)管理論壇,2013,(9):21-27.

        [2]曾佳妮,劉功申,蘇波.微博話題評論的情感分析研究[J].信息安全與通信保密,2013,(3):56-58.

        [3]張魯民,賈焰,周斌.基于情感計(jì)算的微博突發(fā)事件檢測方法研究[J].信息網(wǎng)絡(luò)安全,2012,(8):143-145.

        [4]張彬.文本情感傾向性分析與研究[D].鄭州:河南工業(yè)大學(xué)碩士學(xué)位論文,2011.

        [5]喻琦.中文微博情感分析技術(shù)研究[D].杭州:浙江工商大學(xué)碩士學(xué)位論文,2013.

        [6]張東霞.基于高校學(xué)生微博的輿情熱點(diǎn)分析與發(fā)現(xiàn)[J].東南傳播,2013,(6):87-89.

        [7]王振浩.基于情感字典與機(jī)器學(xué)習(xí)相結(jié)合的文本情感分類[D].哈爾濱:哈爾濱工業(yè)大學(xué)碩士學(xué)位論文,2011.

        猜你喜歡
        詞匯文本情感
        本刊可直接用縮寫的常用詞匯
        如何在情感中自我成長,保持獨(dú)立
        一些常用詞匯可直接用縮寫
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        本刊可直接用縮寫的常用詞匯
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨(dú)立
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        精品久久亚洲一级α| 国产特级毛片aaaaaa视频| 激情偷乱人成视频在线观看| 欧美激情二区| 日韩精品一区二区三区四区五区六| 国产三级精品三级在线专区| 国产乱人对白| 中文字幕精品无码一区二区| 国内精品福利在线视频| 久久精品视频日本免费| 麻豆国产精品久久人妻| a人片在线观看苍苍影院| 亚洲av无码一区二区乱子仑| 精品国产一区二区av麻豆不卡| 国产情侣一区二区| 一本色道久久99一综合| 亚洲人成人一区二区三区| 国内偷拍第一视频第一视频区| 精品国产一区二区三区av| 国产精品无码久久久久| 亚洲AV综合A∨一区二区| 视频一区中文字幕在线观看| 国产成人精品无码片区在线观看| 人妻丝袜无码国产一区| 国产美女高潮流白浆在线观看 | 国产精品视频一区二区三区不卡| 国产精品免费久久久久影院仙踪林| 国产96在线 | 免费| 国产少妇高潮在线视频| 婷婷色香五月综合缴缴情| 国产午夜福利短视频| 91精品亚洲一区二区三区| 精品一级一片内射播放| 香港台湾经典三级a视频| 伊人精品在线观看| 给我播放的视频在线观看| 久久精品网站免费观看| 国产真人无码作爱视频免费| 中文字幕有码在线视频| 国产精品一区二区三区播放| 亚洲日韩国产精品乱-久|