亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        推特上中國形象的主題與情感分析

        2017-05-04 14:14:27肖明易紅發(fā)
        對外傳播 2017年3期
        關(guān)鍵詞:推文熱門極性

        肖明+易紅發(fā)

        國家形象是一個國家的綜合實力(即硬實力和軟實力的總和)和核心價值觀的體現(xiàn),是一個國家在國際社會中所展示的整體面貌,以及國際社會對其綜合實力、核心價值觀和整體面貌的感受和評價。

        傳統(tǒng)的國家形象研究有兩種途徑,一是對媒體上特別是主流報紙上有關(guān)中國的報道進行內(nèi)容分析,二是針對民眾進行調(diào)查,來了解外國民眾對中國的評價。

        自2006年推特(Twitter)誕生以來,自媒體或稱社交媒體成了傳統(tǒng)媒介機構(gòu)與公眾發(fā)表意見的新平臺。本研究中,我們采用文本挖掘技術(shù),對推特上涉及中國的英文熱門推文進行了分析。研究目的是了解和描述推特英語用戶在發(fā)布的熱門推文中,涉及中國時關(guān)注的是哪些主題,呈現(xiàn)出來的態(tài)度及情感又是怎樣的,以期對對外傳播工作有所啟示。

        一、研究方法

        推特平臺上共有超過30種的語言版本,但主要語言為英語,本研究以英文版本為研究范圍,研究對象是海外媒體及公眾所發(fā)布的涉及中國、中國人的熱門推文。采用新興的文本挖掘方法,對非結(jié)構(gòu)化的推文文本進行挖掘和處理,工作流程包括了文本的獲取、分詞與過濾、主題建模、情感分析四個步驟。

        1.文本數(shù)據(jù)的獲取

        在獲取文本數(shù)據(jù)過程中,我們不區(qū)分大小寫,以“China”或者“Chinese”為關(guān)鍵詞對熱門推文進行了檢索。熱門推文是被轉(zhuǎn)推或被收藏過的推文。搜索熱門推文而不是全部推文,主要是考慮到了熱門推文的影響力以及工作量問題。所搜索語言為英語,這主要是考慮到推特用戶的主要語言為英語,用戶所發(fā)布的推文也多為英文。推特是在2006年3月開始運營的,本研究的數(shù)據(jù)收集時間是在2014年初,所以搜索的時間周期為2006年3月到2013年12月。

        利用爬蟲軟件GooSeeker對檢索出來的熱門推文進行了抓取。GooSeeker是火狐瀏覽器的插件,包括兩個部分:定義提取規(guī)則的MetaStudio和用于信息采集DataScraper。利用爬蟲技術(shù)獲得的原始數(shù)據(jù)包括四個字段,分別是“用戶名”“昵稱”“推文發(fā)布日期”,以及“推文文本”。其中“用戶名”和“昵稱”是用戶屬性數(shù)據(jù);“推文發(fā)布日期”是推文屬性數(shù)據(jù);“推文文本”屬于內(nèi)容數(shù)據(jù),是文本形式的,“推文發(fā)布日期”是我們要進行分析的非結(jié)構(gòu)化數(shù)據(jù)。

        第一條含關(guān)鍵詞“China”或“Chinese”的熱門推文發(fā)布于2006年4月30日,推文內(nèi)容如下:

        picking up two out-of-state twitterers, heading out for the best Chinese in SF - Elizas.

        因為本研究所關(guān)心的是外國人如何呈現(xiàn)中國形象,所以去除了中國人或中國機構(gòu)所發(fā)布的推文。首先,我們認(rèn)定“昵稱”中含中文字符的用戶是中國人,刪除他們所發(fā)的推文,共計26,318條。其次,我們認(rèn)定用戶名或昵稱中含“China”或“Chinese”的用戶也與中國有關(guān),去除他們所發(fā)的推文,共計53,212條。最終獲得有效的熱門推文一共是842,917條。

        2.文本預(yù)處理

        對推文的預(yù)處理包括了分詞和過濾,主要運用自然語言處理技術(shù)(NLP),利用Python的nltk包進行了操作。

        我們的研究對象是推特上的英文的涉華推文,分詞方法就是簡單的基于空格和標(biāo)點符號的英文分詞法。

        過濾是指過濾掉文本中的html鏈接、@人名、標(biāo)點符號,以及不必要的空格。同時過濾掉非英文字母、數(shù)字、小于或等于三個字符的詞(這些詞,如the、or、and等絕大多數(shù)為無意義的虛詞),同時在停用詞(Stop Words)表的基礎(chǔ)上,過濾掉停用詞。最后將所有英文字母轉(zhuǎn)換為小寫。

        3.主題建模及主題命名

        主題建模(topic modeling)是本研究中最為關(guān)鍵的一步,利用Stanford TMT 0.4.0軟件對涉華推文的主題進行LDA(狄利克雷分配模型)建模。Stanford TMT由斯坦福自然語言處理小組(The Stanford Natural Language Processing Group)開發(fā),基于JAVA,用Scala編寫,有完整的API文檔。LDA建模方法是基于無監(jiān)督的機器學(xué)習(xí)技術(shù),不采用任何的主觀方法去標(biāo)識推文,能夠更為客觀地發(fā)現(xiàn)文本中是否存在著潛在主題。

        經(jīng)過了反復(fù)的測試,本研究最終選擇最大迭代次數(shù)為1000,常見詞過濾數(shù)量為20的結(jié)果,最終從80多萬條推文中提取了30個主題。

        對于所提取的30個主題,軟件輸出結(jié)果中會給出每個主題所對應(yīng)的前20個關(guān)鍵詞以及每個關(guān)鍵詞的貢獻度。根據(jù)各個主題所包含的關(guān)鍵詞的特點,經(jīng)過反復(fù)討論,最終對各個主題進行了命名。

        4.情感分析

        本研究的情感分析(sentiment analysis)應(yīng)用機器學(xué)習(xí)技術(shù),采用樸素貝葉斯(Naive Bayes)算法,對每一條推文的極性與情感進行識別。具體的操作采用了R語言中的sentiment包。

        R語言中的sentiment包在識別極性(polarity)時,會先為每條推文的每種可能極性打分。即每條推文都有兩種可能性negative(消極、負向、否定)和positive(積極、正向、肯定)的得分。當(dāng)兩種極性得分相差較大時,則極性擬合為得分較高的極性類別。當(dāng)兩種極性得分相差不大時,則擬合一種新的極性類別,即neutral(中立)。

        R語言中的sentiment包在識別情感時,共有六種情感:anger(憤怒)、disgust(厭惡)、fear(恐懼)、joy(喜悅)、sadness(悲傷)和surprise(驚奇)。在分析時會先為每條推文的每種可能情感打分。當(dāng)六種情感可能性中有一種可能性的得分特別突出,那么該推文的實際情感就擬合為該類別。如果六種情感可能性得分相差不大時,則情感類別擬合為unknow(未知)。如此可知,如果某條推文被擬合得到某一類情感,則該情感一定是強烈的情感。

        二、研究結(jié)果

        1.涉華推文的主題分布

        本研究采用LDA主題建模方法把80多萬條涉華熱門英文推文凝聚為30個主題,各個主題的名稱及其占所有主題的百分比如表1所示。

        可以看到,涉華熱門推文中有關(guān)飲食的主題有三個,根據(jù)場景的不同分別為“飲食與家庭生活”“飲食與娛樂”,以及“飲食與學(xué)校生活”,三個主題合計為10.98%。即有關(guān)中華飲食的推文所占比例最高,推特用戶中最關(guān)心的中國議題是飲食。

        在飲食主題之后的占比數(shù)量多的五個主題依次是:“亞洲局勢”“美國總統(tǒng)選舉”“金融市場”“社會化媒體”,以及“經(jīng)濟增長”,這五個主題累計百分比為26%,超過了四分之一 。

        在國家形象研究中,常見的主題分類是政治、經(jīng)濟、社會及文化的四分法,這也是傳統(tǒng)調(diào)查法和內(nèi)容分析方法比較經(jīng)常采用的分類法。

        按照政治、經(jīng)濟、社會及文化的四分法,本研究中利用主題模型生成的“亞洲局勢”“美國總統(tǒng)選舉”“地區(qū)爭端”“西藏話題”“媒介審查”“人權(quán)話題”“港臺話題”“政治丑聞”,以及“計劃生育”等九個主題屬于政治范疇,所占比例為32.6%。

        屬于經(jīng)濟類的主題包括“金融市場”“經(jīng)濟增長”“奢侈品市場”“蘋果產(chǎn)品”“污染與健康”,以及“航天與探月工程”,共六項,所占比例為20%。

        屬于文化類的包括“大熊貓與長城”“閱讀與諺語”“好萊塢電影”“學(xué)校學(xué)習(xí)”“語言學(xué)習(xí)”“韓流”,以及“傳統(tǒng)醫(yī)學(xué)”,共七個主題,所占比例為21%。

        屬于社會類的主題包括“社會化媒體”“飲食與家庭生活”“自然災(zāi)害與治安”“飲食與娛樂”“飲食與學(xué)校生活”“奧運會”“城市生活”,以及“籃球與足球”,共計八個,所占比例為26.4%。

        2.不同年份及不同議題的極性分析

        通過極性分析,我們發(fā)現(xiàn)所分析的80多萬條英文涉華熱門推文中,有54.81%的推文極性為積極正向的;消極負向的推文占31.99%;中立推文比例為13.20%。

        歷時來看,2006年的數(shù)據(jù)因為數(shù)量很少,忽略不記。從2007年到2013年各年度的極性變化是不大的。負面評價的標(biāo)準(zhǔn)差為1.87%,正面評價的標(biāo)準(zhǔn)差為1.32%,中性評價的變化范圍最小,標(biāo)準(zhǔn)差不到1%。

        從變化的情況來看,2008年的推文積極正面的評價比例最低,為52%;消極負面評價的比例為35.65%,是歷年來最高的。2008年中國發(fā)生的重大事件包括北京奧運會、汶川地震、毒奶粉事件,以及全球性的金融危機。

        按照政治、經(jīng)濟、文化、社會四個大類別來看,在政治類議題中,積極正面的評價為54.73%,略低于經(jīng)濟、社會及文化議題中正面評價的比例。

        3. 不同年份及不同議題的情感分析

        總體來看,只有25.54%的推文表現(xiàn)出了強烈的情感。近四分之三的推文都沒有表現(xiàn)出強烈的情感,情感擬合為unknown。

        歷時來看,隨著時間的推移,涉華熱門推文表現(xiàn)出強烈情感的比例越來越多。在2007年,只有20.1% 表達出了強烈的情感,而2013年,這個比例已經(jīng)提升到26.5%。這表明,就中國議題而言,推特用戶越來越傾向于表達出強烈的情感。

        從所表達出來的情感來看,比例最高的情感是喜悅,占比14.19%;其次為憤怒,占3.49%;排在第三位的情感是難過,比例為3.07%。

        從居前兩位的情感joy和anger的變化來看,joy呈現(xiàn)出逐年提高的趨勢,這說明涉華熱門推文中,含有喜悅情感的比例越來越多;而anger呈現(xiàn)出小幅上下波動的態(tài)勢。

        從議題來看,社會類和文化類議題中表現(xiàn)出強烈情感的比例都在27%上下;而經(jīng)濟、政治類議題中具有強烈情感的比例都不足25%。

        三、結(jié)論

        本研究著眼于推特上英文用戶對有關(guān)中國議題的呈現(xiàn),采用爬蟲程序獲取數(shù)據(jù),利用NLP技術(shù)對數(shù)據(jù)進行預(yù)處理,采用主題建模和情感分析兩種技術(shù)對數(shù)據(jù)進行處理,得到以下結(jié)論:

        1.從數(shù)量上看,英文涉華熱門推文的數(shù)量在逐年增加。表明世界對中國及中國相關(guān)事物的關(guān)注度在持續(xù)提高。

        2.“飲食”成為英文涉華熱門推文中關(guān)注度最高的主題,超過十分之一的推文都與中國飲食有關(guān)。

        3.從政治、經(jīng)濟、文化和社會四大類議題來看,英文涉華熱門推文中政治類主題所占比例最高。

        4.英文涉華熱門推文總體上的極性以積極正向為主??偟膩砜矗莆闹兄挥兴姆种槐憩F(xiàn)出了明顯的情感,從表現(xiàn)出來的情感的情況來看,喜悅高居第一位,然后依次是生氣和難過。從各年度歷時來看,表現(xiàn)出喜悅情感的比例有上升的趨勢。

        (本研究為中國傳媒大學(xué)亞洲傳媒中心資助項目“西方自媒體中的中國形象研究”的階段性成果)

        「參考文獻」

        1.張培晶、宋蕾:《基于LDA的微博文本主題建模方法研究述評》,《圖書情報工作》,2012年第12期。

        2.趙妍妍等:《文本情感分析》,《軟件學(xué)報》,2010年第8期。

        3.Hofmann T. (2001). Unsupervised learning by probabilistic latent semantic analysis [J]. Machine Learning, 42(1): 177-196.

        4.Blei D, Ng A, Jordan M.(2003). Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003(3):993-1022.

        5.OConnor, Brendan; Balasubramanyan, Ramnath; Routledge Bryan R.; and Smith, Noah A.. ‘ From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series(2010).Tepper School of Business. Paper 559.

        猜你喜歡
        推文熱門極性
        特朗普上任至今發(fā)推文1.1萬條
        跟蹤導(dǎo)練(四)
        特朗普推文哪條最招人煩
        熱門智能手機應(yīng)用
        海外星云(2016年7期)2016-12-01 04:18:00
        瘋狂猜圖
        家庭百事通(2016年5期)2016-05-06 20:48:31
        表用無極性RS485應(yīng)用技術(shù)探討
        一種新型的雙極性脈沖電流源
        2009年熱門特色風(fēng)味小吃
        鍵的極性與分子極性判斷的探究
        本月熱門產(chǎn)品報價
        经典女同一区二区三区| 亚洲精品无码专区在线| 久久久久99精品国产片| 高清高速无码一区二区| 亚洲精品中文字幕乱码无线| 国产freesexvideos中国麻豆| aaa级久久久精品无码片| a级福利毛片| 国产午夜精品av一区二区三| 亚洲国产成人极品综合| 东北妇女xx做爰视频| 日本成人一区二区三区| 亚洲天堂色婷婷一区二区| 国产黄色av一区二区三区| 午夜内射中出视频| 国产在线美女| 日产精品久久久久久久蜜臀| 久久成人永久免费播放| 国产精品不卡无码AV在线播放 | 麻豆久久久国内精品| 中文字幕34一区二区| 高潮内射双龙视频| 熟女俱乐部五十路二区av| 在线一区二区三区视频观看| 日韩中文字幕在线观看一区 | 亚洲中文字幕无码不卡电影| 久久麻传媒亚洲av国产| av 日韩 人妻 黑人 综合 无码| 99热成人精品热久久66| 日本一区二区三区在线视频观看| 久久熟妇少妇亚洲精品| 国产精品igao视频| 国产精品亚洲综合天堂夜夜| 午夜免费观看日韩一级片| 国产一区二区三区四区五区加勒比| √最新版天堂资源在线| 中文字幕亚洲精品综合| 日日日日做夜夜夜夜做无码| 国产人妖视频一区二区| 国产精品毛片大尺度激情| 久久婷婷五月综合色奶水99啪|