亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于微博數(shù)據(jù)的云南省地理情感及主題特征研究

        2022-09-02 02:20:46李梁森楊德宏翟文龍李劉飛高勵(lì)
        城市勘測(cè) 2022年4期
        關(guān)鍵詞:冷點(diǎn)詞典熱點(diǎn)

        李梁森,楊德宏,翟文龍,李劉飛,高勵(lì)

        (1.昆明理工大學(xué),云南 昆明 650093; 2.南方海洋科學(xué)與工程廣東省實(shí)驗(yàn)室(廣州),廣東 廣州 511458; 3.中國(guó)科學(xué)院軟件研究所天基綜合信息系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,北京 100190; 4.山東正元數(shù)字城市建設(shè)有限公司,山東 煙臺(tái) 264000)

        1 引 言

        隨著互聯(lián)網(wǎng)和定位技術(shù)的快速發(fā)展,發(fā)布在社交媒體平臺(tái)中的信息越來(lái)越多帶有位置標(biāo)簽。這些信息不僅是人們真實(shí)生活在網(wǎng)絡(luò)世界中的展示,也包含著人們的觀點(diǎn)、興趣和需求等。通過(guò)社交媒體信息了解人群活動(dòng),進(jìn)而發(fā)掘區(qū)域的地理情感和主題特征,對(duì)推動(dòng)區(qū)域協(xié)調(diào)發(fā)展具有重要意義。

        在國(guó)外,社交媒體數(shù)據(jù)主要來(lái)源于Twitter。Mitchell等利用Twitter地理標(biāo)記數(shù)據(jù)集進(jìn)行了美國(guó)州和城市的分類及居民幸福感的評(píng)估[1];Dyer等研究了美國(guó)新冠肺炎大流行期間美國(guó)人的關(guān)注點(diǎn)及情緒變化[2];于亞新等利用Twitter數(shù)據(jù)集研究了MFCD算法在用戶行為理解方面的優(yōu)越性[3];Suparna等研究了組織推文中的情緒與公司股價(jià)的關(guān)系[4]。在國(guó)內(nèi),社交媒體數(shù)據(jù)主要來(lái)源于微博及攜程網(wǎng)等。劉逸等通過(guò)與聯(lián)合國(guó)UNWTO數(shù)據(jù)進(jìn)行校驗(yàn),驗(yàn)證了微博旅游大數(shù)據(jù)在情感分析中的可行性[5];李萍等利用百度旅游和攜程網(wǎng)點(diǎn)評(píng)數(shù)據(jù)揭示了北京市5個(gè)社區(qū)的旅游形象[6];劉萌通過(guò)黃山景區(qū)微博數(shù)據(jù)探究了景區(qū)不同旅游路徑上的游客情感[7];費(fèi)濤研究了日常與假期期間微博主題時(shí)空分布特征的差異性[8]。

        根據(jù)《第47次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展現(xiàn)狀統(tǒng)計(jì)報(bào)告》顯示,微博作為全球最大的中文社交媒體平臺(tái),在網(wǎng)絡(luò)新聞、政策發(fā)布、疫情防控等方面發(fā)揮著巨大的作用,已經(jīng)成為人們獲取信息、抒發(fā)情感和表達(dá)意見的重要渠道[9]。本文選取新浪微博數(shù)據(jù),利用基于情感詞典的情感分析方法和基于主題模型的主題建模方法,獲取每一條微博的量化情感分值及主題類別,探究云南省129個(gè)區(qū)縣的地理情感及主題分布特征,為云南省的區(qū)域協(xié)調(diào)發(fā)展提供有意義的參考。

        2 數(shù)據(jù)采集及預(yù)處理

        原始數(shù)據(jù)是通過(guò)網(wǎng)絡(luò)爬蟲獲取2021年3月~5月期間定位在云南省范圍內(nèi)的新浪微博數(shù)據(jù),并且不包含微博大V、機(jī)構(gòu)團(tuán)體等數(shù)據(jù),僅采集個(gè)人用戶的數(shù)據(jù),包括用戶名、發(fā)布日期、發(fā)布位置及發(fā)布內(nèi)容。

        由于本文的情感計(jì)算需要細(xì)化到區(qū)縣粒度,因此首先去除沒有定位信息和定位信息大于區(qū)縣粒度的數(shù)據(jù)。其次,微博數(shù)據(jù)的文本信息不僅包含文字、表情、符號(hào)等表現(xiàn)形式,還含有轉(zhuǎn)發(fā)、艾特等互動(dòng)信息。因此在微博文本中充斥大量的對(duì)情感計(jì)算無(wú)用的標(biāo)記信息,主要有@用戶、#話題#、網(wǎng)頁(yè)鏈接等。為了保證情感計(jì)算的準(zhǔn)確度,利用正則表達(dá)式提取微博的正文內(nèi)容,并剔除@用戶、#話題#、網(wǎng)頁(yè)鏈接等無(wú)用信息。最終得到的有效微博數(shù)據(jù)為26萬(wàn)余條。

        3 研究方法

        3.1 情感計(jì)算

        受理性原則的支配,地理學(xué)對(duì)情感的研究時(shí)間雖然不長(zhǎng),但情感分析作為自然語(yǔ)言處理的一個(gè)重要分支,經(jīng)過(guò)多年的發(fā)展,技術(shù)已經(jīng)比較成熟[10]。情感計(jì)算的方法主要有兩種:非監(jiān)督的分類方法和監(jiān)督的分類方法[11~13]。本文采用非監(jiān)督的分類方法,即利用情感詞典進(jìn)行微博數(shù)據(jù)的情感定量化計(jì)算。為了盡可能匹配較多的情感詞匯,保證情感計(jì)算的準(zhǔn)確度,在采用大連理工大學(xué)情感詞匯本體庫(kù)的7大類21小類情感分類的基礎(chǔ)上,融合其他情感詞典構(gòu)建通用情感分析詞典,根據(jù)情感傾向(正向、中性、負(fù)向)和情感強(qiáng)度(1~9、0和-1~-9),計(jì)算每條微博的量化情感分值[14,15]。

        利用Python結(jié)巴分詞進(jìn)行中文分詞,并在分詞中添加上述的情感詞典作為用戶自定義詞典,從而保證盡可能獲取到較多的情感詞匯[16]。對(duì)分詞后得到的詞匯與情感詞典進(jìn)行匹配,根據(jù)情感詞典對(duì)其進(jìn)行賦值,未匹配到的詞則賦值為0;選用中科院中文情感詞典之程度詞典來(lái)匹配程度副詞。匹配到的程度副詞根據(jù)詞典對(duì)其進(jìn)行賦值,未匹配的詞賦值為1,從而使得其與情感詞相乘不會(huì)產(chǎn)生變化;采用四川大學(xué)機(jī)器學(xué)習(xí)實(shí)驗(yàn)室的停用詞詞表來(lái)去除停用詞對(duì)微博情感計(jì)算的影響。微博數(shù)據(jù)中,除了文本數(shù)據(jù)具有情感傾向以外,還有多種多樣的表情符號(hào)。本文參考龐磊和陳冉對(duì)微博表情的情感分類及賦值方法對(duì)微博數(shù)據(jù)中的表情符號(hào)進(jìn)行匹配賦值[11,17]。最終,得到每一條微博的平均情感得分,其計(jì)算公式為:

        (1)

        式中,S為該條微博的情感得分;qi為與情感詞典匹配后的得分;di為與程度副詞詞典匹配后的得分;ej為與表情詞典匹配后的得分;m為分詞后的詞語(yǔ)個(gè)數(shù);n為匹配到的表情的數(shù)量。

        3.2 主題建模

        文本建模的目的在于發(fā)現(xiàn)語(yǔ)料庫(kù)中的詞序列如何生成,并構(gòu)建數(shù)學(xué)化的描述方法使文本信息可以參與計(jì)算?;诟怕实臐撛谡Z(yǔ)義分析模型(Probabilistic Latent Semantic Indexing,PLSI)和潛在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)是傳統(tǒng)的用于長(zhǎng)文本建模的主題模型[18,19]。微博文本由于短文本特有的短小、特征信息少和語(yǔ)義稀疏等原因,使用傳統(tǒng)方法進(jìn)行主題建模,會(huì)產(chǎn)生特征矩陣稀疏的問(wèn)題,建模效果不理想[20]。Yan等學(xué)者2013年5月在萬(wàn)維網(wǎng)大會(huì)上提出的雙語(yǔ)詞話模型(Biterm Topic Model,BTM),在LDA模型基礎(chǔ)上,采用用一元混合模型中所有文檔共享一個(gè)主題分布的方法,克服了傳統(tǒng)主題模型的數(shù)據(jù)稀疏問(wèn)題,是首個(gè)針對(duì)短文本的主題模型[21]。

        為了提高主題建模的精度,對(duì)微博數(shù)據(jù)進(jìn)行分詞及詞性標(biāo)注后,僅保留名詞、動(dòng)詞和形容詞,并去除少于4個(gè)詞的微博數(shù)據(jù)。采用主題一致性指標(biāo)(Topic Coherence)確定主題數(shù)目并采用BTM模型對(duì)微博數(shù)據(jù)進(jìn)行主題建模,最終確定微博數(shù)據(jù)的文檔-主題概率分布和主題-詞概率分布。

        3.3 空間分布模式

        空間現(xiàn)象受到距離和方向的作用,使得傳統(tǒng)的統(tǒng)計(jì)分析方法無(wú)法準(zhǔn)確描述地理現(xiàn)象。20世紀(jì)60年代,法國(guó)統(tǒng)計(jì)學(xué)家Matheron G開創(chuàng)了空間統(tǒng)計(jì)[22]??臻g統(tǒng)計(jì)學(xué)的主要思想在于空間中鄰近的現(xiàn)象或數(shù)據(jù)比遠(yuǎn)處的現(xiàn)象或數(shù)據(jù)具有更高的相似性。采用全局Moran’s I指數(shù)的方法對(duì)微博情感進(jìn)行空間自相關(guān)分析,根據(jù)計(jì)算判斷微博情感的空間相關(guān)性及置信度[23]。Getis-OrdGi*方法可以獲取高值或低值要素在空間上聚類,用于獲取微博情感及主題模型在空間上高值(熱點(diǎn))和低值(冷點(diǎn))的空間聚類特征[24]。

        4 結(jié)果與分析

        4.1 微博情感分值的空間分布特征

        計(jì)算出260 878條微博數(shù)據(jù)的情感分值以后,根據(jù)計(jì)算結(jié)果,將微博情感分為三類:即情感分值大于0的正向情感,共有 173 973條,占總微博數(shù)量的66.69%;情感分值等于0的中性情感,共 39 419條,占總微博數(shù)量的15.11%;情感分值小于0的負(fù)向情感,共47 486條,占總微博數(shù)量的18.20%。個(gè)體微博的情感得分在空間上分布如圖1所示:

        圖1 三類微博情感分布圖

        總體上看,微博情感以正向情感為主,但個(gè)體微博的情感分值在空間上的分布是隨機(jī)的,各類情感互相交錯(cuò),在空間上沒有明顯的聚類或分離現(xiàn)象。因此,本文計(jì)算了云南省129個(gè)區(qū)縣的微博情感均值,如圖2所示:

        圖2 云南省微博情感均值分布

        4.2 微博情感空間分布模式

        為了判斷微博情感在云南省范圍內(nèi)的空間自相關(guān)性,根據(jù)云南省微博情感均值分布采用全局Moran’s I指數(shù)進(jìn)行空間自相關(guān)性的計(jì)算,最終結(jié)果如圖3所示:

        圖3 全局Moran’s I指數(shù)計(jì)算結(jié)果

        從圖3來(lái)看,最終計(jì)算結(jié)果:z得分為 4.177 75,p得分為0.000 029,且Moran’s I指數(shù)為 0.223 537,則有99%的可能認(rèn)為微博情感在云南省范圍內(nèi)具有聚類模式特征。由于Moran’s I指數(shù)為正,說(shuō)明微博情感在云南省范圍內(nèi)具有正的相關(guān)性,即相鄰的區(qū)縣具有相同或相似的微博情感。為了進(jìn)一步探究微博情感在空間上的聚類分布特征,通過(guò)Getis-OrdGi*方法計(jì)算了云南省微博情感的冷熱點(diǎn)模式,如圖4所示:

        圖4 云南省微博情感冷/熱點(diǎn)分布

        根據(jù)Getis-OrdGi*值的高低及顯著性水平,采用自然斷點(diǎn)分級(jí)法將微博情感在空間上的分布分為5類區(qū)域:一級(jí)冷點(diǎn)區(qū)(冷點(diǎn)高聚集區(qū))、二級(jí)冷點(diǎn)區(qū)(冷點(diǎn)低聚集區(qū))、隨機(jī)分布區(qū)、二級(jí)熱點(diǎn)區(qū)(熱點(diǎn)低聚集區(qū))和一級(jí)熱點(diǎn)區(qū)(熱點(diǎn)高聚集區(qū))。由圖6所示,云南省的微博情感在空間上具有明顯的冷/熱點(diǎn)(低/高值聚類)特征。熱點(diǎn)區(qū)一主要分布在云南省的西北(麗江市的古城區(qū)、玉龍納西族自治縣、寧蒗彝族自治縣,大理白族自治州的大理市、洱源縣、鶴慶縣、劍川縣,迪慶藏族自治州的香格里拉市、維西傈僳族自治縣),熱點(diǎn)區(qū)二主要分布在云南省的南部(西雙版納傣族自治州的勐海縣、景洪市、勐臘縣);冷點(diǎn)區(qū)一主要分布在云南省的東北側(cè)(昭通市的昭陽(yáng)區(qū)、永善縣、大關(guān)縣、鹽津縣、彝良縣、鎮(zhèn)雄縣、威信縣),冷點(diǎn)區(qū)二主要分布在云南省的中部(楚雄彝族自治州的楚雄市、南華縣、姚安縣、牟定縣,普洱市的景東彝族自治縣)。

        4.3 主題模型空間分布模式

        通過(guò)BTM模型對(duì)微博文本進(jìn)行主題建模后,獲取36個(gè)主題。選取每個(gè)主題下概率最大的前20個(gè)詞,采用詞云圖的形式對(duì)主題1~主題37進(jìn)行展示,如圖5所示:

        圖5 主題1~主題36詞云圖展示

        利用Getis-OrdGi*對(duì)36個(gè)主題的冷/熱點(diǎn)分布模式進(jìn)行探究,如圖6所示:

        圖6 主題1~主題36冷/熱點(diǎn)分布

        如圖6所示,微博情感熱點(diǎn)區(qū)一是主題16宗教、主題19人文旅游、主題20風(fēng)景旅游、主題24正面情緒、主題31天氣分布的熱點(diǎn)區(qū),主題9疾病分布的冷點(diǎn)區(qū);微博情感熱點(diǎn)區(qū)二是主題1茶、主題20風(fēng)景旅游、主題31天氣分布的熱點(diǎn)地區(qū),主題23負(fù)面情緒分布的冷點(diǎn)地區(qū)。上述主題中,主題19和主題20均為旅游主題,同時(shí)旅游主題在微博情感熱點(diǎn)區(qū)二是二級(jí)熱點(diǎn)區(qū),在微博情感熱點(diǎn)區(qū)一是一級(jí)熱點(diǎn)區(qū),說(shuō)明由于疫情影響,處于邊境的旅游城市的旅游業(yè)仍然受到較大的影響。出門旅行會(huì)對(duì)天氣有更多的關(guān)注,因此主題31在兩個(gè)微博情感熱點(diǎn)區(qū)域也屬于熱點(diǎn)分布。而主題23負(fù)面情緒的冷點(diǎn)分布與主題24正面情緒的熱點(diǎn)分布,可以近似的看作是同一類分布,說(shuō)明兩個(gè)微博情感熱點(diǎn)區(qū)域的人們生活較為輕松愉悅。除此之外,兩個(gè)情感熱點(diǎn)區(qū)域的熱點(diǎn)分布主題還有其地域分布有關(guān),微博情感熱點(diǎn)區(qū)一中的大理白族自治州和迪慶藏族自治州信仰佛教的人較多,因此是主題16宗教的熱點(diǎn)分布區(qū),微博情感熱點(diǎn)區(qū)二的西雙版納傣族自治州是云南產(chǎn)茶區(qū)之一,因此是主題1茶的熱點(diǎn)分布區(qū)。綜上,云南省微博情感熱點(diǎn)分布的共性為關(guān)注旅游,并且有較多的正面情緒或較少的負(fù)面情緒。

        微博情感冷點(diǎn)區(qū)一是主題9疾病、主題17離鄉(xiāng)、主題22負(fù)面情緒、主題23拼搏、主題33遺憾、主題35音樂(lè)分布的熱點(diǎn)區(qū)域,微博情感冷點(diǎn)區(qū)二是主題2出行、主題17離鄉(xiāng)分布的熱點(diǎn)區(qū)域。兩個(gè)微博情感冷點(diǎn)區(qū)均包含主題17離鄉(xiāng),主題2出行和主題23拼搏也均與主題17有關(guān)。因此,兩個(gè)微博情感冷點(diǎn)區(qū)的共性為對(duì)離鄉(xiāng)有更多的關(guān)注。不同的是,微博冷點(diǎn)區(qū)域一全部分布在昭通市內(nèi),而昭通市作為云南人口第三的城市,僅有兩家三甲醫(yī)院,醫(yī)療資源短缺,且存在地方病氟骨病,因此對(duì)主題9疾病有更多的關(guān)注,且存在較多的負(fù)面情緒。

        5 結(jié) 語(yǔ)

        基于2021年3月~5月定位在云南省范圍內(nèi)的26萬(wàn)余條新浪微博數(shù)據(jù),采用基于情感詞典的情感計(jì)算方法和基于BTM模型的主題建模方法,度量了微博數(shù)據(jù)在云南省的情感分布及主題聚類特征,揭示了影響云南省地理情感分布的主要因素。

        研究表明,云南省基于微博數(shù)據(jù)的地理情感在空間上具有明顯的聚類特征,存在大范圍的熱點(diǎn)分布區(qū)和冷點(diǎn)分布區(qū)各兩個(gè);旅游城市的微博情感較高,且具有更多的正面情緒或較少的負(fù)面情緒;微博情感較低的區(qū)域更多的關(guān)注離鄉(xiāng)拼搏,且微博情感冷點(diǎn)區(qū)一由于醫(yī)療資源不豐富和地方病的原因,對(duì)疾病有更多的關(guān)注,且有更多的負(fù)面情緒。

        本文利用微博大數(shù)據(jù),通過(guò)將情感分析與主題建模相結(jié)合的方式,衡量了云南省的區(qū)域地理情感特征及其影響因素,為推動(dòng)區(qū)域的協(xié)調(diào)發(fā)展提供了一種新的思路。

        猜你喜歡
        冷點(diǎn)詞典熱點(diǎn)
        熱點(diǎn)
        基于變形焦炭塔的冷點(diǎn)處套合應(yīng)力分析
        壓力容器(2022年11期)2022-02-17 06:34:58
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        熱點(diǎn)
        車迷(2019年10期)2019-06-24 05:43:28
        熱點(diǎn)需強(qiáng)化 冷點(diǎn)無(wú)漠視
        結(jié)合熱點(diǎn)做演講
        世界家庭醫(yī)生組織(WONCA)研究論文摘要匯編
        ——居住在“冷點(diǎn)社區(qū)”與健康欠佳、享有衛(wèi)生服務(wù)質(zhì)量欠佳間的關(guān)系
        評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        熱點(diǎn)
        亚洲日本一区二区一本一道| 久久久亚洲欧洲日产国产成人无码| 亚洲av影院一区二区三区四区| 亚洲在中文字幕乱码熟女| 色婷婷久久亚洲综合看片| 亚洲开心婷婷中文字幕| 亚洲伊人成综合网| 久久福利青草精品资源| 永久免费看黄在线观看| 曰韩内射六十七十老熟女影视| 成人免费看吃奶视频网站| 久久中文字幕日韩无码视频| 亚洲综合一区二区三区蜜臀av| 亚洲码专区亚洲码专区| 亚洲一区二区三区尿失禁| 欧洲日本一线二线三线区本庄铃| 欧美精品日韩一区二区三区| 综合激情五月三开心五月| 天天摸夜夜摸夜夜狠狠摸| 99精品视频69V精品视频| 国产一区二区三区资源在线观看 | 成人性生交大片免费看l| 久9re热视频这里只有精品| 亚洲日韩欧美国产高清αv| 青青青伊人色综合久久亚洲综合| 亚洲精品熟女av影院| 无码熟妇人妻av在线影片最多| 亚洲欧美日韩国产综合一区二区| 北岛玲精品一区二区三区| 精品在线视频在线视频在线视频| 国产裸体xxxx视频在线播放| 国产精品无码专区综合网| 按摩少妇高潮在线一区| 国精品人妻无码一区二区三区性色 | 五月天激情婷婷婷久久| 美女极度色诱视频国产免费| 中文字幕久久久人妻人区| 麻豆成人精品国产免费| 蜜桃一区二区三区在线看| 国产午夜免费一区二区三区视频| 亚洲成在人网站av天堂|