張雨芊,孟祥莊
(東北林業(yè)大學,黑龍江 哈爾濱 150006)
當今互聯(lián)網(wǎng)應用快速發(fā)展,網(wǎng)絡隨時都在產(chǎn)生龐大的數(shù)據(jù)量。而這些海量的數(shù)據(jù)只有經(jīng)分析與抽取,才能體現(xiàn)出真正的價值。大數(shù)據(jù)具有規(guī)模性(volume)、多樣性(variety)、高速性(velocity)和有價值(value)等特點[1]。在互聯(lián)網(wǎng)數(shù)據(jù)中,文本數(shù)據(jù)是其主要的數(shù)據(jù)形式,眾多的計算機文本處理技術(shù)已在多種科學研究及商業(yè)領(lǐng)域得到應用。面對時代發(fā)展,越來越多的影響因素正在對風景園林學提出新的挑戰(zhàn)。大數(shù)據(jù)的真正價值不在于大,而在于全,空間維度上的多角度、多層次信息的交叉復現(xiàn);時間維度上的與人或社會有機體的活動相關(guān)聯(lián)的信息的持續(xù)呈現(xiàn)[2]。在研究方法逐漸產(chǎn)生變革的今天,需要進一步推動多學科交叉融合,利用多樣的海量數(shù)據(jù)解決風景園林學科設(shè)計問題。而在風景園林學領(lǐng)域,大數(shù)據(jù)分析相關(guān)方法的應用仍然較為局限。
目前景觀規(guī)劃設(shè)計領(lǐng)域的大數(shù)據(jù)應用,主要有移動通信設(shè)備數(shù)據(jù)、定位導航數(shù)據(jù)、環(huán)境感知數(shù)據(jù)、社交網(wǎng)絡數(shù)據(jù)、數(shù)值模擬、景觀照片分析等方面。網(wǎng)絡數(shù)據(jù)挖掘目前主要通過設(shè)計檢索和獲取數(shù)據(jù)的網(wǎng)絡爬蟲實現(xiàn)。有關(guān)居民時空行為數(shù)據(jù)的采集與分析,經(jīng)歷了GIS軟件[3](CHASE-GIS)向多種信息設(shè)備相結(jié)合[4]的方法。目前相關(guān)研究通過獲取手機通話數(shù)據(jù)[5,6]、出租車[7]、公交車刷卡數(shù)據(jù)[8]、社交媒體[9]等互聯(lián)網(wǎng)數(shù)據(jù)記錄簽到數(shù)據(jù)、實時人流量、人群熱度、點擊率、掃碼率、搜索詞條排序等數(shù)據(jù),都已經(jīng)成為大量可靠的數(shù)據(jù)來源,并提升了公園綠地評價的普遍性與準確性。風景園林領(lǐng)域在社交媒體數(shù)據(jù)應用方面,通常通過具有公開定位服務的社交媒體獲取位置數(shù)據(jù)[10]。國內(nèi)學者常利用簽到大數(shù)據(jù)進行簽到密度和熱點地區(qū)的分析,得到公園的使用狀況和時空特征等。有關(guān)社交媒體網(wǎng)絡數(shù)據(jù)的挖掘與應用,國外學者多運用Twitter數(shù)據(jù)獲取游客的地理坐標、文本數(shù)據(jù),以分析關(guān)鍵詞特征和居民活動行為[11]等。國內(nèi)社交媒體文本分析應用于風景園林領(lǐng)域的研究仍處于萌芽狀態(tài),目前有通過微博API[12]研究游客情感的時空變化特征,基于社交媒體數(shù)據(jù)文本分析對公園進行對比分析[13]等。
本研究運用大數(shù)據(jù)文本分析法,通過關(guān)鍵詞爬取方法進行數(shù)據(jù)獲取,對使用者在新浪微博中對各公園的評論和感想進行文本分析,得到游客的情感數(shù)據(jù)與偏好話題特征,進而分析哈爾濱市游客的情感特征,及其與使用者話題偏好特征之間的關(guān)系。
研究地哈爾濱市屬中溫帶大陸性季風氣候。全年平均氣溫5.6 ℃,冬長夏短,有“冰城”之稱。參考哈爾濱市政府開放數(shù)據(jù)平臺《哈爾濱城市公園名錄》記錄的公園綠地信息,在哈爾濱市53個城市公園中,本文將第二輪數(shù)據(jù)爬取后2018~2020年相關(guān)微博數(shù)量在100條以上的16個公園作為研究范圍。供詳細分析的16個公園基本呈現(xiàn)3種類別:公園綠地中,綜合性公園包括:兆麟公園、文化公園、斯大林公園、音樂公園、群力丁香公園、中國亭園、湘江公園、外灘濕地公園;社區(qū)公園包括:雨陽公園、中東鐵路公園、紅博中央公園;專類公園包括:東北虎林園、兒童公園、體育公園。此外,太陽島公園屬于風景名勝區(qū)范圍。
在數(shù)據(jù)獲取方面,以新浪微博為代表的眾多網(wǎng)絡媒體多會為研發(fā)人員提供部分數(shù)據(jù)的開放訪問接口,而其實際公開數(shù)據(jù)集規(guī)模較小,且在實際使用中常常容易受到諸多限制,難以快速且精準地獲取到相關(guān)微博內(nèi)容;而基于Python的微博爬蟲則可以有效精準地獲取微博數(shù)據(jù),提高數(shù)據(jù)分析效率。因此本文使用Python純爬蟲的方式為數(shù)據(jù)獲取提供支持。網(wǎng)絡爬蟲(Web Crawler) 是一種能夠基于既定規(guī)則對Web網(wǎng)頁中應用程序或腳本進行自動提取的技術(shù)。微博爬蟲常通過模擬網(wǎng)頁端的登錄等操作等方式,以獲取相關(guān)數(shù)據(jù),并將獲取到的數(shù)據(jù)寫入本地存儲。本文爬蟲可連續(xù)獲取一個或多個微博關(guān)鍵詞搜索結(jié)果,并將結(jié)果寫入文件、數(shù)據(jù)庫等,同時可以指定搜索的時間范圍。其獲取的每條數(shù)據(jù)均包括用戶id、昵稱、微博正文、發(fā)布位置、話題、轉(zhuǎn)發(fā)數(shù)、評論數(shù)、點贊數(shù)、發(fā)布時間等信息。部分數(shù)據(jù)結(jié)構(gòu)見表1。
表1 獲取微博數(shù)據(jù)結(jié)構(gòu)
使用新浪微博數(shù)據(jù)爬蟲抓取2014年1月1日至2021年6月30日以“哈爾濱”“公園”作為關(guān)鍵詞的微博數(shù)據(jù),其中包括同時出現(xiàn)兩個關(guān)鍵詞的微博,也包含定位于哈爾濱市,包含“公園”關(guān)鍵詞的微博。刪除數(shù)據(jù)中重復、空白等無效數(shù)據(jù)后,最終得到19196條微博數(shù)據(jù),其中2018~2020年數(shù)據(jù)9951條。由于時間較為久遠的微博數(shù)量較少,保存不完整,而近期微博文本數(shù)據(jù)較為豐富,占據(jù)了大部分且更具時效性,在時間趨勢分析中,本文就近3年(2018年1月1日0時至2020年12月31日24時)微博數(shù)據(jù)進行文本分析。
在獲取到以“哈爾濱”“公園”作為關(guān)鍵詞的微博數(shù)據(jù)后,需要對處理后數(shù)據(jù)進行詞頻分析與新詞發(fā)現(xiàn)處理,并在新詞發(fā)現(xiàn)的結(jié)果中,人工篩選出出現(xiàn)頻率較高的公園名稱。針對話題度較高的公園,進行第二輪數(shù)據(jù)獲取,得到各高頻公園的文本數(shù)據(jù),為隨后的公園間公平性對比分析、話題差異對比分析提供支撐。去除無關(guān)、重復數(shù)據(jù),第二輪獲取到的微博文本數(shù)據(jù)總計47271條。其中:太陽島公園相關(guān)微博29297條;東北虎林園相關(guān)微博5247條;兆麟公園相關(guān)微博3162條;斯大林公園相關(guān)微博1821條;中國亭園相關(guān)微博1069條;文化公園相關(guān)微博1065條;兒童公園微博1083條;紅博中央公園相關(guān)微博977條;丁香公園相關(guān)微博865條;湘江公園相關(guān)微博544條;中東鐵路公園相關(guān)微博511條;雨陽公園相關(guān)微博484條;音樂公園相關(guān)微博478條;外灘濕地公園相關(guān)微博420條;勞動公園相關(guān)微博163條;體育公園相關(guān)微博130條。此部分公園3年內(nèi)微博數(shù)據(jù)均在100條以上。
本文使用張華平博士開發(fā)的NLPIR-Parser大數(shù)據(jù)語義智能分析平臺[14]結(jié)合百度AI開放平臺進行文本分析。詞頻分析能夠?qū)ξ谋镜年P(guān)鍵詞出現(xiàn)的頻次進行統(tǒng)計。當某個關(guān)鍵詞在該文本中反復出現(xiàn)時,該詞就能反映這條文本的偏向話題。本文中詞頻分析可用于發(fā)現(xiàn)高頻話題詞匯。新詞發(fā)現(xiàn)是在關(guān)鍵詞提取的基礎(chǔ)上,識別網(wǎng)絡新詞等特定詞匯,在本文可用于發(fā)現(xiàn)文本中關(guān)注度較高的公園名稱。統(tǒng)計所得數(shù)據(jù)有詞語(word)、詞性(Part-Of-Speech)、權(quán)重(Weight)、頻率(Frequency)。
情感分析是一種對文本中隱含情感的傾向性進行提取的過程。百度情感傾向分析可對包含主觀觀點信息的文本進行情感極性類別(積極、消極、中性)的判斷,并給出相應的置信度。數(shù)據(jù)結(jié)果包含4種類型,其中sentiment表示情感極性分類結(jié)果(0:負向,1:中性,2:正向),confidence表示分類的置信度,positiveprob表示屬于積極類別的概率,negativeprob表示屬于消極類別的概率。在后文的分析中,置信度在后文中作為情感概率的權(quán)重進行計算。通過python平臺實現(xiàn)對微博數(shù)據(jù)的逐條讀取,接入百度SDK接口,進行情感傾向分析后逐條寫入數(shù)據(jù)庫。通過每組微博的積極情感概率和消極情感概率,計算各公園的平均加權(quán)情感極性類別概率,用于后文衡量游客的情感離散程度。另外,對比分析各公園情感值差異特征,以及情感值隨時間變化的特征。
3.1.1 游客情感時間變化趨勢
本文的情感分析主要分析與“哈爾濱”“公園”關(guān)鍵詞相關(guān)微博的加權(quán)情感概率和各類情感傾向占比。情感傾向占比體現(xiàn)了各類微博占比的數(shù)量趨勢,便于分析游客情感隨時間的變化特征。情感概率分為積極概率和消極概率,可以較為準確地體現(xiàn)綜合置信度與積極消極概率的情感值。其不僅能夠表示其微博情感類別,也能較為準確地將逐條微博情感傾向量化。以置信度作為權(quán)重計算得出每月全部微博的加權(quán)情感概率均值,作為游客情感值主要的衡量指標。其公式為:
(1)
式(1)中,E代表每月的加權(quán)情感概率均值(%);Ei代表第i條微博文本數(shù)據(jù)的情感概率(%);Ci代表第i條微博文本數(shù)據(jù)的情感概率置信度,作為權(quán)重計算;n代表全部的微博數(shù)據(jù)數(shù)量。在分析范圍內(nèi),每月與哈爾濱市公園相關(guān)的微博話題文本中,情感分析所得詳細數(shù)據(jù)如表2。
表2 情感分析結(jié)果(每月)
總體趨勢如圖1所示。在微博數(shù)量方面:總體上每月相關(guān)微博數(shù)量在200~300條左右波動;在變化趨勢上,每年4~9月份微博數(shù)量最多,基本穩(wěn)定在200條以上;10月至次年1月數(shù)量其次;2~3月份微博數(shù)量較少。在各類情感傾向占比方面:總體趨勢在2018年間,6月份負向情感微博數(shù)量占比明顯增加;2019年各類微博占比較為穩(wěn)定;2020年情感傾向較為波動,4月份、8月份負向微博數(shù)量均高于多數(shù)月份。在加權(quán)情感概率方面:2018年6月份、2020年4~5月份、2020年8月份負面情感出現(xiàn)了明顯的峰值;而3年間總體上在11月份至次年2月份期間,情感值較為良好。
圖1 微博情感時間變化特征
3.1.2 公園游客情感差異特征
對哈爾濱市被提及頻率最高的16個公園相關(guān)共47271條微博文本進行了情感分析。得到統(tǒng)計數(shù)據(jù)后,將每條微博文本置信度作為權(quán)重計算情感傾向概率,并統(tǒng)計各類情感傾向的微博數(shù)量并計算其占比。統(tǒng)計顯示如表3。
表3 公園游客情感分析結(jié)果
在公園情感分析結(jié)果差異上,微博數(shù)量方面:各公園微博總數(shù)差異大,太陽島公園相關(guān)微博總數(shù)29297條最多,其次是東北虎林園和兆麟公園。各類情感傾向占比方面:對比分析了加權(quán)情感概率與情感傾向占比高低排序,得知情感傾向百分比與情感概率總體趨勢相似,排序不完全相同。加權(quán)情感概率方面:對比分析了加權(quán)積極情感概率與消極情感概率高低排序,消極情感概率與積極情感概率總體趨勢相似,但不完全相關(guān)。
分析對比情感傾向占比與加權(quán)情感概率之間關(guān)系可知,總體趨勢相似;部分公園正向微博數(shù)量占比不高,但整體積極概率較高;其正向微博情感傾向較為明顯:如太陽島公園、紅博中央公園、文化公園。部分公園正向微博數(shù)量占比較低,但整體積極概率處于中等水平:如斯大林公園、勞動公園、兒童公園。而在負向微博數(shù)量占比與消極情感概率的對比方面,無較大差異。對比各公園加權(quán)積極情感概率與消極情感概率趨勢,通常積極概率較高的公園,消極概率較低;而太陽島公園、紅博中央公園、文化公園的積極情感概率與消極情感概率同樣較高,情感傾向波動大;而兒童公園、勞動公園的積極情感概率與消極情感概率均處于較低水平。
3.2.1 總體話題分析
關(guān)鍵詞詞頻統(tǒng)計體現(xiàn)了微博用戶對哈爾濱公園相關(guān)話題關(guān)注程度。通過人工篩選去除無效、不相關(guān)結(jié)果(如“一個”“進行”“可以”等無意義數(shù)詞、量詞),綜合權(quán)重與頻率進行排序,得到話題關(guān)注度排序。在與日常使用者密切相關(guān)的詞匯中,按話題熱門程度排序依次為:旅游、生活、冰雪、冰城、工作、文化、免費、服務、體驗、開放、大學、冰雕、附近、孩子、小區(qū)、丁香、疫情、旅行等。關(guān)注度最高的“旅游”話題,權(quán)重為223.79,頻率為2188。部分具體數(shù)據(jù)如表4。
表4 總體詞頻分析數(shù)據(jù)結(jié)構(gòu)
分析詞頻統(tǒng)計完整結(jié)果可以得知以下結(jié)果:①游客較為關(guān)心的哈爾濱市本地特色文化話題中,加權(quán)頻率由高至低依次有:松花江、冰雪、冰城、冰雕、馬迭爾冰棍、冰雪大世界、雪人等詞匯:②在與公園相關(guān)可供參考的話題中,加權(quán)頻率由高至低依次有:旅游、松花江、濕地、建筑、文化、免費、服務、體驗、開放、交通、附近、丁香、疫情、鴛鴦、旅行、天氣、運動、自然、生態(tài)、廣場等:③與游客生活、活動相關(guān)的話題中,加權(quán)頻率由高至低依次有:旅游、活動、生活、工作、發(fā)現(xiàn)、體驗、旅行、感受、感覺、運動、參加、朋友、美食、廣場舞、休閑、拍攝、攝影、比賽等:④將結(jié)果中詞性為動詞的詞匯進行篩選(其中也包括動名詞、形容動詞等),去除無意義、參考價值較低的詞匯,可以看到加權(quán)頻率由高至低依次有:旅游、活動、建設(shè)、生活、工作、設(shè)計、發(fā)現(xiàn)、免費、服務、看到、體驗、開放、喜歡、旅行、管理、保護、感受、運動、提供、參加、施工、推薦、出行、舉辦、希望、休閑、拍攝、攝影、比賽、恢復、滑雪、游覽、看看、展示、拍照、健身等。
在話題隨時間變化特征上,2019年冰雪、太陽島公園、生活、喜歡、丁香、免費、環(huán)境、鴛鴦、冰雕、廣場舞、陽光、老人等話題均有上升,其中丁香、鴛鴦、冰雕、廣場舞等詞匯頻率上升幅度較大;服務、美食、自然、景點等話題略有下降。
3.2.2 消極情感話題分析
在與哈爾濱市公園相關(guān)微博中,負向情感微博占比約為9.7%,將此類微博進行篩選后進行詞頻分析。去除無關(guān)詞匯后,得到詞頻分析和新詞發(fā)現(xiàn)的分析結(jié)果??梢园l(fā)現(xiàn)的重要高頻話題有:發(fā)現(xiàn)(43.66,240)(前為置信度,后為詞匯出現(xiàn)頻率)、老人(40.68,346)、廣場舞、工作人員、男子、小區(qū)、市民、孩子、跳廣場舞、江邊、城市、居民、項目、建設(shè)、大學、記者、遛狗、管理、問題、城管執(zhí)法人員(26.21,15)等。其中新詞發(fā)現(xiàn)得到的相關(guān)話題有:廣場舞(39.01,91)、跳廣場舞(32.92,23)、遛狗、城管執(zhí)法人員、客服、疫情防控、旅游攻略、禁養(yǎng)犬、公示板、大型游樂設(shè)施、投訴舉報(20.41,10)、撞樹、排爆等。詞頻分析與新詞發(fā)現(xiàn)可視化如圖2和圖3。
圖2 負向微博詞頻分析結(jié)果
圖3 負向微博新詞發(fā)現(xiàn)結(jié)果
3.2.2 各公園游客情感與話題相關(guān)特征
由前文情感分析可知,外灘公園、丁香公園、音樂公園的加權(quán)情感概率與正向微博百分比均在較高水平。同時,情感概率離散程度也較小。其中外灘公園較為高頻的話題為:文化(51.99,198)、銀川、旅游、生態(tài)、濕地保護、冬季旅游護照、保護、游客、鳥類、濱江、文旅、生活、塞外雪鄉(xiāng)、環(huán)境、觀鳥、自然、體驗、健身、開放(22.05,48)等。丁香公園較為高頻的話題為:丁香花(64.70,273)、施工、建設(shè)、天池丁香公園、哈爾濱丁香節(jié)、地鐵、線路、冰城、疫情防控、臨時調(diào)整、河鼓街、文化(28.08,55)等。音樂公園較為高頻的話題為:音樂主題公園(46.59,29)、陽明灘大橋、噴泉、廣場、金河公園、音樂谷、文化、塑膠跑道、冰城、防洪紀念塔、江邊、景觀、江畔、馬迭爾、表演、廣場舞、冰雪迷你馬拉松(18.72,5)等。
可見哈爾濱市游客情感概率較高的公園,其話題主要具有如下特點:①文化特色。在外灘濕地公園的相關(guān)微博文本中,與生態(tài)、濕地、鳥類等詞匯最為高頻;在音樂公園話題中,音樂谷、文化、冰城、表演等為高頻詞匯;②自然環(huán)境。如生態(tài)、濱江、自然、江邊等;③節(jié)日活動。如表演、馬拉松等話題;④免費開放。如生活、健身、開放、廣場舞等。詞頻分析可視化結(jié)果如圖4。
圖4 詞頻分析結(jié)果(情感值較高公園)
加權(quán)情感概率與正向微博百分比綜合較低的公園為體育公園、斯大林公園、勞動公園、兒童公園。體育公園高頻話題有:航海模型(17.12,12)、哈爾濱地鐵、高爾夫球場、運動、比賽、冰雪、活動、冰雪季、園廁、滑冰(9.21,14)等。斯大林公園高頻話題有:松花江(135.49,1024)、馬迭爾冰棍、江畔餐廳、鍋包肉、冰城、冰雪、江邊、雪人、文化、江畔餐廳、鍋包肉、廣場舞、旅游攻略(40.42,205)等。勞動公園高頻話題有:松江生態(tài)園(42.79,21)、社區(qū)樂跑賽、排爆人員、哈爾濱工運、游園活動、萬達商圈、雪雕、冰城、運動、建筑面積、歷史(9.89,35)等。兒童公園高頻話題有:兒童鐵路(60.98,313)、兒鐵記憶館、升級改造、孩子、工作人員、游樂設(shè)施、鐵路、服務、免費、升級改造過程、六一兒童節(jié)、設(shè)施(21.90,63)等??傮w詞頻分析可視化結(jié)果如圖5。
圖5 詞頻分析結(jié)果(情感值較低公園)
3.2.3 情感影響因素
根據(jù)前文分析數(shù)據(jù),人工對比分析詞頻分析結(jié)果與情感分析結(jié)果的相關(guān)性,可見影響哈爾濱市公園游客情感的因素主要如下。
(1)文化與公園特色。在居民日?;顒拥拈_放性公園中,公平性較強,且獲得更高評價的音樂公園、外灘濕地公園、丁香公園的共性是具有明顯文化特色。在此部分公園的高頻詞匯中,均體現(xiàn)了游客對公園特色的偏好,如銀川、丁香節(jié)、冰城、音樂谷等,處于關(guān)注的重點;在其他無明顯特色的日常性公園中,話題仍由具哈爾濱市文化的詞匯主導,如冰雪、松花江、馬迭爾冰棍、紅腸、雪雕、冰城等。這意味著挖掘公園的特殊性對于影響游客情緒占重要地位。
(2)自然風景與景觀環(huán)境質(zhì)量。各公園偏向積極的微博文本中,與自然風景、景觀質(zhì)量相關(guān)的詞匯均具有重要分量,是公平性重要的積極影響因素。如外灘濕地公園相關(guān)微博中,游客對于觀鳥、鳥類、濱江、自然等話題顯示較大興趣;丁香公園的丁香花也是其情感概率較高的重要積極影響因素;在音樂公園中,陽明灘大橋、噴泉、廣場、塑膠跑道、江邊等詞匯也體現(xiàn)了自然與景觀對游客情感的影響。而在情感值相對較低的部分公園中,此類詞匯占比較少。
(3)公園管理質(zhì)量、安全問題。在情感值相對較低的部分公園中,其高頻詞匯反映了游客對其管理等問題的負面評價;如“廣場舞”“噪音擾民”話題,在多個公園的高頻詞匯中出現(xiàn);免費、服務、開放等話題也較受游客關(guān)注。在篩選分析中性與負向微博的結(jié)果中,疫情防控、城管、閉園、安全隱患等管理問題也是微博話題中關(guān)注的重點。
(4)其他影響公平性的因素包括生活工作、餐飲、人際交往、節(jié)日活動、其他熱點事件等。這些主觀因素詞匯出現(xiàn)頻率不高,且不穩(wěn)定,與公園本身關(guān)聯(lián)性較低。在此類詞匯中,較具參考價值的有:表演、冰雪迷你馬拉松、比賽、滑冰、游園活動、雪雕等特色活動相關(guān)話題,江畔餐廳、鍋包肉、紅腸等飲食相關(guān)話題。
本文使用文本分析方法對相關(guān)微博數(shù)據(jù)進行了分析。通過詞頻分析、文本聚類、情感分析方法,對哈爾濱市公園相關(guān)話題趨勢、游客情感特征,以及通過對比其相關(guān)關(guān)系,對影響游客情感的因素進行了總結(jié)。主要有:文化與公園特色;自然風景與景觀環(huán)境質(zhì)量;公園管理質(zhì)量、安全問題;以及其他影響公平性的因素等。
針對研究結(jié)果,對公園建設(shè)提出以下幾點建議:在公園建設(shè)方面,注重噪音管理,優(yōu)先考慮動靜分區(qū);避免交通堵塞;根據(jù)游客需求營造特色空間;關(guān)注公園維護水平;突出游客偏好的自然風景。在公園管理方面,疫情期間需要采取科學有序的應對方式,既不能疏于管理,也不應過度防范;并管理噪音擾民問題,防范安全隱患;管理人員應提高服務意識,園方需滿足游客相應需求。
本文對于哈爾濱城市公園相關(guān)微博通過關(guān)鍵詞進行抓取的方法,相比于通過新浪微博開放API位置坐標定位獲取的微博數(shù)據(jù),具有針對性較強、范圍更廣的特點,不局限于有精確定位的微博,能夠得到對于公園本身的、更加具有針對性的評價。其缺點是較獲取地點定位微博數(shù)據(jù)的方法相比,部分獲取到的微博內(nèi)容日常性較低,含有較多宣傳內(nèi)容。未來的研究可對大量的既存網(wǎng)絡數(shù)據(jù)進行探索分析,并對本文存在的不足之處進行完善。