宋卡妮
(北京建筑大學(xué) 北京 102616)
建設(shè)“和諧宜居之都”關(guān)乎市民日常生活的方方面面,城市規(guī)劃者可以根據(jù)社交網(wǎng)絡(luò)上的真實評價了解市民的主觀感受。本文先爬取了微博留言,并通過LSTM分析句子情感,同時結(jié)合層次分析法得到居民對不同方面主觀感受的影響權(quán)重,得到居民心中重要程度最高的方面。為城市規(guī)劃者建設(shè)城市提供參考。
我們將采用LSTM模型,訓(xùn)練一個能夠識別文本postive,neutral, negative三種情感的分類器。建模環(huán)節(jié)中最重要的一步是特征提取,在自然語言處理中也不例外。在自然語言處理中,最核心的一個問題是,把一個句子用數(shù)字的形式有效地表達出來。Word2Vec用高維向量(詞向量,Word Embedding)表示詞語,并把相近意思的詞語放在相近的位置,而且用的是實數(shù)向量(不局限于整數(shù))。我們只需要有大量的某語言的語料,就可以用它來訓(xùn)練模型,獲得詞向量。并且Python的Gensim庫中也提供現(xiàn)成的Word2Vec作為子庫,比較方便。我們使用jieba分好詞,并且用Word2Vec將詞語轉(zhuǎn)換為高維向量,那么句子就對應(yīng)著詞向量的集合,也就是矩陣,然后使用循環(huán)神經(jīng)網(wǎng)絡(luò)將矩陣形式的輸入編碼為較低維度的一維向量,而保留大多數(shù)有用信息。訓(xùn)練得到權(quán)重矩陣,然后就可以進行分類[1-2],如圖1。
居民對城市“和諧宜居”的滿意度綜合指數(shù)是由多方面影響的,附表中給出了47個方面不同年月日的居民評論,可以計算出每個方面每個月的情感總分,根據(jù)層次分析法得出不同方面的影響權(quán)重[3],加權(quán)平均得到每個月的居民滿意度綜合指數(shù),同時影響權(quán)重大的及影響居民對“和諧宜居”主觀感受的關(guān)鍵因素。
基于循環(huán)神經(jīng)網(wǎng)絡(luò)分析情感模型。附表中含有43個不同的類別,將每一類別不同年份,月份的分值求和得到的矩陣(2015年從7月份開始,2018年只到10月份,共40個月),即該因素滿意度得分隨月份變化的矩陣[4]。所有類別求和后可得一個的矩陣SUM,利用層次分析法得出不同因素的權(quán)重(北京房價,北京出行,北京就業(yè),北京教育,北京空氣質(zhì)量系數(shù)較高)加權(quán)平均后將矩陣SUM化簡成的矩陣S,即滿意度綜合指數(shù)隨時間變化的矩陣。
從圖3中我們可以看出北京空氣質(zhì)量,北京出行,北京教育,北京房價,北京交通安全被提及次數(shù)超過兩萬次,所以這五個因素是北京居民比較看重的方面,是決定“和諧宜居”的關(guān)鍵因素[5]。同時由上文層次分析法得到的系數(shù)中北京房價,北京出行,北京就業(yè),北京教育,北京空氣質(zhì)量較高。
綜上所述,北京出行,北京教育,北京房價,北京空氣質(zhì)量是影響較大的因素。