葉楚義 高群霞 李晶 吳成云 曾曉玲 羅創(chuàng)謙 蔡程健
摘? 要:隨著大數(shù)據(jù)與人工智能技術(shù)的興起,深度學(xué)習(xí)方法在房價投資方面有極大發(fā)揮空間。文章設(shè)計并實(shí)現(xiàn)了一個智能房價分析系統(tǒng),主要包括基于LSTM的“房價預(yù)測”和基于情感分析的“輿情輿論”兩大模塊,可較好實(shí)現(xiàn)房價未來趨勢預(yù)測及輿情分析,為企業(yè)和投資者提供參考和指引。
關(guān)鍵詞:房價預(yù)測;LSTM;情感分析;數(shù)據(jù)可視化
中圖分類號:TP311.52? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? ?文章編號:2095-2945(2019)34-0030-03
Abstract: With the rise of big data and artificial intelligence technology, deep learning method has a great space in housing price investment. In this paper, an intelligent housing price analysis system is designed and implemented, which mainly includes two modules, "housing price prediction" based on LSTM and "public opinion" based on emotion analysis, which can better realize the future trend prediction and public opinion analysis of housing price, and provide reference and guidance for enterprises and investors.
Keywords: housingprice prediction; LSTM; emotion analysis; data visualization
1 研究背景及意義
房價在當(dāng)今金融市場中起著重要作用,是當(dāng)前社會的焦點(diǎn)話題,準(zhǔn)確預(yù)測房價的變化趨勢對購房者、地產(chǎn)商及政府都有很大幫助[1]。以往的預(yù)測方式是要對各項(xiàng)相關(guān)數(shù)據(jù)粗糙羅列、經(jīng)驗(yàn)方式設(shè)計參數(shù)權(quán)重,未考慮購房意愿、政府政策等人文因素的影響,預(yù)測準(zhǔn)確性和置信度不理想。
本文運(yùn)用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等方法,設(shè)計并實(shí)現(xiàn)了一個包含基于LSTM的“房價預(yù)測”和基于情感分析的“輿情輿論”兩大模塊的智能房價分析系統(tǒng),可較好實(shí)現(xiàn)房價未來趨勢預(yù)測和輿論分析,為企業(yè)和廣大投資者提供指引和參考。
2 相關(guān)原理與技術(shù)
2.1 LSTM長短期記憶網(wǎng)絡(luò)
長短期記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)是一種時間遞歸神經(jīng)網(wǎng)絡(luò),適合處理和預(yù)測時間序列中間隔和延遲相對較長的重要事件[2]。LSTM是對RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))的改進(jìn),在算法中加入了一個判斷信息有用與否的“處理器”——cell,通過在cell中放置輸入門、遺忘門和輸出門三扇門實(shí)現(xiàn)判別。
2.2 情感分析算法
情感分析是自然語言處理(NLP)的一種,是一種可自動識別文本中主觀觀點(diǎn)和情感傾向的文本挖掘方法,目前被廣泛應(yīng)用于Web信息挖掘、輿情追蹤等領(lǐng)域[3,4]?;谡Z義規(guī)則的情感分析模型是通過語義規(guī)則對帶有感情的主觀性文本進(jìn)行評估,從而挖掘出文本中隱藏的情緒傾向[5,6]。
3 系統(tǒng)設(shè)計與實(shí)現(xiàn)
3.1 系統(tǒng)設(shè)計
系統(tǒng)主要包括房價預(yù)測和情感分析兩大模塊,系統(tǒng)整體架構(gòu)和功能框架分別如圖1和圖2所示。通過爬蟲技術(shù)獲取房價數(shù)據(jù)和用戶評論數(shù)據(jù);構(gòu)建LSTM房價預(yù)測模型,結(jié)合歷史數(shù)據(jù)和各大決定因素預(yù)測未來房價走勢;構(gòu)建情感分析模型,對投資者評論進(jìn)行情感分析,獲得積極度、消極度和置信度等數(shù)據(jù);通過Echarts繪圖庫和詞云圖將數(shù)據(jù)可視化處理后呈現(xiàn)給用戶。
3.2 系統(tǒng)實(shí)現(xiàn)
(1)數(shù)據(jù)分析統(tǒng)計與可視化
用戶登錄系統(tǒng)后,系統(tǒng)后臺將自動獲取用戶所在定位,并從后臺數(shù)據(jù)倉庫獲取對應(yīng)數(shù)據(jù),完成數(shù)據(jù)分析與統(tǒng)計,并以折線圖、熱力圖等方式呈現(xiàn)給用戶,如圖3和圖4所示。
(2)房價預(yù)測
用requests庫和爬蟲算法爬取安居客網(wǎng)站的房價數(shù)據(jù),構(gòu)建LSTM深度學(xué)習(xí)模型預(yù)測房價走勢。LSTM模型參數(shù)為:時間步time_step為20,rnn_unit參數(shù)為10,每一批次訓(xùn)練樣例為60,輸入層維度為2,輸出層維度為1,學(xué)習(xí)率為0.0006,每一區(qū)域模型訓(xùn)練的次數(shù)為5000次,為防止val_loss逐漸增大,導(dǎo)致過擬合現(xiàn)象,使用Dropout技術(shù)進(jìn)行控制,參數(shù)為0.5。
房價預(yù)測效果如圖5示,可看出預(yù)測數(shù)值和原始數(shù)值高度貼合,能提供一個未來走勢供用戶參考,y軸值將用來展示單位數(shù)據(jù)元/m2,x軸表示年月。
(3)情感分析
根據(jù)用戶輸入的樓盤地址爬取樓盤相關(guān)評論信息,使用jieba庫實(shí)現(xiàn)分詞和詞頻統(tǒng)計,繪制彩色詞云圖;通過百度情感分析API實(shí)現(xiàn)語句情感傾向判斷,獲取消極度、中性,積極度,并以餅圖形式呈現(xiàn),如圖6所示。
4 結(jié)束語
本房價分析系統(tǒng)能很好實(shí)現(xiàn)房價預(yù)測、情感分析、數(shù)據(jù)可視化等功能,具有較好應(yīng)用前景。由于房價市場受多種因素的影響,增加多種數(shù)據(jù)集及數(shù)據(jù)量可進(jìn)一步提高預(yù)測效果。
參考文獻(xiàn):
[1]常誠.基于多模態(tài)信息融合的房地產(chǎn)價格預(yù)測系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D].北京郵電大學(xué),2019.
[2]張佳禹.基于深度學(xué)習(xí)算法的上市公司投資決策支持模型研究[D].遼寧師范大學(xué),2018.
[3]王曉艷.公眾輿情與房價波動的灰色關(guān)聯(lián)分析——基于網(wǎng)絡(luò)輿情的內(nèi)容分析[J].上海商學(xué)院學(xué)報,2018,19(03):39-46.
[4]KEVIN JATI KURNIAJAYA.基于新聞情感分析的房價預(yù)測研究[D].哈爾濱工業(yè)大學(xué),2018.
[5]吳江,唐常杰,李太勇,等.基于語義規(guī)則的Web金融文本情感分析[J].計算機(jī)應(yīng)用,2014,34(02):481-485+495.
[6]吳雁.金融微博細(xì)粒度情感分析研究與應(yīng)用[D].華南理工大學(xué),2018.