劉定一 應(yīng)毅
摘要:網(wǎng)絡(luò)輿情是對整個輿情事件的具體描述、對事件的觀點和立場,在短時間內(nèi)會大規(guī)模、快速的擴散,因此盡早地預(yù)測輿情事件的走向和態(tài)勢,相關(guān)部門就可以及時掌握社情民意,及時發(fā)現(xiàn)工作中存在的不足和對問題矛盾出現(xiàn)的影響,對負(fù)面聲音進行正確引導(dǎo)。網(wǎng)絡(luò)輿情的發(fā)展趨勢具有無規(guī)則、隨機變化等特點,互聯(lián)網(wǎng)中的海量數(shù)據(jù)又給輿情預(yù)測帶來了更嚴(yán)峻的挑戰(zhàn)。文章分析主要從網(wǎng)絡(luò)輿情預(yù)測混合算法、輿情預(yù)測算法的并行化入手,研究在大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)輿情的趨勢預(yù)測問題。
關(guān)鍵詞:計算智能;大數(shù)據(jù);輿情預(yù)測方法;算法研究;神經(jīng)網(wǎng)絡(luò)
中圖分類號:G2 文獻標(biāo)識碼A 文章編號1674-6708(2019)239-0126-02
1國內(nèi)外研究現(xiàn)狀
網(wǎng)絡(luò)輿情是一種復(fù)雜、多變的系統(tǒng),它的趨勢發(fā)展由于有廣大網(wǎng)民的參與,具有爆發(fā)性、演變不確定性、隱匿性、互動性等特點。在網(wǎng)絡(luò)信息技術(shù)高速發(fā)展的今天,輿情對社會穩(wěn)定發(fā)展的影響越來越大。通過對大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)輿情預(yù)測算法的研究,及時、盡早、準(zhǔn)確地預(yù)測互聯(lián)網(wǎng)上輿論熱點事件的走向趨勢和廣大老百姓生活息息相關(guān)的話題并提供信息化技術(shù)支撐,這既利于政府對輿情熱點信息的及時監(jiān)控和引導(dǎo),也有利于社會的和諧穩(wěn)定發(fā)展。
計算智能是人工智能發(fā)展的一個新階段,是受到大自然智慧和人類智慧的共同啟發(fā)而設(shè)計出的一類解決復(fù)雜問題方法的統(tǒng)稱。與傳統(tǒng)的人工智能相比,計算智能的最大特點是問題本身不需建立精確的數(shù)學(xué)、邏輯模型,可以直接對輸入的測試數(shù)據(jù)進行處理。這一特點非常適合于解決大數(shù)據(jù)分析中難以建立有效的形式化模型,而用傳統(tǒng)技術(shù)難以解決、甚至無法解決的問題。近年來,計算智能理論與技術(shù)研究迅速發(fā)展,在圖像處理、模式識別、生物醫(yī)學(xué)、智能控制等諸多領(lǐng)域都得到了廣泛應(yīng)用,取得了一系列令人鼓舞的研究成果。
計算智能在神經(jīng)網(wǎng)絡(luò)、模糊系統(tǒng)、演化計算/群體智能發(fā)展的基礎(chǔ)上形成了一種新的研究方法。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,簡寫為ANNs)也簡稱為神經(jīng)網(wǎng)絡(luò)(NNs)或稱作連接模型(Connection Model),它是一種模仿動物神經(jīng)網(wǎng)絡(luò)的行為特征,進行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點之問相互連接的關(guān)系,從而達到處理信息的目的。模糊系統(tǒng)(fuzzy system),是一種將輸入、輸出和狀態(tài)變量定義在模糊集上的系統(tǒng),是確定性系統(tǒng)的一種推廣。模糊系統(tǒng)從宏觀出發(fā),抓住了人腦思維的模糊性特點,在描述高層知識方面有其長處,可以模仿人的綜合推斷來處理常規(guī)數(shù)學(xué)方法難以解決的模糊信息處理問題,使計算機應(yīng)用得以擴大到人文、社會科學(xué)及復(fù)雜系統(tǒng)等領(lǐng)域。它能夠較好地解決非線性問題,現(xiàn)已廣泛應(yīng)用于自動控制、模式識別(pattern recognitioy)、決策分析(decesion analysis)、時序信號處理,以及人機對話系統(tǒng)、經(jīng)濟信息系統(tǒng)、醫(yī)療診斷系統(tǒng)、地震預(yù)測系統(tǒng)、天氣預(yù)報系統(tǒng)等方面。遺傳算法(Genetic Algorithm)是模擬達爾文生物進化論的自然選擇和遺傳學(xué)機理的生物進化過程的計算模型,是一種通過模擬自然進化過程搜索最優(yōu)解的方法。
2大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)輿情預(yù)測算法
2.1網(wǎng)絡(luò)輿情預(yù)測混合算法
網(wǎng)絡(luò)輿情在大量的網(wǎng)絡(luò)數(shù)據(jù)之中,具有延續(xù)性、交互性和演化性,有一定的可預(yù)測性。由于網(wǎng)絡(luò)輿情發(fā)展趨勢的預(yù)測具有較高的復(fù)雜性,采用傳統(tǒng)統(tǒng)計學(xué)的方法具有一定的局限性,而非線性預(yù)測方法是研究的一個大方向,主要包括灰色模型、支持向量機、神經(jīng)網(wǎng)絡(luò)等。
神經(jīng)網(wǎng)絡(luò)具有自組織、自學(xué)習(xí)、強魯棒性等特點,在很多領(lǐng)域取得了較好的預(yù)測效果,解決了不少難點問題。RBF神經(jīng)網(wǎng)絡(luò)(Radial BasisFunction Neural Network)拓?fù)浣Y(jié)構(gòu)簡單、學(xué)習(xí)速度快,主要應(yīng)用于自適應(yīng)系統(tǒng);BP神經(jīng)網(wǎng)絡(luò)(BackPropagation Neural Network)不需要建立模型,有很強的非線性數(shù)據(jù)擬合能力。神經(jīng)網(wǎng)絡(luò)經(jīng)過長時問的訓(xùn)練,對非線性函數(shù)可以達到任意精度。由于神經(jīng)網(wǎng)絡(luò)在容錯能力方面存在著一定的問題,進行算法測試容易出現(xiàn)極小值,導(dǎo)致收斂速度慢、不穩(wěn)定性等缺點。將粒子群優(yōu)化算法與神經(jīng)網(wǎng)絡(luò)技術(shù)相結(jié)合,提出網(wǎng)絡(luò)輿情預(yù)測混合算法,在提高算法預(yù)測準(zhǔn)確性的同時,可以加快算法的收斂速度。
粒子群優(yōu)化算法是一種模擬鳥類捕食行為的群體智能進化算法,具有收斂速度快、操作方便簡單等特點,特別適合于對神經(jīng)網(wǎng)絡(luò)的優(yōu)化。在網(wǎng)絡(luò)輿情預(yù)測混合算法中,神經(jīng)網(wǎng)絡(luò)的參數(shù)通過粒子群優(yōu)化算法優(yōu)化后得到。神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)是將原始輿情數(shù)據(jù)進行預(yù)處理后得到的時問序列數(shù)據(jù)。經(jīng)神經(jīng)網(wǎng)絡(luò)計算后得到輿情事件發(fā)展趨勢的預(yù)測結(jié)果。具體的算法設(shè)計與實現(xiàn)步驟如圖1所示。
2.2輿情預(yù)測算法的并行化
隨著網(wǎng)絡(luò)輿情數(shù)據(jù)規(guī)模的不斷變大,傳統(tǒng)算法在小數(shù)據(jù)集上能有效運行的計算復(fù)雜度,在大數(shù)據(jù)集上運行變得越來越困難。
群體智能算法(如PSO、ACO)天生具有較強的實施并行性和分布式處理的能力,因此,將輿情預(yù)測混合算法(粒子群優(yōu)化+神經(jīng)網(wǎng)絡(luò))進行移植,以適應(yīng)并行計算(MapReduce、Spark)的特點,提高算法的速度和可擴展性。面對海量的數(shù)據(jù),并行化是解決算法速度和擴展性問題的最有效途徑。
首先需要將輿情原始數(shù)據(jù)存入大數(shù)據(jù)系統(tǒng)中:半結(jié)構(gòu)化數(shù)據(jù)存入NoSQL數(shù)據(jù)庫(如HBase),非結(jié)構(gòu)化數(shù)據(jù)存入分布式文件系統(tǒng)(如ItDFS)。在此基礎(chǔ)上,將網(wǎng)絡(luò)輿情預(yù)測混合算法移植到MapReduce框架(離線計算)或Spark組件(內(nèi)存計算)上,充分利用并行計算的優(yōu)勢,提高算法的收斂精度和算法的求解效率,具體的實現(xiàn)步驟如圖2所示。
3解決相關(guān)問題的策略方法與技術(shù)
3.1神經(jīng)網(wǎng)絡(luò)的參數(shù)優(yōu)化與并行化
使用粒子群算法(PSO)優(yōu)化神經(jīng)網(wǎng)絡(luò)的參數(shù)(連接權(quán)值和閾值)可以解決神經(jīng)網(wǎng)絡(luò)算法收斂速度慢的缺點,但是PSO優(yōu)化參數(shù)的終止條件(迭代次數(shù))需要人為設(shè)定。迭代次數(shù)過少而得不到較優(yōu)的初始參數(shù),迭代次數(shù)過多算法效率又會低下,合適的迭代次數(shù)需要經(jīng)過反復(fù)大量的實驗。
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法的并行化,主要是在Map階段計算并輸出每個權(quán)值的變化量,在Reduce階段統(tǒng)計每個權(quán)值的總變化量,之后再對權(quán)值進行調(diào)整。這種方法會產(chǎn)生大量的中問結(jié)果,導(dǎo)致頻繁的磁盤I/O操作,拖慢整個作業(yè)的完成時問。使用內(nèi)存計算Spark組件作為神經(jīng)網(wǎng)絡(luò)算法并行化移植的目標(biāo),能大大降低磁盤操作,加快算法效率。
3.2利用計算智能技術(shù)進行網(wǎng)絡(luò)輿情預(yù)測
人工智能使網(wǎng)絡(luò)輿情的研究內(nèi)容由輿情跟蹤轉(zhuǎn)向輿情預(yù)測。現(xiàn)有輿情預(yù)測強調(diào)是時問序列預(yù)測模型的重要性,是線性關(guān)系的預(yù)測;而網(wǎng)絡(luò)輿情受隨機因素影響較大,具有許多的不確定性,主要為非線性關(guān)系。計算智能的一大特點是可解決那些難以建立有效的精確數(shù)學(xué)模型/邏輯模型,基于計算智能中的神經(jīng)網(wǎng)絡(luò)和粒子群優(yōu)化算法,提出網(wǎng)絡(luò)輿情預(yù)測混合算法,為輿情預(yù)測提供了另一個有效模型。
3.3引入大數(shù)據(jù)技術(shù)提高算法性能并進行全數(shù)據(jù)分析
由于算法單機運行模式的限制,現(xiàn)有輿情分析和輿情預(yù)測只能依賴采樣數(shù)據(jù)。引入大數(shù)據(jù)技術(shù),不僅提高輿情預(yù)測算法的執(zhí)行效率和可擴展性,而且使網(wǎng)絡(luò)輿情研究可以立足于全量數(shù)據(jù)分析,從海量輿情數(shù)據(jù)中挖掘出真實可靠的、有價值的輿情信息。
4結(jié)束語
網(wǎng)絡(luò)輿情是對輿情整個事件的具體描述、對事件的觀點和立場,在短時問內(nèi)會大規(guī)模、快速的擴散,因此盡早地預(yù)測輿情事件的走向和態(tài)勢,相關(guān)部門就可以掌握社情民意,及時發(fā)現(xiàn)工作中存在的不足,對負(fù)面聲音進行引導(dǎo)?;ヂ?lián)網(wǎng)的海量數(shù)據(jù)又給輿情預(yù)測帶來了更嚴(yán)峻的挑戰(zhàn),從網(wǎng)絡(luò)輿情預(yù)測混合算法、輿情預(yù)測算法的并行化入手,可以研究大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)輿情的趨勢預(yù)測問題。