羅平 武斌
摘? 要: 為了有效解決輿情數(shù)據(jù)傳播中特征挖掘技術(shù)面臨的特征挖掘滯后問題,設(shè)計基于人工智能的網(wǎng)絡(luò)輿情大數(shù)據(jù)傳播特征挖掘系統(tǒng)。設(shè)計網(wǎng)絡(luò)信息傳感提取模塊,利用O/I順向電流指向性電路節(jié)點端口和電機控制性匹配結(jié)構(gòu)構(gòu)建外圍控制電路以及帶狀數(shù)據(jù)分布式交互接口。設(shè)計輿論數(shù)據(jù)人工智能入網(wǎng)協(xié)議來轉(zhuǎn)換當前的網(wǎng)絡(luò)數(shù)據(jù)格式,并對其進行輿情二次語義處理。文中使用人工智能技術(shù),依靠Hadoop平臺內(nèi)部學習庫中的Ma_Orduse算法和K?means算法通過有效數(shù)據(jù)文本聚類獲取特征鍵值,以中樞結(jié)構(gòu)的形式傳遞回中央控制器,實現(xiàn)當前網(wǎng)絡(luò)輿情大數(shù)據(jù)傳播特征挖掘。實驗數(shù)據(jù)表明應用該挖掘系統(tǒng)后,輿情數(shù)據(jù)特征讀入延遲降低32%,讀出延遲降低27%,可以有效緩解特征挖掘滯后問題。
關(guān)鍵詞: 輿情大數(shù)據(jù); 特征挖掘; 人工智能; 系統(tǒng)設(shè)計; 數(shù)據(jù)分析; 語義處理
中圖分類號: TN911?34; F272? ? ? ? ? ? ? ? ? ? 文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)04?0176?04
AI?based propagation feature mining system for network public opinion big data
LUO Ping, WU Bin
(Shanghai University of Finance and Economics Zhejiang College,? Jinhua 321013, China)
Abstract: An AI?based propagation feature mining system for network public opinion big data is designed to effectively solve the lag problem of feature mining faced by the feature mining technology of public opinion data propagation. The network information sensing and extraction module is designed, and the peripheral control circuit and banded data distributed interactive interface are constructed with O/I forward current directivity circuit node port and motor control matching structure. The artificial intelligence network protocol of public opinion data is designed to convert the current network data format and carry out the secondary semantic processing of public opinion of it. The characteristic key values are obtained by effective data text clustering by means of the Ma_Orduse algorithm and K?means algorithm in the internal learning library of Hadoop platform with the artificial intelligence technology, which are transferred back to the central controller in the form of central structure to realize the feature mining of current network big data transmission of public opinion. The experimental data show that the application of the mining system, the read?in delay of public opinion data features is reduced by 32%, and the read?out delay is reduced by 27%, which can effectively alleviate the lag problem of feature mining.
Keywords: public opinion big data; feature mining; artificial intelligence; system design; data analysis; semantic processing
0? 引? 言
網(wǎng)絡(luò)輿情具有極強的復雜性、擴散性、跨越性,對于其監(jiān)管和特征判定也勢必需要更為先進的思維模式和更為完備的數(shù)據(jù)挖掘系統(tǒng)[1]。
傳統(tǒng)化的網(wǎng)絡(luò)輿情大數(shù)據(jù)傳播特征挖掘一直面臨著特征挖掘滯后的問題,很難在部分惡性輿情擴大化前進行有效的遏制。在現(xiàn)有技術(shù)無法對其進行有效升級和改善的情況下,勢必需要引入新型技術(shù)作為支持動力。人工智能作為與大數(shù)據(jù)同時出現(xiàn)的集成化網(wǎng)絡(luò)技術(shù)手段,從研究伊始就奠定了二者密不可分的協(xié)作關(guān)系。應用人工智能對網(wǎng)絡(luò)輿情大數(shù)據(jù)進行有效的監(jiān)管和特征挖掘,是現(xiàn)代復雜網(wǎng)絡(luò)環(huán)境下較為可行的數(shù)據(jù)特征挖掘監(jiān)管升級方案。人工智能所特有的數(shù)據(jù)時間智能化和數(shù)據(jù)擬合智能化,可以利用時間軸進行網(wǎng)絡(luò)輿情數(shù)據(jù)傳播遏制,改善滯后性問題[2]。
1? 人工智能輿情大數(shù)據(jù)傳播特征挖掘系統(tǒng)
1.1? 網(wǎng)絡(luò)信息傳感提取模塊設(shè)計
網(wǎng)絡(luò)信息傳感提取模塊主要作為當前特征挖掘系統(tǒng)初始信息獲取區(qū)域存在。該模塊可以為系統(tǒng)提供大量的網(wǎng)絡(luò)傳感信息流,作為系統(tǒng)后續(xù)操作的原料。在實際工作中,提取模塊主要通過將輸入端接口電路和PC端網(wǎng)絡(luò)數(shù)據(jù)傳感器相連,獲取初始網(wǎng)絡(luò)信息流節(jié)點編號后,根據(jù)中央控制器獲取當前網(wǎng)絡(luò)信息的初始編碼值和地址編碼,再利用系統(tǒng)內(nèi)設(shè)的數(shù)據(jù)存儲器完成信號動態(tài)數(shù)據(jù)存儲,采用無線射頻的方式建立傳輸電流、CAN傳輸總線以及RS 485傳輸串口,為主控區(qū)進行信號傳輸。其詳細結(jié)構(gòu)如圖1所示。
外圍電路由采集器輸入接口電路、繼電器控制電路、串口電路和CAN總線電路合成[3]。其核心構(gòu)建包括O/I順向電流指向性電路節(jié)點端口,電機控制性匹配結(jié)構(gòu),采集獲取電路時鐘,以及一個可以保證16線程的外部電源數(shù)據(jù)轉(zhuǎn)換器,4個多線程緩沖性路徑接口及其核心數(shù)據(jù)傳感器。提取模塊內(nèi)部為中央控制器,與FLASH存儲器相連,具有明確的獨立控制區(qū)。外部通過端口與外圍電路相連。相關(guān)大數(shù)據(jù)工作人員可以根據(jù)其內(nèi)部的傳感器,建立輿情大數(shù)據(jù)的網(wǎng)絡(luò)空間映射子集,方便后續(xù)管理[4]。中央控制器示意圖內(nèi)部結(jié)構(gòu)圖見圖2。
中央控制器內(nèi)部各個原件與多條帶狀數(shù)據(jù)分布式交互接口聯(lián)通[5]。因為不同的輿情大數(shù)據(jù)需要基于大量的數(shù)據(jù)點擊周期和數(shù)據(jù)訪問次數(shù),多條帶交互接口設(shè)計可以保證提取模塊在進行日常輿情數(shù)據(jù)提取中,同時進行數(shù)據(jù)的讀入和讀出,在一定程度上提高了數(shù)據(jù)進出效率[6]。此外針對當前輿情數(shù)據(jù)圖片、視頻、文字形式多樣化特征,在中央控制器上設(shè)置三類不同的數(shù)據(jù)接口,即:MP/MC,OVLY,DROM。以上三類不同的數(shù)據(jù)接口可以滿足現(xiàn)代網(wǎng)絡(luò)環(huán)境下全部數(shù)據(jù)形式的提取和傳輸要求。當中央控制器成功獲取數(shù)據(jù)以后,根據(jù)模塊內(nèi)部的數(shù)據(jù)傳輸結(jié)構(gòu),直接傳遞給FLASH存儲器,獲取數(shù)據(jù)寄存值,再通過存儲器內(nèi)部獨有的傳輸接口進行傳輸。因為傳感提取模塊獨有的數(shù)據(jù)專業(yè)化特征,可以對采集制定進行不斷重復并在此基礎(chǔ)上施加條塊指令和傳輸指令,每個指令均根據(jù)64位傳導數(shù)據(jù)進行傳導。
1.2? 輿論數(shù)據(jù)人工智能入網(wǎng)協(xié)議
網(wǎng)絡(luò)信息傳感提取模塊雖然可以讀入和讀出大量的網(wǎng)絡(luò)信息,但是不能直接與人工智能相關(guān)分析數(shù)據(jù)相連。從網(wǎng)絡(luò)屬性上來看,當前的網(wǎng)絡(luò)數(shù)據(jù)屬性為線上網(wǎng)絡(luò),也就是基礎(chǔ)網(wǎng)絡(luò);而人工智能分析則需要基于已知網(wǎng)絡(luò),也就是局域網(wǎng)絡(luò)。二者無法直接進行對接,所以設(shè)計增設(shè)入網(wǎng)協(xié)議,改變當前提取網(wǎng)絡(luò)數(shù)據(jù)的網(wǎng)絡(luò)屬性,為后續(xù)輿情傳播特征挖掘提供條件[7]。
具體轉(zhuǎn)換方法是利用一定網(wǎng)絡(luò)藍本,確定并保證當前數(shù)據(jù)信號的隨機網(wǎng)絡(luò)代碼,將其與當前人工智能網(wǎng)絡(luò)協(xié)議的載波進行同步,從而實現(xiàn)網(wǎng)絡(luò)屬性變化和對接。上述過程可以將其近似的看作是一種大量駁雜的網(wǎng)絡(luò)數(shù)據(jù)通信信號二維判定過程。根據(jù)當前無線數(shù)據(jù)信號離散傅里葉變換規(guī)則,數(shù)據(jù)傳輸信號在進入局域網(wǎng)時,信號源的時域和頻域會呈現(xiàn)幾何倍數(shù)關(guān)系。這一特征可以應用于入網(wǎng)協(xié)議制定中。設(shè)計將數(shù)據(jù)傳輸協(xié)議直接連入系統(tǒng)傳感提取模塊的中央控制區(qū),在當前無線網(wǎng)絡(luò)內(nèi)建立端口。設(shè)中控區(qū)信號接收序列為[x(n)],信號控制端的數(shù)據(jù)序列為[y(n)],則設(shè)計入網(wǎng)協(xié)議的最終函數(shù)算法為:
[?xy(n)=r=1Nx(r)·y(r-n)]? ?(1)
式中:[n]表示當前入網(wǎng)協(xié)議信號數(shù)據(jù)的測量關(guān)系指數(shù);[r]為當前數(shù)據(jù)信號可執(zhí)行性定義域;[?]為當前提取信息數(shù)據(jù)頻域的測量關(guān)系值[8]。
根據(jù)入網(wǎng)協(xié)議,需要對當前信息數(shù)據(jù)的傳輸信號快速進行信號傅氏變換和局域網(wǎng)絡(luò)偽隨機碼的智能轉(zhuǎn)換,獲取當前轉(zhuǎn)碼的阻隔值。其變換公式如下:
[G(s)=U(s)E(s)=kP1+1TIs·TDs]? ?(2)
式中:[kP]表示數(shù)據(jù)變換的偽隨機比例系數(shù);[TI]表示當前數(shù)據(jù)常數(shù)量;[TD]表示當前數(shù)據(jù)可變換常數(shù)。
由式(2)將當前采集數(shù)據(jù)傅里葉變換下的偽隨機碼直接導入,并與區(qū)域網(wǎng)絡(luò)下人工智能網(wǎng)絡(luò)數(shù)據(jù)載波同步。如果所有的網(wǎng)絡(luò)代碼值均小于代碼值,則可以直接進行入網(wǎng)操作。
1.3? 實現(xiàn)輿情大數(shù)據(jù)傳播特征挖掘
入網(wǎng)協(xié)議將數(shù)據(jù)與局域網(wǎng)絡(luò)下人工智能相關(guān)分析數(shù)據(jù)相連后,即可對其進行輿情二次語義處理,進行數(shù)據(jù)挖掘。二次處理包括預處理和分析挖掘處理。
1) 一次處理。需要對人工智能下的采集數(shù)據(jù)以及局域網(wǎng)頁信息進行去重和去噪處理,選擇文本特征形式并將文本向量進行初始化或者格式化操作,獲取局域輿情文本數(shù)據(jù)向量集,其工作流程如圖3所示。
局域網(wǎng)絡(luò)屬性數(shù)據(jù)會保留原始數(shù)據(jù)域名格式,需要清洗數(shù)據(jù)HTML源代碼,保留數(shù)據(jù)自身內(nèi)容摘要等信息。為了便于后續(xù)分析,系統(tǒng)額外使用MAP_reduce分詞處理技術(shù),提取當前輿情數(shù)據(jù)詞頻特征,最終構(gòu)建詞頻特征向量集合,將其保存到HDFS分布式文本庫中,一次處理完畢。
2) 二次處理。其包括用于消除特征延時性的時間序列模型和傳播特征分析挖掘[9]。構(gòu)建網(wǎng)絡(luò)輿情信息時間序列模型可以最大限度完成傳播特征排序,抵消數(shù)據(jù)延遲。設(shè)當前多維的隨機變量[Ui],則當前數(shù)網(wǎng)絡(luò)數(shù)據(jù)為[U=U1,U2,…,UN]。設(shè)網(wǎng)絡(luò)輿情數(shù)據(jù)在路由鏈路層數(shù)據(jù)值域期間的關(guān)聯(lián)性特征為:
[pUθ=k=1KαkGUuk,k]? ? ?(3)
式中,[α]和[u]分別表示網(wǎng)絡(luò)輿情數(shù)據(jù)獨有的特征序列波特率和響應頻率。根據(jù)式(3)計算下的公式性特征,可以直接按照時間節(jié)點建立時間序列。
輿情傳播特征分析是二次予以處理的核心,主要負責完成輿情信息的高度識別、跟蹤輿情話題、評估輿情導向等。二次處理過程包括人工智能下的特征聚類算法,該算法可以將一次處理時獲取的信息文本向量進行匯總,并對輿情數(shù)據(jù)特征進行挖掘,識別主要輿情話題。將傳播特征信息提取后,更新數(shù)據(jù)向量文本,判斷二者之間的關(guān)聯(lián)性。如果關(guān)聯(lián)性達到一定的預設(shè)標準則可以將其劃分為一類情感傾向話題中。
系統(tǒng)的使用人工智能技術(shù)包括Hadoop平臺。該平臺內(nèi)部學習庫中的Ma_Orduse算法和K?means算法可以實現(xiàn)有效數(shù)據(jù)文本聚類[10]。只需要將一次處理獲取的文本向量集進行有效錄入,并預設(shè)聚類數(shù)據(jù)中心迭代中值條件,即可完成數(shù)據(jù)聚類,并獲取文本特征信息及中心點。
此外系統(tǒng)引入的MAP函數(shù),可以將文本向量集劃分成不同的小塊數(shù)據(jù)集合,并將其直接發(fā)送到人工智能下各數(shù)據(jù)節(jié)點的子程序中,直接進行計算任務。計算獲取的特征鍵值會以中樞結(jié)構(gòu)的形式傳遞回中央控制器,從而實現(xiàn)當前網(wǎng)絡(luò)輿情大數(shù)據(jù)傳播特征挖掘。
2? 實驗數(shù)據(jù)分析
實驗數(shù)據(jù)分析可以驗證當前系統(tǒng)的實際性能,提取特征數(shù)據(jù)為后續(xù)開發(fā)奠定基礎(chǔ)。設(shè)計實驗以傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)為對比樣本,通過驗證輿情數(shù)據(jù)特征讀入和讀出延遲,分析判定設(shè)計系統(tǒng)的實際性能。
2.1? 輿情數(shù)據(jù)特征讀入延遲對比
為了體現(xiàn)實驗公正,設(shè)計選用完全相同的2臺計算機進行數(shù)據(jù)特征挖掘,數(shù)據(jù)庫采用最新的BIRD數(shù)據(jù)庫,關(guān)鍵詞摘要的提取為多項提取。圖4為實驗對比系統(tǒng)輿情特征數(shù)據(jù)讀入延遲對比結(jié)果。
圖4顯示了當前兩種數(shù)據(jù)傳播特征挖掘系統(tǒng)進行輿情數(shù)據(jù)特征讀入時的對比延遲。實驗隨機選取5組進行驗證。根據(jù)數(shù)據(jù)資料顯示,傳統(tǒng)挖掘系統(tǒng)的輿情數(shù)據(jù)特征讀入延遲要明顯高于本文設(shè)計的挖掘系統(tǒng),經(jīng)過數(shù)據(jù)統(tǒng)計可以判定其相差比例達到32%。
2.2? 輿情數(shù)據(jù)特征讀出延遲對比
按照上述方法和實驗環(huán)境進行輿情數(shù)據(jù)特征的讀出操作,驗證對比延遲。為了更為清晰地明確數(shù)據(jù)結(jié)果,設(shè)計將對比延遲比例圖轉(zhuǎn)換為比例表的形式進行對比,其結(jié)果如表1所示。
根據(jù)表1數(shù)據(jù)可以看出,在輿情數(shù)據(jù)特征讀出延遲對比中,本文設(shè)計的特征挖掘系統(tǒng)同樣優(yōu)于傳統(tǒng)挖掘系統(tǒng),其特征延遲要比傳統(tǒng)系統(tǒng)降低27%,進一步驗證了實驗預測。
3? 結(jié)? 語
網(wǎng)絡(luò)輿情大數(shù)據(jù)傳播特征挖掘?qū)Ξ斍熬W(wǎng)絡(luò)環(huán)境監(jiān)管和輿論分析具有重要意義。為了解決傳統(tǒng)挖掘系統(tǒng)延遲過高的問題,設(shè)計了新型挖掘系統(tǒng)。該系統(tǒng)以人工智能為核心進行特征挖掘,進行輿情二次語義處理,可以有效降低延遲。
注:本文通訊作者為武斌。
參考文獻
[1] 王艷,王慧.基于快速Spark人工智能架構(gòu)的大數(shù)據(jù)挖掘算法[J].黑龍江工業(yè)學院學報(綜合版),2018,18(5):85?89.
[2] 張雙獅,夏一雪,蘭月新,等.面向大數(shù)據(jù)的涉警輿情分析與決策方法研究[J].傳播與版權(quán),2018,59(4):185?189.
[3] 王冰純,毛妍捷,孫濱頤,等.基于大數(shù)據(jù)背景下的人工智能客服系統(tǒng)[J].電子測試,2018(13):74?75.
[4] 詹劼,周純玉.基于大數(shù)據(jù)的人工智能教育系統(tǒng)設(shè)計分析[J].數(shù)碼世界,2018(1):146.
[5] 李亞,張小平.基于人工智能的網(wǎng)絡(luò)評卷系統(tǒng)的初探[J].中國戰(zhàn)略新興產(chǎn)業(yè),2018(28):126.
[6] 汪應.基于“人工智能+大數(shù)據(jù)”智慧校園虛擬校園卡創(chuàng)新與實踐[J].傳播力研究,2018,2(31):244.
[7] 陳德旺,章明亮,沈鏞.智慧地鐵:基于大數(shù)據(jù)與人工智能的新型地鐵系統(tǒng)[J].智能城市,2018,4(19):17?19.
[8] 高塔.探究如何利用大數(shù)據(jù)挖掘技術(shù)推動人工智能發(fā)展[J].中小企業(yè)管理與科技(下旬刊),2018(5):149?150.
[9] 孫華,賈曉婷.大數(shù)據(jù)時代人工智能在計算機網(wǎng)絡(luò)技術(shù)中的應用[J].信息與電腦(理論版),2018(9):133?135.
[10] 洪學銀,李亞娟.大數(shù)據(jù)背景下人工智能在計算機網(wǎng)絡(luò)技術(shù)中的應用研究[J].信息與電腦(理論版),2018(21):124?125.