亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向輿情監(jiān)控的智能化自然語(yǔ)言處理算法設(shè)計(jì)

        2023-11-10 05:42:40羅濤謝鳳祥李光華
        電子設(shè)計(jì)工程 2023年21期
        關(guān)鍵詞:文本信息模型

        羅濤,謝鳳祥,李光華

        (國(guó)能大渡河流域水電開(kāi)發(fā)有限公司,四川成都 610000)

        隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)信息的規(guī)模和數(shù)量均呈現(xiàn)出爆炸式增長(zhǎng),任何輿情信息通過(guò)互聯(lián)網(wǎng)均可在短時(shí)間內(nèi)大范圍傳播,從而造成嚴(yán)重的輿情風(fēng)暴[1-2]。而企業(yè)針對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析,有利于及時(shí)獲取網(wǎng)絡(luò)評(píng)價(jià)、市場(chǎng)動(dòng)向、品牌形象及廣告效果等關(guān)鍵信息,并為企業(yè)經(jīng)營(yíng)決策提供重要參考[3-5]。

        自然語(yǔ)言處理(Natural Language Processing,NLP)是一種利用人工智能算法對(duì)自然語(yǔ)言進(jìn)行分析處理,從而完成目標(biāo)任務(wù)的技術(shù)。其在智能翻譯、語(yǔ)音識(shí)別和人機(jī)交互等領(lǐng)域的應(yīng)用較為廣泛[6-9]。傳統(tǒng)輿情監(jiān)控基于詞庫(kù)統(tǒng)計(jì)分析的方法,但其在數(shù)據(jù)爆炸的互聯(lián)網(wǎng)時(shí)代,應(yīng)用效果并不理想。因此將自然語(yǔ)言處理技術(shù)應(yīng)用于網(wǎng)絡(luò)輿情分析,以提高分析效率及準(zhǔn)確性,成為一種前沿研究趨勢(shì)。針對(duì)此,該文開(kāi)展了自然語(yǔ)言處理技術(shù)在網(wǎng)絡(luò)輿情智能監(jiān)控中的應(yīng)用研究,實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)輿情的準(zhǔn)確分析。

        1 智能輿情監(jiān)控技術(shù)框架

        1.1 總體技術(shù)框架

        基于自然語(yǔ)言處理的智能輿情監(jiān)控框架如圖1所示[10]。該框架各層的主要功能如下:1)數(shù)據(jù)源層是輿情監(jiān)控分析的數(shù)據(jù)來(lái)源,承載著眾多網(wǎng)絡(luò)輿情信息。2)數(shù)據(jù)采集層則利用智能網(wǎng)絡(luò)爬蟲(chóng)技術(shù)來(lái)實(shí)現(xiàn)輿情信息的采集。3)數(shù)據(jù)處理層實(shí)現(xiàn)對(duì)獲取頁(yè)面信息的預(yù)處理。4)輿情分析應(yīng)用層利用深度學(xué)習(xí)算法對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行挖掘分析,并實(shí)現(xiàn)分析結(jié)果的應(yīng)用與可視化。

        圖1 智能輿情監(jiān)控技術(shù)框架

        1.2 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)

        網(wǎng)絡(luò)爬蟲(chóng)是在互聯(lián)網(wǎng)技術(shù)快速發(fā)展、數(shù)據(jù)規(guī)模急劇增加的背景下,所誕生的一種模擬人類(lèi)閱讀瀏覽習(xí)慣的互聯(lián)網(wǎng)網(wǎng)頁(yè)自動(dòng)獲取技術(shù)[11-13]。該技術(shù)通過(guò)不斷循環(huán)訪(fǎng)問(wèn)URL 列表來(lái)實(shí)現(xiàn)頁(yè)面信息的獲取與存儲(chǔ),具體的工作流程如圖2 所示。

        圖2 網(wǎng)絡(luò)爬蟲(chóng)流程

        文中采用的網(wǎng)絡(luò)爬蟲(chóng)軟件為Scrapy 引擎爬蟲(chóng)框架。該引擎是爬取過(guò)程中數(shù)據(jù)和信息交換的核心;調(diào)度器負(fù)責(zé)對(duì)待訪(fǎng)問(wèn)URL 列表進(jìn)行管理維護(hù),并安排訪(fǎng)問(wèn)任務(wù)順序;下載器根據(jù)來(lái)自調(diào)度器的請(qǐng)求從互聯(lián)網(wǎng)上下載相關(guān)信息,且將應(yīng)答返回給引擎;而爬蟲(chóng)負(fù)責(zé)對(duì)獲取的應(yīng)答內(nèi)容進(jìn)行分析處理,根據(jù)項(xiàng)目需求提取數(shù)據(jù),再提交新的訪(fǎng)問(wèn)請(qǐng)求;管道則負(fù)責(zé)管理和處理爬蟲(chóng)項(xiàng)目數(shù)據(jù)。

        2 基于NLP的智能輿情監(jiān)控算法設(shè)計(jì)

        該文提出基于自然語(yǔ)言處理的智能輿情監(jiān)控算法,如圖3 所示。首先利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取與輿情相關(guān)的語(yǔ)料集,并進(jìn)行初步的分詞、標(biāo)注等預(yù)處理操作;然后利用CBOW(Continuous Bag-of-Words)詞向量模型實(shí)現(xiàn)文本語(yǔ)料的結(jié)構(gòu)轉(zhuǎn)化;最終將其作為多維注意力機(jī)制網(wǎng)絡(luò)(Multi-Dimensional Attention Network,MDAN)的輸入,再經(jīng)過(guò)特征學(xué)習(xí)實(shí)現(xiàn)輿情風(fēng)險(xiǎn)等級(jí)劃分。

        圖3 智能輿情監(jiān)控算法框架

        2.1 CBOW詞向量模型

        詞向量模型通過(guò)智能算法將文本非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為矩陣等結(jié)構(gòu)化數(shù)據(jù)。傳統(tǒng)的詞向量模型采用獨(dú)熱表示法(One-Hot Representation),該方法僅能表示詞語(yǔ)在文本中出現(xiàn)的次數(shù),而無(wú)法保留原始文本結(jié)構(gòu)中所蘊(yùn)含的信息,且高維度向量的表示方式大幅降低了求解速度。CBOW 模型是一種改進(jìn)的分布式文本表示模式,其利用上下文詞語(yǔ)信息預(yù)測(cè)目標(biāo)位置詞語(yǔ)的概率分布,故可較為完整地保留上下文語(yǔ)義。因此,CBOW 模型在繁雜文本的挖掘中應(yīng)用廣泛[14],其模型如圖4 所示。

        圖4 CBOW詞向量模型

        假設(shè)i為目標(biāo)位置,b為目標(biāo)詞語(yǔ),集合Z由b的所有可能取值構(gòu)成。則原始文本前后n個(gè)詞語(yǔ),可表示為:

        式中,bi+1為目標(biāo)位置的后一個(gè)詞語(yǔ),其余變量定義同理。則輸入文本向量x為:

        式中,e(bj)為詞語(yǔ)bj的詞向量。則目標(biāo)詞語(yǔ)b為b′的概率分布如下:

        式中,e(b′)是目標(biāo)詞語(yǔ)b為b′時(shí)的詞向量。若整個(gè)文本庫(kù)表示為A,則CBOW 模型的最終優(yōu)化目標(biāo)G為:

        2.2 注意力機(jī)制

        注意力機(jī)制是模擬人類(lèi)大腦在搜尋信息時(shí)聚焦重要的部分,而忽略不重要的部分,從而高效完成任務(wù)的模式[15-16]。其應(yīng)用于自然語(yǔ)言處理中可理解為由n個(gè)詞語(yǔ)構(gòu)成的輸入x=[x1,x2,…,xn],在某個(gè)查詢(xún)?nèi)蝿?wù)r下,索引位置γ=i分配的注意力系數(shù),具體可表示為:

        式中,f(xi,r)為注意力分配函數(shù)。其可表示如下:

        式中,U、V和W為可優(yōu)化的網(wǎng)絡(luò)參數(shù),q為位置參數(shù)。

        進(jìn)一步計(jì)算輸入文本x的所有分詞向量加權(quán)和,該權(quán)重即為分詞的注意力系數(shù):

        最后將式(7)作為注意力機(jī)制的輸出,可以看到對(duì)于查詢(xún)?nèi)蝿?wù)r而言,越重要的分詞,權(quán)重系數(shù)越大,其對(duì)注意力機(jī)制的輸出結(jié)果影響也越大。注意力機(jī)制可看成是基于信息選擇機(jī)制對(duì)輸入文本向量x進(jìn)行的一次編碼。

        2.3 融合多維注意力機(jī)制的算法

        融合多維注意力機(jī)制的輿情監(jiān)控算法架構(gòu),如圖5 所示。輸入文本向量x經(jīng)過(guò)多維注意力機(jī)制計(jì)算,可得到前后向的句子特征ξq(x,xj)、ξh(x,xj),再通過(guò)句子特征獲取層及最后Softmax 層得到輿情風(fēng)險(xiǎn)等級(jí)。

        圖5 輿情監(jiān)控算法設(shè)計(jì)

        該文在注意力計(jì)算中引入位置信息,改進(jìn)后的注意力分配函數(shù)為:

        式中,λ為偏置參數(shù),Q為與位置信息相關(guān)的參數(shù)。

        將 式(8)代入式(5)和 式(7)可計(jì)算得到ξq(x,xj)、ξh(x,xj),并進(jìn)行拼接操作。進(jìn)而獲得總分詞特征向量,其規(guī)格為m行2n列,具體公式為:

        句子特征獲取層對(duì)拼接后的特征矩陣按列求取平均值,以得到句子特征向量:

        式中,si為句子特征向量第i個(gè)元素值。故句子特征向量為:

        最后,利用Softmax 層計(jì)算得到輿情風(fēng)險(xiǎn)等級(jí):

        式中,y為輿情風(fēng)險(xiǎn)等級(jí);Ω為整個(gè)模型的網(wǎng)絡(luò)參數(shù)集合;W′和b′分別為Softmax 層的連接權(quán)重與偏置。

        上述輿情監(jiān)控算法通過(guò)語(yǔ)料集B 進(jìn)行學(xué)習(xí)訓(xùn)練,并利用反向傳播算法(Back Propagation,BP)優(yōu)化網(wǎng)絡(luò)參數(shù)Ω,使得以下?lián)p失函數(shù)最小:

        2.4 模型評(píng)價(jià)指標(biāo)

        文中采用F1 值評(píng)估輿情風(fēng)險(xiǎn)監(jiān)控模型的性能:

        式中,P和R分別為準(zhǔn)確率與召回率,α是調(diào)制系數(shù)。

        3 算例分析

        從互聯(lián)網(wǎng)爬取的正負(fù)向文本各一萬(wàn)條,并按4∶1的比例劃分為訓(xùn)練集與測(cè)試集,再將其作為該實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行仿真驗(yàn)證。

        3.1 CBOW模型性能分析

        為了使CBOW 模型的準(zhǔn)確率最高,以不同詞向量維數(shù)進(jìn)行訓(xùn)練,得到的準(zhǔn)確率如圖6 所示,當(dāng)詞向量維數(shù)為200 時(shí),CBOW 模型的準(zhǔn)確率最高,達(dá)到了95.6%。因此,該文所有實(shí)驗(yàn)中的詞向量維數(shù)均取為200。

        圖6 不同詞向量維數(shù)的準(zhǔn)確率

        CBOW 模型與n元模型(N-Gram)、神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(Neural Network Language Model,NNLM)的性能對(duì)比,如表1所示。由表可知,CBOW 模型在處理網(wǎng)絡(luò)輿情文本信息時(shí),具有更高的計(jì)算速度與準(zhǔn)確率。

        表1 詞向量模型性能對(duì)比

        3.2 輿情風(fēng)險(xiǎn)識(shí)別效果分析

        將該文所提MDAN 模型與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)進(jìn)行對(duì)比驗(yàn)證,結(jié)果如表2 所示。

        表2 算法模型性能對(duì)比

        從表中可以看出,在網(wǎng)絡(luò)輿情風(fēng)險(xiǎn)監(jiān)控方面,CNN 及LSTM 模型的性能相差較小,而文中所提MDAN 模型明顯優(yōu)于二者,且輿情風(fēng)險(xiǎn)等級(jí)識(shí)別的準(zhǔn)確率可達(dá)96.5%。

        3.3 應(yīng)用效果分析

        將所提算法應(yīng)用于某企業(yè)實(shí)際網(wǎng)絡(luò)輿情監(jiān)測(cè),連續(xù)30 天內(nèi)的輿情風(fēng)險(xiǎn)等級(jí)如圖7 所示。由圖可知,在第9 天時(shí)輿情風(fēng)險(xiǎn)等級(jí)提升至第II 級(jí)。這是因?yàn)樵撈髽I(yè)發(fā)布重大決策引起網(wǎng)絡(luò)輿論關(guān)注,故相應(yīng)輿論風(fēng)險(xiǎn)等級(jí)得以提升[17-19]。隨著關(guān)注度的下降,風(fēng)險(xiǎn)等級(jí)也逐漸降低,最后恢復(fù)至正常等級(jí),且因該事件引起網(wǎng)絡(luò)的關(guān)注持續(xù)了約1 周時(shí)間。

        圖7 輿情風(fēng)險(xiǎn)等級(jí)評(píng)價(jià)

        4 結(jié)束語(yǔ)

        該文利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取網(wǎng)絡(luò)輿情信息,并提出了一種融合多注意力機(jī)制模型實(shí)現(xiàn)對(duì)輿情信息的分析處理。通過(guò)仿真分析表明,所提的CBOW 模型相比于N-Gram 和NNLM 模型在處理網(wǎng)絡(luò)文本方面具有更高的準(zhǔn)確率及更快的計(jì)算速度;而所提的MDAN 模型相比于CNN 與LSTM 模型,在輿情風(fēng)險(xiǎn)等級(jí)預(yù)測(cè)上具有更優(yōu)的準(zhǔn)確度;所提智能輿情監(jiān)控算法則在實(shí)際應(yīng)用中能夠準(zhǔn)確監(jiān)測(cè)輿情事件,并為企業(yè)的及時(shí)應(yīng)對(duì)處理提供技術(shù)指導(dǎo)。但文中未能實(shí)現(xiàn)輿情風(fēng)險(xiǎn)的分類(lèi),這將在下一步研究中展開(kāi)。

        猜你喜歡
        文本信息模型
        一半模型
        重要模型『一線(xiàn)三等角』
        重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
        展會(huì)信息
        如何快速走進(jìn)文本
        国产激情一区二区三区成人免费| 久久青青草原亚洲av无码麻豆| 少妇高潮惨叫正在播放对白| 国产欧美日韩午夜在线观看| 亚洲av偷拍一区二区三区| 人妻少妇猛烈井进入中文字幕| 插我一区二区在线观看| 国产女精品视频网站免费| 亚洲色四在线视频观看| 国产精品又湿又黄九九九久久嫩草| 色欲人妻aaaaaaa无码| 欧美与黑人午夜性猛交久久久| 精品国产乱码一区二区三区在线| 久久开心婷婷综合中文| 国产成人亚洲精品无码青| 人妻少妇邻居少妇好多水在线 | 男女视频在线观看一区二区 | 性色国产成人久久久精品二区三区 | 日本精品视频二区三区| 欧洲熟妇色 欧美| 久久久亚洲经典视频| 男的和女的打扑克的视频| 丰满人妻熟妇乱又仑精品| 国产精品久久一区二区三区| 久久久精品电影| 日本二区三区在线免费| 西西午夜无码大胆啪啪国模| 极品美女扒开粉嫩小泬| 亚洲国产不卡av一区二区三区| 亚洲一区二区三区偷拍厕所| 亚洲av中文无码乱人伦在线播放| 好吊妞人成免费视频观看| 少妇人妻字幕一区二区| 7194中文乱码一二三四芒果| 无码手机线免费观看| 中国人妻沙发上喷白将av| 国产综合开心激情五月| 激情综合色综合久久综合| 伊人网综合| 白色白色视频在线观看| 免费无遮挡无码永久视频|