亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于訴求詞典的突發(fā)事件情報感知與實證研究*

        2022-09-24 13:32:56白沛沅夏一雪楊雨光張雙獅
        情報雜志 2022年9期
        關(guān)鍵詞:詞典情報突發(fā)事件

        白沛沅 夏一雪 楊雨光張雙獅

        (1.中國人民警察大學網(wǎng)絡輿情治理研究中心 廊坊 065000;2.香港浸會大學 香港 999077)

        0 引 言

        隨著互聯(lián)網(wǎng)的普及,突發(fā)事件網(wǎng)上網(wǎng)下風險耦合給政府應急管理帶來巨大挑戰(zhàn)。突發(fā)事件發(fā)生后,圍繞事件形成的海量互聯(lián)網(wǎng)信息資源已成為典型的大數(shù)據(jù)場景,為突發(fā)事件情報感知提供了豐富的數(shù)據(jù)源。通過對互聯(lián)網(wǎng)信息開展深度分析研判,挖掘蘊含于大數(shù)據(jù)中的情報價值,快速、精準感知突發(fā)事件情報,為政府應急管理提供情報支持,實現(xiàn)情報引領應急管理,是網(wǎng)絡社會突發(fā)事件應急管理亟待解決的關(guān)鍵問題。

        通過整理國內(nèi)突發(fā)事件情報研究文獻,發(fā)現(xiàn)國內(nèi)研究主要集中在突發(fā)事件情報體系、情報技術(shù)、情報分析、情報應用等幾個方面。在突發(fā)事件情報體系研究方面,朱曉峰等從組織保障、流程設計以及技術(shù)方法構(gòu)建突發(fā)事件情報體系模型[1],李綱等從人員、機構(gòu)、技術(shù)、資源、制度、行為六要素面向智慧城市構(gòu)建應急決策情報體系[2]。在突發(fā)事件情報技術(shù)研究方面,楊峰等通過基于情景相似度的檢驗方法感知情報資源以實現(xiàn)突發(fā)事件的態(tài)勢感知[3];陳祖琴從“分類、分級、分期”三個維度描述與編碼突發(fā)事件特征屬性,構(gòu)建突發(fā)事件特征詞典輔助情報組織與采集[4];唐明偉等構(gòu)建了物聯(lián)網(wǎng)情報大數(shù)據(jù)處理框架[5]。在突發(fā)事件情報分析研究方面,瞿志凱等構(gòu)建了以綜合研判模塊為核心的大數(shù)據(jù)突發(fā)事件情報分析模型,以期實現(xiàn)大數(shù)據(jù)與突發(fā)事件情報分析的深層次融合[6];范煒等認為情報對應急決策起支撐作用,提出了以人為主體,聯(lián)系情報與決策的“情-人-策” (QRC)模式[7]。在突發(fā)事件情報應用研究方面,徐緒堪等針對城市水災害突發(fā)事件構(gòu)建了“事前預防、事中控制、事后總結(jié)”的情報分析框架[8];宋丹等深入剖析美國自然災害應急管理情報服務案例,提出了“積極參與管理、加強理論研究、建設專業(yè)中心、加強宣傳”四點突發(fā)事件情報服務啟示[9]。

        國內(nèi)突發(fā)事件情報研究多是宏觀理論研究,而服務政府應急管理的微觀實踐研究相對較少?;诖耍疚脑谇閳笠I應急管理的理念下,突出“以人為本”的應急管理原則[10],面向政府主導的特定網(wǎng)絡媒介中突發(fā)事件民眾訴求信息,生成訴求詞典,構(gòu)建突發(fā)事件情報感知模型,可以快速過濾海量互聯(lián)網(wǎng)信息,精準挖掘民眾訴求,為政府應急管理提供情報支撐,也為解決網(wǎng)絡社會突發(fā)事件情報感知問題提供科學方法與路徑。

        1 面向訴求信息的突發(fā)事件情報感知機理

        1.1 突發(fā)事件訴求信息產(chǎn)生機理

        民眾訴求是民眾通過媒介開展的陳訴和請求,是表達自身要求和追求的直接體現(xiàn)。突發(fā)事件往往會對自然環(huán)境、社會功能造成嚴重破壞,強烈沖擊民眾的生產(chǎn)生活秩序,刺激產(chǎn)生大量民眾訴求。網(wǎng)絡社會環(huán)境下,民眾普遍通過社交媒體平臺、網(wǎng)絡問政平臺等載體表達訴求,其中蘊含應急信息需求、生活需求、安全需求、心理需求、社交需求、交通需求等個體訴求,矛盾糾紛、焦慮恐慌、秩序混亂等群體行為,以及針對突發(fā)事件處置的意見建議等,已成為突發(fā)事件應急管理的重要情報源(見圖1)。

        圖1 訴求信息產(chǎn)生機理

        以突發(fā)公共衛(wèi)生事件——新冠肺炎疫情為例,基于2020.01.01—2020.06.30期間百度指數(shù)[11]“疫情”主題和訴求主題“復工”“網(wǎng)課”“口罩”的檢索數(shù)據(jù),繪制多軸線圖(見圖2)。數(shù)據(jù)表明,突發(fā)事件發(fā)生后,網(wǎng)絡環(huán)境中存在伴生訴求信息,這些訴求信息突然爆發(fā)、具有一定的生命周期且在突發(fā)事件不同階段訴求信息不同。這些訴求信息能夠反映民眾在突發(fā)事件不同階段的訴求聚焦點,因此需要快速、持續(xù)、動態(tài)的挖掘其情報價值,輔助政府應急管理。

        圖2 百度指數(shù)民眾訴求主題多軸線圖

        1.2 面向訴求信息的突發(fā)事件情報感知過程

        面向訴求信息的突發(fā)事件情報感知過程是突發(fā)事件訴求信息生成過程的逆過程(見圖3),即從海量互聯(lián)網(wǎng)信息中有針對性的感知突發(fā)事件刺激下產(chǎn)生的訴求信息,形成突發(fā)事件情報。海量互聯(lián)網(wǎng)信息環(huán)境中充斥著新聞信息、學術(shù)信息、服務信息、教育信息、用戶信息、交際信息、公共信息、訴求信息等各類信息,并散布于不同的互聯(lián)網(wǎng)平臺之上,呈現(xiàn)出訴求密度小,總體信息量大的特征;但其中存在一系列政府主導的特定網(wǎng)絡媒介,如:政府官網(wǎng)、政媒融合平臺、政務微博、政務公眾號等,具有總體信息量小但訴求密度大的特征,為情報感知模型的構(gòu)建提供了精準的數(shù)據(jù)源。通過提取這些特定網(wǎng)絡媒介中突發(fā)事件訴求信息的特征形成突發(fā)事件訴求主題詞庫,構(gòu)建突發(fā)事件訴求識別模型,可以在海量互聯(lián)網(wǎng)信息環(huán)境中識別突發(fā)事件相關(guān)訴求信息,從而實現(xiàn)全面、快速的突發(fā)事件情報感知。

        圖3 面向訴求信息的突發(fā)事件情報感知過程

        2 基于訴求詞典的突發(fā)事件情報感知模型

        基于面向訴求信息的突發(fā)事件情報感知過程,突發(fā)事件情報感知模型的構(gòu)建可以分為以下兩部分,第一部分:基于民眾訴求信息的訴求主題詞庫構(gòu)建;第二部分:面向訴求主題詞庫開展突發(fā)事件情報感知。由此,本文通過構(gòu)建民眾訴求詞典形成訴求主題詞庫,進而通過民眾訴求詞典開展民眾訴求識別,為突發(fā)事件應急管理提供情報支持。

        2.1 突發(fā)事件民眾訴求詞典構(gòu)建

        訴求詞典建構(gòu)的數(shù)據(jù)源是政府主導的特定網(wǎng)絡媒介中的訴求信息(見表1),通常具有如下特征:政策性,訴求通常包含對有關(guān)戶籍、教育、拆遷征地等相關(guān)政策的咨詢;事件針對性,訴求主體通常會針對自身發(fā)生的具體事件表達訴求;表述多樣性,存在一義多詞現(xiàn)象,如繳納一詞就有繳費、交費、交付、交納、上交等多種表述;信息冗余度高,訴求內(nèi)容關(guān)于問題的描述和請求關(guān)注篇幅占比較高,而真正的訴求表述只占一小部分;主題聚集性,反映問題集中在主要的幾類主題;表達策略性,文本話語表達的政治價值取向可分為賢能話語、民主話語和混合話語。

        表1 訴求信息及其來源

        詞典構(gòu)造的方法主要有基于經(jīng)驗的專家知識庫構(gòu)造方法[4,12]、基于TF-IDF的基礎詞典構(gòu)造、基于統(tǒng)計的PMI擴展詞典方法[13-14]和基于機器學習的Word2vec擴展詞典方法[15-17]等等。由于本文研究的民眾訴求沒有已構(gòu)建好的通用領域詞典,為實現(xiàn)詞典構(gòu)造的自動化,需要先行構(gòu)造基礎詞典,并且通過基礎詞典擴展生成擴展詞典。

        基礎詞典的構(gòu)造需要使用關(guān)鍵詞提取技術(shù),目前主要有TF-IDF、TextRank以及LDA等算法。TF-IDF提取出現(xiàn)頻率低但是具有代表性的詞,TextRank提取文檔中出現(xiàn)頻率高的詞,LDA使用主題詞表示文檔。三種方法中,TF-IDF對處理事件針對性、表述多樣性、信息冗余性強的訴求更具有優(yōu)勢;TextRank傾向于將高頻詞作為關(guān)鍵詞,會提取到很多無意義詞;LDA模型雖然對主題可以有很好的處理,但其提取的主題詞是整個文檔的主題,在訴求識別中無法準確定位具體訴求。因此TextRank與LDA并不適合進行訴求詞提取,選擇使用TF-IDF構(gòu)建基礎詞典。

        TF-IDF(詞頻-逆文件頻率)是用于評估詞語在文本中關(guān)鍵程度的統(tǒng)計方法。

        TF-IDF(wi)=TF×IDF

        (1)

        (2)

        df(wi)=N(wi)+1

        (3)

        TF(詞頻):某一詞語在文本中出現(xiàn)的次數(shù)。

        IDF(逆文件頻率):一個詞語普遍重要性的度量。包含詞語的文本越少,表明該詞語具有的類別區(qū)分能力越強,IDF值越大,N為語料中的文檔數(shù)。

        TF-IDF沒有考慮關(guān)鍵詞之間的位置關(guān)系,需要進行擴展完善詞典。在擴展詞典方面,涉及的擴展方法主要有基于概率的PMI、基于距離的Word2vec等。 PMI用于計算兩個詞在同一句話的共現(xiàn)程度,Word2vec則是計算詞之間的余弦相似度來表示語義相似度,因此,使用Word2vec針對訴求的多樣化表述特征的提取更具有優(yōu)勢。

        Word2vec[18]屬于最簡單的兩層神經(jīng)網(wǎng)絡,隱藏層沒有激活函數(shù)呈現(xiàn)線性關(guān)系,輸入為獨熱編碼(one-hot)。訓練使用跳字模型(skip-gram)和連續(xù)詞袋模型(Continuous Bag of Words,簡稱CBOW),skip-gram輸入單個詞向量,輸出該詞的上下文詞向量,CBOW輸入為上下文詞向量,輸出單個詞向量。隱藏層到輸出層的方法采用負采樣(Negative Sampling)或基于哈夫曼樹的層序softmax(Hierarchical Softmax)可以提高模型訓練效率。Word2vec可以將文本內(nèi)容映射到N維向量空間,通過計算向量之間的協(xié)方差來表示文本內(nèi)容的語義相似度。協(xié)方差公式如下:

        (4)

        w1、w2分別表示文本中的兩個詞,w1i、w2i分別表示詞語1、2在i維空間上的取值。

        選擇突發(fā)事件訴求詞典的構(gòu)造方法后,進行技術(shù)路線的設計,分為兩個階段(見圖4):a.在數(shù)據(jù)預處理階段,從政府主導的特定網(wǎng)絡媒介中獲取訴求信息,通過突發(fā)事件的關(guān)鍵詞篩選得到突發(fā)事件相關(guān)訴求信息,進行去重、清洗、并分詞。在數(shù)據(jù)中會存在大量的無意義詞以及無關(guān)詞,可以將其設定為停用詞。為準確去除無關(guān)詞,可以使用詞性標注的方法,選擇需要過濾的詞性以生成自定義停用詞典,同時合并通用停用詞典以去除無意義詞,可以達到較好的停用詞過濾效果。在分詞時使用合成停用詞典去停用詞后,得到構(gòu)建詞典所需數(shù)據(jù)。b.在詞典構(gòu)建階段,需要先將數(shù)據(jù)按照訴求主題進行分類,再使用TF-IDF提取訴求詞,得到基礎訴求詞典,同時還需要使用Word2vec算法訓練數(shù)據(jù)得到Word2vec模型,并將基礎詞典放入模型中擴展得到擴展詞典。

        圖5 訴求詞典構(gòu)建流程

        2.2 突發(fā)事件情報感知模型

        訴求詞典構(gòu)建后通過構(gòu)建突發(fā)事件情報感知模型(見圖5)在互聯(lián)網(wǎng)中識別民眾訴求,主要可以分為:數(shù)據(jù)預處理、訴求識別與效果驗證。a.數(shù)據(jù)預處理。去除獲取到的互聯(lián)網(wǎng)信息中的重復數(shù)據(jù)與無關(guān)符號并分詞,得到用于識別的數(shù)據(jù)。b.訴求識別。在詞典構(gòu)造中,構(gòu)造了基礎詞典與擴展詞典,實際使用中擴展詞典效果并不一定優(yōu)于基礎詞典,因此需要選擇合適的詞典進行訴求識別。通過匹配詞典可以得到信息中訴求詞占總字數(shù)的比值,即信息占比(公式5)。受信息多樣性的影響,針對不同結(jié)構(gòu)的信息需要構(gòu)建不同的識別規(guī)則,保證識別的精準,如:針對無關(guān)詞較多的詞典以及信息中的短文本需要以句子中的詞頻先行劃分非訴求信息即詞頻限制規(guī)則,針對不同語境需要對不同的訴求詞設置不同的權(quán)重,針對不同的訴求詞可能常常組合出現(xiàn)需要設置多詞共現(xiàn)規(guī)則,針對訴求詞在句子中的位置,功能需要設置句法規(guī)則等。根據(jù)信息占比進行訴求詞加權(quán)即可得到訴求相似度,并設定閾值,高于閾值則為訴求信息,低于則非訴求信息。由此得到的訴求信息即可作為突發(fā)事件情報。c.效果驗證。為了評估訴求詞典與識別規(guī)則的效果,設置了效果驗證部分,對互聯(lián)網(wǎng)信息進行人工標注,根據(jù)驗證指標,比對模型識別結(jié)果,即可得到詞典與識別規(guī)則的實際效果。

        (5)

        3 實證研究

        3.1 新冠疫情訴求詞典構(gòu)建

        3.1.1數(shù)據(jù)來源

        人民網(wǎng)于2006年開設的“地方領導留言板”是一個備受網(wǎng)民關(guān)注的全國網(wǎng)絡問政平臺,其具有如下特點:a.數(shù)據(jù)全。全國的數(shù)據(jù)都有記錄,對分析全國性事件的支持較好。b.細化程度好。按照地域劃分,從省部級領導到區(qū)級領導每一層都有問政通道。c.公開。平臺所有歷史留言均可查看。d.結(jié)構(gòu)化程度好。對議題進行了分類,設置了14項訴求議題和5項訴求類型(見表2)。該問政平臺對本文研究面向訴求信息的突發(fā)事件情報感知具有良好的數(shù)據(jù)支撐作用,可以作為訴求詞典構(gòu)建的數(shù)據(jù)源。

        表2 議題類別與訴求類型

        確定數(shù)據(jù)源后,通過網(wǎng)絡爬蟲,爬取“地方領導留言板”各省、直轄市2020年1月1日至2020年10月1日的留言內(nèi)容共113 569條數(shù)據(jù),每條數(shù)據(jù)包含留言標題、訴求議題、訴求類型、訴求所屬地區(qū)版塊、訴求人用戶名以及留言時間共6項。

        2019年底,新冠肺炎疫情爆發(fā),被列為特別重大突發(fā)公共衛(wèi)生事件。此次新冠肺炎疫情持續(xù)時間長,破壞性、擴散性顯著,嚴重影響了社會的發(fā)展和民眾生產(chǎn)生活,人們圍繞疫情產(chǎn)生一系列訴求,并且伴隨疫情的大量衍生、次生事件而不斷演化,具有重要的研究價值,由此,下面將面向新冠疫情訴求構(gòu)建訴求詞典。

        以新冠和疫情為關(guān)鍵詞對爬取的訴求留言進行檢索和篩選,得到相關(guān)數(shù)據(jù)共15 657條。對全數(shù)據(jù)和篩選數(shù)據(jù)的議題類別進行統(tǒng)計(見圖6),在全數(shù)據(jù)條件下,城建占比達到極高的42%,教育、就業(yè)、交通、企業(yè)、政務較為接近,占比7%~9%,三農(nóng)、環(huán)保、治安、醫(yī)療占比3%~5%,旅游和金融則在1%左右。相較而言,新冠-肺炎關(guān)鍵詞條件下相關(guān)留言中的城建占比依舊為最高,但占比下降了17個百分點為25%,教育、企業(yè)、政務、就業(yè)5類議題的訴求占比較高,達到了10%以上,交通、治安和醫(yī)療占比5%~10%,而剩余議題占比不到3%??偠灾?,新冠肺炎疫情相關(guān)訴求的教育、企業(yè)、政務、就業(yè)、治安和醫(yī)療議題占比相對總體訴求是增加的。

        3.1.2訴求停用詞詞典構(gòu)建

        文本中的停用詞會對有效信息造成噪音干擾,通過使用停用詞詞典去噪有利于提高關(guān)鍵詞比例,進而提高準確性。目前的通用停用詞詞典[19]有中文停用詞表、哈工大停用詞表、百度停用詞表、四川大學機器智能實驗室停用詞庫,4個詞庫共計3 885個停用詞,將其合并去重,剩余2 318個停用詞生成通用停用詞典。由于需要對訴求留言進行過濾,語境比較具體,通用停用詞典不足以滿足過濾需求,因此加入自定義停用詞典。采用詞性過濾法,對篩選過后的15 646條數(shù)據(jù)使用NLP-IR[20]分詞得到了中科院ICTCLAS詞性標注后的分詞結(jié)果,將與訴求語義無關(guān)的詞性(見表3)的詞作為停用詞生成自定義停用詞詞典包含10 298個詞項。獲得的停用詞典(見表4)將用作基礎詞典構(gòu)建的數(shù)據(jù)預處理環(huán)節(jié)。

        圖6 訴求議題占比對比

        表3 訴求停用詞典詞性ICTCLAS對照表

        表4 部分自定義停用詞展示

        3.1.3基礎詞典的構(gòu)建

        將數(shù)據(jù)按照議題進行分類,對于同類別的議題,其語義和詞匯相似度較高,方便進行關(guān)鍵詞的抽取。對于關(guān)鍵詞的抽取使用TF-IDF方法。

        在Python中,TF-IDF關(guān)鍵詞抽取的實現(xiàn)主要調(diào)用Jieba庫或者是Gensim庫。Jieba庫使用自帶默認的IDF值,不需要進行訓練即可直接計算TF-IDF值,而Gensim庫使用輸入的語料庫進行訓練計算TF-IDF值。相較而言,使用Gensim庫更具有針對性,提取的關(guān)鍵詞與議題關(guān)聯(lián)度更高,但是在新冠疫情訴求語料中,兩種TF-IDF計算得出的結(jié)果均具有不錯的效果(見表5)。

        使用Jieba庫下的TF-IDF方法對每個議題下值最高的前200個詞進行提取,得到2 800個詞,合并為一個詞典,經(jīng)過去重得到1 009個詞項,由于分詞后仍存在一些噪音詞無法完全通過停用詞典去除,因此人工對提取后的詞進行篩選,并將無關(guān)詞加入停用詞典(見表6),最終篩選得到921個基礎訴求詞,生成基礎訴求詞典,命名為TF-IDF(Jieba),88個停用詞加入停用詞典。

        表5 醫(yī)療議題下TF-IDF值前9個關(guān)鍵詞對比

        表6 部分醫(yī)療議題下的TF-IDF(Jieba)詞項人工篩選

        同時使用Gensim庫下訓練語料庫,對取值大于0.018的詞進行提取,去重,得到4 130個詞項,作為TF-IDF(Gensim)基礎訴求詞典。

        3.1.4擴展詞典的構(gòu)建

        由于訴求的表述多樣性,為了豐富訴求詞典,詞典的擴展使用Word2vec模型進行擴展。由于TF-IDF(Gensim)詞項較多,不便于擴展,因此僅使用TF-IDF(Jieba)基礎詞典進行擴展,命名為TF-IDF(Jieba)Word2vec。

        使用Gensim庫提供的Word2vec模塊訓練,采用CBOW模型處理以新冠-疫情為關(guān)鍵詞篩選后的全部文本生成詞向量矩陣。詞語臨近窗口設定為5,采用負采樣算法設定negative值為5,計算詞向量最小詞頻為5。Word2Vec計算的是詞向量的余弦相似度,值域為[0,1],值越接近1,詞義越相近。對基礎詞最相近的詞進行查詢(見表7)。

        表7 “懇請”擴展詞

        3.2 基于新冠疫情訴求詞典的情報感知與驗證

        3.2.1數(shù)據(jù)預處理

        微博基于人際關(guān)系網(wǎng)絡進行信息傳播,具有大數(shù)據(jù)環(huán)境的基本特征,可以作為突發(fā)事件情報感知與驗證的對象。爬取新冠肺炎疫情期間82 414條微博內(nèi)容,對其清洗去噪,提取文本長度為5以上的文本,隨機抽取2 500條博文對所得詞典進行感知與驗證。采用三人獨立標注法,將文本分為訴求文本與非訴求文本,當三人的標注結(jié)果一致時,認為標注結(jié)果有效,作為輸出。最后輸出標注樣本2 155條進行實驗。在該樣本集中,標注為訴求的博文(見表8)為243條,占比11.3%。

        表8 微博訴求文本

        3.2.2感知設計

        在使用Word2vec擴展詞典時,有兩點影響因素需要考慮,一是詞向量維度的影響,實驗分別選取300維、500維和1 000維訓練模型;二是相似度的影響,當相似度大于某一閾值時輸出擴展詞,實驗將處于[0.5-0.9]區(qū)間內(nèi)的相似度以0.1為間隔進行擴展詞提取,每組生成41個詞典進行識別驗證,對照查找最佳相似度。

        由于本文構(gòu)建的詞典主要由算法自動生成,存在無關(guān)詞干擾,而微博博文中存在短文本的干擾,因此使用詞頻過濾規(guī)則作為對照。當訴求詞在文本中出現(xiàn)3次以下,則不認為是訴求,當訴求詞出現(xiàn)3次及以上時,按照訴求信息占比進行判斷。

        3.2.3感知評價指標

        為驗證訴求詞典的效果,需要采用合適的指標對實驗進行評價,本文采用準確率(Accuracy,A)、精確率(Precision,P)、召回率(Recall,R)和正確率(F-score,F1值)4個指標計算訴求詞典的實際效果,公式如下:

        (6)

        (7)

        (8)

        (9)

        在訴求詞典驗證中,TP表示標注為訴求且判斷為訴求,TN表示標注為非訴求且判斷為非訴求,F(xiàn)P表示標注為非訴求判斷為訴求,F(xiàn)N表示標注為訴求判斷為非訴求。

        3.2.4感知結(jié)果與分析

        三項詞典的驗證結(jié)果如表9所示。由于樣本集中訴求占比較少,因此正確率對詞典的影響更為重要。綜合以上驗證結(jié)果,詞典TF-IDF(Jieba)與TF-IDF(Gensim)都為采用TF-IDF方法構(gòu)造的訴求詞典,且TF-IDF(Gensim)所獲得的詞項數(shù)遠大于TF-IDF(Jieba),但在準確率相近的情況下, TF-IDF(Gensim)的正確率遠低于TF-IDF(Jieba),原因可能為使用分類好的訴求語料訓練得到的IDF值影響較大,所提取的詞針對性太高,不具有共通性。

        表9 不同種類詞典判斷結(jié)果對比 %

        TF-IDF(Jieba)Word2vec整體效果較好,根據(jù)上文設計計算詞向量維度與相似度對指標的影響,設定訴求占比為25%,并做出折線圖(見圖7)。

        觀察可得以下結(jié)論:a.起始召回率較高,是由于相似度閾值為0.5時,可以提取到較多的訴求詞,可以有效的識別真實訴求,但該閾值下大部分提取詞實際為干擾詞,在識別中會將大量無關(guān)文本標記為訴求,因此起始精確率較低。b. F1值均在閾值區(qū)間[0.70-0.75],達到最高點,且準確率在此之后也趨于平穩(wěn)。c.縱向?qū)Ρ菷1值最高點可得訓練500維詞向量擴展詞典效果要好于300維,而1 000維相對500維有所提升但不明顯。d.加入詞頻限制條件后,精確率在閾值達到0.65后上升較快,F(xiàn)1值最高點相對提升約20%,同時準確率最高點也有所提升。

        圖7 不同詞向量維度與識別規(guī)則下相似度閾值對驗證指標的影響

        由此,確定訓練高維詞向量以及加入詞頻規(guī)則可以有效提升詞典效果,但該實驗設定訴求占比為恒定值,沒有考慮訴求占比的影響,因此固定詞典訓練方式為1 000維和識別規(guī)則為詞頻規(guī)則,改變訴求占比的閾值進行實驗,得到如下折線圖(見圖8)。

        在該組實驗中可以看到,訴求占比閾值為20%時,F(xiàn)1值可以達到最高點(見表10),同時準確率趨于穩(wěn)定。

        表1 0F1最高點數(shù)據(jù)(%)

        由前文可知,案例中訴求占比為11.3%,而實驗設置的訴求占比為20%達到最好效果,主要是由于詞典中存在干擾詞的影響,這些干擾詞不能表征訴求,但是會伴隨訴求詞出現(xiàn),導致訴求占比閾值設置高于實際訴求占比才能達到較好的效果。

        通過實驗,得到最終效果最好的詞典為TF-IDF(Jieba)Word2vec,訓練詞向量維度為1 000維,相似度閾值設置為0.77,訴求占比閾值為0.2。該詞典F1值達到67.9%,準確率達到92.5%。準確率高而F1值較低,主要原因為在微博環(huán)境下提取的樣本集中訴求樣本含量較少。

        圖8 1000維詞向量、詞頻規(guī)則下訴求占比對驗證指標的影響

        4 應用探究

        4.1 面向訴求信息的政府突發(fā)事件情報感知與決策方案

        圖9 面向訴求信息的政府突發(fā)事件情報感知與決策方案

        通過分析面向訴求信息的突發(fā)事件情報感知機理和進行實證檢驗,確定了使用訴求詞典進行情報感知的可行性,在實際場景中,則需要通過構(gòu)建突發(fā)事件情報庫和決策支撐庫進行應急管理、實現(xiàn)及時響應。突發(fā)事件情報庫和決策支撐庫本質(zhì)是數(shù)據(jù)庫,需要政府應急管理部門牽頭構(gòu)建。突發(fā)事件情報庫包含政府特定信息平臺的后臺數(shù)據(jù)、線下情報數(shù)據(jù)等歷史數(shù)據(jù),并通過分類形成更為具有針對性、細粒度、精準的數(shù)據(jù)集。針對訴求信息則可以按照訴求議題、訴求類型進行分類[21],或是按照突發(fā)事件的類別進行分類。基于分類數(shù)據(jù)構(gòu)建不同突發(fā)事件的訴求詞典或不同訴求議題、類型的訴求詞典,在新生突發(fā)事件發(fā)生后可以根據(jù)該事件所屬的類別及其可能產(chǎn)生的訴求議題、類型篩選合適的詞典進行融合,得到的融合詞典用以情報感知,感知到的突發(fā)事件情報可以輸入突發(fā)事件情報庫,并通過動態(tài)更新逐漸提高詞典的識別能力。面向訴求信息的政府突發(fā)事件情報感知與決策方案如圖9所示。

        在獲得突發(fā)事件情報后,需要對其進行分析,基于訴求信息的內(nèi)容可以進行受災群體分析、影響范圍分析、時間分析、主題共現(xiàn)分析、情感分析等,為決策提供支持,在政府決策后制定應急處置方案進行處置,情報分析結(jié)果與處置方案可以輸入決策庫與情報庫建立關(guān)聯(lián)規(guī)則,作為未來突發(fā)事件發(fā)生的案例參考。

        4.2 基于訴求詞典的突發(fā)事件訴求主題共現(xiàn)時序分析

        根據(jù)上述方案,在獲取突發(fā)事件情報后需要進行情報分析。由于訴求信息能夠反映民眾在突發(fā)事件不同階段的訴求聚焦點,因此,可以通過繪制不同階段的主題詞云圖,對訴求文本進行訴求主題共現(xiàn)時序分析。

        在實證研究部分,構(gòu)建了一項效果較好的訴求詞典,使用該詞典對預處理后的2020.01.01—2020.02.18期間的微博文本進行訴求識別,得到13 977條訴求文本。

        以全周期數(shù)據(jù)繪制主題詞云(見圖10),可以看到,“新型冠狀病毒”“肺炎”“疫情”“感染”“病例”等新冠疫情主題詞占據(jù)較大的比重, 同時其伴隨“口罩”“防護”“消毒”“開學”“退票”等生活類訴求,“企業(yè)”“復工”等企業(yè)訴求,“工作”等就業(yè)訴求,以及“醫(yī)院”“隔離”“出院”“治療”“核酸檢測”等醫(yī)療訴求。

        圖10 全周期主題詞云

        由于新冠疫情主題詞占比較大,且在每個階段都與訴求詞共現(xiàn),因此將其去除以增強訴求主題可視化效果。以6天為一個時間階段繪制不同階段的主題詞云(見圖11)??梢钥吹剑涸谡麄€時間周期中,存在一些貫穿始終的訴求,其主要為醫(yī)療類訴求,也存在一些階段性訴求:

        a.2020.01.01—2020.01.13,疫情傳播的初始階段,民眾對疫情了解較少,主要訴求為尋求“不明原因”“華南海鮮市場”等疫情的源頭和原因。

        b.2020.01.13—2020.01.19,疫情已傳播一段時間,超過了新冠病毒的14天潛伏期,武漢市為最早發(fā)現(xiàn)疫情的地區(qū),民眾的關(guān)注點則主要聚焦在“武漢市”“患者”“治愈”“死亡”“病情”“重癥”等相關(guān)話題。

        c.2020.01.19—2020.01.25,疫情態(tài)勢嚴峻,引起社會廣泛關(guān)注,口罩可以有效防護新冠病毒,但產(chǎn)能不足,“口罩”成為最大訴求,且在之后的各時間階段持續(xù)存在,1月23日武漢封城,各項防控措施展開,“防控”訴求亦占據(jù)較大比重。

        d.2020.01.25—2020.01.31,處于春節(jié)假期,也是武漢封城第一周,疫情沖擊導致醫(yī)療“物資”匱乏,封城造成生活“物資”短缺。春節(jié)結(jié)束后,學校延遲“開學”成為家長與學生的主要訴求關(guān)注點。

        e.2020.01.31—2020.02.12,春節(jié)假期結(jié)束,受疫情影響,多家公司企業(yè)采取居家辦公的方式工作,國家鐵路部門出臺免費退票政策,防控措施主要以社區(qū)為單位,“退票”“社區(qū)”“工作”成為該階段主要訴求主題。

        f.2020.02.12—2020.02.18,疫情得到進一步控制,民眾“復工”,“企業(yè)”復產(chǎn)成為主要訴求主題。

        5 結(jié) 語

        突發(fā)事件發(fā)生后,通過感知互聯(lián)網(wǎng)大數(shù)據(jù)環(huán)境中的民眾訴求信息形成突發(fā)事件情報,對于優(yōu)化政府應急管理職能、開展前瞻性應急管理工作、提升應急管理效能具有重要意義。本文面向互聯(lián)網(wǎng)大數(shù)據(jù),基于突發(fā)事件訴求產(chǎn)生機理,探究突發(fā)事件情報感知的過程,通過構(gòu)建訴求詞典建立突發(fā)事件情報感知模型,并面向新冠疫情開展實證:使用人民網(wǎng)——“地方領導留言板”語料庫構(gòu)建了一項訴求停用詞典和三項民意訴求詞典。設置了訴求詞占比與詞頻規(guī)則,感知微博平臺疫情期間訴求博文,通過設計不同對照實驗,最終得到了一項效果較好的TF-IDF(Jieba)Word2vec訴求詞典,其準確率達到92.5%,F(xiàn)1值達到67.9%。在應用方面,提出了面向訴求信息的政府突發(fā)事件情報感知與決策方案,并使用上述詞典感知情報,進行情報分析:繪制階段性詞云,得到了2020.01.01-2020.02.18期間訴求主題共現(xiàn)時序情況,為政府感知突發(fā)事件情報提供了可行路徑和一定的技術(shù)支持。但是本文仍存在一些不足,一是沒有對詞典中的訴求詞進行篩選,依舊存在一些無關(guān)詞,需要進一步精煉完善;二是識別規(guī)則只使用了詞頻規(guī)則,其他的識別規(guī)則需要進一步研究;三是在情報分析方面有待進一步研究。

        猜你喜歡
        詞典情報突發(fā)事件
        情報
        情報
        情報
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        評《現(xiàn)代漢語詞典》(第6版)
        詞典例證翻譯標準探索
        突發(fā)事件的輿論引導
        清朝三起突發(fā)事件的處置
        文史春秋(2016年8期)2016-02-28 17:41:32
        交接情報
        突發(fā)事件
        小說月刊(2014年10期)2014-04-23 08:53:40
        成人不卡国产福利电影在线看 | 人人鲁人人莫人人爱精品| 欧美最猛性xxxxx免费| 未满十八勿入av网免费| 亚洲免费看三级黄网站| 国内自拍色第一页第二页| 亚洲国产精华液网站w| 亚洲永久无码动态图| 91自国产精品中文字幕| 亚洲国产精品国自产拍性色 | 成人免费xxxxx在线视频| 成人综合亚洲国产成人| 伊人加勒比在线观看视频| 国产精品久久久久9999赢消| 国产最新网站| 国内自拍偷拍一区二区| 午夜少妇高潮在线观看| 50岁熟妇大白屁股真爽| 亚洲AV肉丝网站一区二区无码 | 亚洲一区二区三区av在线免费| 一区二区三区高清视频在线| 国内精品视频一区二区三区八戒| 欧美日本国产va高清cabal| 国产亚洲视频在线观看播放| 成人性生交大片免费5| 精品视频无码一区二区三区| 亚洲精品高清你懂的| 成年男人午夜视频在线看| 日韩性爱视频| 在线亚洲人成电影网站色www| 中国免费av网| 人妖一区二区三区在线| 粗大猛烈进出白浆视频| 午夜三级网| 日本老熟女一区二区三区| 欧美激情肉欲高潮视频| 少妇内射高潮福利炮| 亚洲一区二区三区免费av在线 | 亚洲精品久久久久久久蜜桃| 女人被做到高潮免费视频| 日本人妻伦理片在线观看|