亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT模型的“互聯(lián)網(wǎng)+政務(wù)”群眾留言文本熱點(diǎn)追蹤研究*

        2022-09-24 13:32:58徐緒堪印家偉王曉嬌
        情報(bào)雜志 2022年9期
        關(guān)鍵詞:分析

        徐緒堪 印家偉 王曉嬌

        (1.河海大學(xué)商學(xué)院 南京 211100;2.常州市工業(yè)大數(shù)據(jù)與知識(shí)管理重點(diǎn)實(shí)驗(yàn)室 常州 213022)

        0 引 言

        2015年以來,在“互聯(lián)網(wǎng)+政務(wù)”服務(wù)建設(shè)的號(hào)召下,網(wǎng)絡(luò)問政平臺(tái)以其快捷、不受時(shí)間和空間限制的優(yōu)勢(shì)逐漸受到政府部門的關(guān)注和使用。隨著新一輪信息技術(shù)的發(fā)展,“互聯(lián)網(wǎng)+政務(wù)”持續(xù)推動(dòng)了地方政務(wù)治理的深入改革[1]。為了提高網(wǎng)上政務(wù)治理的效能,需要實(shí)時(shí)動(dòng)態(tài)監(jiān)測(cè)企業(yè)、社會(huì)公眾等各方組織對(duì)政策的反饋并及時(shí)進(jìn)行調(diào)整[2]。然而,網(wǎng)絡(luò)問政平臺(tái)的留言不斷增加,傳統(tǒng)人工信息分類和整理的方式無法保證準(zhǔn)確和高效,導(dǎo)致政府機(jī)關(guān)對(duì)問政平臺(tái)的信息利用不夠充分?;诖?,本文引入多種分類模型,構(gòu)建了基于BERT模型和Affinity Propagation算法的熱點(diǎn)追蹤框架,從海量政務(wù)文本數(shù)據(jù)中追蹤用戶關(guān)心的熱點(diǎn)問題并分析出目前“服務(wù)型政府”轉(zhuǎn)型過程中存在的痛點(diǎn)問題,為“服務(wù)型”政府效率提升、精準(zhǔn)服務(wù)提供科學(xué)參考,幫助各級(jí)政府部門更好地了解民情、聽取民聲、體察民意、匯聚民智,實(shí)現(xiàn)群眾留言信息的深度挖掘與精準(zhǔn)化管理。

        1 國內(nèi)外相關(guān)研究述評(píng)

        1.1 “互聯(lián)網(wǎng)+政務(wù)”相關(guān)研究

        國內(nèi)外學(xué)者對(duì)“互聯(lián)網(wǎng)+政務(wù)”相關(guān)研究主要集中在治理模式的探索和影響因素的分析。宋鍇業(yè)通過對(duì)政務(wù)平臺(tái)的案例分析,認(rèn)為頻繁的政務(wù)質(zhì)量反饋更容易促進(jìn)各社會(huì)主體主動(dòng)了解公共事務(wù),表達(dá)自身需求,形成新型的政府治理形態(tài)[3]。易蘭麗等基于政策注意力的視角,以省級(jí)“互聯(lián)網(wǎng)+政務(wù)”服務(wù)平臺(tái)的建設(shè)歷程數(shù)據(jù)為研究對(duì)象,研究了省級(jí)政策注意力在響應(yīng)中央政策信號(hào)時(shí)的中介傳導(dǎo)效應(yīng)[4]。鄭躍平等以全國79個(gè)城市的政務(wù)熱線部門作為研究對(duì)象,梳理了地方政府?dāng)?shù)字化改革中存在的問題,認(rèn)為目前智能化技術(shù)的應(yīng)用還無法有效支撐數(shù)據(jù)的精細(xì)化治理與政務(wù)服務(wù)的創(chuàng)新發(fā)展[5]。周文泓和向宇等認(rèn)為“互聯(lián)網(wǎng)+”背景下政務(wù)平臺(tái)建設(shè)中存在制度系統(tǒng)性較差、用戶信息管理割裂、缺少用戶主體視角等問題,政府部門需進(jìn)一步優(yōu)化完善[6]。陳世香等以深圳市南山區(qū)政務(wù)微信電子平臺(tái)為研究案例,以需求導(dǎo)向,分析了政務(wù)微信平臺(tái)提升公共文化服務(wù)效能的運(yùn)行模式[7]。張勇進(jìn)以信息搜索方式和微信社交平臺(tái)為例,反復(fù)觀察政策運(yùn)行的效果,認(rèn)為政府要把握互聯(lián)網(wǎng)時(shí)代的新特點(diǎn),從群眾需求出發(fā),啟動(dòng)“互聯(lián)網(wǎng)+政務(wù)”服務(wù),提高決策水平[8]。Anthopoulos L G在“互聯(lián)網(wǎng)+政務(wù)”研究中,對(duì)其他地區(qū)的政府服務(wù)模式進(jìn)行了研究和分析,包括服務(wù)對(duì)象、服務(wù)環(huán)境和各個(gè)發(fā)展階段的形態(tài)特征,提出了“互聯(lián)網(wǎng)+政務(wù)”建設(shè)中的新模式[9]。Tooran Alizadeh等學(xué)者通過社會(huì)化媒體和網(wǎng)絡(luò)傳播,研究澳大利亞政務(wù)對(duì)公共輿論的理解,以促進(jìn)公民參加地方政府事務(wù),實(shí)現(xiàn)智能化處理[10]。徐緒堪等構(gòu)建了政務(wù)APP評(píng)價(jià)指標(biāo)體系,并引入直覺模糊層次分析法,對(duì)“浙里辦”等5個(gè)有代表性的政務(wù)APP的服務(wù)效能進(jìn)行了評(píng)估[11]。Qian L針對(duì)“互聯(lián)網(wǎng)+政府”服務(wù)用戶使用率低、公眾參與意識(shí)不強(qiáng)等問題,分析區(qū)塊鏈產(chǎn)業(yè)背景下“互聯(lián)網(wǎng)+政務(wù)”公眾采納的影響因素[12]。湯志偉等針對(duì)我國31個(gè)省級(jí)政府的在線服務(wù)現(xiàn)狀,設(shè)計(jì)了省級(jí)政府政務(wù)服務(wù)在線辦理能力差異的整合性分析框架,探究了省級(jí)政府政務(wù)服務(wù)在線辦理能力差異的影響因素[13]。葉鑫和董路安人通過分析電子政務(wù)現(xiàn)階段存在系統(tǒng)運(yùn)維成本高、政府知識(shí)獲取能力較弱、跨部門政府合作水平有待提升等問題,基于云計(jì)算技術(shù),設(shè)計(jì)“互聯(lián)網(wǎng)+政務(wù)服務(wù)”云平臺(tái)體系架構(gòu)[14]。

        1.2 文本分類相關(guān)研究

        文本分類是按照特定的標(biāo)準(zhǔn)利用計(jì)算機(jī)對(duì)文本集進(jìn)行自動(dòng)分類標(biāo)記的過程,眾多學(xué)者利用深度學(xué)習(xí)方法對(duì)文本進(jìn)行分類,現(xiàn)有研究集中于基于詞向量的文本分類模型、多領(lǐng)域深度學(xué)習(xí)模型相互融合優(yōu)化等方面,Mikolov等創(chuàng)新提出了Word2vec模型,該模型采用三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以訓(xùn)練出更高質(zhì)量、更高精確度的詞向量[14]。Pennington等人提出GloVe模型,該模型通過共現(xiàn)矩陣分解計(jì)算單詞向量[15]。但以上的模型仍有不足,Word2vec、GloVe等模型對(duì)于一詞多義這一難題,沒有很好的解決,GoogleAI團(tuán)隊(duì)提出使用了雙向Transformer結(jié)構(gòu)的BERT模型[16],該模型采用兩種新的詞向量計(jì)算方法,獲得了NLP領(lǐng)域創(chuàng)紀(jì)錄的成績。楊陽和劉恩博等針對(duì)短文本中詞與詞語義聯(lián)系微弱、難以獲取主題詞的問題,提出了基于標(biāo)簽圖和注意力機(jī)制的單詞共生短文本分類模型(WGA-BERT)[17]。在多領(lǐng)域深度學(xué)習(xí)模型相互融合方面,楊先鳳和趙家和等構(gòu)建一種融合字注釋的文本分類模型,顯著提高文本分類模型性能和精確度[18]。范昊和何灝將基于BERT、BILSTM和TEXTCNN三種算法的分類模型進(jìn)行融合,以提高新聞標(biāo)題的分類精度[19]。張玉潔和白如江等以圖書情報(bào)領(lǐng)域的SAO短文本為研究對(duì)象,將BERT的SAO分類方式和語義聯(lián)想相結(jié)合,用以解決文本分類時(shí)面對(duì)的領(lǐng)域知識(shí)不足和語義特征缺失等問題,極大提高了文本的分類效果[20]。胡吉明和付文麟等從政策文本的語義和內(nèi)容特征出發(fā),利用LDA主題模型和改進(jìn)的TextRank 模型來構(gòu)建政策文本分類和表示的一體化框架,以期提高文本的分類效果[21]。楊春霞和馬文文等提出融合CNN-SAM與GAT的多標(biāo)簽文本分類模型,全面提取文本內(nèi)容特征并挖掘全局標(biāo)簽之間的關(guān)聯(lián)性[22]。

        綜上所述, “互聯(lián)網(wǎng)+政務(wù)”具體實(shí)施過程中存在技術(shù)、管理工作方式、系統(tǒng)配置、政府支持度不夠等問題,實(shí)時(shí)監(jiān)測(cè)各方主體對(duì)政策的態(tài)度與需求,有效推動(dòng)了“互聯(lián)網(wǎng)+政務(wù)”的高質(zhì)量建設(shè)。文本分類技術(shù)在多個(gè)領(lǐng)域已經(jīng)得到廣泛應(yīng)用,但在“互聯(lián)網(wǎng)+政務(wù)”群眾留言文本領(lǐng)域的應(yīng)用還處于初期的探究階段,對(duì)群眾留言管理利用不夠充分?;诖?,本文通過預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)語言模型,深度挖掘“互聯(lián)網(wǎng)+政務(wù)”網(wǎng)絡(luò)問政平臺(tái)的留言內(nèi)容,結(jié)合聚類算法和BERT模型,追蹤群眾的留言熱點(diǎn),動(dòng)態(tài)識(shí)別政策實(shí)施階段群眾的需求,將深度學(xué)習(xí)技術(shù)賦能于政務(wù)治理中。

        2 “互聯(lián)網(wǎng)+政務(wù)”群眾留言文本挖掘模型構(gòu)建

        “互聯(lián)網(wǎng)+政務(wù)”群眾留言主要為城市規(guī)劃及政策制定提供參考,其表達(dá)了群眾對(duì)于該市政府工作的要求與期待,描述人民基本生存和生活狀態(tài)。上海市人民政府網(wǎng)站在“互聯(lián)網(wǎng)+政務(wù)”建設(shè)方面的工作較為全面,將市委領(lǐng)導(dǎo)信箱、市政府領(lǐng)導(dǎo)信箱、各區(qū)、街道 (鄉(xiāng)鎮(zhèn))網(wǎng)上領(lǐng)導(dǎo)信箱等人民群眾向政府留言的渠道進(jìn)行融合,將群眾留言展示在“辦理公開”模塊下,并顯示出所有部門的留言處理統(tǒng)計(jì)數(shù)據(jù)和對(duì)應(yīng)排名。群眾留言的內(nèi)容包含了來信標(biāo)題、來信時(shí)間、來信內(nèi)容、回復(fù)部門、回復(fù)時(shí)間及回復(fù)內(nèi)容,該平臺(tái)收到群眾留言超11萬條,其中平臺(tái)選登的已由相關(guān)單位進(jìn)行回復(fù)的群眾留言高達(dá)兩萬多條,選登留言的發(fā)布日期最早為2016年8月26日。平臺(tái)數(shù)據(jù)展示較為全面簡潔,易于數(shù)據(jù)采集和文本挖掘。

        2.1 方法選擇 為推動(dòng)服務(wù)型政府建設(shè),實(shí)現(xiàn)對(duì)“互聯(lián)網(wǎng)+政務(wù)”群眾留言的充分利用,利用文本挖掘中的文本分類、文本聚類技術(shù)對(duì)群眾留言進(jìn)行分析,實(shí)現(xiàn)熱點(diǎn)追蹤。通過對(duì)比分析BERT模型、LSTM模型、fastText模型在群眾留言文本分類上的效果,利用Affinity Propagation聚類算法對(duì)每個(gè)分類下的問題進(jìn)行聚類,最后基于聚類形成的問題進(jìn)行熱度計(jì)算得出熱點(diǎn)問題進(jìn)行分析。

        2.1.1BERT深度語言模型

        近年來,NLP界以預(yù)訓(xùn)練深度語言模型(Pre-trained Language Model)為發(fā)展方向,在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,進(jìn)一步改善了文本語義表示的效果。預(yù)訓(xùn)練深度模型使用基于特征的(feature based)策略和微調(diào)(Fine-tuning)策略以完成下游任務(wù),BERT模型是具有微調(diào)策略的預(yù)訓(xùn)練模型的代表。BERT深度語言模型以Transformer為主要架構(gòu),其結(jié)構(gòu)如圖1所示。

        圖1中的E1,E2...EN表示在模型的起始處添加[CLS],模型的結(jié)尾處添加[SEP]標(biāo)記的中文字符。它們依次經(jīng)過12或24層雙向的Transformer(Trm)編碼器,通過計(jì)算就可以得到文本字符語境化的向量表示(Contextual Embedding)。Transformer是一個(gè)基于自注意力(self-attention)機(jī)制的編碼-解碼器,底層編碼器的輸入是字符向量、字符向量和句子段向量之和。模型中的每一層由兩部分組成:多頭自我注意和前饋神經(jīng)網(wǎng)絡(luò)。前者使編碼器在給出每個(gè)字符時(shí)注意到其他字符的信息。后者用于增強(qiáng)模型的擬合能力。在模型的每一層進(jìn)行加和范數(shù)運(yùn)算后,生成一個(gè)新的特征向量作為下一層編碼器的輸入。頂層編碼器輸出的[CLS]標(biāo)記的向量T1可以看作是整個(gè)句子的語義表示,而頂層編碼器輸出的向量T2和T3分別是字符E2和E3的上下文向量表示。它們?yōu)槲谋痉诸?、指名?shí)體承認(rèn)等任務(wù)提供了重要支持。此外,為了提高語義表征能力,BERT提出了兩個(gè)預(yù)訓(xùn)練任務(wù):掩蔽語言模型(Masked LM,MLM)和下一句預(yù)測(cè)(Next Sentence Prediction, NSP)。在當(dāng)前語言智能領(lǐng)域,以BERT為模型,采用微調(diào)遷移學(xué)習(xí)策略可以在文本分類、文本聚類、命名實(shí)體識(shí)別(Named Entity Recognition, NER)等具體任務(wù)中發(fā)揮作用。

        圖1 BERT深度語言模型基本架構(gòu)

        2.1.2AffinityPropagation聚類方法

        進(jìn)行標(biāo)注的數(shù)據(jù)集可以采用文本分類的方式進(jìn)行分析,在特定分類下,會(huì)存在語義缺失問題,給人工標(biāo)注帶來巨大難度[23],為解決此類問題,本文選擇聚類算法對(duì)留言文本進(jìn)行后續(xù)處理。

        聚類是一種無監(jiān)督的學(xué)習(xí)方法,它將一類數(shù)據(jù)按一定規(guī)則劃分為若干個(gè)子數(shù)據(jù),一個(gè)子數(shù)據(jù)稱為聚類。2007由Frey等人提出的AP聚類(Affinity Propagation Clustering,AP)不需要預(yù)先設(shè)定聚類數(shù)目[24],更適用于高維和多維數(shù)據(jù)。與傳統(tǒng)的基于劃分的聚類算法相比,該算法大大提高了聚類性能和效率。AP聚類根據(jù)N個(gè)數(shù)據(jù)點(diǎn)之間的相似度進(jìn)行聚類,不用在聚類任務(wù)開始前設(shè)置具體的聚類數(shù)目,因?yàn)槠鋵⑷繑?shù)據(jù)都視作潛在的聚類中心。AP聚類引入了N*N的相似度矩陣,該矩陣由N個(gè)數(shù)據(jù)點(diǎn)之間的相似度組成,并以對(duì)角線上的值S(i,i)作為第i個(gè)數(shù)據(jù)點(diǎn)能否成為聚類中心k的評(píng)判依據(jù)。AP算法中傳遞兩種類型的信息:一是吸引度(responsibility)r(i,k),代表從點(diǎn)i傳送至k的信息,用以判斷k點(diǎn)是否適合作為i點(diǎn)的聚類中心。二是歸屬度(availability)a(i,k),代表從k點(diǎn)發(fā)送到i的信息,用以判斷i點(diǎn)是否適合選擇k點(diǎn)作為聚類中心。吸引度和歸屬度的數(shù)值越高,k點(diǎn)作為i點(diǎn)聚類中心的可能性就越大。

        2.2 “互聯(lián)網(wǎng)+政務(wù)”群眾留言文本挖掘框架設(shè)計(jì)

        “互聯(lián)網(wǎng)+政務(wù)”群眾留言文本挖掘利用分類技術(shù)對(duì)文本初分類,以LSTM模型和FastText模型為基線模型,對(duì)比分析BERT模型、LSTM模型、FastText模型在文本分類上的效果(各類的F1值與整體的F-score)。政務(wù)文本初分類后,基于語義相似度與BERT命名實(shí)體識(shí)別的留言熱點(diǎn)問題挖掘,首先基于BERT模型,將每條留言的語義向量與命名實(shí)體(Named Entity)作為特征表示;第二,利用基于圖的Affinity Propagation聚類算法,實(shí)現(xiàn)留言的無監(jiān)督自動(dòng)聚類,第三,結(jié)合同一聚類簇下諸項(xiàng)留言進(jìn)行熱度計(jì)算,獲取熱點(diǎn)問題,最后對(duì)于熱點(diǎn)問題進(jìn)行分析并提出相應(yīng)建議,具體流程步驟如下圖2所示。

        圖2 基于BERT進(jìn)行群眾留言文本熱點(diǎn)追蹤流程圖

        3 上海市群眾留言文本熱點(diǎn)追蹤實(shí)例應(yīng)用

        3.1 數(shù)據(jù)采集與預(yù)處理

        本文主要以上海市群眾留言為例進(jìn)行文本分類及熱點(diǎn)追蹤,數(shù)據(jù)主要來源于上海市政府信箱、上海市委信箱、上海信訪的“互聯(lián)網(wǎng)+政務(wù)”網(wǎng)絡(luò)平臺(tái),由于本文數(shù)據(jù)源為靜態(tài)網(wǎng)頁,因此數(shù)據(jù)采集方案使用了Scrapy框架進(jìn)行數(shù)據(jù)的抓取,采集字段包括:標(biāo)題、時(shí)間、文本內(nèi)容。共采集近三年“互聯(lián)網(wǎng)+政務(wù)”群眾留言29 074條。對(duì)采集的數(shù)據(jù)進(jìn)行預(yù)處理,結(jié)合標(biāo)題和發(fā)表時(shí)間,刪除重復(fù)數(shù)據(jù),經(jīng)處理后保留11 122條群眾留言數(shù)據(jù)。

        在輸入的文本方面,考慮到BERT模型允許單一文本的最長長度為512個(gè)字符,Sun[25]等人的相關(guān)實(shí)驗(yàn)表明,長文本截取前512個(gè)字符,可以在BERT模型中取得理想的分類效果,本文拼接了每一條留言的標(biāo)題文本與詳情文本,截取前512個(gè)字符作為模型的輸入,以提高分類效果表現(xiàn)。

        3.2 算法評(píng)價(jià)依據(jù)

        混淆矩陣(confusion matrix)是評(píng)價(jià)算法效率的標(biāo)準(zhǔn)格式,用n行n列的矩陣形式來表示。本文以二分類為標(biāo)準(zhǔn),其中TP(True Positive)表示將正類預(yù)測(cè)為正類數(shù),真實(shí)為0,預(yù)測(cè)也為0;FN(False Negative)表示將正類預(yù)測(cè)為負(fù)類數(shù),真實(shí)為0,預(yù)測(cè)為1;FP(False Positive)表示將負(fù)類預(yù)測(cè)為正類數(shù),真實(shí)為1,預(yù)測(cè)為0;TN(True Negative)表示將負(fù)類預(yù)測(cè)為負(fù)類數(shù),真實(shí)為1,預(yù)測(cè)為1 。本文采用的算法評(píng)價(jià)指標(biāo)計(jì)算方式如下:

        精準(zhǔn)率(Precision, PPV, Positive Predictive Value)又叫查準(zhǔn)率,表示在所有被預(yù)測(cè)為正的樣本中實(shí)際為正的樣本的概率。

        (1)

        召回率(Recall,Sensitivity,TPR,True Positive Rate)又叫查全率,表示在真實(shí)值是 Positive的所有結(jié)果中,模型預(yù)測(cè)對(duì)的比重。

        (2)

        F1-值(F1-score)綜合了Precision與Recall的產(chǎn)出的結(jié)果。F1-Score的取值范圍從0到1的,1和0分別代表模型的輸出最好和最差。

        (3)

        準(zhǔn)確率(accuracy)是指于給定的測(cè)試數(shù)據(jù)集,分類器正確分類的樣本數(shù)與總樣本數(shù)之比,即損失函數(shù)是0-1損失時(shí)測(cè)試數(shù)據(jù)集上的準(zhǔn)確率。

        3.3 “互聯(lián)網(wǎng)+政務(wù)”群眾留言文本分類

        清洗后的數(shù)據(jù)集中包含11 122條群眾留言,分為住房規(guī)劃、消費(fèi)權(quán)益、部門不作為、醫(yī)療衛(wèi)生、教育培訓(xùn)、環(huán)境保護(hù)、交通出行7個(gè)類別。每條留言均包含留言主題、留言詳情字段。將數(shù)據(jù)集打亂順序后,按照8∶1∶1的比例,分別劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集[25]。包括BERT在內(nèi)的所有模型,均在相同的訓(xùn)練集、驗(yàn)證集上進(jìn)行訓(xùn)練、調(diào)整超參數(shù),并在相同的測(cè)試集上進(jìn)行測(cè)試。

        在超參數(shù)設(shè)置方面,參考Sun[26]等人在BERT上的文本分類經(jīng)驗(yàn)設(shè)置超參數(shù):學(xué)習(xí)率lr=2e-5,衰變因子ξ=0.95。此外,訓(xùn)練遵循早停(early stopping)原則,當(dāng)模型的損失在驗(yàn)證集上不再下降,就視為模型在驗(yàn)證集上已經(jīng)收斂,可以停止訓(xùn)練,避免過擬合(Overfitting)問題。

        在文本分類任務(wù)中,BERT模型提取頂層的[CLS]的768維的特征向量v為整個(gè)文本的特征表示,然后連接一個(gè)768*n的全連接層W(n為文本類別數(shù)),最后通過softmax函數(shù)進(jìn)行歸一化,輸出一個(gè)文本分別屬于各個(gè)類別c的概率:

        P(c∣v)=softmax (W·v)

        (4)

        其中softmax函數(shù):

        (5)

        模型會(huì)在訓(xùn)練過程中調(diào)整全連接層W以及BERT12層模型的參數(shù),使得每個(gè)文本的正確類別所對(duì)應(yīng)的概率最大化。

        圖3 BERT模型在驗(yàn)證集上的損失變化圖

        如圖3所示,當(dāng)BERT模型在訓(xùn)練第3輪(epoch)時(shí),在驗(yàn)證集上的損失開始上升。

        圖5 BERT模型在驗(yàn)證集上的accuracy隨訓(xùn)練輪數(shù)的變化情況

        圖4關(guān)于BERT模型在驗(yàn)證集上的正確率變化情況也表明,在第2輪訓(xùn)練時(shí),分類的正確率較前一次明顯提升約0.76%;但第3輪訓(xùn)練的accuracy提升已不明顯。因此,綜合模型在驗(yàn)證集上的損失與正確率,根據(jù)早停原則,第2輪訓(xùn)練結(jié)束后的BERT分類模型已經(jīng)收斂,可以作為最終模型。

        3.3.1BERT模型分類效果及與其他模型的對(duì)比分析

        最終收斂的BERT模型在測(cè)試集上測(cè)試的結(jié)果如表1所示。

        為證明BERT模型在留言分類任務(wù)上的良好能力,將基于字向量的LSTM(Long Short-Term Memory)和基于fastText的2個(gè)文本分類模型作為基線模型,比較BERT與基線模型的效果。

        表1 BERT模型在測(cè)試集上的各類分類效果

        本文使用的LSTM模型為加入了dropout機(jī)制的通用改良版本。LSTM和FastText模型超參數(shù)設(shè)置情況如表2所示。

        表2 LSTM與FastText模型的超參數(shù)設(shè)置情況

        圖5 三個(gè)模型在測(cè)試集各類上的 F1值對(duì)比圖

        三個(gè)模型在測(cè)試集上的F1值,如圖5所示,在7類留言文本中,BERT在6類上的分類F1值均取得了最佳效果。僅在住房規(guī)劃這一類上,F(xiàn)astText的分類效果略優(yōu)于BERT。

        衡量各模型綜合分類能力的F-score分?jǐn)?shù)如表3所示:

        表3 各分類模型的 F-score

        可以看出,基于BERT的留言文本分類算法取得了最佳效果,其F-score高出 LSTM模型約12.7%,也高出廣泛應(yīng)用的文本分類模型FastText約2.48%。BERT深度語言模型高達(dá)91.62%的F-score證明了它在群眾留言文本分類任務(wù)上的優(yōu)越性與實(shí)用性。

        3.3.2文本分類結(jié)果

        采集到的“互聯(lián)網(wǎng)+政務(wù)”群眾留言文本數(shù)據(jù)在預(yù)處理后,對(duì)比分析 BERT、LSTM、fastText算法的分類效果,最終使用了BERT模型的輸出結(jié)果作為本文的分類結(jié)果,分類結(jié)果如圖6所示。

        圖6 分類結(jié)果統(tǒng)計(jì)圖

        由圖可知,群眾在政府平臺(tái)反饋?zhàn)疃嗟氖亲》恳?guī)劃類問題,約占所有問題的28.7%,其次是醫(yī)療衛(wèi)生領(lǐng)域問題,約占所有問題的17.6%,排名第三的為交通出行問題,約占所有問題的12.5%。

        3.4 “互聯(lián)網(wǎng)+政務(wù)”群眾留言熱點(diǎn)問題追蹤

        本文對(duì)11 122條群眾留言按類別分組進(jìn)行無監(jiān)督聚類,采用一種無須預(yù)設(shè)聚類數(shù)目的Affinity Propagation聚類算法,留言熱點(diǎn)問題自動(dòng)追蹤的總體流程如圖 7 所示,首先BERT模型增量訓(xùn)練,使之學(xué)習(xí)到留言的句法語義信息;第二步獲取留言的語義向量,利用AP聚類算法初步聚類;最后基于BERT模型,識(shí)別留言中的命名實(shí)體。設(shè)置條件集合R,過濾異常值,在篩除了異常值后,對(duì)各個(gè)問題聚類簇進(jìn)行統(tǒng)計(jì),針對(duì)清洗后數(shù)據(jù)中的每一個(gè)類別,分別計(jì)算其熱度指標(biāo)。

        圖7 留言熱點(diǎn)話題挖掘的總體流程

        3.5 結(jié)果分析

        由群眾留言分類結(jié)果可知,住房規(guī)劃、醫(yī)療衛(wèi)生和交通出行類別的留言較多,這三類與人們生活密切相關(guān)。通過熱度評(píng)價(jià)計(jì)算得出這三類熱度前5位的熱點(diǎn)問題如表4所示。

        表4 熱點(diǎn)問題表

        住房規(guī)劃類別中主要可以歸納出三類熱點(diǎn)關(guān)注問題,分別為居民安全、房屋租賃和房屋質(zhì)量。房屋租賃問題長期存在,主要牽涉長租公寓服務(wù)供應(yīng)商的“爆雷”問題。該類問題主要由市級(jí)房屋管理局及下屬行政區(qū)住房保障和房屋管理局、規(guī)劃和土地管理局負(fù)責(zé)處理答復(fù),以上部門應(yīng)該保障群眾利益不受損害的基礎(chǔ)上進(jìn)行城市基礎(chǔ)設(shè)施的建設(shè),事中認(rèn)真落實(shí)規(guī)劃,確保實(shí)際施工過程中協(xié)調(diào)好各方利益,根據(jù)群眾反應(yīng)問題,及時(shí)對(duì)房屋的工程規(guī)劃做出合理調(diào)整。房屋租賃方面,考慮建設(shè)保障性住房,向外來務(wù)工人員給予一定的政策性幫助,同時(shí)協(xié)調(diào)多方做好房屋租賃市場(chǎng)監(jiān)管工作,以人為本,合理引導(dǎo)企業(yè)參與建設(shè)。房屋質(zhì)量方面,房屋管理局及下屬行政區(qū)住房保障、房屋規(guī)劃、土地管理局等應(yīng)當(dāng)嚴(yán)格要求商品房開發(fā)前的資格審查與報(bào)批,嚴(yán)格打擊商品房開發(fā)過程中的不合規(guī)問題,對(duì)于交付后的商品房存在的嚴(yán)重質(zhì)量問題加大懲處力度,提高企業(yè)違法成本,以杜絕類似情況再次發(fā)生。

        醫(yī)療衛(wèi)生類別中防控政策、疫情期間就醫(yī)、基層醫(yī)療管理和醫(yī)美行業(yè)醫(yī)患糾紛為群眾最為關(guān)心的四類熱點(diǎn)問題。新冠疫情的出現(xiàn)嚴(yán)重影響了居民的正常出行和就醫(yī),這也側(cè)面反映出政府應(yīng)對(duì)重大意外事件的能力有待加強(qiáng),在疫情防控常態(tài)化形勢(shì)下,如果繼續(xù)保持疫情期間出行管理政策不明晰、就醫(yī)渠道不通暢,將會(huì)影響人民群眾的生活質(zhì)量。除此之外,有大量群眾留言集中反饋個(gè)人在某醫(yī)療美容醫(yī)院的就醫(yī)失敗經(jīng)歷以及經(jīng)濟(jì)糾紛。該類問題涉及方面較廣,除了市級(jí)的醫(yī)療保障局、藥品監(jiān)督管理局以及各級(jí)衛(wèi)生健康委員會(huì)負(fù)責(zé)處理答復(fù)外,醫(yī)院同樣負(fù)責(zé)。明晰疫情防控常態(tài)化下的群眾出行政策以及疫情期間外鄉(xiāng)人、本地人就醫(yī)管理辦法。在醫(yī)美行業(yè)的醫(yī)患糾紛方面,走訪調(diào)研造成糾紛的真實(shí)原因,加大力調(diào)查各大美容機(jī)構(gòu)資質(zhì),出臺(tái)相應(yīng)政策保障患者權(quán)力。在基層醫(yī)療管理問題上,應(yīng)當(dāng)深入到每一個(gè)群眾的生活中,對(duì)基層醫(yī)療從業(yè)人員加強(qiáng)管理,出臺(tái)更為嚴(yán)苛的政策。

        交通出行類別中噪音擾民、線路規(guī)劃和網(wǎng)約車與出租車糾紛為群眾關(guān)心的熱點(diǎn)問題,這些問題的存在嚴(yán)重影響居民生活質(zhì)量,增加了居民出行成本;不利于出租車、網(wǎng)約車行業(yè)的良好發(fā)展,造成惡性競(jìng)爭(zhēng)事件頻發(fā)。該類問題主要由市級(jí)交通運(yùn)輸管理管理處、下屬區(qū)級(jí)交通管理委員會(huì)以及當(dāng)?shù)氐牡罔F營運(yùn)管理公司負(fù)責(zé)問題答復(fù)。在噪音擾民方面應(yīng)當(dāng)將著力點(diǎn)放置在夜間施工及隔音設(shè)施的安裝中,事前在規(guī)劃建設(shè)的研究中考慮施工過程中以及投入使用后對(duì)于群眾造成的影響,建設(shè)事中過程應(yīng)當(dāng)嚴(yán)格執(zhí)行施工規(guī)定,確保在群眾休息的時(shí)間停止施工,事后過程做好群眾走訪工作,解民生、聽民意,及時(shí)加設(shè)隔音設(shè)施或向群眾發(fā)放隔音耳罩。在線路規(guī)劃問題中,應(yīng)當(dāng)做好前期調(diào)研工作,協(xié)調(diào)多方利益,為市民乘坐公共交通設(shè)施出行提供方便,了解群眾心聲,將群眾的需求融入建設(shè)的研究中。在網(wǎng)約車與出租車的糾紛問題上繼續(xù)加大力度監(jiān)管,抬升出租車等營運(yùn)車輛的拒載成本,在網(wǎng)約車資格申請(qǐng)方面做到更加透明簡潔,減少群眾疑惑。

        4 總 結(jié)

        “互聯(lián)網(wǎng)+政務(wù)”中群眾的留言反饋對(duì)于政府的城市建設(shè)、政策規(guī)劃具有重要作用,準(zhǔn)確快速的捕捉到群眾反饋的關(guān)鍵問題并高效解決,不僅可以提高政府的管理水平,而且可以更好地為群眾服務(wù)。本文通過BERT模型,對(duì)網(wǎng)絡(luò)問政平臺(tái)留言進(jìn)行分類,將其分為住房規(guī)劃、消費(fèi)權(quán)益、部門不作為、醫(yī)療衛(wèi)生、教育培訓(xùn)、環(huán)境保護(hù)、交通出行共7個(gè)類別。在熱點(diǎn)追蹤任務(wù)上,基于Affinity Propagation的算法對(duì)留言進(jìn)行聚類,結(jié)合話題時(shí)長、留言數(shù)兩類因素,計(jì)算出各個(gè)問題(話題)的熱度值,最后對(duì)熱點(diǎn)問題進(jìn)行深入分析并,向政府相關(guān)部門提出一定建議,實(shí)現(xiàn)問題與部門的精準(zhǔn)匹配,輔助政府部門進(jìn)行高效決策。然而本文仍存在一些不足之處,數(shù)據(jù)收集方面僅局限于上海地區(qū),數(shù)據(jù)預(yù)處理過程中為了達(dá)到最佳的分類效果,對(duì)海量消息文本進(jìn)行了一定程度的裁切和合并,在后續(xù)研究中采集帶有不同地域標(biāo)簽的群眾數(shù)據(jù)進(jìn)行關(guān)鍵詞分析,減少對(duì)原始數(shù)據(jù)的調(diào)整。

        猜你喜歡
        分析
        禽大腸桿菌病的分析、診斷和防治
        隱蔽失效適航要求符合性驗(yàn)證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        經(jīng)濟(jì)危機(jī)下的均衡與非均衡分析
        對(duì)計(jì)劃生育必要性以及其貫徹實(shí)施的分析
        GB/T 7714-2015 與GB/T 7714-2005對(duì)比分析
        出版與印刷(2016年3期)2016-02-02 01:20:11
        網(wǎng)購中不良現(xiàn)象分析與應(yīng)對(duì)
        中西醫(yī)結(jié)合治療抑郁癥100例分析
        偽造有價(jià)證券罪立法比較分析
        亚洲国产美女高潮久久久| 亚洲欧洲日产国码无码AV一| 日韩人妻无码精品久久伊人| 中文字幕一区二区va| 91九色播放在线观看| 日本一本免费一二区| 西西大胆午夜人体视频| 中文在线а√天堂官网| 久久精品国产久精国产69| 99精品视频在线观看| 亚洲AV无码日韩综合欧亚| 国产精品自拍视频免费观看| 人成综合视频在线播放| 国产超碰人人爽人人做人人添| 亚洲 暴爽 av人人爽日日碰| 色婷婷狠狠97成为人免费| 久草视频在线播放免费| 中国黄色偷拍视频二区| 一区二区三区视频在线观看免费| 国产 一二三四五六| 特级毛片爽www免费版| 色综合久久久久久久久五月| 国产自产av一区二区三区性色| 日本一区二区三区在线视频观看| 暴露的熟女好爽好爽好爽| 精品人妻av一区二区三区| 国产大片内射1区2区| 中文字幕日本特黄aa毛片| 国产av一区二区三区丝袜| 日韩黄色大片免费网站| 成年女人免费v片| 亚洲日韩精品一区二区三区| 农村欧美丰满熟妇xxxx| 国产精品短视频| 国产精品国产三级厂七| 国产精品美女久久久网站三级| 亚洲国产天堂久久综合网| 亚洲妇女水蜜桃av网网站| 国产女主播在线免费观看| 久久久精品人妻一区二区三区妖精| 极品嫩模高潮叫床|