基于BERT模型的“互聯(lián)網(wǎng)+政務(wù)”群眾留言文本熱點(diǎn)追蹤研究*

2022-09-24 13:32:58徐緒堪印家偉王曉嬌

情報(bào)雜志 2022年9期

關(guān)鍵詞：分析

徐緒堪印家偉王曉嬌

(1.河海大學(xué)商學(xué)院南京 211100；2.常州市工業(yè)大數(shù)據(jù)與知識(shí)管理重點(diǎn)實(shí)驗(yàn)室常州 213022)

0 引言

2015年以來,在“互聯(lián)網(wǎng)+政務(wù)”服務(wù)建設(shè)的號(hào)召下，網(wǎng)絡(luò)問政平臺(tái)以其快捷、不受時(shí)間和空間限制的優(yōu)勢(shì)逐漸受到政府部門的關(guān)注和使用。隨著新一輪信息技術(shù)的發(fā)展，“互聯(lián)網(wǎng)+政務(wù)”持續(xù)推動(dòng)了地方政務(wù)治理的深入改革[1]。為了提高網(wǎng)上政務(wù)治理的效能，需要實(shí)時(shí)動(dòng)態(tài)監(jiān)測(cè)企業(yè)、社會(huì)公眾等各方組織對(duì)政策的反饋并及時(shí)進(jìn)行調(diào)整[2]。然而，網(wǎng)絡(luò)問政平臺(tái)的留言不斷增加，傳統(tǒng)人工信息分類和整理的方式無法保證準(zhǔn)確和高效，導(dǎo)致政府機(jī)關(guān)對(duì)問政平臺(tái)的信息利用不夠充分?；诖?，本文引入多種分類模型，構(gòu)建了基于BERT模型和Affinity Propagation算法的熱點(diǎn)追蹤框架，從海量政務(wù)文本數(shù)據(jù)中追蹤用戶關(guān)心的熱點(diǎn)問題并分析出目前“服務(wù)型政府”轉(zhuǎn)型過程中存在的痛點(diǎn)問題，為“服務(wù)型”政府效率提升、精準(zhǔn)服務(wù)提供科學(xué)參考，幫助各級(jí)政府部門更好地了解民情、聽取民聲、體察民意、匯聚民智，實(shí)現(xiàn)群眾留言信息的深度挖掘與精準(zhǔn)化管理。

1 國內(nèi)外相關(guān)研究述評(píng)

1.1 “互聯(lián)網(wǎng)+政務(wù)”相關(guān)研究

國內(nèi)外學(xué)者對(duì)“互聯(lián)網(wǎng)+政務(wù)”相關(guān)研究主要集中在治理模式的探索和影響因素的分析。宋鍇業(yè)通過對(duì)政務(wù)平臺(tái)的案例分析，認(rèn)為頻繁的政務(wù)質(zhì)量反饋更容易促進(jìn)各社會(huì)主體主動(dòng)了解公共事務(wù)，表達(dá)自身需求，形成新型的政府治理形態(tài)[3]。易蘭麗等基于政策注意力的視角，以省級(jí)“互聯(lián)網(wǎng)+政務(wù)”服務(wù)平臺(tái)的建設(shè)歷程數(shù)據(jù)為研究對(duì)象，研究了省級(jí)政策注意力在響應(yīng)中央政策信號(hào)時(shí)的中介傳導(dǎo)效應(yīng)[4]。鄭躍平等以全國79個(gè)城市的政務(wù)熱線部門作為研究對(duì)象，梳理了地方政府?dāng)?shù)字化改革中存在的問題，認(rèn)為目前智能化技術(shù)的應(yīng)用還無法有效支撐數(shù)據(jù)的精細(xì)化治理與政務(wù)服務(wù)的創(chuàng)新發(fā)展[5]。周文泓和向宇等認(rèn)為“互聯(lián)網(wǎng)+”背景下政務(wù)平臺(tái)建設(shè)中存在制度系統(tǒng)性較差、用戶信息管理割裂、缺少用戶主體視角等問題，政府部門需進(jìn)一步優(yōu)化完善[6]。陳世香等以深圳市南山區(qū)政務(wù)微信電子平臺(tái)為研究案例，以需求導(dǎo)向，分析了政務(wù)微信平臺(tái)提升公共文化服務(wù)效能的運(yùn)行模式[7]。張勇進(jìn)以信息搜索方式和微信社交平臺(tái)為例，反復(fù)觀察政策運(yùn)行的效果，認(rèn)為政府要把握互聯(lián)網(wǎng)時(shí)代的新特點(diǎn)，從群眾需求出發(fā)，啟動(dòng)“互聯(lián)網(wǎng)+政務(wù)”服務(wù)，提高決策水平[8]。Anthopoulos L G在“互聯(lián)網(wǎng)+政務(wù)”研究中，對(duì)其他地區(qū)的政府服務(wù)模式進(jìn)行了研究和分析，包括服務(wù)對(duì)象、服務(wù)環(huán)境和各個(gè)發(fā)展階段的形態(tài)特征，提出了“互聯(lián)網(wǎng)+政務(wù)”建設(shè)中的新模式[9]。Tooran Alizadeh等學(xué)者通過社會(huì)化媒體和網(wǎng)絡(luò)傳播，研究澳大利亞政務(wù)對(duì)公共輿論的理解，以促進(jìn)公民參加地方政府事務(wù)，實(shí)現(xiàn)智能化處理[10]。徐緒堪等構(gòu)建了政務(wù)APP評(píng)價(jià)指標(biāo)體系，并引入直覺模糊層次分析法，對(duì)“浙里辦”等5個(gè)有代表性的政務(wù)APP的服務(wù)效能進(jìn)行了評(píng)估[11]。Qian L針對(duì)“互聯(lián)網(wǎng)+政府”服務(wù)用戶使用率低、公眾參與意識(shí)不強(qiáng)等問題，分析區(qū)塊鏈產(chǎn)業(yè)背景下“互聯(lián)網(wǎng)+政務(wù)”公眾采納的影響因素[12]。湯志偉等針對(duì)我國31個(gè)省級(jí)政府的在線服務(wù)現(xiàn)狀,設(shè)計(jì)了省級(jí)政府政務(wù)服務(wù)在線辦理能力差異的整合性分析框架，探究了省級(jí)政府政務(wù)服務(wù)在線辦理能力差異的影響因素[13]。葉鑫和董路安人通過分析電子政務(wù)現(xiàn)階段存在系統(tǒng)運(yùn)維成本高、政府知識(shí)獲取能力較弱、跨部門政府合作水平有待提升等問題，基于云計(jì)算技術(shù)，設(shè)計(jì)“互聯(lián)網(wǎng)+政務(wù)服務(wù)”云平臺(tái)體系架構(gòu)[14]。

1.2 文本分類相關(guān)研究

文本分類是按照特定的標(biāo)準(zhǔn)利用計(jì)算機(jī)對(duì)文本集進(jìn)行自動(dòng)分類標(biāo)記的過程,眾多學(xué)者利用深度學(xué)習(xí)方法對(duì)文本進(jìn)行分類，現(xiàn)有研究集中于基于詞向量的文本分類模型、多領(lǐng)域深度學(xué)習(xí)模型相互融合優(yōu)化等方面，Mikolov等創(chuàng)新提出了Word2vec模型，該模型采用三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，可以訓(xùn)練出更高質(zhì)量、更高精確度的詞向量[14]。Pennington等人提出GloVe模型，該模型通過共現(xiàn)矩陣分解計(jì)算單詞向量[15]。但以上的模型仍有不足，Word2vec、GloVe等模型對(duì)于一詞多義這一難題，沒有很好的解決，GoogleAI團(tuán)隊(duì)提出使用了雙向Transformer結(jié)構(gòu)的BERT模型[16]，該模型采用兩種新的詞向量計(jì)算方法，獲得了NLP領(lǐng)域創(chuàng)紀(jì)錄的成績。楊陽和劉恩博等針對(duì)短文本中詞與詞語義聯(lián)系微弱、難以獲取主題詞的問題，提出了基于標(biāo)簽圖和注意力機(jī)制的單詞共生短文本分類模型(WGA-BERT)[17]。在多領(lǐng)域深度學(xué)習(xí)模型相互融合方面，楊先鳳和趙家和等構(gòu)建一種融合字注釋的文本分類模型，顯著提高文本分類模型性能和精確度[18]。范昊和何灝將基于BERT、BILSTM和TEXTCNN三種算法的分類模型進(jìn)行融合，以提高新聞標(biāo)題的分類精度[19]。張玉潔和白如江等以圖書情報(bào)領(lǐng)域的SAO短文本為研究對(duì)象，將BERT的SAO分類方式和語義聯(lián)想相結(jié)合，用以解決文本分類時(shí)面對(duì)的領(lǐng)域知識(shí)不足和語義特征缺失等問題，極大提高了文本的分類效果[20]。胡吉明和付文麟等從政策文本的語義和內(nèi)容特征出發(fā)，利用LDA主題模型和改進(jìn)的TextRank 模型來構(gòu)建政策文本分類和表示的一體化框架，以期提高文本的分類效果[21]。楊春霞和馬文文等提出融合CNN-SAM與GAT的多標(biāo)簽文本分類模型，全面提取文本內(nèi)容特征并挖掘全局標(biāo)簽之間的關(guān)聯(lián)性[22]。

綜上所述， “互聯(lián)網(wǎng)+政務(wù)”具體實(shí)施過程中存在技術(shù)、管理工作方式、系統(tǒng)配置、政府支持度不夠等問題，實(shí)時(shí)監(jiān)測(cè)各方主體對(duì)政策的態(tài)度與需求，有效推動(dòng)了“互聯(lián)網(wǎng)+政務(wù)”的高質(zhì)量建設(shè)。文本分類技術(shù)在多個(gè)領(lǐng)域已經(jīng)得到廣泛應(yīng)用，但在“互聯(lián)網(wǎng)+政務(wù)”群眾留言文本領(lǐng)域的應(yīng)用還處于初期的探究階段，對(duì)群眾留言管理利用不夠充分?；诖?，本文通過預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)語言模型，深度挖掘“互聯(lián)網(wǎng)+政務(wù)”網(wǎng)絡(luò)問政平臺(tái)的留言內(nèi)容，結(jié)合聚類算法和BERT模型，追蹤群眾的留言熱點(diǎn)，動(dòng)態(tài)識(shí)別政策實(shí)施階段群眾的需求，將深度學(xué)習(xí)技術(shù)賦能于政務(wù)治理中。

2 “互聯(lián)網(wǎng)+政務(wù)”群眾留言文本挖掘模型構(gòu)建

“互聯(lián)網(wǎng)+政務(wù)”群眾留言主要為城市規(guī)劃及政策制定提供參考，其表達(dá)了群眾對(duì)于該市政府工作的要求與期待，描述人民基本生存和生活狀態(tài)。上海市人民政府網(wǎng)站在“互聯(lián)網(wǎng)+政務(wù)”建設(shè)方面的工作較為全面，將市委領(lǐng)導(dǎo)信箱、市政府領(lǐng)導(dǎo)信箱、各區(qū)、街道 (鄉(xiāng)鎮(zhèn))網(wǎng)上領(lǐng)導(dǎo)信箱等人民群眾向政府留言的渠道進(jìn)行融合，將群眾留言展示在“辦理公開”模塊下，并顯示出所有部門的留言處理統(tǒng)計(jì)數(shù)據(jù)和對(duì)應(yīng)排名。群眾留言的內(nèi)容包含了來信標(biāo)題、來信時(shí)間、來信內(nèi)容、回復(fù)部門、回復(fù)時(shí)間及回復(fù)內(nèi)容，該平臺(tái)收到群眾留言超11萬條，其中平臺(tái)選登的已由相關(guān)單位進(jìn)行回復(fù)的群眾留言高達(dá)兩萬多條，選登留言的發(fā)布日期最早為2016年8月26日。平臺(tái)數(shù)據(jù)展示較為全面簡潔，易于數(shù)據(jù)采集和文本挖掘。

2.1 方法選擇為推動(dòng)服務(wù)型政府建設(shè)，實(shí)現(xiàn)對(duì)“互聯(lián)網(wǎng)+政務(wù)”群眾留言的充分利用，利用文本挖掘中的文本分類、文本聚類技術(shù)對(duì)群眾留言進(jìn)行分析，實(shí)現(xiàn)熱點(diǎn)追蹤。通過對(duì)比分析BERT模型、LSTM模型、fastText模型在群眾留言文本分類上的效果，利用Affinity Propagation聚類算法對(duì)每個(gè)分類下的問題進(jìn)行聚類，最后基于聚類形成的問題進(jìn)行熱度計(jì)算得出熱點(diǎn)問題進(jìn)行分析。

2.1.1BERT深度語言模型

近年來，NLP界以預(yù)訓(xùn)練深度語言模型(Pre-trained Language Model)為發(fā)展方向，在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上，進(jìn)一步改善了文本語義表示的效果。預(yù)訓(xùn)練深度模型使用基于特征的(feature based)策略和微調(diào)(Fine-tuning)策略以完成下游任務(wù)，BERT模型是具有微調(diào)策略的預(yù)訓(xùn)練模型的代表。BERT深度語言模型以Transformer為主要架構(gòu)，其結(jié)構(gòu)如圖1所示。

圖1中的E1，E2...EN表示在模型的起始處添加[CLS]，模型的結(jié)尾處添加[SEP]標(biāo)記的中文字符。它們依次經(jīng)過12或24層雙向的Transformer(Trm)編碼器，通過計(jì)算就可以得到文本字符語境化的向量表示(Contextual Embedding)。Transformer是一個(gè)基于自注意力(self-attention)機(jī)制的編碼-解碼器，底層編碼器的輸入是字符向量、字符向量和句子段向量之和。模型中的每一層由兩部分組成：多頭自我注意和前饋神經(jīng)網(wǎng)絡(luò)。前者使編碼器在給出每個(gè)字符時(shí)注意到其他字符的信息。后者用于增強(qiáng)模型的擬合能力。在模型的每一層進(jìn)行加和范數(shù)運(yùn)算后，生成一個(gè)新的特征向量作為下一層編碼器的輸入。頂層編碼器輸出的[CLS]標(biāo)記的向量T1可以看作是整個(gè)句子的語義表示，而頂層編碼器輸出的向量T2和T3分別是字符E2和E3的上下文向量表示。它們?yōu)槲谋痉诸?、指名?shí)體承認(rèn)等任務(wù)提供了重要支持。此外，為了提高語義表征能力，BERT提出了兩個(gè)預(yù)訓(xùn)練任務(wù)：掩蔽語言模型(Masked LM，MLM)和下一句預(yù)測(cè)(Next Sentence Prediction, NSP)。在當(dāng)前語言智能領(lǐng)域，以BERT為模型，采用微調(diào)遷移學(xué)習(xí)策略可以在文本分類、文本聚類、命名實(shí)體識(shí)別(Named Entity Recognition, NER)等具體任務(wù)中發(fā)揮作用。

圖1 BERT深度語言模型基本架構(gòu)

2.1.2AffinityPropagation聚類方法

進(jìn)行標(biāo)注的數(shù)據(jù)集可以采用文本分類的方式進(jìn)行分析，在特定分類下，會(huì)存在語義缺失問題，給人工標(biāo)注帶來巨大難度[23]，為解決此類問題，本文選擇聚類算法對(duì)留言文本進(jìn)行后續(xù)處理。

聚類是一種無監(jiān)督的學(xué)習(xí)方法，它將一類數(shù)據(jù)按一定規(guī)則劃分為若干個(gè)子數(shù)據(jù)，一個(gè)子數(shù)據(jù)稱為聚類。2007由Frey等人提出的AP聚類(Affinity Propagation Clustering,AP)不需要預(yù)先設(shè)定聚類數(shù)目[24]，更適用于高維和多維數(shù)據(jù)。與傳統(tǒng)的基于劃分的聚類算法相比，該算法大大提高了聚類性能和效率。AP聚類根據(jù)N個(gè)數(shù)據(jù)點(diǎn)之間的相似度進(jìn)行聚類，不用在聚類任務(wù)開始前設(shè)置具體的聚類數(shù)目，因?yàn)槠鋵⑷繑?shù)據(jù)都視作潛在的聚類中心。AP聚類引入了N*N的相似度矩陣，該矩陣由N個(gè)數(shù)據(jù)點(diǎn)之間的相似度組成，并以對(duì)角線上的值S(i,i)作為第i個(gè)數(shù)據(jù)點(diǎn)能否成為聚類中心k的評(píng)判依據(jù)。AP算法中傳遞兩種類型的信息：一是吸引度(responsibility)r(i,k)，代表從點(diǎn)i傳送至k的信息，用以判斷k點(diǎn)是否適合作為i點(diǎn)的聚類中心。二是歸屬度(availability)a(i,k)，代表從k點(diǎn)發(fā)送到i的信息，用以判斷i點(diǎn)是否適合選擇k點(diǎn)作為聚類中心。吸引度和歸屬度的數(shù)值越高，k點(diǎn)作為i點(diǎn)聚類中心的可能性就越大。

2.2 “互聯(lián)網(wǎng)+政務(wù)”群眾留言文本挖掘框架設(shè)計(jì)

“互聯(lián)網(wǎng)+政務(wù)”群眾留言文本挖掘利用分類技術(shù)對(duì)文本初分類，以LSTM模型和FastText模型為基線模型，對(duì)比分析BERT模型、LSTM模型、FastText模型在文本分類上的效果(各類的F1值與整體的F-score)。政務(wù)文本初分類后，基于語義相似度與BERT命名實(shí)體識(shí)別的留言熱點(diǎn)問題挖掘，首先基于BERT模型，將每條留言的語義向量與命名實(shí)體(Named Entity)作為特征表示；第二，利用基于圖的Affinity Propagation聚類算法，實(shí)現(xiàn)留言的無監(jiān)督自動(dòng)聚類，第三，結(jié)合同一聚類簇下諸項(xiàng)留言進(jìn)行熱度計(jì)算，獲取熱點(diǎn)問題，最后對(duì)于熱點(diǎn)問題進(jìn)行分析并提出相應(yīng)建議，具體流程步驟如下圖2所示。

圖2 基于BERT進(jìn)行群眾留言文本熱點(diǎn)追蹤流程圖

3 上海市群眾留言文本熱點(diǎn)追蹤實(shí)例應(yīng)用

3.1 數(shù)據(jù)采集與預(yù)處理

本文主要以上海市群眾留言為例進(jìn)行文本分類及熱點(diǎn)追蹤，數(shù)據(jù)主要來源于上海市政府信箱、上海市委信箱、上海信訪的“互聯(lián)網(wǎng)+政務(wù)”網(wǎng)絡(luò)平臺(tái)，由于本文數(shù)據(jù)源為靜態(tài)網(wǎng)頁，因此數(shù)據(jù)采集方案使用了Scrapy框架進(jìn)行數(shù)據(jù)的抓取，采集字段包括：標(biāo)題、時(shí)間、文本內(nèi)容。共采集近三年“互聯(lián)網(wǎng)+政務(wù)”群眾留言29 074條。對(duì)采集的數(shù)據(jù)進(jìn)行預(yù)處理，結(jié)合標(biāo)題和發(fā)表時(shí)間，刪除重復(fù)數(shù)據(jù)，經(jīng)處理后保留11 122條群眾留言數(shù)據(jù)。

在輸入的文本方面，考慮到BERT模型允許單一文本的最長長度為512個(gè)字符，Sun[25]等人的相關(guān)實(shí)驗(yàn)表明，長文本截取前512個(gè)字符，可以在BERT模型中取得理想的分類效果，本文拼接了每一條留言的標(biāo)題文本與詳情文本，截取前512個(gè)字符作為模型的輸入，以提高分類效果表現(xiàn)。

3.2 算法評(píng)價(jià)依據(jù)

混淆矩陣(confusion matrix)是評(píng)價(jià)算法效率的標(biāo)準(zhǔn)格式，用n行n列的矩陣形式來表示。本文以二分類為標(biāo)準(zhǔn)，其中TP(True Positive)表示將正類預(yù)測(cè)為正類數(shù)，真實(shí)為0，預(yù)測(cè)也為0；FN(False Negative)表示將正類預(yù)測(cè)為負(fù)類數(shù)，真實(shí)為0，預(yù)測(cè)為1；FP(False Positive)表示將負(fù)類預(yù)測(cè)為正類數(shù)，真實(shí)為1，預(yù)測(cè)為0；TN(True Negative)表示將負(fù)類預(yù)測(cè)為負(fù)類數(shù)，真實(shí)為1，預(yù)測(cè)為1 。本文采用的算法評(píng)價(jià)指標(biāo)計(jì)算方式如下：

精準(zhǔn)率(Precision, PPV, Positive Predictive Value)又叫查準(zhǔn)率，表示在所有被預(yù)測(cè)為正的樣本中實(shí)際為正的樣本的概率。

(1)

召回率(Recall，Sensitivity，TPR，True Positive Rate)又叫查全率，表示在真實(shí)值是 Positive的所有結(jié)果中，模型預(yù)測(cè)對(duì)的比重。

(2)

F1-值(F1-score)綜合了Precision與Recall的產(chǎn)出的結(jié)果。F1-Score的取值范圍從0到1的，1和0分別代表模型的輸出最好和最差。

(3)

準(zhǔn)確率(accuracy)是指于給定的測(cè)試數(shù)據(jù)集，分類器正確分類的樣本數(shù)與總樣本數(shù)之比，即損失函數(shù)是0-1損失時(shí)測(cè)試數(shù)據(jù)集上的準(zhǔn)確率。

3.3 “互聯(lián)網(wǎng)+政務(wù)”群眾留言文本分類

清洗后的數(shù)據(jù)集中包含11 122條群眾留言，分為住房規(guī)劃、消費(fèi)權(quán)益、部門不作為、醫(yī)療衛(wèi)生、教育培訓(xùn)、環(huán)境保護(hù)、交通出行7個(gè)類別。每條留言均包含留言主題、留言詳情字段。將數(shù)據(jù)集打亂順序后，按照8∶1∶1的比例，分別劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集[25]。包括BERT在內(nèi)的所有模型，均在相同的訓(xùn)練集、驗(yàn)證集上進(jìn)行訓(xùn)練、調(diào)整超參數(shù)，并在相同的測(cè)試集上進(jìn)行測(cè)試。

在超參數(shù)設(shè)置方面，參考Sun[26]等人在BERT上的文本分類經(jīng)驗(yàn)設(shè)置超參數(shù)：學(xué)習(xí)率lr=2e-5，衰變因子ξ=0.95。此外，訓(xùn)練遵循早停(early stopping)原則，當(dāng)模型的損失在驗(yàn)證集上不再下降，就視為模型在驗(yàn)證集上已經(jīng)收斂，可以停止訓(xùn)練，避免過擬合(Overfitting)問題。

在文本分類任務(wù)中，BERT模型提取頂層的[CLS]的768維的特征向量v為整個(gè)文本的特征表示，然后連接一個(gè)768*n的全連接層W(n為文本類別數(shù))，最后通過softmax函數(shù)進(jìn)行歸一化，輸出一個(gè)文本分別屬于各個(gè)類別c的概率：

P(c∣v)=softmax (W·v)

(4)

其中softmax函數(shù)：

(5)

模型會(huì)在訓(xùn)練過程中調(diào)整全連接層W以及BERT12層模型的參數(shù)，使得每個(gè)文本的正確類別所對(duì)應(yīng)的概率最大化。

圖3 BERT模型在驗(yàn)證集上的損失變化圖

如圖3所示，當(dāng)BERT模型在訓(xùn)練第3輪(epoch)時(shí)，在驗(yàn)證集上的損失開始上升。

圖5 BERT模型在驗(yàn)證集上的accuracy隨訓(xùn)練輪數(shù)的變化情況

圖4關(guān)于BERT模型在驗(yàn)證集上的正確率變化情況也表明，在第2輪訓(xùn)練時(shí)，分類的正確率較前一次明顯提升約0.76%；但第3輪訓(xùn)練的accuracy提升已不明顯。因此，綜合模型在驗(yàn)證集上的損失與正確率，根據(jù)早停原則，第2輪訓(xùn)練結(jié)束后的BERT分類模型已經(jīng)收斂，可以作為最終模型。

3.3.1BERT模型分類效果及與其他模型的對(duì)比分析

最終收斂的BERT模型在測(cè)試集上測(cè)試的結(jié)果如表1所示。

為證明BERT模型在留言分類任務(wù)上的良好能力，將基于字向量的LSTM(Long Short-Term Memory)和基于fastText的2個(gè)文本分類模型作為基線模型，比較BERT與基線模型的效果。

表1 BERT模型在測(cè)試集上的各類分類效果

本文使用的LSTM模型為加入了dropout機(jī)制的通用改良版本。LSTM和FastText模型超參數(shù)設(shè)置情況如表2所示。

表2 LSTM與FastText模型的超參數(shù)設(shè)置情況

圖5 三個(gè)模型在測(cè)試集各類上的 F1值對(duì)比圖

三個(gè)模型在測(cè)試集上的F1值，如圖5所示，在7類留言文本中，BERT在6類上的分類F1值均取得了最佳效果。僅在住房規(guī)劃這一類上，F(xiàn)astText的分類效果略優(yōu)于BERT。

衡量各模型綜合分類能力的F-score分?jǐn)?shù)如表3所示：

表3 各分類模型的 F-score

可以看出，基于BERT的留言文本分類算法取得了最佳效果，其F-score高出 LSTM模型約12.7%，也高出廣泛應(yīng)用的文本分類模型FastText約2.48%。BERT深度語言模型高達(dá)91.62%的F-score證明了它在群眾留言文本分類任務(wù)上的優(yōu)越性與實(shí)用性。

3.3.2文本分類結(jié)果

采集到的“互聯(lián)網(wǎng)+政務(wù)”群眾留言文本數(shù)據(jù)在預(yù)處理后，對(duì)比分析 BERT、LSTM、fastText算法的分類效果，最終使用了BERT模型的輸出結(jié)果作為本文的分類結(jié)果，分類結(jié)果如圖6所示。

圖6 分類結(jié)果統(tǒng)計(jì)圖

由圖可知，群眾在政府平臺(tái)反饋?zhàn)疃嗟氖亲》恳?guī)劃類問題，約占所有問題的28.7%，其次是醫(yī)療衛(wèi)生領(lǐng)域問題，約占所有問題的17.6%，排名第三的為交通出行問題，約占所有問題的12.5%。

3.4 “互聯(lián)網(wǎng)+政務(wù)”群眾留言熱點(diǎn)問題追蹤

本文對(duì)11 122條群眾留言按類別分組進(jìn)行無監(jiān)督聚類，采用一種無須預(yù)設(shè)聚類數(shù)目的Affinity Propagation聚類算法，留言熱點(diǎn)問題自動(dòng)追蹤的總體流程如圖 7 所示，首先BERT模型增量訓(xùn)練，使之學(xué)習(xí)到留言的句法語義信息；第二步獲取留言的語義向量，利用AP聚類算法初步聚類；最后基于BERT模型，識(shí)別留言中的命名實(shí)體。設(shè)置條件集合R，過濾異常值，在篩除了異常值后，對(duì)各個(gè)問題聚類簇進(jìn)行統(tǒng)計(jì)，針對(duì)清洗后數(shù)據(jù)中的每一個(gè)類別，分別計(jì)算其熱度指標(biāo)。

圖7 留言熱點(diǎn)話題挖掘的總體流程

3.5 結(jié)果分析

由群眾留言分類結(jié)果可知，住房規(guī)劃、醫(yī)療衛(wèi)生和交通出行類別的留言較多，這三類與人們生活密切相關(guān)。通過熱度評(píng)價(jià)計(jì)算得出這三類熱度前5位的熱點(diǎn)問題如表4所示。

表4 熱點(diǎn)問題表

住房規(guī)劃類別中主要可以歸納出三類熱點(diǎn)關(guān)注問題，分別為居民安全、房屋租賃和房屋質(zhì)量。房屋租賃問題長期存在，主要牽涉長租公寓服務(wù)供應(yīng)商的“爆雷”問題。該類問題主要由市級(jí)房屋管理局及下屬行政區(qū)住房保障和房屋管理局、規(guī)劃和土地管理局負(fù)責(zé)處理答復(fù)，以上部門應(yīng)該保障群眾利益不受損害的基礎(chǔ)上進(jìn)行城市基礎(chǔ)設(shè)施的建設(shè)，事中認(rèn)真落實(shí)規(guī)劃，確保實(shí)際施工過程中協(xié)調(diào)好各方利益，根據(jù)群眾反應(yīng)問題，及時(shí)對(duì)房屋的工程規(guī)劃做出合理調(diào)整。房屋租賃方面，考慮建設(shè)保障性住房，向外來務(wù)工人員給予一定的政策性幫助，同時(shí)協(xié)調(diào)多方做好房屋租賃市場(chǎng)監(jiān)管工作，以人為本，合理引導(dǎo)企業(yè)參與建設(shè)。房屋質(zhì)量方面，房屋管理局及下屬行政區(qū)住房保障、房屋規(guī)劃、土地管理局等應(yīng)當(dāng)嚴(yán)格要求商品房開發(fā)前的資格審查與報(bào)批，嚴(yán)格打擊商品房開發(fā)過程中的不合規(guī)問題，對(duì)于交付后的商品房存在的嚴(yán)重質(zhì)量問題加大懲處力度，提高企業(yè)違法成本，以杜絕類似情況再次發(fā)生。

醫(yī)療衛(wèi)生類別中防控政策、疫情期間就醫(yī)、基層醫(yī)療管理和醫(yī)美行業(yè)醫(yī)患糾紛為群眾最為關(guān)心的四類熱點(diǎn)問題。新冠疫情的出現(xiàn)嚴(yán)重影響了居民的正常出行和就醫(yī)，這也側(cè)面反映出政府應(yīng)對(duì)重大意外事件的能力有待加強(qiáng)，在疫情防控常態(tài)化形勢(shì)下，如果繼續(xù)保持疫情期間出行管理政策不明晰、就醫(yī)渠道不通暢，將會(huì)影響人民群眾的生活質(zhì)量。除此之外，有大量群眾留言集中反饋個(gè)人在某醫(yī)療美容醫(yī)院的就醫(yī)失敗經(jīng)歷以及經(jīng)濟(jì)糾紛。該類問題涉及方面較廣，除了市級(jí)的醫(yī)療保障局、藥品監(jiān)督管理局以及各級(jí)衛(wèi)生健康委員會(huì)負(fù)責(zé)處理答復(fù)外，醫(yī)院同樣負(fù)責(zé)。明晰疫情防控常態(tài)化下的群眾出行政策以及疫情期間外鄉(xiāng)人、本地人就醫(yī)管理辦法。在醫(yī)美行業(yè)的醫(yī)患糾紛方面，走訪調(diào)研造成糾紛的真實(shí)原因，加大力調(diào)查各大美容機(jī)構(gòu)資質(zhì)，出臺(tái)相應(yīng)政策保障患者權(quán)力。在基層醫(yī)療管理問題上，應(yīng)當(dāng)深入到每一個(gè)群眾的生活中，對(duì)基層醫(yī)療從業(yè)人員加強(qiáng)管理，出臺(tái)更為嚴(yán)苛的政策。

交通出行類別中噪音擾民、線路規(guī)劃和網(wǎng)約車與出租車糾紛為群眾關(guān)心的熱點(diǎn)問題，這些問題的存在嚴(yán)重影響居民生活質(zhì)量，增加了居民出行成本；不利于出租車、網(wǎng)約車行業(yè)的良好發(fā)展，造成惡性競(jìng)爭(zhēng)事件頻發(fā)。該類問題主要由市級(jí)交通運(yùn)輸管理管理處、下屬區(qū)級(jí)交通管理委員會(huì)以及當(dāng)?shù)氐牡罔F營運(yùn)管理公司負(fù)責(zé)問題答復(fù)。在噪音擾民方面應(yīng)當(dāng)將著力點(diǎn)放置在夜間施工及隔音設(shè)施的安裝中，事前在規(guī)劃建設(shè)的研究中考慮施工過程中以及投入使用后對(duì)于群眾造成的影響，建設(shè)事中過程應(yīng)當(dāng)嚴(yán)格執(zhí)行施工規(guī)定，確保在群眾休息的時(shí)間停止施工，事后過程做好群眾走訪工作，解民生、聽民意，及時(shí)加設(shè)隔音設(shè)施或向群眾發(fā)放隔音耳罩。在線路規(guī)劃問題中，應(yīng)當(dāng)做好前期調(diào)研工作，協(xié)調(diào)多方利益，為市民乘坐公共交通設(shè)施出行提供方便，了解群眾心聲，將群眾的需求融入建設(shè)的研究中。在網(wǎng)約車與出租車的糾紛問題上繼續(xù)加大力度監(jiān)管，抬升出租車等營運(yùn)車輛的拒載成本，在網(wǎng)約車資格申請(qǐng)方面做到更加透明簡潔，減少群眾疑惑。

4 總結(jié)

“互聯(lián)網(wǎng)+政務(wù)”中群眾的留言反饋對(duì)于政府的城市建設(shè)、政策規(guī)劃具有重要作用，準(zhǔn)確快速的捕捉到群眾反饋的關(guān)鍵問題并高效解決，不僅可以提高政府的管理水平，而且可以更好地為群眾服務(wù)。本文通過BERT模型，對(duì)網(wǎng)絡(luò)問政平臺(tái)留言進(jìn)行分類，將其分為住房規(guī)劃、消費(fèi)權(quán)益、部門不作為、醫(yī)療衛(wèi)生、教育培訓(xùn)、環(huán)境保護(hù)、交通出行共7個(gè)類別。在熱點(diǎn)追蹤任務(wù)上，基于Affinity Propagation的算法對(duì)留言進(jìn)行聚類，結(jié)合話題時(shí)長、留言數(shù)兩類因素，計(jì)算出各個(gè)問題(話題)的熱度值，最后對(duì)熱點(diǎn)問題進(jìn)行深入分析并，向政府相關(guān)部門提出一定建議，實(shí)現(xiàn)問題與部門的精準(zhǔn)匹配，輔助政府部門進(jìn)行高效決策。然而本文仍存在一些不足之處，數(shù)據(jù)收集方面僅局限于上海地區(qū)，數(shù)據(jù)預(yù)處理過程中為了達(dá)到最佳的分類效果，對(duì)海量消息文本進(jìn)行了一定程度的裁切和合并，在后續(xù)研究中采集帶有不同地域標(biāo)簽的群眾數(shù)據(jù)進(jìn)行關(guān)鍵詞分析，減少對(duì)原始數(shù)據(jù)的調(diào)整。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放