亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文本挖掘技術(shù)的智慧政務(wù)輿情分析研究

        2021-01-01 02:15:17方博平郭佳怡陸欣怡王夢(mèng)怡宋濤
        科技風(fēng) 2021年34期
        關(guān)鍵詞:解釋性權(quán)重聚類

        方博平 郭佳怡 陸欣怡 王夢(mèng)怡 宋濤

        摘要:對(duì)智慧政務(wù)平臺(tái)的群眾輿情建立了文本聚類模型進(jìn)行信息挖掘與分析。基于FastText原理利用Python語言進(jìn)行數(shù)據(jù)預(yù)處理并實(shí)現(xiàn)文本數(shù)據(jù)的分類。使用TF-IDF算法將文本信息轉(zhuǎn)換為權(quán)重向量并提取文本關(guān)鍵詞,結(jié)合K-means聚類算法建立文本聚類模型,實(shí)現(xiàn)對(duì)群眾輿情中高頻熱點(diǎn)問題的挖掘和排序。最后,對(duì)政府反饋意見以信息量、可解釋性、相關(guān)性3個(gè)評(píng)價(jià)指標(biāo)進(jìn)行權(quán)重計(jì)算,構(gòu)建了廣義線性回歸模型的評(píng)價(jià)指標(biāo)體系。每一步驟均給出了相應(yīng)實(shí)例分析及計(jì)算結(jié)果。

        關(guān)鍵詞:智慧政務(wù);FastText;TF-IDF算法;K-means聚類;廣義線性回歸模型

        在互聯(lián)網(wǎng)的快速發(fā)展和滲透下,網(wǎng)絡(luò)問政平臺(tái)為收集海量群眾輿情文本數(shù)據(jù)提供了方便。但如何快速處理大量留言文本數(shù)據(jù)并進(jìn)行有效處理成為亟待解決的問題。

        本文利用收集自互聯(lián)網(wǎng)公開來源的群眾問政留言記錄,及相關(guān)部門對(duì)部分群眾留言的答復(fù)意見,采用FastText原理對(duì)留言詳情信息進(jìn)行分類,用TF-IDF算法計(jì)算權(quán)重,提取文本關(guān)鍵詞,結(jié)合K-means算法提取熱點(diǎn)話題,計(jì)算余弦相似度篩選高質(zhì)量答復(fù)建議,構(gòu)建答復(fù)意見質(zhì)量評(píng)價(jià)指標(biāo)體系的廣義線性回歸模型。

        1預(yù)處理工作

        數(shù)據(jù)來源為互聯(lián)網(wǎng)公開渠道?;赑ython語言,預(yù)處理選擇中文分詞模塊jieba對(duì)群眾留言進(jìn)行分詞,采用精確模式用于去除文本標(biāo)注的無效信息,為后續(xù)進(jìn)一步處理作準(zhǔn)備。

        建立停用詞字典,選擇了CSDN網(wǎng)站的停用詞表,其中包含1893個(gè)停用詞。在分詞以后去停用詞。最終對(duì)留言文本分詞后去停用詞的部分結(jié)果如圖1所示:

        使用n-gram算法進(jìn)行特征提取,將文本內(nèi)容按照字節(jié)順序進(jìn)行大小為N的滑動(dòng)窗口操作,最終形成長度為N的字節(jié)片段序列。經(jīng)多次測(cè)試后,得出2-gram最適用。

        2分類模型構(gòu)建和熱點(diǎn)問題的挖掘

        2.1群眾留言文本分類

        通常情況下,在得到文本向量進(jìn)行分類處理時(shí)常選擇余弦相似度計(jì)算。但由于群眾輿情文本的詞匯一文本矩陣是一個(gè)不易計(jì)算的大矩陣,因此不選擇余弦相似度的方法,而是借助Softmax函數(shù)來實(shí)現(xiàn),同時(shí)也實(shí)現(xiàn)了語義空間的降維。

        Softmax函數(shù)能將一個(gè)含任意實(shí)數(shù)的K維向量“壓縮”到另一個(gè)K維實(shí)向量中,使得每一個(gè)元素的范圍都在(0,1)之間,并且所有元素的和為1。該函數(shù)多于多分類問題中。計(jì)算Softmax函數(shù)耗時(shí)較長,因此可用分層Softmax來加速,即根據(jù)類別的頻率構(gòu)造霍夫曼樹來代替標(biāo)準(zhǔn)Softmax,通過分層Softmax可以將復(fù)雜度從N降低到logN。

        由于想要模型訓(xùn)練速度快且不需要預(yù)訓(xùn)練好的詞向量,故選擇FastText文本分類算法。FastText的結(jié)構(gòu)為:輸入—隱層—h-softmax。原理是將輸入層中的詞和詞組構(gòu)成特征向量,再將特征向量通過線性變換映射到隱藏層,隱藏層通過求解最大似然函數(shù),然后根據(jù)每個(gè)類別的權(quán)重和模型參數(shù)構(gòu)建霍夫曼樹,將霍夫曼樹作為輸出。

        2.2熱點(diǎn)問題挖掘

        2.2.1留言信息特征提取

        熱點(diǎn)問題的挖掘是群眾輿情政務(wù)處理的重點(diǎn),需要政府相關(guān)部門高度重視。在對(duì)群眾留言詳情信息分詞后,可以通過將這些詞語轉(zhuǎn)換為向量供文本挖掘使用。通常采用TF-IDF算法將詞語信息轉(zhuǎn)換為權(quán)重向量。TF-IDF算法的具體流程分為三步:

        第一步,計(jì)算詞頻,即TF權(quán)重(Term Frequency)。詞頻(TF)是某個(gè)詞在文本中出現(xiàn)的次數(shù)??紤]文本有長短之分,為了便于不同文本的比較,需要對(duì)“詞頻”進(jìn)行標(biāo)準(zhǔn)化。

        第二步,計(jì)算IDF權(quán)重,即逆文檔頻率(inverse Document Frequency),建立一個(gè)語料庫模擬語言的使用環(huán)境。IDF越大,此特征性在文本中的分布越集中,則該分詞在區(qū)分該文本內(nèi)容屬性能力越強(qiáng)。

        第三步,計(jì)算TF-IDF值(Term Frequency Document Frequency),公式為:

        TF-IDF=詞頻(TF)×逆文檔頻率(IDF)

        實(shí)際分析得出TF-IDF值與一個(gè)詞在留言信息表中文本出現(xiàn)的次數(shù)成正比,某個(gè)詞文本的重要性越高,TF-IDF值越大。計(jì)算文本中每個(gè)詞的TF-IDF值并進(jìn)行排序,次數(shù)最多的即為要提取的留言信息表中文本的關(guān)鍵詞。

        對(duì)群眾輿情信息生成TF-IDF向量的具體步驟如下,得到的結(jié)果如圖2所示。

        (1)使用TF-IDF算法,找出每個(gè)留言描述的前5個(gè)關(guān)鍵詞;

        (2)對(duì)每個(gè)留言描述提取的5個(gè)關(guān)鍵詞,合并成一個(gè)集合,計(jì)算每個(gè)留言描述對(duì)于這個(gè)集合中詞的詞頻,如果沒有則記為0;

        (3)生成各個(gè)留言描述的TF-IDF權(quán)重向量。

        2.2.2話題表示模型構(gòu)建

        K-means聚類算法是無監(jiān)督的機(jī)器學(xué)習(xí)方法,將數(shù)據(jù)集劃分為不同的類簇。將每個(gè)簇看成是一個(gè)話題,運(yùn)用K-means聚類方法采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大。該算法認(rèn)為簇是由距離靠近的對(duì)象組成的,把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。其中,k個(gè)聚類具有以下特點(diǎn):各聚類本身盡可能緊湊,而各聚類之間盡可能分開。一般選取歐氏距離作為相似性和距離判斷準(zhǔn)則,計(jì)算該類內(nèi)每個(gè)點(diǎn)到聚類中心的距離平方和,聚類目標(biāo)是使各類總的距離平方和最小,根據(jù)最小二乘法和拉格朗日原理,聚類中心應(yīng)該取為各類別數(shù)據(jù)點(diǎn)的平均值。

        為保證聚類模型的效果,應(yīng)選擇合適的中心點(diǎn)?,F(xiàn)采用以下方法來確定K-means中心點(diǎn):首先選擇彼此距離盡可能遠(yuǎn)的那些點(diǎn)作為中心點(diǎn),采用層次進(jìn)行初步聚類輸出k個(gè)簇,以簇的中心點(diǎn)作為K-means的中心點(diǎn)的輸入。然后多次隨機(jī)選擇中心點(diǎn)訓(xùn)練K-means,選擇效果最好的聚類效果。

        2.2.3文本聚類話題提取

        根據(jù)聚類得到的話題類別,結(jié)合留言文本數(shù)據(jù)的內(nèi)容,現(xiàn)提取得到排名前五的熱點(diǎn)話題及其相關(guān)內(nèi)容如下:

        3答復(fù)意見質(zhì)量評(píng)價(jià)指標(biāo)與模型構(gòu)建

        3.1文本指標(biāo)提取

        根據(jù)留言的內(nèi)容,從反饋的問題意見中提取特征。對(duì)于答復(fù)意見文本信息中提取的主要特征指標(biāo)有相關(guān)性、可解釋性、信息量等。對(duì)于以上特征指標(biāo)可以通過以下不同的方式獲得:

        3.1.1相關(guān)性指標(biāo)

        相關(guān)性是指答復(fù)意見與留言主題的相關(guān)性。答復(fù)意見通常使用向量的形式來表達(dá),因此可以通過計(jì)算文檔之間的距離來計(jì)算文檔相似度。利用余弦相似度計(jì)算方法來計(jì)算留言主題與相關(guān)工作部門的答復(fù)意見之間的相似度。

        當(dāng)余弦值接近1,夾角趨于0度時(shí),說明兩個(gè)向量越相似。當(dāng)余弦值接近于0,夾角區(qū)域90度時(shí),表明兩個(gè)向量越不相似,以此來判斷相似度。答復(fù)意見與留言主題相關(guān)度越高,則該答復(fù)建議對(duì)主題的價(jià)值越大,其質(zhì)量越高。可以選取一個(gè)閾值,進(jìn)而篩選出每個(gè)主題相關(guān)度大于該閾值的評(píng)論作為該主題下質(zhì)量較高的答復(fù)建議。

        3.1.2可解釋性指標(biāo)

        可解釋性是指政府部門答復(fù)意見的可讀性。答復(fù)意見的可讀性可以用自動(dòng)化可讀性指數(shù)ARI(Automated Readability Index)來表示。ARI的計(jì)算公式為:

        API=4.71·(總字符數(shù)/總字?jǐn)?shù))+0.5·(總字?jǐn)?shù)/總句數(shù))-21.43

        3.1.3信息量指標(biāo)

        信息量是指從內(nèi)容上確保答復(fù)意見質(zhì)量,以答復(fù)意見長度衡量(詞/字?jǐn)?shù)統(tǒng)計(jì)),即答復(fù)意見內(nèi)容的長度。通常認(rèn)為,答復(fù)意見內(nèi)容越多所包含有效信息越多,參考價(jià)值越大,在一定程度上會(huì)增加民眾對(duì)部門工作能力的信服力?,F(xiàn)使用分?jǐn)?shù)表示文本信息量,少于10個(gè)字為0.1分。11至20個(gè)字為0.2分,以此類推,大于90及以上為1分。

        3.2答復(fù)意見質(zhì)量評(píng)價(jià)指標(biāo)體系和模型

        使用不同的指標(biāo)權(quán)重構(gòu)建工作部門答復(fù)意見質(zhì)量評(píng)價(jià)模型,將會(huì)得到不同的結(jié)果。因此,基于上述評(píng)價(jià)指標(biāo),使用基于主成分分析權(quán)值的方法計(jì)算模型中各個(gè)評(píng)價(jià)指標(biāo)的權(quán)重后再構(gòu)建評(píng)價(jià)指標(biāo)體系。具體做法如下,首先,將相關(guān)工作部門答復(fù)意見中數(shù)據(jù)對(duì)應(yīng)的各個(gè)評(píng)價(jià)指標(biāo)的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,以降低各個(gè)不同評(píng)價(jià)指標(biāo)中的差異度。其次,對(duì)各個(gè)評(píng)價(jià)指標(biāo)進(jìn)行主成分分析以及權(quán)值的計(jì)算。最后,對(duì)評(píng)價(jià)指標(biāo)進(jìn)行主成分分析。對(duì)信息量、可解釋性、相關(guān)性這三個(gè)主成分評(píng)價(jià)指標(biāo)進(jìn)行權(quán)重計(jì)算后再使用廣義線性回歸算法建立模型,對(duì)答復(fù)意見的質(zhì)量進(jìn)行預(yù)測(cè)。

        引入四個(gè)符號(hào):答復(fù)意見質(zhì)量(Q),相關(guān)性(Relevancy),可解釋性(Credibility),信息量(Words)后建立廣義線性回歸模型Q=(φ·Words+φ·Relevancy+φ·Credibility+ε作為答復(fù)意見質(zhì)量評(píng)價(jià)指標(biāo)體系。

        基于主成分分析權(quán)值的方法計(jì)算得出的信息量、相關(guān)性和可解釋性這三個(gè)評(píng)價(jià)指標(biāo)的權(quán)重分別用φ、φ、φ表示,其中,ε表示常數(shù)項(xiàng)。

        最終,經(jīng)過模型訓(xùn)練得到的答復(fù)意見質(zhì)量評(píng)價(jià)指標(biāo)體系的廣義線性回歸模型計(jì)算公式為:

        Q=0.28Words+0.26Relevancy+0.28Credibility+0.01

        4結(jié)論

        對(duì)“智慧政務(wù)”中的文本數(shù)據(jù)即群眾的留言數(shù)、熱點(diǎn)問題以及相關(guān)政府部門的答復(fù)數(shù)據(jù)建立了文本聚類模型進(jìn)行數(shù)據(jù)挖掘與分析。分析過程包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)篩選與特征提取處理、聚類分析、構(gòu)建評(píng)價(jià)指標(biāo)與建模等。每一分析步驟均給出了實(shí)例分析和對(duì)應(yīng)結(jié)果,在文本數(shù)據(jù)分析過程中需注意如下事項(xiàng):

        (1)對(duì)獲得的留言數(shù)據(jù)利用基于FastText原理的Python程序進(jìn)行處理,可實(shí)現(xiàn)對(duì)留言數(shù)據(jù)的分類,降低模型訓(xùn)練時(shí)間,提升可建模度,增加模型的準(zhǔn)確性。

        (2)利用K-means文本聚類算法,可以更好地將留言加入對(duì)應(yīng)的話題簇,從而對(duì)熱點(diǎn)問題進(jìn)行更好的分類和篩選。

        (3)在構(gòu)建答復(fù)意見質(zhì)量評(píng)價(jià)指標(biāo)與模型中,通過提取的指標(biāo)特征構(gòu)建廣義線性回歸模型對(duì)相關(guān)部門的答復(fù)意見質(zhì)量進(jìn)行分析。為平衡模型,需對(duì)文本模型的目標(biāo)值進(jìn)行標(biāo)準(zhǔn)化,使對(duì)答復(fù)意見質(zhì)量的評(píng)價(jià)更為準(zhǔn)確。

        *通訊作者:宋濤,博士,講師,研究方向:交通行為和交通流建模與分析。

        猜你喜歡
        解釋性權(quán)重聚類
        著力構(gòu)建可解釋性模型
        論行政自由裁量的“解釋性控權(quán)”
        法律方法(2021年4期)2021-03-16 05:35:16
        權(quán)重常思“浮名輕”
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        基于DBSACN聚類算法的XML文檔聚類
        基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
        融媒體時(shí)代解釋性報(bào)道的發(fā)展之路
        傳播力研究(2017年5期)2017-03-28 09:08:30
        非解釋性憲法適用論
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        亚洲中文欧美日韩在线| 日本一区二区在线播放| 国产精品51麻豆cm传媒| 优优人体大尺大尺无毒不卡| 超级碰碰色偷偷免费视频| 狠狠久久亚洲欧美专区| 日本岛国精品中文字幕| 精品女厕偷拍视频一区二区区| 国产av无码专区亚洲a∨毛片| 日本va欧美va精品发布| 被群cao的合不拢腿h纯肉视频| 又污又黄又无遮挡的网站| 91精品国产91热久久p| 国产日产高清一区二区三区| 无码国产成人午夜电影在线观看| 国精品无码一区二区三区在线| 久久久久久中文字幕有精品| 日韩中文字幕乱码在线| 国产美女主播视频一二三区| 中文精品久久久久人妻不卡| 成人综合网站| 日韩无码视频淫乱| 青青青草国产熟女大香蕉| 亚洲香蕉久久一区二区| 免费日本一区二区三区视频| 污污内射在线观看一区二区少妇| 成人午夜免费无码视频在线观看| 国产在线播放免费人成视频播放| 精品久久中文字幕系列| 午夜射精日本三级| 在线精品免费观看| 国产毛片三区二区一区| 国产午夜视频一区二区三区| 色 综合 欧美 亚洲 国产| 欧美极品少妇性运交| 无码中文字幕久久久久久| 国产精品成人av大片| 亚洲欧美综合区自拍另类| 欧美日韩亚洲成色二本道三区| 一区=区三区国产视频| 中文字幕无线码一区二区|