陳樂遙 洪磊 陳楊 王川 楊永舟 劉姝文
摘要:旨在通過分析國內(nèi)各大公安院校官方公眾號和微博發(fā)布的數(shù)據(jù),得出每個院校的關(guān)鍵詞分布,在此基礎(chǔ)上對各校如何展開新媒體工作提出輔助性可視化幫助。文章運用網(wǎng)絡(luò)爬蟲技術(shù)和LDA主題聚類算法,對互聯(lián)網(wǎng)上獲取的某警院數(shù)據(jù)進行分析,然后使用Flask和Vue將分析出的結(jié)果可視化,使之呈現(xiàn)出警院的詞云圖,該結(jié)果可以對警院的新媒體建設(shè)提出輔助性建議。
關(guān)鍵詞:微博;微信公眾號;LDA算法;Web可視化
中圖分類號:G202 文獻標識碼:A 文章編號:1006-8228(2020)08-06-04
0引言
網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,讓新媒體、自媒體等詞不再是一個遙遠陌生的概念,新媒體技術(shù)的高速推進在為公安院校思想政治教育工作的創(chuàng)新帶來了契機。目前各大公安院校基本都在努力做到依托現(xiàn)代化模式下的新媒體矩陣來創(chuàng)新公安院校大學(xué)生的思想政治工作路徑,搭建好以微信、微博、今日頭條、抖音、B站等為主體的新媒體矩陣,更好地服務(wù)公安教育工作,不斷為新時代公安新媒體建設(shè)培養(yǎng)技能突出、政治可靠的接班人。為了更好的對現(xiàn)階段警院新媒體提出發(fā)展建議,我們選取了主流文字新媒體平臺,從微信和微博來研究各大公安院校該如何在之后的新媒體文字工作中采取更貼合讀者需要,更能講好警院故事的方法?,F(xiàn)今網(wǎng)絡(luò)數(shù)據(jù)繁雜,我們可以借助人工智能算法建立模型,自動化的處理數(shù)據(jù),并且借助當下最流行的B\S架構(gòu)的Web服務(wù)來動態(tài)地可視化呈現(xiàn)數(shù)據(jù)的處理結(jié)果。
1 研究現(xiàn)狀
在現(xiàn)階段針對新浪微博與微信公眾號的研究較多,但是限定發(fā)聲主體范圍,尤其是特定針對公安院校新媒體的研究目前還是少數(shù)[2-4]。目前針對新媒體主題的研究主流方向仍然是針對發(fā)布文字內(nèi)容的研究,從發(fā)文內(nèi)容中所含的情感傾向、關(guān)鍵詞、傳播方向趨勢預(yù)測等方面切入[1.5-7],并結(jié)合這些內(nèi)容對于人們的生活會造成什么樣的影響作為研究輸出點,將研究結(jié)果通俗化,讓冷冰冰的數(shù)據(jù)更“接地氣”。其中使用LDA人工智能文本主題聚類算法的居多,這一算法讓文本的聚類處理更加便捷直觀,其結(jié)果對于后續(xù)的分析更具有說服力。我們也依照這一想法從現(xiàn)階段的研究方向出發(fā),逐步深入,得出針對公安院校新媒體建設(shè)的主流趨勢,并最終就研究結(jié)果在大方向上對各新媒體主體給予一定的建議。
2 研究設(shè)計
本項目的研究和實現(xiàn)主要分為三個階段:數(shù)據(jù)獲取,數(shù)據(jù)處理和科學(xué)的可視化數(shù)據(jù)呈現(xiàn)。現(xiàn)就每一階段采取的研究方式和技術(shù)原理進行描述,具體流程如圖1所示。
以下探討在數(shù)據(jù)處理階段我們主要采用的模型分析思維。
2.1 首先是選用的人工智能數(shù)據(jù)處理模型:LDA主題模型
LDA(Latent Dirichlet Allocation)是現(xiàn)階段比較風(fēng)靡和體系化的文本主題挖掘模型,它從本質(zhì)來看就是一個包括了主語、文檔和主題的嵌套了三層的貝葉斯模型,因為其完全基于貝葉斯的推理機制,所以擁有很好的解釋能力。但是,該模型僅僅提供了針對文本數(shù)據(jù)的主題模型提取,并沒有更多的涉及細化的演變機制和主題演化的解釋。它一開始就把概率分布與貝葉斯的先驗理論帶入到有關(guān)主題的分析當中,再去利用先驗估計的超參數(shù)經(jīng)迭代計算來估計“文檔一主題”和“主題一特征詞”的概率分布這兩個參數(shù);由于采用Dirichlet分布進行了模型簡化,所以這種方法可以部分避免LSA和PLSA等模型中的過擬合問題[8-11]。
模型生成過程如圖2所示。
(1)按照先驗概率p(di)選擇一篇文檔di;
(2)在從Dirichlet分布的a中取出樣本生成文檔d的主題分布θi;
(3)從主題的多項式分布θi中取出樣本生成文檔d;第j個詞的主題z(i,j);
(4)從Dirichlet分布β中取出樣本生成主題z(i,j)對應(yīng)的詞語分布φz(i,j),詞語分布φz(i,j),由參數(shù)為B的Dirichlet分布生成;
(5)從詞語的多項式分布φz(i,j)中采集樣本,最終生成詞語ω(i,j)。
2.2 處理數(shù)據(jù)的整體思維
在針對具有更多指標性數(shù)值的微博文本數(shù)據(jù)的處理中,我們充分參考了點贊量和轉(zhuǎn)發(fā)量這兩個指標值,數(shù)據(jù)處理的最終目標是既要得到文本關(guān)鍵詞也要能夠讓這些關(guān)鍵詞為新媒體主題提供對發(fā)布內(nèi)容的修改意見。所以我們先進行文本內(nèi)容有無點贊量、閱讀量的第一批處理,將處理后的數(shù)據(jù)再放入LDA模型中進行分析,得到熱門主題詞。與此同時將全樣本數(shù)據(jù)也進行LDA模型的分析。最終的生成結(jié)果中進行關(guān)鍵詞比對,即從全樣本關(guān)鍵詞中去尋找熱門關(guān)鍵詞是否存在,如果存在則說明文本的健全性有保障,繼續(xù)輸出得到的熱點關(guān)鍵詞和全樣本關(guān)鍵詞即可,其過程如圖3所示。
對于無指標性數(shù)值的微信公眾號文本來說,則直接使用LDA模型進行分析,得到全樣本數(shù)據(jù)的關(guān)鍵主題詞,然后與微博中出現(xiàn)的關(guān)鍵詞拼接以及去重。在總體層面上得出該新媒體主體的新媒體全樣本關(guān)鍵詞。
2.3 科學(xué)的可視化數(shù)據(jù)
對于數(shù)據(jù)的可視化,我們選擇了現(xiàn)在的主流開發(fā)模式,即B/S架構(gòu)的Web服務(wù)模式。在后端使用flask的基礎(chǔ)上,我們充分利用前端vue的開放性開發(fā)的特點,與處理后的數(shù)據(jù)進行結(jié)合,并最終使用詞云圖來展示經(jīng)處理過后的數(shù)據(jù)。采取更科學(xué)的數(shù)據(jù)可視化手段,在保證了數(shù)據(jù)結(jié)果展示準確性的同時也使得后續(xù)的研究工作可以更高效的展開。
3 實證分析
在微博方面,首先我們基于scrapy框架定制開發(fā)了給予微博開發(fā)者接口的數(shù)據(jù)獲取程序。程序以深度優(yōu)先的原則,將共27個公開官方微博號上的歷史記錄都依據(jù)時間順序爬下,將十三個固定賬戶的微博uid輸入隊列程序中,隊列循環(huán)后依次爬取,共獲取316752條微博信息和相關(guān)的賬號粉絲人數(shù)以及其他賬戶信息。
通過觀察,我們將對獲取數(shù)據(jù)中的content(微博內(nèi)容)和repost_num(轉(zhuǎn)發(fā)數(shù))進行研究分析,在此我們先對獲取的全部微博數(shù)據(jù)中的轉(zhuǎn)發(fā)數(shù)進行平均數(shù)計算,算出全樣本平均數(shù)后,依據(jù)經(jīng)驗可以嘗試劃定高轉(zhuǎn)發(fā)的閾值大于平均數(shù)并且不低于平均數(shù)的1.5倍。在此基礎(chǔ)上實現(xiàn)第一步的數(shù)據(jù)處理,得到高轉(zhuǎn)發(fā)微博數(shù)據(jù)樣本。
在這里我們只選擇江蘇警官學(xué)院一所院校的數(shù)據(jù)作為論證數(shù)據(jù),而且實際上我們在實驗中從微博的樣本中得到了五處主題的概率分布,這里只舉例示意列舉具有高轉(zhuǎn)發(fā)特征的第1處主題概率分布,并且在實驗過程中我們不斷調(diào)試主題數(shù)與單個主題內(nèi)詞語數(shù)量的關(guān)系,如表l所示,最終選擇了體現(xiàn)效果最佳的一個組合。
從總體的主題分布來看,樣本數(shù)據(jù)生成的所有主題的詞分布如表2。
對于微信公眾號的全樣本文本數(shù)據(jù)我們也同樣采取相應(yīng)的算法和措施來進行分析,我們直接通過最終的可視化界面來分析這套實驗的最終效果。
從微博的LDA模型處理后的結(jié)果,如圖4所示,我們可以看出,受到新型冠狀病毒的影響,即使是在2020年前四個月發(fā)布的內(nèi)容,且整體文本數(shù)量不多的情況下,新冠相關(guān)主題的微博依然能夠引起粉絲的高量轉(zhuǎn)發(fā)。但在微信公眾號中,我們選擇了2018和2019年兩年的全樣本數(shù)據(jù),從上述詞云圖中可以看到還是公安工作、學(xué)警學(xué)習(xí)這幾類主題是江蘇警官學(xué)院微信公眾號平臺最常發(fā)布的,同時因為時間跨度的問題,沒有出現(xiàn)在微博內(nèi)容分布中被高度關(guān)注的防疫和抗疫的內(nèi)容。在這一實驗的最后,我們通過得出的可視化圖片可以得出一些一般性結(jié)論。不論是什么樣的公眾自媒體或者新媒體形式,只要貼著社會的熱點話題來進行一些發(fā)文,就可以獲得粉絲群體的高關(guān)注度和互動性,這一點是毋庸置疑的。但是從抹除了社會熱點的高關(guān)注度話題后的數(shù)據(jù)來看,也就是從我們在實驗中的微信公眾號數(shù)據(jù)來看,真正決定新媒體工作建設(shè)的方向還是建立在本身特色和發(fā)布內(nèi)容類型的基礎(chǔ)上的,從可視化平臺的大多數(shù)公安院校的結(jié)果中可以看出,省屬的公安院校的內(nèi)容更加貼近公安工作的底層,宣傳的事例或者一些行文風(fēng)格更樸素,宣傳方向更單一,而幾所部屬高校的微博則不同,他們的文章中體現(xiàn)的人文關(guān)懷和綜合性更強,所以各公安院校應(yīng)當積極把握自身建設(shè)中形成的特色,并就與公安工作或者學(xué)警教育工作有教育指導(dǎo)意義的社會熱點事件行文是每一個公眾號主體都要遵循的大前提。
4 結(jié)束語
在現(xiàn)階段針對公安院校的新媒體的建設(shè)特點分析中,新媒體平臺中的短文本就注定了使用LDA模型可以滿足絕大多數(shù)的分析情形。只需要在建模的過程中控制好主題數(shù)和詞數(shù)的關(guān)系,就一定能夠調(diào)試出一個合理科學(xué)的實驗結(jié)果。公安院校的公眾號還是要在維持自身人文關(guān)懷與堅持政治方向的基礎(chǔ)上,不斷發(fā)掘社會話題,弘揚警院正能量,講好警院故事,為更多的青年一代的新時代預(yù)備警官夯實堅固的思想政治基礎(chǔ)和紅色意識。以思想帶動實踐,為建設(shè)四個“鐵一般”的公安鐵軍儲備優(yōu)良人才,為實現(xiàn)中華民族偉大復(fù)興奉獻力量。
參考文獻(References):
[1]王博,劉盛博,丁堃等.基于LDA i題模型的專利內(nèi)容分析方法[J].科研管理,2015.36(3):111-117
[2]趙翔宇.新媒體時代公安院校思想政治教育創(chuàng)新研究[J].遼寧警察學(xué)院學(xué)報,2020.22(2):113-116
[3]秦大強,熊猛.移動互聯(lián)時代公安院校大學(xué)生思想政治教育工作路徑創(chuàng)新——以新媒體矩陣發(fā)展與運維為視角[J].上海公安學(xué)院學(xué)報,2019.29(5):90-96
[4]周殷玄.淺談新媒體為公安院校思想政治工作開創(chuàng)的新格局[J].才智,2018.17:138-139
[5]唐可.利用多種建模方法從社交媒體中挖掘短文本結(jié)構(gòu)[J].電腦編程技巧與維護,2020.2:140-142
[6]韓肖赟,侯再恩,孫綿.基于i題模型及其擴展的短文本算法評述[J].計算機應(yīng)用與軟件,2020.37(1):1-7
[7]吳廣建.面向政務(wù)微博的數(shù)據(jù)分析系統(tǒng)設(shè)計與實現(xiàn)[D].杭州師范大學(xué),2020.
[8]李牧南,王雯殊.基于文本挖掘的人工智能科學(xué)i題演進研究[J].情報雜志:1-7[2020-04-20].http://kns.cnki.net/kcms/detaiV61. 1167.G3.20200319. 1351.019.html
[9] Latent Dirichlet allocation. Blei D M, Ng A Y,Jordan M I.Journal of Machine Learning Research,2003.
[10] Content analysis of e-petitions with topic modeling: Howto train and evaluate LDA models?[J]. Loni Hagen.Information Processing and Management,2018.
[11] Short text similarity based on probabilistic topics[J].Xiaojun Quan, Gang Liu, Zhi Lu, Xingliang Ni, LiuWenyin.Knowledge and Information Systems,2010.3.
★基金項目:江蘇省現(xiàn)代教育技術(shù)研究課題“基于現(xiàn)代信息技術(shù)的公安網(wǎng)絡(luò)輿情教學(xué)模式創(chuàng)新研究”(2017-R-59195);江蘇警官學(xué)院重點教改項目“互聯(lián)網(wǎng)信息巡查課程線上線下混合式‘金課教學(xué)體系的重塑研究”(2019A30);江蘇省大學(xué)生實踐創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目“大數(shù)據(jù)背景下的公安院校新媒體平臺影響力研究”( 201910329031Y)
作者簡介:陳樂遙(1999-),男,江蘇連云港人,江蘇警官學(xué)院學(xué)生,主要研究方向:網(wǎng)絡(luò)安全與信息安全