亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        LDA在提取涉警輿情關(guān)鍵詞中的應(yīng)用

        2018-12-19 12:44:28羅玉王玲
        現(xiàn)代計算機 2018年32期
        關(guān)鍵詞:文本模型

        羅玉,王玲

        (西華大學(xué)計算機與軟件工程學(xué)院,成都 610039)

        0 引言

        伴隨著社會的迅速發(fā)展和信息技術(shù)的廣泛應(yīng)用,涉警輿情越來越多輿情信息的增長速度越來越快,一些負面涉警輿情,甚至是謠言,在網(wǎng)上傳播,如果不引起重視任由其發(fā)展,必然會對公安工作的正常建設(shè)造成不良影響,引發(fā)涉警輿情危機。所以如果能通過一些關(guān)鍵詞幫助公安人員進行輿情分析,那么無疑對社會的長治久安具有重大意義。

        1 主題爬蟲

        考慮到涉警輿情數(shù)據(jù)來源廣,文本數(shù)量龐大,種類多,本文使用主題爬蟲技術(shù),主題爬蟲技術(shù)是一種依照特定的對象,主動的抓取萬維網(wǎng)信息的程序或者腳本[1]。相較于通用爬蟲,主題爬蟲對爬取對象更加聚焦,抓取的網(wǎng)頁信息與特定主題相關(guān)。主題爬蟲主要面對兩個問題主題的描述和主題的相似度計算。主題描述,指用戶對所要爬取主題的描述。主題描述的好壞,對于爬蟲的結(jié)果有著較大的影響[2]。通常主題描述有兩種方法,一種是專家確定關(guān)鍵詞集,另一種是通過初始頁面提取關(guān)鍵詞。

        當(dāng)前學(xué)者在此基礎(chǔ)上提出了一些新的方法,李東暉[3]等提出了一種無監(jiān)督的主題自動擴展技術(shù),能讓一個簡單抓取腳本從開始的主題不斷積累主題知識。主題爬蟲的另一個核心問題,主題相似度計算根據(jù)符合要求的主題判斷當(dāng)前網(wǎng)頁和當(dāng)前網(wǎng)頁的URL是否保留的算法。有兩處需要進行主題相似度計算,一是對當(dāng)前爬取頁面的正文內(nèi)容,二是對當(dāng)前頁面中的URL。根據(jù)網(wǎng)頁結(jié)構(gòu)、內(nèi)容,判斷是否與期望主題相關(guān),Guo[4]等提出基于SVN分類的主題爬蟲技術(shù),通過訓(xùn)練SVN分類器,來表現(xiàn)文字內(nèi)容和鏈接的主題相關(guān)度。

        由于依據(jù)擔(dān)負任務(wù)、職能、領(lǐng)域的不同,人民警察種別,分為戶籍、交通、治安、消防森林、經(jīng)濟、經(jīng)濟犯罪偵查等警種,在這里,我們可以把警種類別看作不同的主題,每個警種對應(yīng)一個或多個主題,每個主題下有與之相關(guān)的關(guān)鍵詞。

        本文將采取LDA方法來進行主題爬蟲,利用Word2Vec詞向量表示計算主題和網(wǎng)頁內(nèi)容的相似度,主題之間的相似度[5]。

        2 LDA主題模型

        LDA主題模型屬于監(jiān)督學(xué)習(xí),它是一種文檔的主題生成模型,它可以從語料中抽取潛在的主題,已經(jīng)被普遍的應(yīng)用到信息的主題發(fā)現(xiàn)中。

        該模型的主要思想是一個主題由一些詞生成,一篇文章則由一些主題生成,即一篇文章由某些詞語生成。LDA模型如圖1所示。

        圖1

        其中,wd,n是可計算變量,表示一個文檔D中的詞匯,zd,n代表每個詞在主題上的設(shè)定值,θd代表每個文檔在主題空間中的比例,βk代表主題空間中第K個主題,α和η分別代表預(yù)先設(shè)定的比例系數(shù)和主題參數(shù)。圖中矩形部分表示重復(fù)過程,|D|表示該語料庫中文檔的數(shù)量,K是當(dāng)前主題空間的主題數(shù)。

        因此,文檔集D={d1,d2,...,dn}中的任意一個文本d={w1,w2,...,wn}的概率生成過程如下:

        (1)D中詞的總個數(shù)N服從泊松分布。

        (2)主題分布 θ服從狄利克雷分布,即 θ|α~Dir(α)

        (3)關(guān)于每個n,n∈{1,2,...,N}均存在潛在主題zn服從多元分布,zn|θ~Mult(θ)參數(shù)

        (4)每個詞wn也服從多元分布,即:

        ξ,α,β表示超參數(shù),其中,ξ僅僅確保表達的完整性,對模型的求解過程無影響;α表示任意一個與文檔中主題分布有關(guān)的狄利克雷超參數(shù);β表示一個與文本集合中主題詞概率相關(guān)的狄利克雷超參數(shù)。這些超參數(shù)根據(jù)經(jīng)驗或多次訓(xùn)練來設(shè)定。

        綜上所述,LDA模型采用對文檔中每一個詞語的概率來進行計算,即:

        P(wj|di)表示每個文檔中單詞出現(xiàn)的概率,即詞頻,P(wj|zk)表示某個主題中每個單詞出現(xiàn)的概率,P(zk|di)表示某個文檔中每個主題出現(xiàn)的概率。故得到文檔中每個詞的生成概率為:

        3 關(guān)鍵詞提取

        本文的關(guān)鍵詞算法采取融合LDA和TF-IDF的自動擴展提取算法。TF-IDF(Term Frequency-Inverse Document Frequency)在自然語言中通常用來表示詞語的重要性的加權(quán)技術(shù)。TF表示詞語的頻率(Term Fre?quency)如公式(4)所示,IDF表示的是是逆文本頻率(Inverse Document Frequency),一個特定詞語的IDF,表示總的文件數(shù)除以包含該詞的文件的數(shù),為了簡化計算將得到的商取對數(shù)。如公式(5)所示。

        這里ni,j表示第j篇文檔的第i個詞語,|D|代表總的文檔數(shù),|{j:ti∈dj}|代表包含詞語ti的文件數(shù)目。

        我們選定部分初始關(guān)鍵詞,將其加入到爬取種子集中,作為數(shù)據(jù)抓取的初始種子,通過這些初始種子檢索新聞網(wǎng)站,通過融合LDA和TF-IDF算法抽取出文本關(guān)鍵詞,將符合標準的關(guān)鍵詞作為種子加入到種子集中,再進行新一輪的爬取。如圖2所示。

        圖2 種子集獲取流程圖

        4 實驗結(jié)果和分析

        本實驗主要是使用Python實現(xiàn),通過爬取互聯(lián)網(wǎng)上的新聞作為訓(xùn)練語料,主要來自新浪、新華網(wǎng)、中國新聞網(wǎng)等,抓取新聞?wù)奈迦f篇。使用Gensim包實現(xiàn)LDA主題模型的訓(xùn)練,訓(xùn)練過程采用Gibbs采樣,由于時間和資源有限,選取三個區(qū)分度較高的主題作為實驗素材,考察實驗效果,選取消防、經(jīng)濟犯罪偵查、刑事案件三個主題,結(jié)果如表1所示。

        表1 F值對比表

        表1結(jié)果表明,LDA融合TF—IDF的算法在F值上優(yōu)于單純地使用LDA和TF-IDF,證明了LDA主題爬蟲的可行性和有效性,并隨著主題更新的次數(shù)不斷增加,會有一定提升。

        實驗進行了6次更新,得到更新后的主題文檔,通過統(tǒng)計對比了前后主題文檔中出現(xiàn)相同的詞,詞的主題概率提高了3.12%。

        5 結(jié)語

        本文提出了一種涉警輿情關(guān)鍵詞提取方法,通過使用融合LDA和TF-IDF抽取關(guān)鍵詞的方法和為垂直領(lǐng)域的關(guān)系抽取提供了一種新思路,為垂直領(lǐng)域的關(guān)鍵詞提取建提供了良好的借鑒,后續(xù)的工作中將會加大對數(shù)據(jù)的采集,提高關(guān)鍵詞抽取的準確率。

        猜你喜歡
        文本模型
        一半模型
        重要模型『一線三等角』
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        夜鲁很鲁在线视频| 激情一区二区三区视频| 亚洲黄片av在线免费观看| 亚洲综合一区二区三区在线观看| 中文字幕乱码在线人妻| av无码电影一区二区三区| 亚洲午夜福利在线视频| 国产乱人伦偷精品视频| 国产精品久久久久久2021| 亚洲无码图| 亚洲第一页在线免费观看| 亚洲国产av一区二区三区天堂| 在线精品亚洲一区二区动态图| 伊人久久大香线蕉av不卡| 午夜精品久久久久久中宇| 一区二区无码中出| 久久精品国产亚洲AV高清wy| 国产一级一片内射视频在线| 男男啪啪激烈高潮无遮挡网站网址| www夜插内射视频网站| 一区二区三区乱码在线 | 欧洲| 男人边吻奶边挵进去视频| 国产成人av综合亚洲色欲| 亚洲人成在线播放a偷伦| 日本女同av在线播放| 西川结衣中文字幕在线| 无人区一码二码三码四码区 | 国产精品区一区第一页| 久久国产亚洲AV无码麻豆| 激情五月天俺也去综合网| 亚洲捆绑女优一区二区三区| 伊人久久大香线蕉午夜av| 四虎影视免费永久在线观看| 996久久国产精品线观看| 国产在线视频h| 亚洲天堂av路线一免费观看| 人妻少妇进入猛烈时中文字幕| 永久黄网站色视频免费看| 中文字幕精品无码一区二区| 国产综合精品久久亚洲| 丝袜美女美腿一区二区|