亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于R語言的數(shù)據(jù)挖掘技術(shù)以及針對新浪輿情在公安情報中的應(yīng)用

        2019-09-19 13:40:58程政陽王家航邱明月
        科技傳播 2019年16期
        關(guān)鍵詞:分值語料庫輿情

        程政陽,王家航,邱明月

        1 概述

        1.1 發(fā)展現(xiàn)狀和研究工具介紹

        1.1.1 新浪微博發(fā)展現(xiàn)狀

        中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布第43 次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》。報告顯示,截至2018 年12 月,我國網(wǎng)民規(guī)模為8.29 億,互聯(lián)網(wǎng)普及率達(dá)59.6%①。經(jīng)過許多年的發(fā)展,微博平臺上有大量的用戶,幾乎涵蓋了整個中國網(wǎng)民的群體,許多輿情事件的首曝地都是在微博平臺上。因此針對新浪微博上的新浪輿情進(jìn)行研究有很大的實用性,研究的成果即情報產(chǎn)品也能為公安部門進(jìn)行決策提供參考。

        1.1.2 研究工具介紹

        R 是用于統(tǒng)計分析和繪圖的語言和操作環(huán)境。R是屬于GNU 系統(tǒng)的免費、免費和開源軟件。它是統(tǒng)計計算和統(tǒng)計制圖的極好工具。R 語言是S 語言的一個分支,廣泛應(yīng)用于統(tǒng)計學(xué)領(lǐng)域,大約在1980 年誕生。可以認(rèn)為R 是S 語言的一個實現(xiàn)。S 語言是美國電話電報公司貝爾實驗室為數(shù)據(jù)勘探、統(tǒng)計分析和繪圖而開發(fā)的一種解釋性語言。S 語言的原始實現(xiàn)版本主要是S-PLUS。S-PLUS 是一個基于S 語言的商業(yè)軟件,由Mathsoft 統(tǒng)計科學(xué)部進(jìn)一步改進(jìn)。后來,新西蘭奧克蘭大學(xué)的羅伯特·紳士和羅斯·伊哈卡以及其他志愿者開發(fā)了一個R 系統(tǒng)。R 開發(fā)核心團(tuán)隊負(fù)責(zé)開發(fā)。R 可以看作是由美國電話電報公司貝爾實驗室的里克·貝克爾、約翰·錢伯斯和艾倫·威爾克斯開發(fā)的S 語言的一種實現(xiàn)。當(dāng)然,S語言也是S-PLUS 的基礎(chǔ)。所以,它們在程序語法上幾乎是相同的,也許只是在功能上略有不同。程序可以很容易地移植到一個程序中,其中許多程序只需稍加修改就可以應(yīng)用到R 中。

        1.2 研究方法

        本文采用的研究方法主要是文本情感分析和聚類分析的方法,旨在通過文本情感分析分析微博評論的情感分值,判斷輿情事件整體的情感方向,為下一步制定輿情引導(dǎo)策略提供參考依據(jù),另外通過聚類分析可以清楚地劃分微博評論的類別,緊接著可以進(jìn)行觀點提取,通過這樣的手段可以了解到輿情事件中網(wǎng)民的觀點分布,從中提取對公安情報工作有價值的信息,為公安部門服務(wù)。

        2 微博評論數(shù)據(jù)的獲取與處理

        微博是一個用戶量十分龐大的平臺,每年發(fā)生的涉警輿情事件有很多,對于微博中所有輿情事件進(jìn)行研究顯然不現(xiàn)實。在《2018 年度中國互聯(lián)網(wǎng)輿論分析報告》中,2018 年度互聯(lián)網(wǎng)輿情事件共有20 起,其中涉警輿情事件有7 起,如表1 所示,且熱度都比較高,所以從新浪涉警輿情入手研究涉警輿情比較容易。而在研究新浪輿情時,微博評論最能夠反應(yīng)社情民意。

        綜上所述,基于新浪微博的分析需要,參考輿情事件的熱門程度和發(fā)生時間等因素,筆者選取了2019 年3 月24 日發(fā)生的熱點輿情事件“常德滴滴司機(jī)遇害事件”作為此次微博評論獲取的對象,爬取的對象為澎湃新聞在2019 年4 月29 日發(fā)出的微博“常德殺害滴滴司機(jī)大學(xué)生被診斷患抑郁癥,有限定刑事責(zé)任能力”下方的評論4000 條作為下文分析的數(shù)據(jù)來源,以便進(jìn)行接下來的數(shù)據(jù)分析。

        表1 2018年度中國互聯(lián)網(wǎng)輿論分析報告

        2.1 事件概述

        根據(jù)常德市公安局鼎城區(qū)分局通報,2019 年3 月23 日深夜,犯罪嫌疑人楊某淇(男,現(xiàn)年19歲,武陵區(qū)人)搭乘網(wǎng)約車從武陵區(qū)前往江南城區(qū)。3 月24 日0 時左右,在江南城區(qū)大湖路常南汽車總站附近下車時,坐在后排的楊某淇乘司機(jī)陳某不備,朝陳某連捅數(shù)刀,致陳某死亡。楊某淇事后到公安機(jī)關(guān)投案自首,據(jù)楊某淇供述,其因悲觀厭世早有輕生念頭,當(dāng)晚因精神崩潰無故將司機(jī)陳某殺害。

        4 月29 日下午,被害司機(jī)家屬向澎湃新聞出示了嫌犯楊某淇的精神鑒定意見書,該鑒定意見書顯示,楊某淇診斷為抑郁癥,在本案中實施危害時有限定(部分)刑事責(zé)任能力。當(dāng)天下午,澎湃新聞從常德市鼎城區(qū)公安局證實了該份鑒定意見書的真實性。29 日,受害者家屬表示已經(jīng)向公安部門提出重新鑒定申請,不認(rèn)可嫌犯有“作案時有限定(部分)刑事責(zé)任能力”的鑒定結(jié)論。

        本次的輿情事件始發(fā)于3 月23 日,這次事件帶著“警察”“滴滴出行”“網(wǎng)約車”“司機(jī)死亡”這些敏感的標(biāo)簽而且事件發(fā)生的場所是在2018 年中頻繁出事的網(wǎng)約車上,所以事件肇始時就有很多人在關(guān)注著,在4 月29 日下午18 時55 分澎湃新聞在新浪微博客戶端發(fā)表“常德殺害滴滴司機(jī)大學(xué)生被診斷患抑郁癥,有限定刑事責(zé)任能力”的微博后引起網(wǎng)友熱議,評論上萬。

        2.2 數(shù)據(jù)抓取與數(shù)據(jù)預(yù)處理

        筆者是通過微博評論研究與輿情事件中情感變化趨勢,所以微博評論的數(shù)據(jù)就很重要。因此,本文的數(shù)據(jù)爬取也從微博評論下手,在網(wǎng)頁上爬取數(shù)據(jù)的手段和方式有許多種,本文選擇的是通過R 語言爬取。爬取原理如圖1 所示。

        圖1 爬取原理

        在正式爬取數(shù)據(jù)之前要做一些準(zhǔn)備,首先,要安裝幾個需要的程序包“RCurl”“jsonlite”“stri ngr”“xlsx”“XML”“plyr”“reshape”,安裝的代碼是install.packages()。在安裝完這些程序包之后需要將其在r 語言中加載才能進(jìn)行使用,加載的代碼是library()。在完成這些準(zhǔn)備工作之后就可以進(jìn)行爬取了。

        爬取數(shù)據(jù)的第一步是測試我們所要爬取微博評論鏈接的url,我們爬取的微博是澎湃新聞的微博賬號下關(guān)于常德滴滴司機(jī)事件的微博。之后為了數(shù)據(jù)能夠順利爬取,要將爬蟲程序偽裝成一個瀏覽器,而實現(xiàn)這一手段的就是偽裝程序的報頭。

        第二步就可以開始爬取數(shù)據(jù)了,爬取數(shù)據(jù)的代碼是webpage<-getURL(url,httpheader=myHttphea der),這一步爬取的數(shù)據(jù)格式是JSON 格式的,不是我們需要的結(jié)果,這個時候就需要使用之前加載的jsonlite 程序包中的fromJSON 函數(shù)來進(jìn)行解析,解析的代碼是temple<-fromJSON(webpage)。這樣就可以初步的將微博評論的數(shù)據(jù)爬取了下來,爬取的數(shù)據(jù)包含評論的id、評論發(fā)表的事件、評論來源、用戶ID 和評論內(nèi)容等。但是,我們最需要分析的數(shù)據(jù)----微博評論的格式依舊存在瑕疵,這樣的情況主要有兩個問題:1)評論中使用微博表情,以<span class…………</span>的形式呈現(xiàn)出來;2)還有一些雜亂的數(shù)據(jù),以<a …………</a>的形式呈現(xiàn)出來。因此,需要之前加載的字符串處理包并借助正則表達(dá)式,再使用str_replace_all 函數(shù)把它替換掉?,F(xiàn)在就數(shù)據(jù)就處理完畢了。但是爬取的數(shù)據(jù)僅僅是一頁10 條的微博,為了爬取更多的微博評論就需要搜集更多的微博ID 并加入循環(huán)結(jié)構(gòu)。這樣就完成了數(shù)據(jù)的爬取,爬取之后的數(shù)據(jù)刪除掉一些分析所不需要的列,最終的結(jié)果是一個包含博主id、博主昵稱、評論內(nèi)容、點贊數(shù)、回復(fù)數(shù)、發(fā)布時間,行數(shù)為4 000 行的數(shù)據(jù)。如圖2 數(shù)據(jù)預(yù)覽所示。

        圖2 數(shù)據(jù)預(yù)覽

        3 實證分析

        在對爬取下來的數(shù)據(jù)進(jìn)行預(yù)處理之后,就可以對數(shù)據(jù)進(jìn)行分析處理。但是所需要處理的數(shù)據(jù)大部分是文本型的數(shù)據(jù),對于文本型數(shù)據(jù)直接進(jìn)行處理比較困難。所以,筆者選擇對文本型數(shù)據(jù)進(jìn)行一些先期處理,提取其中的情感態(tài)度,將微博評論的情感態(tài)度用具體的數(shù)值表現(xiàn)出來,之后再對這些數(shù)值進(jìn)行進(jìn)一步的分析處理。

        3.1 文本情感分析

        筆者所采用的方法是基于語料庫的分析方法,語料庫需要大量的數(shù)據(jù)去進(jìn)行訓(xùn)練,才能產(chǎn)生比較好的效果,而本文所采集的4 000 條數(shù)據(jù)對于訓(xùn)練一個效果較好的模型來較少,所以,本文選擇使用開源的語料庫來進(jìn)行處理分析,即使用R 的Snowballc 程序包來實現(xiàn)。Snowballc 程序包是一個R 寫的類庫,可以用于處理中文文本,此程序包中所有的算法都是自己實現(xiàn)的,并且自帶訓(xùn)練好的語料庫,可以直接使用。除此之外,要注意的是此程序包自帶的語料庫即訓(xùn)練好的模型與本文所采集的數(shù)據(jù)所要適用的模型有一些出入,需要對模型進(jìn)行一些調(diào)整。

        在正式的情感分值計算之前要對微博評論數(shù)據(jù)進(jìn)行分詞處理,分詞處理選擇的是逆向匹配法。逆向匹配法是將微博評論輸入到R 語言中作為一個完整的字符串,將字符串的第一個字與情感詞語料庫進(jìn)行對比,如果沒有這一個字,就將這個字刪除,進(jìn)行第一個詞的對比,直到字符串結(jié)束。舉個例子,以“這個東西很不錯”輸入到程序之后,“這”字先與語料庫進(jìn)行對比,沒有匹配的字符之后,就將這個詞進(jìn)行刪除,進(jìn)行下一個詞的對比,直到比對到“不”字之后,可以與語料庫中某個詞進(jìn)行對比了,然后比對到“錯”字,這個字符串比對結(jié)束,就保留了“不錯”這個詞作為結(jié)果。在這個過程需要使用循環(huán)結(jié)構(gòu)。循環(huán)結(jié)構(gòu)的原理是事先將字符串的字符數(shù)量導(dǎo)入到R 語言中并賦值給一個變量y,同時設(shè)置一個變量x 并且給這個變量賦值為0,然后對數(shù)據(jù)進(jìn)行處理,每處理一個字就給變量x加上1,并與變量y進(jìn)行對比,如果x小于y就繼續(xù)運行程序,否則就終止程序。

        對于文本情感分析我們選擇使用“readxl”“Sn owballc”“Rwordseg”“stringr”這4 個程序包來完成,首先要將四個程序包加載,加載使用的函數(shù)是library(),在加載完成之后,讀取數(shù)據(jù)和情感詞典就可以將處理好數(shù)據(jù)導(dǎo)入到R 語言中進(jìn)行處理。

        這里處理的原理是將分詞完畢的數(shù)據(jù)與R 語言中的語料庫進(jìn)行對比,如果出現(xiàn)了一個積極情感性質(zhì)的詞語就記1 分,如果出現(xiàn)一個消極情感性質(zhì)的詞語就記-1 分,最終將得到的分值進(jìn)行匯總計算,得出該微博評論總的情感分值。因為要處理的數(shù)據(jù)總共有4000 條,所以這里要使用循環(huán)結(jié)構(gòu)。循環(huán)結(jié)構(gòu)的原理是事先將數(shù)據(jù)的總行數(shù)導(dǎo)入到R 語言中并賦值給一個變量y,同時設(shè)置一個變量x 并且給這個變量賦值為0,然后對數(shù)據(jù)進(jìn)行處理,每處理一條數(shù)據(jù)就給變量x 加上1,并與變量y 進(jìn)行對比,如果x 小于y 就繼續(xù)運行程序,否則就終止程序。

        將整個數(shù)據(jù)分為消極類和特別消極類,4 000條數(shù)據(jù)每條數(shù)據(jù)的分值在-94~1 之間分布。一條數(shù)據(jù)的分值越小,該數(shù)據(jù)是消極的概率就越大,反之,一條數(shù)據(jù)的分值越大接近正數(shù),該數(shù)據(jù)是積極的概率就越大。分析的結(jié)果如圖3 情感分析數(shù)據(jù)展示。

        圖3 情感分析數(shù)據(jù)展示

        3.2 聚類分析

        正式運行K-means 模型進(jìn)行運算時,本文將點贊數(shù)、回復(fù)數(shù)和情感分析的分值導(dǎo)入到模型中進(jìn)行運算,最終得到的結(jié)果如圖4 聚類分析模型概覽??梢钥吹侥P蛯?shù)據(jù)分為了3 類,模型訓(xùn)練的質(zhì)量也比較好,在模型訓(xùn)練中最重要的變量是情感分析的分值。

        圖5 模型詳細(xì)數(shù)據(jù)是模型的詳細(xì)數(shù)據(jù),其中占據(jù)模型絕大部分?jǐn)?shù)據(jù)是聚類1(2840 條數(shù)據(jù),占71.7%)和聚類2(913 條數(shù)據(jù),占23.0%)。可以看到聚類1 情感分析的平均分值是-8.51,聚類2 情感分析的平均分值是-28.04,分值的差距較大,結(jié)合上文可以將聚類1 分為較為積極性質(zhì)的評論,將聚類2 和3 分為消極性質(zhì)的評論。

        圖4 聚類分析模型概覽

        圖5 模型詳細(xì)數(shù)據(jù)

        4 結(jié)語

        根據(jù)以上模型分析的結(jié)果我們可以得出以下的結(jié)論,本次涉警輿情事件中,輿論情感方向是負(fù)面情感占絕大多數(shù),但是這些負(fù)面的情感并不是針對公安部門的。根據(jù)詞頻分析和詞云的結(jié)果來說,網(wǎng)民評論大多是針對嫌疑人的譴責(zé)和嫌疑人想用自己患有抑郁癥為自己罪行開脫這一行為的不滿。

        從微博評論的角度入手分析涉警輿情事件中人民群眾的情感趨勢是本文的研究角度,傳統(tǒng)的涉警輿情分析更多地從輿情聲量的趨勢入手,分析其傳播途徑、首曝平臺和人民群眾的主要觀點而對微博中大量的評論數(shù)據(jù)僅停留于簡單的應(yīng)用。筆者認(rèn)為,應(yīng)對微博評論這種數(shù)據(jù)量大的文本型數(shù)據(jù),利用人工處理比較困難,直接運用一些數(shù)理統(tǒng)計的模型對數(shù)據(jù)進(jìn)行處理也不現(xiàn)實。所以,本文使用R 語言對這些數(shù)據(jù)進(jìn)行文本情感分析,將文本型數(shù)據(jù)轉(zhuǎn)化為筆者熟悉的數(shù)值型數(shù)據(jù)進(jìn)行處理。而面對數(shù)值型數(shù)據(jù),存在很多成熟的、效果良好的數(shù)理統(tǒng)計模型可以分析處理。

        本文對涉警輿情的情感趨勢進(jìn)行分析發(fā)現(xiàn)在一起涉警輿情事件人們的情感趨勢在事件發(fā)展初期都傾向于兩極分化,即積極情感和消極情感的評論占大多數(shù)。在事件發(fā)展的中期,如果出現(xiàn)負(fù)面的新聞事件或公告,會導(dǎo)致輿情整體的情感傾向趨向于負(fù)面。如果出現(xiàn)中性的新聞事件或公告,會導(dǎo)致輿情整體的情感傾向趨向于中性。這是本文的研究發(fā)現(xiàn)。

        注釋

        ①CNNIC:2019年第43次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[EB/OL].http://www.199it.com/archives/839412.html,2019-2-28.

        猜你喜歡
        分值語料庫輿情
        一起來看看交通違法記分分值有什么變化
        工會博覽(2022年8期)2022-06-30 12:19:30
        《語料庫翻譯文體學(xué)》評介
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        輿情
        中國民政(2016年24期)2016-02-11 03:34:38
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        宿遷城鎮(zhèn)居民醫(yī)保按病種分值結(jié)算初探
        病種分值結(jié)算模式下的醫(yī)療監(jiān)管之實踐與啟示
        微博的輿情控制與言論自由
        女人被做到高潮免费视频| 国产不卡精品一区二区三区| 夜夜躁狠狠躁日日躁视频 | 一区二区黄色在线观看| 日韩人妻一区二区三区蜜桃视频| 欧美黑人又粗又大久久久| 最新福利姬在线视频国产观看| 精品成人av人一区二区三区| 免费又黄又爽又色的视频| 亚洲va中文字幕无码久久不卡| 99re6久精品国产首页| 免费观看国产激情视频在线观看| 99久久无码一区人妻| 99久久人人爽亚洲精品美女| 国产一区二区三区精品久久呦| 日韩精品人妻一区二区三区蜜桃臀 | 美女一区二区三区在线视频| 亚洲人成网站18禁止| 久久伊人色av天堂九九| 亚洲一区二区高清精品| 91乱码亚洲精品中文字幕| 乱人伦中文视频在线| 99久热re在线精品99 6热视频| 亚洲国产精品成人久久av| 男女主共患难日久生情的古言| 国产精品一区二区久久乐下载| 亚洲中文av一区二区三区| 精品久久精品久久精品| 国产aⅴ无码专区亚洲av| 亚洲成a人v欧美综合天堂麻豆| 人妻无码AⅤ中文系列久久免费| 女同性恋一区二区三区av| 超级碰碰色偷偷免费视频| 国产精品久久1024| 操国产丝袜露脸在线播放| 色综合久久中文娱乐网| 免费现黄频在线观看国产| 亚洲国产精品第一区二区三区| 极品粉嫩小仙女高潮喷水网站| 在线精品一区二区三区| 无码人妻中文中字幕一区二区|