亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)輿情中的大數(shù)據(jù)分析方法研究

        2017-12-29 23:48:59常衛(wèi)東劉完芳
        求知導(dǎo)刊 2017年28期
        關(guān)鍵詞:統(tǒng)計(jì)方法大數(shù)據(jù)分析網(wǎng)絡(luò)輿情

        常衛(wèi)東+劉完芳

        摘 要:網(wǎng)絡(luò)輿情是指在網(wǎng)絡(luò)空間中對(duì)網(wǎng)民和生活中的社會(huì)事件尤其是一些突發(fā)事件的看法和態(tài)度。網(wǎng)絡(luò)輿情通常涉及社會(huì)的熱點(diǎn)事件,因而經(jīng)常在網(wǎng)絡(luò)中快速傳播,成為人們談?wù)摰慕裹c(diǎn)。因而,對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析和正確的引導(dǎo)顯得尤為重要。文章采用大數(shù)據(jù)分析方法分析網(wǎng)絡(luò)數(shù)據(jù),通過聚類的方法發(fā)掘網(wǎng)絡(luò)輿情中的熱點(diǎn)問題。實(shí)驗(yàn)證明該分析方法具有較高的熱點(diǎn)挖掘能力和及時(shí)的能力。

        關(guān)鍵詞:網(wǎng)絡(luò)輿情;大數(shù)據(jù)分析;統(tǒng)計(jì)方法

        一、輿情信息的獲取

        輿情分析的第一步是要對(duì)網(wǎng)頁中的信息進(jìn)行抓取,第二步是對(duì)抓取的網(wǎng)頁的信息進(jìn)行預(yù)處理。

        對(duì)網(wǎng)頁信息抓取主要采用網(wǎng)絡(luò)爬蟲,爬蟲的主要作用是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地形成一個(gè)互聯(lián)網(wǎng)內(nèi)容的鏡像備份。它既可以爬取網(wǎng)頁鏈接,又可以爬取網(wǎng)頁的文本信息和圖像信息。它通過關(guān)鍵字的搜索將對(duì)應(yīng)的統(tǒng)一資源定位為相關(guān)的網(wǎng)頁頁面進(jìn)行抓取,通過對(duì)其進(jìn)行文本和圖像的解析,提取對(duì)應(yīng)網(wǎng)頁的文本和圖像信息并進(jìn)行保存。 本文中主要提取的是網(wǎng)頁的文本信息。

        而中文分詞是把中文中的漢字系列分割為一個(gè)個(gè)獨(dú)立的中文詞匯。由于中文詞匯與詞匯之間的界限遠(yuǎn)不如英文單詞那樣清晰,因此,中文分詞也是一個(gè)技術(shù)難點(diǎn)。當(dāng)前中文分詞主要是從主要包括字符串匹配分詞方法和機(jī)器學(xué)習(xí)的統(tǒng)計(jì)分詞方法。字符串匹配分詞方法是事先通過一定的方法建立一個(gè)龐大的數(shù)據(jù)庫字典,按照一定的方法把待分詞的詞匯與數(shù)據(jù)庫字典中的詞進(jìn)行匹配從而實(shí)現(xiàn)分詞的方法。機(jī)器學(xué)習(xí)的統(tǒng)計(jì)分詞方法是通過詞匯出現(xiàn)的頻率和在文中的含義等信息對(duì)漢字的這些特征進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)分詞。字符串匹配分詞方法比較準(zhǔn)確,但缺乏靈活性,機(jī)器學(xué)習(xí)的統(tǒng)計(jì)分詞方法能對(duì)詞的語意進(jìn)行識(shí)別,但由于算法的不完善,準(zhǔn)確率不高,因此,在實(shí)際中通常是將這兩種結(jié)合來實(shí)現(xiàn)分詞。

        中文分詞的詞性主要包括名詞、動(dòng)詞、形容詞和副詞等,形容詞和副詞常表示事物的狀態(tài)和特征,因而經(jīng)常能表明作者對(duì)事件的喜怒哀樂之情;動(dòng)詞一般就是用來表示動(dòng)作或狀態(tài),它是對(duì)事物采取的動(dòng)作的直接體現(xiàn)。這些詞在輿情分析中就顯得尤為重要。

        二、文檔特征的提取

        一個(gè)網(wǎng)頁的文本通過分詞后會(huì)有成百上千個(gè)中文詞匯,如果直接對(duì)其分類會(huì)影響分類的效率和準(zhǔn)確性。因此,在分類前要去除一些無關(guān)的詞語,留下最能代表文檔特征的一些分詞作為文檔的特征。文檔特征提取最主要的方法是把文檔的內(nèi)容和詞頻進(jìn)行結(jié)合。

        文檔特征提取的是在不損傷文本核心信息的情況下盡量減少要處理的單詞數(shù),從而降低向量空間維數(shù)。其中最重要的方法是分析詞頻。其基本原理是一個(gè)詞在一個(gè)文本中出現(xiàn)的次數(shù)越多,通常它在文本中就越重要。因此,可以計(jì)算詞在文檔中出現(xiàn)的概率即詞頻,來對(duì)文檔的特征進(jìn)行提取。另外,如果一個(gè)詞在很多的文檔中出現(xiàn),表明它在該文檔中的重要性越低,這個(gè)詞就不能代表該文檔的特征,文檔的貢獻(xiàn)度應(yīng)該就越小,也就是通過這個(gè)詞來區(qū)分文檔的區(qū)分度越小,可以用逆文檔頻率(idf)來度量詞在該文檔中的重要性。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對(duì)數(shù)得到。

        設(shè)文檔d中詞w出現(xiàn)次數(shù)為count(w, d),文檔d中總詞數(shù)為size(d),則詞w在文檔d中的詞頻tf由下式計(jì)算。

        即tf(w,d) = count(w, d) / size(d)。

        詞w在整個(gè)文檔中的逆向詞頻idf為文檔總數(shù)n與詞w所出現(xiàn)文檔數(shù)docs(w,d)比值的對(duì)數(shù)。

        即idf = log(n / docs(w,d))。

        如果要對(duì)逆向詞頻歸一化可以采用如下的公式:

        idf = log((n+0.5) / docs(w,d))/log(n+1)

        tf-idf模型根據(jù)tf和idf為每一個(gè)文檔d和由關(guān)鍵詞w[1]...w[k]組成的查詢串q計(jì)算一個(gè)權(quán)值,用于表示查詢串q與文檔d的匹配度

        tf-idf(q, d)

        = sum { i = 1...k | tf-idf(w[i],d) }

        = sum { i = 1...k | tf(w[i],d) * idf(w[i])}

        三、文檔特征的分類

        文本特征的分類是在事先確定的分類標(biāo)準(zhǔn)下,根據(jù)文本的內(nèi)容確定待分類的文本已知文本之間的類型關(guān)聯(lián)。它和普通的數(shù)據(jù)分類方法是一致的,原則上現(xiàn)有的數(shù)據(jù)分類方法都可以實(shí)現(xiàn)這一功能。這一具體過程主要包括輸入訓(xùn)練和分類兩個(gè)步驟,對(duì)應(yīng)的數(shù)據(jù)庫包括訓(xùn)練數(shù)據(jù)庫和檢測(cè)數(shù)據(jù)庫。訓(xùn)練數(shù)據(jù)庫為帶有分類標(biāo)記的n個(gè)特征的若干個(gè)向量X組成的集合, x=(w1,... wi ...,wn,y),其中 wi 是文檔向量的一個(gè)特征,y為該文檔的分類標(biāo)記。檢測(cè)數(shù)據(jù)庫同樣是帶有n個(gè)特征的若干個(gè)向量X組成的集合只是缺少分類標(biāo)記。輸出數(shù)據(jù)為標(biāo)記號(hào)的集合即檢測(cè)數(shù)據(jù)的分類標(biāo)記。本文采用SVM分類方法對(duì)文本分類,對(duì)于一組訓(xùn)練數(shù)據(jù) x=(w1,... wi ...,wn,y),在線性可分的情況下會(huì)有一個(gè)超平面,將這兩類樣本完全分開,并且離超平面最近的向量與超平面之間的距離最大。

        四、實(shí)驗(yàn)與分析

        本實(shí)驗(yàn)數(shù)據(jù)來源于天涯社區(qū),它主要通過論壇、博客、微博為基礎(chǔ)提供一系列網(wǎng)友和網(wǎng)站之間,網(wǎng)友和網(wǎng)友之間互動(dòng)的虛擬綜合平臺(tái)。網(wǎng)友通過在其中發(fā)各種帖子能發(fā)表對(duì)各種事件的看法。實(shí)驗(yàn)中數(shù)據(jù)是從中獲取的1500個(gè)帖子,其中1200個(gè)帖子作為訓(xùn)練數(shù)據(jù),另外300個(gè)帖子作為測(cè)試數(shù)據(jù)。這1500個(gè)帖子包含六個(gè)話題,即經(jīng)濟(jì)、房產(chǎn)、體育、軍事、時(shí)尚和汽車,每個(gè)帖子均帶有話題類型的標(biāo)記以方便訓(xùn)練和測(cè)試。實(shí)驗(yàn)中采用SVM分類方法對(duì)文本進(jìn)行分類。

        在信息檢索中通常采用召回率和精度衡量分類系統(tǒng)對(duì)數(shù)據(jù)分類的能力。召回率是檢索出的某一類型的文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率,它表明該文檔類型的查全率。精度即正確率是在所有相關(guān)話題文檔中,檢索到的正確分類文檔所占的比例,它表示分類的準(zhǔn)確程度。上述六類文檔分類的召回率和精度如下表所示。

        五、結(jié)束語

        綜上所述,網(wǎng)絡(luò)輿情的分析在維護(hù)互聯(lián)網(wǎng)安全方面起到了重要的作用,通過網(wǎng)絡(luò)輿情分析挖掘網(wǎng)民所關(guān)心的熱點(diǎn)問題,發(fā)現(xiàn)其中的意見領(lǐng)袖,對(duì)網(wǎng)絡(luò)輿情進(jìn)行正確的引導(dǎo)是工作的重點(diǎn)。同時(shí)要根據(jù)這些數(shù)據(jù)的實(shí)際情況,采用高效的算法保證輿情分析具有較快的響應(yīng)速度和較低的誤報(bào)率。

        參考文獻(xiàn):

        [1]夏火松,甄化春.大數(shù)據(jù)環(huán)境下輿情分析與決策支持研究文獻(xiàn)綜述[J].情報(bào)雜志,2015,34(2):1-5.

        [2]江華麗.中文分詞算法研究與分析 [J]. 物聯(lián)網(wǎng)技術(shù),2016(1):87-89.

        [3]張鵬高,畢 曦.基于大數(shù)據(jù)的教育網(wǎng)絡(luò)輿情監(jiān)控與分析[J].中國(guó)教育信息化,2015(15):7-9.

        猜你喜歡
        統(tǒng)計(jì)方法大數(shù)據(jù)分析網(wǎng)絡(luò)輿情
        面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
        面向大數(shù)據(jù)分析的信息管理實(shí)踐教學(xué)體系構(gòu)建
        傳媒變局中的人口電視欄目困境與創(chuàng)新
        科技傳播(2016年19期)2016-12-27 14:35:21
        大數(shù)據(jù)分析的移動(dòng)端在網(wǎng)絡(luò)課堂教學(xué)中的應(yīng)用
        “互聯(lián)網(wǎng)+”背景下高校平安校園建設(shè)研究
        漢語詞匯研究中的統(tǒng)計(jì)方法述評(píng)
        文教資料(2016年19期)2016-11-07 06:59:27
        統(tǒng)計(jì)方法的改革與創(chuàng)新分析
        淺析網(wǎng)絡(luò)輿情治理
        基于社會(huì)穩(wěn)定視角的網(wǎng)絡(luò)輿情預(yù)警機(jī)制構(gòu)建的思考
        今傳媒(2016年9期)2016-10-15 22:02:52
        突發(fā)事件網(wǎng)絡(luò)輿情的演化規(guī)律與監(jiān)控
        99热久久这里只精品国产www| 国产最新地址| 欧美日韩中文字幕日韩欧美| 亚洲AV无码国产成人久久强迫| 国产成人永久在线播放| 麻豆三级视频网站在线观看| 日韩麻豆视频在线观看| 国产太嫩了在线观看| 国产95在线 | 欧美| 免费一级欧美大片久久网| 99久久久69精品一区二区三区 | 无遮挡很爽很污很黄的女同| 成人无码α片在线观看不卡| 自拍偷拍亚洲一区| 亚洲全国最大的人成网站| 日韩亚洲中文有码视频| 乌克兰粉嫩xxx极品hd| 久久天天躁狠狠躁夜夜96流白浆| 国产美女在线一区二区三区| 日本少妇比比中文字幕| 91色区在线免费观看国产| 国产精品无码久久综合网| 精品欧美一区二区在线观看 | 肥老熟妇伦子伦456视频| 午夜福利一区二区三区在线观看| 看黄网站在线| 日韩一区二区,亚洲一区二区视频| 黑人老外3p爽粗大免费看视频| 亚洲熟女乱色综合亚洲图片| 在线看亚洲十八禁网站| 加勒比东京热久久综合| 国产在线精品成人一区二区三区 | 老熟妇嗷嗷叫91九色| 国产69久久精品成人看| 国产微拍精品一区二区| 日本护士一区二区三区高清热线| 亚洲国产精品成人av网| 天天天天躁天天爱天天碰| 欧美末成年videos在线观看| 亚洲欧美在线视频| 日韩极品在线观看视频|