亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        統(tǒng)計(jì)學(xué)最近鄰分類方法在網(wǎng)絡(luò)輿情分析中的運(yùn)用

        2017-02-16 13:18:09常璟瑄
        文理導(dǎo)航 2017年2期
        關(guān)鍵詞:統(tǒng)計(jì)方法網(wǎng)絡(luò)輿情

        常璟瑄

        【摘 要】隨著計(jì)算機(jī)網(wǎng)絡(luò)的迅速發(fā)展,生活中發(fā)生的突發(fā)事件通過(guò)網(wǎng)絡(luò)瞬間傳播和擴(kuò)散,這些帶有傾向性的網(wǎng)絡(luò)信息即網(wǎng)絡(luò)輿情迅速成為人們談?wù)摰慕裹c(diǎn)。怎樣對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析和正確的引導(dǎo)成為網(wǎng)絡(luò)安全領(lǐng)域一個(gè)新的熱點(diǎn)問(wèn)題。文章通過(guò)采用統(tǒng)計(jì)方法對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析,對(duì)網(wǎng)絡(luò)輿情進(jìn)行分類處理,從而發(fā)掘網(wǎng)絡(luò)輿情中新的熱點(diǎn)問(wèn)題。由于分類算法采用分類統(tǒng)計(jì)技術(shù)簡(jiǎn)單、高效從而保證了分析的準(zhǔn)確性和即時(shí)性。

        【關(guān)鍵詞】網(wǎng)絡(luò)輿情;最近鄰分類;統(tǒng)計(jì)方法

        導(dǎo)語(yǔ)

        隨著互聯(lián)網(wǎng)的迅猛發(fā)展,網(wǎng)絡(luò)成為全社會(huì)所有人發(fā)表和傳播自己言論的場(chǎng)所,生活中的突發(fā)事件在網(wǎng)絡(luò)中被迅速傳播,其中對(duì)突發(fā)事件的評(píng)論有相當(dāng)一部分言論被各種政治團(tuán)體和敵對(duì)勢(shì)力所控制,通過(guò)錯(cuò)誤的言論控制人們的思想,因此,對(duì)網(wǎng)絡(luò)中這些熱點(diǎn)通過(guò)計(jì)算機(jī)進(jìn)行分析、發(fā)掘并進(jìn)行正確的引導(dǎo)是目前網(wǎng)絡(luò)輿情中需亟待解決的問(wèn)題。網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)通常采用復(fù)雜的機(jī)器學(xué)習(xí)技術(shù)對(duì)輿情中的話題進(jìn)行分類,由于算法的復(fù)雜性速度較慢,文章通過(guò)把數(shù)學(xué)統(tǒng)計(jì)學(xué)中的距離運(yùn)算引入到輿情分析,采用最近鄰分類方法對(duì)輿情進(jìn)行分類,解決了分類的實(shí)時(shí)性,從而提高輿情檢測(cè)的實(shí)用性。

        1.輿情數(shù)據(jù)的提取

        網(wǎng)絡(luò)輿情文本的提取一般通過(guò)爬蟲實(shí)現(xiàn)。網(wǎng)絡(luò)爬蟲會(huì)選取一些備用的網(wǎng)址并把它們放入要抓取的網(wǎng)址隊(duì)列中,通過(guò)域名解析得到對(duì)方的ip并將網(wǎng)頁(yè)保存到下載網(wǎng)頁(yè)庫(kù)中。爬蟲通過(guò)分析已抓取網(wǎng)頁(yè)的各種鏈接通過(guò)一定的抓取策略一個(gè)鏈接一個(gè)鏈接抓取下去,直到達(dá)到系統(tǒng)的某些條件時(shí)才停止下來(lái)。

        2.輿情數(shù)據(jù)的預(yù)處理

        網(wǎng)絡(luò)輿情數(shù)據(jù)的預(yù)處理包括背景噪聲的去除,中文的分詞,詞性的標(biāo)注和停頓詞的去除等幾個(gè)步驟。

        被抓取后的網(wǎng)頁(yè)除網(wǎng)頁(yè)本身的信息外還有一些和網(wǎng)頁(yè)無(wú)關(guān)的內(nèi)容,如各種廣告、游戲等內(nèi)容。這些內(nèi)容往往與網(wǎng)頁(yè)本身無(wú)關(guān),如果拿來(lái)分析會(huì)降低輿情分析的準(zhǔn)確率,因此要去除這部分內(nèi)容。廣告、游戲這些背景噪聲往往會(huì)鏈接到多個(gè)頁(yè)面,即多個(gè)頁(yè)面的鏈接出現(xiàn)的是同一個(gè)鏈接地址,因而,通過(guò)刪除這些重復(fù)的鏈接地址對(duì)應(yīng)的網(wǎng)頁(yè)即可消除背景噪聲對(duì)輿情分析的影響。

        中文分詞是把中文的一篇文章、一段文字或者一個(gè)語(yǔ)句分割為一個(gè)個(gè)單獨(dú)的詞。目前主流的分詞算法主要包括基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。主流的分詞工具包括中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS,該系統(tǒng)采用多層隱馬爾可夫模型實(shí)現(xiàn)中文的分詞、詞性標(biāo)注和新詞識(shí)別等功能。其詞典除自帶的以外還可按用戶的要求進(jìn)行手動(dòng)的更新因而使用十分方便。CSW中文智能分詞DLL組件則可講一段文本自動(dòng)的按常規(guī)漢語(yǔ)詞組進(jìn)行拆分,并以指定方式進(jìn)行分隔,且可對(duì)其拆分后的詞組進(jìn)行語(yǔ)義、詞性和詞頻標(biāo)注。

        中文分詞的詞性主要包括名詞、動(dòng)詞、形容詞和副詞等,其中的形容詞和副詞往往表示作者的情感取向和對(duì)某個(gè)事件的善惡態(tài)度因而它們決定了作者對(duì)輿情的價(jià)值取向,其中的動(dòng)詞往往表示作者的動(dòng)作和采取的行動(dòng),是作者情感對(duì)外直接的體現(xiàn),因而這些分詞對(duì)輿情的分析是非常重要的。

        停頓詞是指詞本身無(wú)明顯詞意與文本的內(nèi)容無(wú)太多關(guān)系的詞。絕大部分的助詞如“的”,“地”,“得”等屬于這一類。這些詞在文本中出現(xiàn)的頻率很高,對(duì)輿情分析的準(zhǔn)確率存在較大的影響,因此在網(wǎng)絡(luò)輿情數(shù)據(jù)的預(yù)處理時(shí)要去除這些停頓詞。

        3.文檔特征的提取

        文檔特征的提取是中文分詞后提取最能代表文檔特征的一些分詞作為文檔的特征,這樣既減小了分類算法的計(jì)算數(shù)據(jù)量又能提高分類的準(zhǔn)確性。文檔特征的提取最本質(zhì)的方法是分析詞頻,因?yàn)樵~頻在很大程度上決定了作者的情感和態(tài)度,因此目前文檔特征提取的方法很大一部分是在分析詞頻的基礎(chǔ)上發(fā)展起來(lái)的。目前在文檔特征提取中常用的方法有信息增益法、期望交叉熵、互信息、χ2統(tǒng)計(jì)以及TF-IDF(詞頻-逆向文件頻率)分析方法。其中TF-IDF運(yùn)用最廣泛,TF—IDF算法的核心是統(tǒng)計(jì)詞頻并比較詞語(yǔ)在單個(gè)文檔和整個(gè)文檔之間出現(xiàn)頻率的差異,并認(rèn)為區(qū)分度最大的詞語(yǔ)是在單個(gè)文檔出現(xiàn)頻率較高而在所有文檔集合中出現(xiàn)的頻率較低。它將詞頻分為單個(gè)文檔中的詞頻和所有文檔中的逆向詞頻兩類,通過(guò)比較這兩類詞頻找出文檔的特征。其基本原理如下:

        設(shè)詞w在文檔d中的詞頻tf(Term Frequency),同時(shí)詞w在整個(gè)文檔中的逆向詞頻為idf 則詞頻tf 為詞w在文檔d中出現(xiàn)次數(shù)count(w, d)和文檔d中總詞數(shù)size(d)的比值。

        即tf(w,d)=count(w, d)/size(d)

        整個(gè)文檔中的逆向詞頻則為idf = log(n/docs(w,D))

        即為文檔總數(shù)n與詞w所出現(xiàn)文檔數(shù)docs(w,D)比值的對(duì)數(shù)。

        tf-idf模型根據(jù)tf和idf為每一個(gè)文檔d和由關(guān)鍵詞w[1]...w[k]組成的查詢串q計(jì)算一個(gè)權(quán)值,用于表示查詢串q與文檔d的匹配度

        tf-idf(q, d)

        =sum { i = 1..k | tf-idf(w[i], d) }

        =sum { i = 1..k | tf(w[i], d) * idf(w[i]) }

        4.文檔特征的分類

        文檔特征的分類是輿情分析的關(guān)鍵,它決定了輿情分析

        的準(zhǔn)確率和速度。本文采用最近鄰分類方法,解決了分類的實(shí)時(shí)性,從而提高輿情檢測(cè)的實(shí)用性。

        具體過(guò)程如下:

        (1)確定帶有分類類別的訓(xùn)練文檔集合N = ( x1,x2,… xn)

        (2) 計(jì)算待分類文檔到訓(xùn)練文檔xi中的距離D(x,xi)=‖x-xi‖其中距離的算法采用歐氏距離測(cè)量方法。

        (3)如果D(x,xk)=min D(x,xi) (i=1,2,3…n)且xk∈ωj ,則分類的結(jié)果為x∈ωj。

        5.實(shí)驗(yàn)分析

        為了檢測(cè)算法的性能抽取了天涯社區(qū)論壇中經(jīng)濟(jì)、軍事、社會(huì)時(shí)事、情感、娛樂(lè)五個(gè)話題的帖子作為訓(xùn)練數(shù)據(jù),其中每個(gè)話題抽取100個(gè)帖子共計(jì)500個(gè)帖子。測(cè)試文檔同樣來(lái)至于天涯社區(qū)論壇。隨機(jī)抽取的200個(gè)帖子包含經(jīng)濟(jì)、軍事、時(shí)事、情感、娛樂(lè)五個(gè)話題,每個(gè)話題均為40個(gè)帖子,采用文中的分類算法進(jìn)行分類,檢測(cè)它們的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果的分析采用召回率和精度兩個(gè)廣泛運(yùn)用于信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域的度量值。召回率是指檢索出的正確分類的相關(guān)話題文檔數(shù)和文檔庫(kù)中所有的相關(guān)話題數(shù)的比率。精度是檢索出的正確分類的相關(guān)話題文檔數(shù)與分類器分類出的相關(guān)話題文檔總數(shù)的比率。對(duì)這五類話題測(cè)試的結(jié)果如表1所示。

        從表1可以看出采用本文的文本特征提取和話題分類方法結(jié)果令人滿意,由于采用的方法簡(jiǎn)單因而系統(tǒng)的檢測(cè)時(shí)間不長(zhǎng),效率較高。

        6.結(jié)束語(yǔ)

        隨著網(wǎng)絡(luò)的迅猛發(fā)展,輿情監(jiān)測(cè)已經(jīng)成為目前網(wǎng)絡(luò)安全中的重要工作,對(duì)輿情進(jìn)行分類,有利于發(fā)掘熱點(diǎn)輿情,為網(wǎng)絡(luò)的監(jiān)控提供可靠的保證。面對(duì)海量的數(shù)據(jù),準(zhǔn)確而高效的方法顯得尤為重要,因而輿情監(jiān)測(cè)的方向是采用多種科學(xué)的方法保證監(jiān)測(cè)具有較快的響應(yīng)速度和較低的誤報(bào)率。

        【參考文獻(xiàn)】

        [1]毛先領(lǐng),何靖,閆宏飛.網(wǎng)頁(yè)去噪:研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2010.47(12):2025-2036

        [2]郭艷華,周昌樂(lè).自然語(yǔ)言理解研究綜述[J].杭州電子工業(yè)學(xué)院學(xué)報(bào),2000.20(1):58-65

        猜你喜歡
        統(tǒng)計(jì)方法網(wǎng)絡(luò)輿情
        網(wǎng)絡(luò)輿情事件的引導(dǎo)策略分析
        數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情管理中的研究
        “互聯(lián)網(wǎng)+”背景下高校平安校園建設(shè)研究
        漢語(yǔ)詞匯研究中的統(tǒng)計(jì)方法述評(píng)
        文教資料(2016年19期)2016-11-07 06:59:27
        統(tǒng)計(jì)方法的改革與創(chuàng)新分析
        淺析網(wǎng)絡(luò)輿情治理
        基于社會(huì)穩(wěn)定視角的網(wǎng)絡(luò)輿情預(yù)警機(jī)制構(gòu)建的思考
        今傳媒(2016年9期)2016-10-15 22:02:52
        突發(fā)事件網(wǎng)絡(luò)輿情的演化規(guī)律與監(jiān)控
        統(tǒng)計(jì)方法在企業(yè)財(cái)務(wù)分析中的應(yīng)用
        財(cái)稅管理中的統(tǒng)計(jì)創(chuàng)新研究
        商(2016年22期)2016-07-08 17:08:09
        日本在线一区二区三区视频| 日韩精品一区二区三区免费视频 | 男女性杂交内射妇女bbwxz| 国产成人一区二区三区影院动漫| а中文在线天堂| 经典女同一区二区三区| 日韩极品在线观看视频| 欧美巨鞭大战丰满少妇 | 丰满熟女人妻中文字幕免费| 国产欧美另类精品久久久| 国产精品一区二区三区蜜臀 | 成年人观看视频在线播放| 国产免费一区二区三区免费视频 | 亚洲香蕉成人av网站在线观看| 久久精品无码专区免费青青| 日本熟妇hd8ex视频| 亚洲国产天堂av成人在线播放| 蜜桃av噜噜一区二区三区9| 国产一区二区三区在线电影| 欧美性xxxx狂欢老少配| 久久婷婷国产综合精品| 久久综合激情的五月天| 很黄很色很污18禁免费| 午夜成人无码福利免费视频| 亚洲乱码少妇中文字幕| 女同重口味一区二区在线| 一区二区三区美女免费视频| 国产成人亚洲综合色婷婷| 囯产精品无码va一区二区| 亚洲最黄视频一区二区| 中文字幕在线看精品乱码| 亚洲性无码一区二区三区| 97人人超碰国产精品最新o| 人妻少妇精品一区二区三区| 久久精品亚洲精品国产区| 国模冰莲极品自慰人体| 波多野结衣一区二区三区高清| 国产强伦姧在线观看| 国产午夜精品视频观看| 亚洲国产精彩中文乱码av| 欧美丰满大屁股ass|