亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于微博短文本的大數(shù)據(jù)分析方法探索與研究

        2018-05-21 08:35:55宋嘯天姚家偉
        江蘇通信 2018年1期
        關(guān)鍵詞:表情符號(hào)主題詞分詞

        宋嘯天 姚家偉

        鎮(zhèn)江市人民檢察院

        0 引言

        中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Network Information Center,CNNIC)在2017年1月發(fā)布了第39次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,其中指出截至2016年12月,我國(guó)網(wǎng)民規(guī)模達(dá)7.31億,手機(jī)網(wǎng)民規(guī)模達(dá)6.95億,占比達(dá)95.1%,增長(zhǎng)率連續(xù)3年超過(guò)10%。2017年5月,新浪微博發(fā)布2017年第一季度財(cái)報(bào),截至3月31日,微博月活躍用戶(hù)達(dá)3.4億,位居世界第一。

        國(guó)內(nèi)在大數(shù)據(jù)分析領(lǐng)域的研究起步較晚,但是發(fā)展較快。中國(guó)社科院、人民日?qǐng)?bào)社和國(guó)內(nèi)多所大學(xué)于2006年就開(kāi)始了相關(guān)研究,此外國(guó)內(nèi)還有諸如中科點(diǎn)擊(北京)科技有限公司的軍犬網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)、紅麥聚信(北京)軟件技術(shù)有限公司的unotice輿情系統(tǒng)、南京綠色科技研究院的CCLA網(wǎng)絡(luò)輿情分析系統(tǒng)等多個(gè)輿情分析軟件,取得了較大的進(jìn)展。

        微博是一種兼具流行和新興的社交方式,由于微博短文本中的語(yǔ)言表達(dá)較口語(yǔ)化,同時(shí)由于“未登錄詞”(沒(méi)有被收錄在分詞詞表中但必須切分出來(lái)的詞,如縮寫(xiě)詞匯、專(zhuān)有名詞、新增詞等)的存在,導(dǎo)致大數(shù)據(jù)分析的難度較大。本文針對(duì)以上問(wèn)題,首先對(duì)需要進(jìn)行預(yù)處理的微博文本內(nèi)容進(jìn)行了闡述,隨后提出了一種基于“未登錄詞”的識(shí)別算法,并設(shè)計(jì)了面向微博短文本的聚類(lèi)整合算法。

        1 微博短文本預(yù)處理

        短文本通常具有錯(cuò)誤性大、時(shí)效性強(qiáng)、信息量少、詞語(yǔ)更新頻率快等特點(diǎn)。微博短文本除了具備以上共性特點(diǎn)外,還具備有語(yǔ)言符號(hào)化(以符號(hào)代替文字)、互動(dòng)性強(qiáng)、詞語(yǔ)省略等特點(diǎn)。所以,為了進(jìn)行微博短文本大數(shù)據(jù)的有效分析,需要首先對(duì)文本內(nèi)容進(jìn)行處理,處理流程如圖1所示。

        圖1 微博短文本預(yù)處理流程示意圖

        (1)標(biāo)點(diǎn)符號(hào)

        在傳統(tǒng)的中文分詞方法中,會(huì)自動(dòng)刪除標(biāo)點(diǎn)符號(hào)后利用詞庫(kù)分詞。但是微博短文本與傳統(tǒng)文本不同,標(biāo)點(diǎn)符號(hào)往往摻雜著作者的情感要素,需要單獨(dú)進(jìn)行處理。例如:“?”一般表示疑惑或者疑問(wèn),“?!币话惚硎緹o(wú)感情的稱(chēng)述,“!”一般表示語(yǔ)氣加重或者驚訝。

        (2)無(wú)用詞

        在一篇微博短文本中,會(huì)出現(xiàn)一些沒(méi)有任何明確意義和具體含義的詞語(yǔ),本文將此類(lèi)詞語(yǔ)稱(chēng)為無(wú)用詞。由于無(wú)用詞的存在會(huì)極大的影響文本分析的效率和準(zhǔn)確率,因此應(yīng)當(dāng)在預(yù)處理過(guò)程中對(duì)無(wú)用詞進(jìn)行提取并刪除。無(wú)用詞主要包含亂碼、錯(cuò)誤詞匯等。

        (3)表情符號(hào)

        微博官方為了豐富交互的多樣性,加入了大量的表情符號(hào),這些表情符號(hào)有時(shí)甚至可以表達(dá)作者一整句話(huà)的內(nèi)涵。在微博的文本數(shù)據(jù)中,表情符號(hào)位于<img>標(biāo)簽的“title”屬性之中,且這些表情符號(hào)也有對(duì)應(yīng)的文字表示,例如:用“[doge]”表示,用“[攤手]”表示。為了更加精確的進(jìn)行微博短文本的處理,也需要將相關(guān)的表情符號(hào)單獨(dú)抽取出來(lái)進(jìn)行隱藏價(jià)值的分析。

        (4)特殊符號(hào)

        在微博的短文本制作過(guò)程中,可以用到“@”和“##”這兩個(gè)基本功能。其中,“@”表示作者希望位于“@”字符后的用戶(hù)關(guān)注此條微博內(nèi)容,“##”中間的詞語(yǔ)表示一個(gè)話(huà)題。由于“@”和“##”關(guān)聯(lián)的詞語(yǔ)無(wú)需進(jìn)行詞義分離,所以在分詞前應(yīng)將對(duì)應(yīng)內(nèi)容提取出來(lái),并在后期整理時(shí)參與文本分析。

        但是,微博的詞語(yǔ)更新頻率較快,目前大多數(shù)分詞系統(tǒng)的詞庫(kù)無(wú)法做到100%的未登錄詞識(shí)別,這就導(dǎo)致分詞結(jié)果正確率會(huì)隨著未登錄詞占比的上升而下降。所以,本文針對(duì)微博短文的未登錄詞提出了一種智能的識(shí)別算法。

        2 微博未登錄詞的識(shí)別算法研究

        目前常見(jiàn)的UW(Unknown Word,未登錄詞)算法主要是基于統(tǒng)計(jì)的CRF(Conditional Random Field,條件隨機(jī)場(chǎng))、SVM(Support Vector Machine,支持向量機(jī))等方法?;谟斜O(jiān)督方法的基本原理如下:

        (1)對(duì)比模型和樣本參數(shù)提取新詞,如HMM(Hidden Markov Model,隱馬爾可夫模型)和VA(Viterbi Algorithm,維特比算法);

        (2)統(tǒng)計(jì)涉及新詞的詞句出現(xiàn)次數(shù),并根據(jù)閾值判斷新詞的使用程度,如獨(dú)立字概率方法。

        而無(wú)監(jiān)督方法是當(dāng)循環(huán)統(tǒng)計(jì)中發(fā)現(xiàn)新詞的重復(fù)次數(shù)大于實(shí)驗(yàn)計(jì)算得出的標(biāo)準(zhǔn)值時(shí),則將新詞確認(rèn)為UW。

        兩種方法的挖掘過(guò)程如圖2所示。

        圖2 UW挖掘方法圖

        在分析微博短文本的特點(diǎn)時(shí),可以直接提取“##”和“【】”中間的文本(話(huà)題文本)。微博正文則采用文本分詞法進(jìn)行劃分處理,UW的確認(rèn)步驟可簡(jiǎn)單的分為以下三步:

        (1)確認(rèn)候選詞;

        (2)通過(guò)計(jì)算MI(Mutual Information,互信息)方法篩選候選詞;

        (3)確認(rèn)UW。

        具體流程如圖3所示。

        圖3 UW識(shí)別算法流程示意圖

        其中,N-Gram是指一種N元的切詞方法,即將字符串分割為長(zhǎng)度為 N ( 2 ≤ N ≤ 5 ) 的子串,并得到分割詞匯,隨后通過(guò)篩選確認(rèn)較為重要的詞匯,最后在篩選詞中確認(rèn)候選詞。差異項(xiàng)的刪除過(guò)程可分為以下十步:

        (1)匹配詞庫(kù)和切詞的結(jié)果;

        (2)刪除已存在詞匯;

        (3)刪除 H _ S T R 中 不存在于 B D _ S T R 中的詞匯;

        (4)詞典遍歷;

        (5)刪除舊詞;

        (6)計(jì)算候選詞出現(xiàn)頻率;

        (7)刪除出現(xiàn)頻率低于標(biāo)準(zhǔn)值的詞匯;

        (8)利用MI技術(shù)和AS(Adjacent String,相鄰串)過(guò)濾候選詞;

        (9)當(dāng)詞匯間包含PS(Public String,公共字串),例如“檢察機(jī)關(guān)公訴”和“察機(jī)關(guān)公訴處”,將以上兩個(gè)詞匯分別記做 A和 B,當(dāng)頻率計(jì)算時(shí)發(fā)現(xiàn) 和 均存在且頻率相同,則將A和B進(jìn)行組合為聯(lián)合詞匯 AB,即“檢察機(jī)關(guān)公訴處”,反之則刪除頻率詞匯;

        (10)利用MI技術(shù)計(jì)算AB能否構(gòu)成UW。

        當(dāng)算法的過(guò)濾層次越高時(shí),UW的識(shí)別準(zhǔn)確率也越高。當(dāng)詞庫(kù)本身不健全或是判斷范圍沒(méi)有覆蓋短文本全部?jī)?nèi)容時(shí),將導(dǎo)致識(shí)別準(zhǔn)確率有一定幅度的下降,但是本文提出的算法在計(jì)算速度和準(zhǔn)確率上仍有較好的保證。

        3 面向微博短文本的聚類(lèi)整合算法

        在微博短文本大數(shù)據(jù)分析的框架體系內(nèi),文本聚類(lèi)是其中的一項(xiàng)基礎(chǔ)工作。微博短文本信息主題分散、長(zhǎng)度不一、沒(méi)有較為顯著的共性規(guī)律。為了在這些大量錯(cuò)綜復(fù)雜的文本信息中挖掘出具備價(jià)值的內(nèi)容,是聚類(lèi)算法需要參與其中的主要因素之一。

        傳統(tǒng)的基于文檔主題生成模型(Latent Dirichlet Allocation,LDA)的K-MEANS算法可用于對(duì)文本模型進(jìn)行聚類(lèi)計(jì)算,算法框架如圖4所示。

        圖4 LDA-K-MEANS算法框架示意圖

        由于該算法的初始中心是通過(guò)隨機(jī)或主觀(guān)經(jīng)驗(yàn)的方法進(jìn)行設(shè)定,所以容易過(guò)早收斂,導(dǎo)致局部最優(yōu);并且該算法在分析詞匯間語(yǔ)義時(shí)會(huì)進(jìn)行降維處理,這就使得文本的完整性受到影響。對(duì)此,本文設(shè)計(jì)了一種新型的面向微博短文本的聚類(lèi)整合算法。主要從以下兩點(diǎn)進(jìn)行調(diào)整:

        (1)調(diào)整初始中心

        為了改進(jìn)傳統(tǒng)K-MEANS聚類(lèi)算法初始中心選取客觀(guān)性較弱的問(wèn)題,本文采取概率論理念對(duì)其加以改進(jìn)。在調(diào)整后的初始中心選取算法中,本文將數(shù)據(jù)文本的相關(guān)主題內(nèi)容表示為對(duì)應(yīng)的關(guān)系矩陣,不同的主題對(duì)應(yīng)的重要度也各不相同,重要度越高的主題越能反映文本的核心內(nèi)涵。該算法主要可分為以下三步:

        1)選取重要程度和關(guān)聯(lián)程度較高的主題;2)根據(jù)主題詞進(jìn)行文本內(nèi)容預(yù)處理;

        3)獲取收斂中心并作為聚類(lèi)文本的初始中心。

        由于單一的主題詞沒(méi)有整體的評(píng)估價(jià)值,所以需要對(duì)主題詞的分布概率進(jìn)行總結(jié),并得出其在文本集合中的重要性。隨后對(duì)文本集合重要性由高至低排序并選取排名靠前的主題詞,運(yùn)用K-MEANS算法對(duì)文本集合進(jìn)行初始聚類(lèi),再計(jì)算被選取主題詞的相似度,得到對(duì)應(yīng)的中心點(diǎn),最后將這些中心點(diǎn)作為K-MEANS的初始中心點(diǎn)。

        (2)調(diào)整相似度算法

        傳統(tǒng)的K-MEANS算法中相似度的計(jì)算是基于“文本—主題”的語(yǔ)義關(guān)聯(lián)模型,但維度的降低將導(dǎo)致相似度的計(jì)算結(jié)果精確度較差。通過(guò)融合VSM(Vector Space Model,向量空間模型)的算法(L_VSM),可以在不損壞文本信息完整性的同時(shí)能夠在分析上挖掘出更深層次的關(guān)系,提升相似度算法準(zhǔn)確性。由于采取了線(xiàn)性融合的方式,使得其準(zhǔn)確率高于LDA算法和VSM算法,并且在計(jì)算過(guò)程中也保留了語(yǔ)義的關(guān)聯(lián)關(guān)系,使得面向微博短文本的聚類(lèi)整合算法準(zhǔn)確率較高、運(yùn)算速度較快。面向微博短文本的聚類(lèi)整合算法流程如圖5所示。

        圖5 面向微博短文本的聚類(lèi)整合算法流程示意圖

        通過(guò)后續(xù)的模擬仿真測(cè)試,本文提出的面向微博短文本的聚類(lèi)整合算法與LDA算法、VSM算法相比,其聚類(lèi)F-Measure值(一種評(píng)價(jià)分類(lèi)模型好壞的統(tǒng)計(jì)量)較高。初始中心杜絕了隨機(jī)選取過(guò)早收斂的問(wèn)題,符合微博短文本的實(shí)際分布情況。面向微博短文本的聚類(lèi)整合算法通過(guò)線(xiàn)性融合,在一定程度上緩解了LDA算法降維和VSM算法語(yǔ)義聯(lián)系弱帶來(lái)的影響,使得相似度計(jì)算的準(zhǔn)確率較高,有助于提升微博短文本的聚類(lèi)分析質(zhì)量及成效。

        4 結(jié)語(yǔ)

        互聯(lián)網(wǎng)大數(shù)據(jù)的分析系統(tǒng)在國(guó)內(nèi)外已經(jīng)得到了較為廣泛的應(yīng)用,但是如何針對(duì)微博短文本進(jìn)行縱深的大數(shù)據(jù)分析,以及如何將分析得出的內(nèi)容更加有效的在社會(huì)發(fā)展中發(fā)揮出應(yīng)有的作用,仍是我們需要繼續(xù)深入研究的工作。由于微博在社交元素中擁有典型性,其用戶(hù)群體之間的關(guān)系也是潛移默化、盤(pán)根錯(cuò)節(jié)的,本文將以此為切入點(diǎn),在后續(xù)的研究中繼續(xù)開(kāi)展深入分析。

        猜你喜歡
        表情符號(hào)主題詞分詞
        微信表情符號(hào)寫(xiě)入判決:你發(fā)的每個(gè)表情都可能成為呈堂證供
        結(jié)巴分詞在詞云中的應(yīng)用
        值得重視的分詞的特殊用法
        這個(gè)表情符號(hào),你用對(duì)了嗎
        大作文(2016年7期)2016-05-14 11:13:25
        表情符號(hào)玩上癮 時(shí)尚愛(ài)嘗鮮
        Coco薇(2015年10期)2015-10-19 01:01:58
        我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
        我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
        2014年第16卷第1~4期主題詞索引
        《疑難病雜志》2014年第13卷主題詞索引
        高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
        日本福利视频免费久久久 | 免费无码黄动漫在线观看| 日韩专区欧美专区| av黄片免费在线观看| 呦泬泬精品导航| 国产av在线观看91| 综合图区亚洲另类偷窥| 性激烈的欧美三级视频| 级毛片免费看无码| 国产精品午夜福利亚洲综合网| 亚洲成熟女人毛毛耸耸多| 国产97色在线 | 亚洲| 一本无码av一区二区三区| 中文片内射在线视频播放| 一 级做人爱全视频在线看| 50岁熟妇的呻吟声对白| 中文字幕一区二区三区人妻精品| 色婷婷久色国产成人免费| 亚洲线精品一区二区三区| 国产婷婷一区二区三区| 国产午夜亚洲精品一级在线| 中文字幕人妻互换激情| 韩国三级大全久久网站| 精品国产a∨无码一区二区三区| av熟女一区二区久久| 日本区一区二区三视频| 人妻少妇精品视频无码专区| 无码精品色午夜| 青青草手机在线免费视频| 成人内射国产免费观看| 亚洲人成网站在线观看播放| 伊人亚洲综合影院首页| 青青草免费手机直播视频| 亚洲av综合av成人小说| 爱a久久片| 免费一级a毛片在线播出| 国产一区二区在线免费视频观看| 天天综合网网欲色| 亚洲av无码国产剧情| 91免费国产高清在线| 国产一区二区长腿丝袜高跟鞋 |