亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于聚類(lèi)的熱詞發(fā)現(xiàn)與關(guān)聯(lián)分析

        2016-06-22 09:18:02羅旭歐陽(yáng)純萍劉志明南華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院衡陽(yáng)421000
        現(xiàn)代計(jì)算機(jī) 2016年14期
        關(guān)鍵詞:關(guān)聯(lián)文本

        羅旭,歐陽(yáng)純萍,劉志明(南華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,衡陽(yáng) 421000)

        ?

        基于聚類(lèi)的熱詞發(fā)現(xiàn)與關(guān)聯(lián)分析

        羅旭,歐陽(yáng)純萍,劉志明
        (南華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,衡陽(yáng)421000)

        摘要:

        關(guān)鍵詞:

        0 引言

        隨著互聯(lián)網(wǎng)的日益普及,網(wǎng)絡(luò)往往成為有影響力事件發(fā)布的第一平臺(tái),然而網(wǎng)絡(luò)上產(chǎn)生新聞的速度遠(yuǎn)遠(yuǎn)超過(guò)人所接受的程度,如果采用人工分檢的方法,肯定不能達(dá)到快速得知當(dāng)前互聯(lián)網(wǎng)的熱點(diǎn)信息。因此,對(duì)熱詞進(jìn)行快速識(shí)別,并對(duì)我們想要了解的熱詞加以關(guān)注,迅速分類(lèi)與這些熱詞相關(guān)的新聞,可以快速了解當(dāng)前輿情,及時(shí)對(duì)熱點(diǎn)信息作出處理。

        在新聞話(huà)題的發(fā)現(xiàn)技術(shù)中,聚類(lèi)算法應(yīng)用較廣。習(xí)婷等[1]將兩種聚類(lèi)算法Single-Pass和K-means進(jìn)行了比較,認(rèn)為K-means雖然錯(cuò)檢率和漏檢率較低,但具有需要預(yù)先制定聚類(lèi)數(shù)目和隨機(jī)初始化的缺點(diǎn)。王偉等[2]通過(guò)對(duì)樣本網(wǎng)頁(yè)文本的特征提取,構(gòu)建文本向量空間模型,使用OPT ICS聚類(lèi)算法獲取網(wǎng)頁(yè)熱點(diǎn)簇,并且為了更加精確,還根據(jù)熱點(diǎn)簇特征向量對(duì)網(wǎng)頁(yè)進(jìn)行二次聚類(lèi),從而獲取關(guān)于輿情的時(shí)間演變模式。袁方等[3]為了改善傳統(tǒng)K-means對(duì)初始聚類(lèi)中心敏感,計(jì)算每個(gè)數(shù)據(jù)對(duì)象所在區(qū)域的密度,選擇相互距離最遠(yuǎn)的k個(gè)處于高密度區(qū)域的點(diǎn)作為初始聚類(lèi)中心,得到較好的聚類(lèi)結(jié)果。

        在如何得到熱詞關(guān)聯(lián)關(guān)系中,李渝勤等[4]采用命名實(shí)體識(shí)別技術(shù)和高頻串統(tǒng)計(jì)技術(shù)進(jìn)行短語(yǔ)串的劃分,再進(jìn)行熱度權(quán)值的計(jì)算,通過(guò)同現(xiàn)率的原則確定熱詞類(lèi)之間的關(guān)聯(lián)計(jì)算。

        僅僅依靠同現(xiàn)率來(lái)確定熱詞類(lèi)之間的關(guān)聯(lián)度存在一定的局限性,熱詞的出現(xiàn)是成簇的出現(xiàn)的,因此本文將新聞話(huà)題與熱詞關(guān)聯(lián)結(jié)合起來(lái),選擇K-means聚類(lèi)算法得到話(huà)題,由話(huà)題得到相應(yīng)的熱詞類(lèi)簇,再由熱詞類(lèi)簇計(jì)算熱詞關(guān)聯(lián)度。較為有效地展現(xiàn)當(dāng)前的熱詞類(lèi)的分布以及熱詞之間的關(guān)系。

        1 熱詞發(fā)現(xiàn)系統(tǒng)功能及方案設(shè)計(jì)

        以“南華大學(xué)”為新聞?shì)浨楸O(jiān)測(cè)目標(biāo),具體提供熱詞統(tǒng)計(jì),展示熱詞關(guān)聯(lián)關(guān)系等功能。我們圍繞這些功能,主要完成以下工作:第一,將新聞從數(shù)據(jù)庫(kù)中提取并進(jìn)行分詞,以及去除停用詞等預(yù)處理;第二,在熱詞發(fā)現(xiàn)模塊,進(jìn)行tf-idf計(jì)算以構(gòu)建VSM模型,然后使用K-means聚類(lèi)算法對(duì)新聞進(jìn)行聚類(lèi),得到熱詞類(lèi)簇并進(jìn)行相應(yīng)處理;第三,計(jì)算熱詞關(guān)聯(lián)度,由聚類(lèi)得到的熱詞類(lèi)簇和新聞同現(xiàn)率等結(jié)合一塊得到熱詞關(guān)聯(lián)關(guān)系,最后進(jìn)行展示。具體步驟之間的聯(lián)系如圖1所示:

        圖1 熱詞發(fā)現(xiàn)與關(guān)聯(lián)分析框圖

        2 熱詞發(fā)現(xiàn)與關(guān)聯(lián)分析關(guān)鍵技術(shù)

        2.1VSM模型構(gòu)建

        在最開(kāi)始對(duì)新聞文本做分詞處理,采用開(kāi)源的Hanlp漢語(yǔ)言處理包中基于條件隨機(jī)場(chǎng)的分詞方法。在熱詞中,往往新詞出現(xiàn)的頻率較高,采用CRF分詞較為合理。

        要得到一篇文本的向量空間模型,首先得計(jì)算文本中每一個(gè)詞匯的權(quán)重大小。本文采用以TF-IDF值作為詞匯的權(quán)重值,首先計(jì)算加權(quán)詞頻因子tf,以計(jì)算詞匯在文本出現(xiàn)的頻率作為tf值。

        IDF逆向文件頻率是一個(gè)詞語(yǔ)普遍重要性的度量。某一特定詞語(yǔ)的IDF,可以由總文件數(shù)目除以包含該詞語(yǔ)的文件的數(shù)目,再將得到的商取對(duì)數(shù)得到:

        在此之上,結(jié)合了出現(xiàn)在文檔中不同位置的詞的特性[5],如meta中keyword、title和description等關(guān)鍵詞在文檔中的權(quán)重,因此tf值為

        f(t,body)表示是詞匯在文本正文中出現(xiàn),f(t,meta)則是在網(wǎng)頁(yè)的meta信息中出現(xiàn),f函數(shù)對(duì)應(yīng)各自詞匯的tf-idf值,w1,w2,w3是相應(yīng)的權(quán)重系數(shù)。

        在計(jì)算idf的過(guò)程,因?yàn)樾枰玫桨摦?dāng)前詞匯的文件的數(shù)目,需要多次遍歷計(jì)算,本系統(tǒng)因此做相應(yīng)的優(yōu)化,預(yù)處理各個(gè)詞匯的idf值,使得計(jì)算速度大大加快,算法復(fù)雜度由O(n2)降到O(nlogn)。

        接下來(lái)進(jìn)行特征選取,如果抽取所有文本詞匯作為文本特征向量集合,因?yàn)榉衷~之后的詞匯量極大,因此有必要對(duì)文本特征向量集合做降維處理,根據(jù)詞權(quán)值篩選出部分詞匯作為全局文本特征向量。最后就是建立每一篇文本新聞的向量空間模型,對(duì)應(yīng)每一篇文本新聞,將其自身的文本特種向量投影到全局文本特征向量,由此可得到向量空間模型。對(duì)于每個(gè)新聞文本i,設(shè)Ti為其特征向量,k(i,j)是全局特征向量中的詞,w (i,j)是其在當(dāng)前文本i中詞匯j對(duì)應(yīng)的特征權(quán)值,m為全局特征詞向量中的總個(gè)數(shù),文本可表示為T(mén)i=[(ki,1,wi,1),(ki,2,wi,2),(ki,3,wi,3),…,(ki,j,wi,j),…,(ki,m)]。

        因?yàn)楦鱾€(gè)詞匯的特征權(quán)值因?yàn)樾侣勎谋镜牟町悾瑫?huì)導(dǎo)致某些值過(guò)于太大或太小以至于某一維或某幾維對(duì)數(shù)據(jù)影響過(guò)大,因此對(duì)向量進(jìn)行歸一化處理,對(duì)于在特征向量中的每一個(gè)詞

        2.2話(huà)題聚類(lèi)

        聚類(lèi)可以認(rèn)為是非監(jiān)督學(xué)習(xí)中最重要的問(wèn)題。K-means算法基于目標(biāo)的特征將目標(biāo)分為K類(lèi),K為事先定義。基本思想就是定義K個(gè)中心,每一類(lèi)簇都有一個(gè)中心,類(lèi)簇里的物體是以計(jì)算相似度函數(shù)的大小為基準(zhǔn)相對(duì)靠近而聚集。

        算法步驟如下:預(yù)先定義K大小,隨機(jī)選擇K個(gè)文本向量作為中心,之后對(duì)于剩下的每一個(gè)文本,計(jì)算其到每一個(gè)類(lèi)簇中心的歐幾里得距離,并將其劃分到最近的類(lèi)簇中,遍歷分配完后,重新計(jì)算每個(gè)類(lèi)簇的中心,不斷循環(huán)直到1.聚類(lèi)中心不再移動(dòng)或者2.迭代次數(shù)達(dá)到指定次數(shù)。算法時(shí)間復(fù)雜度是O(K*N*T),k是中心個(gè)數(shù),N數(shù)據(jù)集的大小,T是迭代次數(shù)。

        在選取初始中心時(shí),算法對(duì)初始聚類(lèi)中心敏感,從不同的初始聚類(lèi)中心出發(fā),得到的聚類(lèi)結(jié)果也不一樣,并且一般不會(huì)得到全局最優(yōu)解。本系統(tǒng)則采用取相互距離最遠(yuǎn)的k個(gè)點(diǎn)作為初始中心,消除算法對(duì)初始聚類(lèi)中心的敏感性,并能得到較好的聚類(lèi)結(jié)果[3]。

        對(duì)于文本相似度計(jì)算,采用了比較傳統(tǒng)的夾角余弦值計(jì)算各特征項(xiàng)之間的距離,并且同各個(gè)類(lèi)簇中心的值作比較,歸類(lèi)到一個(gè)和其相似度最大的類(lèi)簇。向量A與向量B的夾角余弦值如下計(jì)算:

        2.3熱詞關(guān)聯(lián)分析

        熱詞與熱詞之間是有聯(lián)系的,這一塊將之前話(huà)題聚類(lèi)得的話(huà)題進(jìn)一步處理,得到詞與詞之間,詞群與詞群之間的聯(lián)系。

        具體步驟如下:取SVM向量模型中的全局文本特征向量作為展示熱詞。聯(lián)系的表現(xiàn)形式為矩陣,兩兩之間有相應(yīng)對(duì)應(yīng)關(guān)系,關(guān)系權(quán)值即為熱詞的關(guān)聯(lián)度。矩陣由三個(gè)部分構(gòu)成,新聞同現(xiàn)率矩陣,類(lèi)別距離矩陣,熱詞同現(xiàn)矩陣。三個(gè)矩陣賦予相應(yīng)的權(quán)重系數(shù),進(jìn)行累加既可得到最終的熱詞關(guān)聯(lián)矩陣。

        (1)新聞同現(xiàn)率矩陣定義為任意兩個(gè)熱詞代表的新聞集合中重疊的大小。在之前的聚類(lèi)模塊中,可以得到每個(gè)熱詞具有的新聞集合,遍歷兩者既可得到相應(yīng)的重疊率。

        (2)類(lèi)別距離矩陣定義為由聚類(lèi)得到不同的詞群,詞群內(nèi)部的關(guān)聯(lián)度以及詞群與詞群的關(guān)聯(lián)度就是類(lèi)別距離矩陣。遍歷每一個(gè)類(lèi)簇中心,在這里稱(chēng)為詞群,得到中心權(quán)重向量,為不保證權(quán)重太大或太小,進(jìn)行歸一化處理。在這里,因?yàn)樵~與詞互相都有關(guān)聯(lián),矩陣將兩步處理,第一步,在同一個(gè)詞群里的詞匯,以權(quán)重最大的詞為中心點(diǎn),其他詞只與這個(gè)中心點(diǎn)形成關(guān)聯(lián),這樣形成一個(gè)星狀的發(fā)散結(jié)構(gòu),使得展示較為明晰。第二步,對(duì)于其它詞也就是其他詞群的詞,以較小權(quán)值向量作為關(guān)聯(lián)值。

        (3)熱詞同現(xiàn)矩陣定義為兩個(gè)熱詞在同一文章中出現(xiàn)的幾率。因此遍歷所有新聞查看是否有同時(shí)出現(xiàn)即可。

        最后,新聞同現(xiàn)率和熱詞同現(xiàn)矩陣都要進(jìn)行矩陣歸一化處理,要保證矩陣最后均要大于零,

        同時(shí)考慮到矩陣中大部分關(guān)聯(lián)值為零,歸一化反而使得這些值不為零,所以特殊化處理,不考慮這些零值。三者矩陣加權(quán)累加即可得到關(guān)聯(lián)矩陣。

        3 系統(tǒng)實(shí)現(xiàn)

        本系統(tǒng)以南華大學(xué)相關(guān)新聞為輿情監(jiān)測(cè)目標(biāo),因此采集的新聞也以南華大學(xué)新聞為主,選擇2015-08-28到2015-10-04之間新浪、騰訊、紅網(wǎng)、鳳凰等有關(guān)南華大學(xué)的298篇新聞。因?yàn)樾侣剚?lái)源廣泛,內(nèi)容復(fù)雜隨機(jī),可能會(huì)引入不相干的數(shù)據(jù)。因此,在分詞階段還要進(jìn)行相應(yīng)的過(guò)濾,去除與南華大學(xué)不相關(guān)的“香港《南華早報(bào)》”新聞,“臺(tái)灣南華大學(xué)”等,以及去除相應(yīng)的停留詞。

        得到所有新聞分詞后的詞匯后,對(duì)這些進(jìn)行tf-idf值計(jì)算,根據(jù)各個(gè)詞的tf-idf值進(jìn)行排序,篩選出10%的詞匯,去重,作為全局文本特征向量。其次建立VSM模型,例如隨機(jī)抽取一篇來(lái)自新浪的新聞“南華大學(xué)分專(zhuān)業(yè)靠抓鬮招生后細(xì)化專(zhuān)業(yè)如何分流?”,其部分特征向量權(quán)重值如表1所示。

        通過(guò)K-means獲得K個(gè)類(lèi)簇中心,這里預(yù)先指定k=5,從而聚類(lèi)獲得5個(gè)新聞熱點(diǎn)類(lèi)簇。具體如表二所示:

        表2 新聞熱點(diǎn)類(lèi)簇

        可以看到雖然新聞的熱點(diǎn)信息多樣化,但是聚類(lèi)還是能夠取得一個(gè)比較明顯的熱點(diǎn)區(qū)分。但是在各個(gè)熱點(diǎn)類(lèi)簇下還存在著很多與此熱點(diǎn)不相干的新聞,精度還需要有所提高。

        表1 新聞VSM模型

        在得到熱點(diǎn)類(lèi)簇后,要對(duì)熱詞進(jìn)行處理,添加熱詞的情感的褒貶程度以及敏感程度,進(jìn)而得到每個(gè)熱詞的熱度,并且根據(jù)類(lèi)簇添加與之相關(guān)的新聞。因在展示時(shí),熱詞不能太多,將全局特征詞按照熱詞熱度權(quán)值進(jìn)行過(guò)濾,只獲取1.5%的熱詞。由熱詞關(guān)聯(lián)度模塊得到關(guān)聯(lián)矩陣。進(jìn)行展示如圖2所示:

        圖2 熱詞關(guān)聯(lián)展示

        圖中關(guān)于“專(zhuān)業(yè)靠抓鬮”以及“海軍先進(jìn)事跡報(bào)告”的新聞熱詞較為集中,清晰地展現(xiàn)了兩個(gè)事件具有很高的熱度。根據(jù)圖中節(jié)點(diǎn)的大小來(lái)展示不同的熱度值,熱度越高的詞所在的節(jié)點(diǎn)面積將越大。例如,“專(zhuān)業(yè)”在這些新聞里具有極高熱度因此也是最為明顯的。但是不少的雜詞的混入以及詞匯的相對(duì)松散,導(dǎo)致其余熱詞事件不夠明顯。

        4 結(jié)語(yǔ)

        熱詞發(fā)現(xiàn)及關(guān)聯(lián)分析已經(jīng)被廣泛應(yīng)用,能夠較為清晰地反映當(dāng)前發(fā)生的新聞事件。本文提出把K-means聚類(lèi)算法得到的話(huà)題運(yùn)用到計(jì)算熱詞關(guān)聯(lián)度上,能夠有效地提供熱詞統(tǒng)計(jì),展示熱詞關(guān)聯(lián)關(guān)系。然而K-means聚類(lèi)算法具有必須預(yù)先指定K數(shù)目,才能進(jìn)行聚類(lèi)的缺陷。但在實(shí)際中,熱點(diǎn)數(shù)目往往是未知的,具有不確定性,因此可以考慮采用改進(jìn)的Single-Pass增量聚類(lèi)等算法替代K-means算法。另外,在熱詞選擇中,熱詞隨時(shí)間推移會(huì)出現(xiàn)突然的變化,即時(shí)間因子對(duì)于熱詞具有非常明顯的印象,因此下一步可以將時(shí)間因素考慮進(jìn)去。

        參考文獻(xiàn):

        [1]Ting,X.and L.Jufang,A Comparative Study between Single-Pass Algorithm and K-means Algorithm in Web Topic Detection.Atlantis Press,2014.

        [2]Wei,W.,X.Xin.基于聚類(lèi)的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)及分析*.現(xiàn)代圖書(shū)情報(bào)技術(shù),2009,3(3):74-79.

        [3]袁方,周志勇,宋鑫,初始聚類(lèi)中心優(yōu)化的K-means算法[J].計(jì)算機(jī)工程,2007,33(3):65-66.

        [4]李渝勤,孫麗華,面向互聯(lián)網(wǎng)輿情的熱詞分析技術(shù).中文信息學(xué)報(bào),2011,25(1):48-53.

        [5]GESANG,D.,et al..基于Single-Pass的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)算法.電子科技大學(xué)學(xué)報(bào),2015(4).

        Hot-Word Detection and Relations Analysis Based on Document Clustering

        LUO Xu,OUYANG Chun-ping,LIU Zhi-ming
        (School of Computer Science and Technology,University of South China,Hengyang 421000)

        Abstract:

        Proposes a method to discover hot-word relations based on topic clustering.For word discovering,vector space mode is built by extracting document features from news text,and the hot -spot cluster is achieved by K-means algorithm with ameliorated initial center.Up to the hot-word association,hot words relations are analyzed according to the weighted sum of three factors,which include the word category distance computed by the hot -spot cluster,the news co -occurrence rate and the hot words co-occurrence rate.This approach has been successfully applied to Public Opinion Monitoring System of University of South China and it obtains good results in practical operation.

        Keywords:

        提出一種將話(huà)題聚類(lèi)算法應(yīng)用到計(jì)算熱詞關(guān)聯(lián)度上的方法。在熱詞發(fā)現(xiàn)階段,通過(guò)對(duì)新聞文本的特征提取,構(gòu)建向量空間模型,采用初始聚類(lèi)中心優(yōu)化的K-means算法,獲取熱點(diǎn)簇;在關(guān)聯(lián)分析階段,先通過(guò)熱點(diǎn)簇計(jì)算詞類(lèi)別距離,再和新聞同現(xiàn)率,熱詞同現(xiàn)率加權(quán)累加,得到熱詞關(guān)聯(lián)度。該方法已成功應(yīng)用到南華大學(xué)輿情監(jiān)測(cè)系統(tǒng)中,并在實(shí)際運(yùn)行中獲得較好的效果。

        K-means;SVM;熱詞;詞群關(guān)系

        基金項(xiàng)目:

        湖南省哲學(xué)社會(huì)科學(xué)基金(No.14YBA335)

        文章編號(hào):1007-1423(2016)14-0056-05

        DOI:10.3969/j.issn.1007-1423.2016.14.012

        作者簡(jiǎn)介:

        羅旭(1993-),男,江蘇泰興人,本科,研究方向?yàn)樽匀徽Z(yǔ)言處理、數(shù)據(jù)挖掘

        歐陽(yáng)純萍(1979-),女,湖南衡陽(yáng)人,副教授,碩士生導(dǎo)師,研究方向?yàn)樽匀徽Z(yǔ)言處理、語(yǔ)義網(wǎng)

        劉志明(1972-),男,湖南瀏陽(yáng)人,教授,碩士生導(dǎo)師,研究方向?yàn)榇髷?shù)據(jù)分析、知識(shí)工程

        收稿日期:2016-03-25修稿日期:2016-04-30

        K-means Algorithm;SVM;Hot Words;Words Relationship

        猜你喜歡
        關(guān)聯(lián)文本
        不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
        “苦”的關(guān)聯(lián)
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        奇趣搭配
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        亚洲一区二区三区精品久久 | 国产性生交xxxxx无码| 欧美性狂猛xxxxx深喉| ZZIJZZIJ亚洲日本少妇| 天堂女人av一区二区| 色婷婷久久综合中文蜜桃| 国产精品久免费的黄网站| 亚洲av高清在线一区二区三区| 久久精品人人做人人爽| 亚洲国产另类久久久精品小说| 亚洲精品国产精品av| 精品一区二区av在线| 内射人妻少妇无码一本一道| 丰满少妇被猛烈进入| 亚洲精品中文字幕不卡在线| 亚洲一区域二区域三区域四| 亚洲人成人无码www| 中文字幕一区二区人妻| 97色噜噜| 亚洲一区二区丝袜美腿| 日韩少妇人妻中文字幕| 欧美性猛交xxxx乱大交3| 亚洲欧洲精品国产二码| 性色av一区二区三区四区久久| 亚洲第一幕一区二区三区在线观看| 亚洲精品美女久久777777| 破了亲妺妺的处免费视频国产| 97在线视频免费| av资源吧首页在线观看| 亚洲偷自拍国综合第一页| 国产美女自慰在线观看| 波多野结衣一区二区三区视频| 91青青草视频在线播放| 国产在线无码一区二区三区视频 | 97久久天天综合色天天综合色hd| 免费一区啪啪视频| 日韩一区二区中文字幕| 国产av无码专区亚洲精品| 色先锋av资源中文字幕| 香蕉国产人午夜视频在线观看 | a级毛片成人网站免费看|