亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于粒度商空間下的話題識別與跟蹤研究

        2019-12-03 16:06:06毛建景張君君
        計算機技術(shù)與發(fā)展 2019年7期
        關(guān)鍵詞:論域粒度文檔

        毛建景,張君君

        (鄭州工業(yè)應(yīng)用技術(shù)學(xué)院 信息工程學(xué)院,河南 鄭州 451150)

        0 引 言

        隨著網(wǎng)絡(luò)媒體技術(shù)的發(fā)展,大多社會熱點源于網(wǎng)絡(luò)輿論,對社會輿情的分析也從傳統(tǒng)的機械裝置逐漸過渡到網(wǎng)絡(luò)媒體,網(wǎng)絡(luò)輿情分析是社會輿情分析的重要途徑。

        如何挖掘出有效的社會熱點或敏感問題,以促進網(wǎng)絡(luò)監(jiān)管能力,就成為網(wǎng)絡(luò)輿情分析的主要研究內(nèi)容[1]。話題識別作為信息跟蹤與處理的主要研究技術(shù),其識別精度和準(zhǔn)確判斷直接影響識別效度。當(dāng)前,對話題識別的主要研究方式之一就是聚類分析。常用的聚類分析方法有劃分聚類法、密度聚類法、層次聚類法、網(wǎng)格聚類法、模型聚類法等。常用的聚類策略大多采用硬聚類,然而硬聚類過程容易造成話題結(jié)構(gòu)的混亂,降低了邊界文本識別度及準(zhǔn)確度。

        1 國內(nèi)外研究現(xiàn)狀及研究任務(wù)

        1.1 研究現(xiàn)狀

        話題識別與跟蹤技術(shù)作為輿情分析的主要技術(shù)[2],參與研究的技術(shù)人員越來越多,其研究范圍也從傳統(tǒng)的普通Web頁面,逐步擴展到微博、博客、新聞Web、Facebook、論壇等。由于媒體渠道不同,關(guān)于話題識別與跟蹤技術(shù)的研究方法也存在爭議。目前,國內(nèi)外都進行了大量的理論和實踐研究。例如,劉倩等對基于情感Ontology的資源分析,利用詞匯特征抽取的方式對文本的傾向性進行分析[3];史仁仁等提出了周期分類的概念,利用Single-Pass聚類算法,完成對網(wǎng)絡(luò)輿情的分析與研究;周丹晨采用WordNet,利用上下文本信息同時構(gòu)造設(shè)計出小靈通定位系統(tǒng)(LSC),基于該系統(tǒng)的文本信息描述采用單向路徑的聚類算法用以解決對新出現(xiàn)事件的檢測問題。

        1.2 研究任務(wù)

        文中以網(wǎng)絡(luò)話題識別研究為目的,采用軟聚類算法,首先計算出距離函數(shù)dis(α,β),并通過與半徑di的比較,在相容商空間粒度下,實現(xiàn)對文檔信息的反復(fù)分析、連續(xù)分解和不斷合成,以同步達到聚類重心點集合的形成;其次,利用基于隸屬度函數(shù)的容度決策理論,即函數(shù)μ(Xj,X)=|I(Xj)∩X|/I(Xj),測量出邊界文本發(fā)生的可能性概率,從而確認(rèn)具有明確話題標(biāo)注的信息[4]。通過該方法,可以實現(xiàn)對話題的識別、話題容錯、精度確認(rèn)及話題的跟蹤研究,也可有效解決細粒度劃分和情感分類等知識共享問題。這些研究在后續(xù)文本趨勢分析中有重要的理論意義和廣闊的應(yīng)用前景。

        1.3 話題識別與跟蹤技術(shù)概述

        (1)概念。話題識別與跟蹤(TDT),包括話題識別和跟蹤。該技術(shù)的出現(xiàn)源于網(wǎng)絡(luò)信息爆炸下衍生的新問題,目的是解決在線媒體信息流中對話題的識別和跟蹤問題[5]。(2)作用。該技術(shù)可以識別和跟蹤某一特定環(huán)境下發(fā)生的事情,更能拓展到相關(guān)外延事件,從而將話題識別與跟蹤的研究領(lǐng)域跨越到對突發(fā)事件甚至“未然態(tài)”信息的處理。與其相關(guān)的定義包括事件(Event)、活動(Activity)、話題(Topic)及報道。

        (3)任務(wù)。話題識別與跟蹤主要完成:對新聞報道的切分,也就是將稿件劃分成獨立模塊;對于第一次出現(xiàn)新的報道的識別;Story Link Detection,即關(guān)聯(lián)性檢測,主要目的是檢測兩篇報道是否屬于同一話題;對話題的跟蹤,抽取某一特征集以進行匹配為主要任務(wù)[6]。

        (4)評價。常用的評價形式有評估矩陣,以矩陣形式計算話題的查全率和召回率。

        召回率公式為:R=a/(a+c)

        其中,a是系統(tǒng)判定屬于話題;c是系統(tǒng)判定不屬于話題。

        查全率公式為:F=a/(a+b)

        其中,a是系統(tǒng)判定屬于話題;b是系統(tǒng)判定不屬于話題。

        二者之比為調(diào)和平均值:p=2/(1/R+1/F)

        1.4 基于Ontology的情感分類體系

        基于Ontology的情感分類體系是通過詞匯語義[7-8],判別其相互之間的相似程度,從而為文本的傾向性提供分析依據(jù)。情感Ontology中的詞匯量的來源有多種途徑,其中主要來源于網(wǎng)絡(luò)數(shù)據(jù)庫,這些數(shù)據(jù)源是通過相似度計算為理論基礎(chǔ)。表達情感的詞匯通常只有正面和負(fù)面的詞匯。對于詞匯傾向性的計算,一般需要基于語義相似及情感深度[9]。語義相似度的計算公式為:

        Sim=μHsim(Ti)+(1-μ)0dis(Ti)

        其中,Hsim(Ti)是詞匯與情感Ontology的相似度計算;0dis(Ti)是詞匯在情感Ontology中的深度;μ為可調(diào)節(jié)參數(shù),且有0≤μ≤1。

        情感Ontology采用向量空間模型來表示文檔信息,通??梢詫⑽臋n表示成:Di={(Ti1,wi1),(Ti2,wi2),…,(Tin,win)},其中Tij(j=1,2,…,n)(Ti1,wi1)指的是文本中的詞匯,wij(j=1,2,…,n)指的是Tij所對應(yīng)的權(quán)重。在進行情感傾向分析時,一般分兩步完成:第一,過濾掉不相似的詞匯,需要利用相似度公式來完成;第二,對情感傾向性進行判斷和識別,該過程要通過分析模型中的權(quán)重進行判別。

        2 相關(guān)技術(shù)及基本原理

        2.1 相容商空間理論的粒度變換原理

        解決問題的過程可以用三元組(a,b,c)來表示,其中a表示所研究對象的通用名稱,也稱為論域,函數(shù)b表示從a到c的一個映射,c屬于論域的結(jié)構(gòu),反映a中各元素之間相互存在的關(guān)系。在對(a,b,c)的分析和求解過程中,主要是指對論域a及其相關(guān)結(jié)構(gòu)和屬性的分析以及研究計算。當(dāng)從不同的粒度進行分析和處理問題時[10],將最細的粒度看作為a,然后以粗角度分析并以某種方式簡化它,對于特征性質(zhì)相近的作為等價處理。最后,整體作為一個元素構(gòu)成一個新的域,也是最大的粒度,稱之為[A],并將之前的(a,b,c)轉(zhuǎn)化成[A,B,C]。在簡化元組的過程中,仿照數(shù)學(xué)中商集的概念,把不同粒度世界的世界模型稱為相容商空間[11]。此時,用(a,b,c)對一個問題進行描述,并在其論域上引入等價關(guān)系T,對應(yīng)于T的商集[A]作為一個新的論域。在進行分析研究時,對待不同的問題就可以表述成不同的粒度世界,這樣就達到了簡化問題、解決問題的目的。相容商空間因其強大的表達能力[12],既可以對多種函數(shù)進行定義,又可以對論域中的不同元素進行描述,從而分析出不同元素之間的關(guān)系以及結(jié)構(gòu)和運算等。

        2.2 相容商和粒度計算的基本簡介

        粒度計算是一種涵蓋所有關(guān)于粒度基本理論方法、相關(guān)技術(shù)及研究工具的新的概念和計算公式。其應(yīng)用領(lǐng)域主要是分析和處理無法確定和不完整的模糊信息[4],屬于軟計算科學(xué)的一個分支。

        相容商空間:假設(shè)(X,Y)屬于拓?fù)淇臻g,其中Y是X的拓?fù)洹<僭O(shè)T是X上的等價關(guān)系,則可以計算X相應(yīng)的商集,稱為[X]。然后,假設(shè)在[X]的定義上,將T值誘導(dǎo)計算出來,稱為[T]。則([X],[Y])都是商集的拓?fù)淇臻g。

        假設(shè)R是相容的,若x,y∈(X,Y)并且x

        2.3 相容商空間粒度原理

        2.3.1 不同相容商空間粒度的獲取

        定義1:令[X]={x|Ix∈X},其中[X]是與相容關(guān)系I相關(guān)的相容商空間。根據(jù)公式中的關(guān)系定義,可以計算出距離函數(shù)。假設(shè)a,b,c都是論域X中的三個向量,那么dis(a,b)就是一個距離函數(shù)關(guān)系。作為距離函數(shù),dis(a,b)滿足以下特征:

        (1)dis(a,b)≥0;

        (2)dis(a,a)=0;

        (3)dis(a,b)=dis(b,a);

        (4)dis(a,b)≤dis(a,c)+dis(b,c)。

        根據(jù)上述條件可以得知,dis(a,b)≤d就是一個相容關(guān)系,其中也要滿足條件d≥0,也可將d稱之為函數(shù)dis(a,b)的半徑。

        根據(jù)上述條件公式得出,相容關(guān)系I與距離函數(shù)dis(a,b)≤d之間就形成了一種一對一的對應(yīng)關(guān)系。

        定義2:假設(shè)I1和I2∈I,那么對于任意x,y∈X,都有xI2y?xI1y,則稱相對I2,I1更細,表示為I1

        根據(jù)定義2,獲得n層層次結(jié)構(gòu)對應(yīng)的n個相應(yīng)的相容關(guān)系的序關(guān)系:

        I0

        可以通過以上相容序關(guān)系及距離函數(shù)獲得n層層次結(jié)構(gòu),其距離半徑有如下序關(guān)系:

        d0>d1>…>dn>0

        設(shè)Ii對應(yīng)的相容商集為[X]i(i=0,1,…,n),則不同層次的粒度論域集有如下的相容序關(guān)系:

        [X]0<[X]1<…<[X]n

        根據(jù)不同級別層次的粒度論域集的相容序關(guān)系,可以得到不同相容商空間的粒度。

        定義3:假設(shè)IS=(U,A)是一種信息系統(tǒng),X,Y?A,則:

        (1)若x→y,則dis(X)≥dis(Y);

        (2)若x?y,則dis(X)=dis(Y)。

        由此可以得出,如若X,Y?A,則有y→x,從而得出A屬于子集,隨著屬性的增加,粒度不斷減小,則表明分辨率在不斷增加。

        定義4:?x∈X,令[x]={y|(x,y)∈I},稱為[x]的相容類。

        2.3.2 相容商空間粒度下的軟聚類原理

        (1)在所有數(shù)據(jù)中,選取最初始的T個樣本Y={X1,X2,…,Xt}表示樣本的重心點數(shù)據(jù)的所有集合,同時dn仍舊表示相容空間的距離半徑。

        (2)通過計算dis(Xa,Xb),a∈(1,2,…,t),b∈(1,2,…,t),就能夠得出dis(Xa,Xb)和d0之間存在的關(guān)系。

        (3)通過dis(Xa,Xb)≤d0,就可以計算出原來所有樣本和重心之間的距離,還能夠與距離半徑進行比較。

        (4)充分利用相容商空間粒度分析法,對通過軟聚類計算得到樣本重心點之間的距離調(diào)整進行反復(fù)分析比對[14]。在實際的計算解答中,也可以采用合并求解法對粒度之間的關(guān)系進行調(diào)整,還能夠?qū)崿F(xiàn)結(jié)構(gòu)層次的劃分。

        (5)對于邊界距離dis(Xa,Xb)=da,則表示X值在兩個結(jié)構(gòu)中都同時存在,利用任何一個結(jié)構(gòu)公式都可以進行解答計算,通過不斷的反復(fù)解答計算,就可以得出軟聚類的結(jié)果。

        通過不斷的分析和計算,就可以得出距離函數(shù)和相容關(guān)系之間一對一的對應(yīng)關(guān)系,也可以解決話題層次和不確定邊界存在的一些問題。

        2.4 相容商空間粒度下的軟聚類設(shè)計

        本節(jié)提供了話題識別和跟蹤的算法基礎(chǔ)。相容商空間粒度的確定是連續(xù)不斷地分析、比較和調(diào)整樣本重心點集的過程。在軟聚類設(shè)計時,通過合并和分解來調(diào)整粒度[15],以實現(xiàn)層次結(jié)構(gòu)的明確劃分;利用相容隸屬函數(shù)確定邊界?;韭肪€:(1)選取初始k個樣本X={X1,X2,…,Xk}作為樣本的重心點集合,并以d0作為相容距離的半徑;(2)計算相容距離函數(shù)dis(Xi,Xj),i∈(1,2,…,n),j∈(1,2,…,n),判斷dis(Xx,Xy)與d0的關(guān)系;(3)當(dāng)dis(Xi,Xj)

        2.5 話題識別與跟蹤

        (1)文檔向量空間降維。解析Web語料庫中的XML文檔集并將其表示為向量空間模型D={D1,D2,…,Dr}(Di為向量空間,i為第i篇文檔)。Di={(Ti1,wi1),(Ti2,wi2),…,(Tim,wim),…},wij表示詞匯權(quán)重值,指的是文檔信息Di中第j個詞匯的權(quán)重。由于某些詞匯與話題關(guān)聯(lián)度不高或詞頻較低,影響話題分析的精度[16],因此需對向量空間降維,抽取與已知話題關(guān)聯(lián)度高的詞匯和高頻詞匯,形成n維文檔向量空間集D={D1,D2,…,Dr},其中Di={(Ti1,wi1),(Ti2,wi2),…,(Tim,wim),…}(n

        (2)話題層次劃分與不確定話題邊界確定。采用軟聚類算法對目標(biāo)文檔M進行識別。經(jīng)過識別后會形成一個層次話題集,即TP={tp1,tp2,…,tps}。在聚類過程中,動態(tài)地形成向量集C={c1,c2,…,cs},其被稱為話題重心點向量集。

        (3)話題標(biāo)題解析。把重心點向量集反饋到預(yù)處理的XML文檔集,解析重心向量集得到標(biāo)題信息,作為話題標(biāo)題,形成帶有標(biāo)題、具有層次的話題集TP={(tp1,name1),(tp2,name2),…,(tps,names)}。根據(jù)話題tpi中的所有文檔向量集tpi={di1,di2,…,dic}(0

        (4)新報道向量空間軟聚類與話題節(jié)點信息更新。根據(jù)層次話題集TP中的文檔向量集tpi={mi1,mi2,…,min},對Web語料文檔集中跟話題節(jié)點相關(guān)的標(biāo)注信息進行修改更新。確定話題識別后,需要動態(tài)跟蹤,并在話題監(jiān)督下完成該過程。

        對話題集TP={(tp1,name1),(tp2,name2),…,(tps,names)}和重心點向量集C={c1,c2,…,cs},利用軟聚類算法對新報道向量空間V進行分類。

        第一步,計算向量空間V與文檔重心點集距離函數(shù)dis(F,C);第二步,根據(jù)以上距離函數(shù)的結(jié)果,與相關(guān)的距離半徑dr進行比較,準(zhǔn)確地得出V所屬的類別。如果獲得的距離函數(shù)結(jié)果大于距離半徑,則使用向量空間V為重心點,作為新話題加入新層次話題集:TP={(tp1,name1),(tp2,name2),…,(tps,names),(F,namef)},同時,更新Web語料庫中文本文檔話題節(jié)點的標(biāo)注信息。

        3 結(jié)束語

        在相容商空間中,粒度計算可以基于原始的知識來變換和分析各種子集。在以不同層次粒度上的論域、結(jié)構(gòu)和屬性對待同一問題進行遞進求解時,就可以利用商空間中細粒度和粗粒度之間的保真性定理執(zhí)行空間層次結(jié)構(gòu)的反復(fù)推理和計算,最終得出結(jié)果,這種計算方式很大程度上降低和簡化了問題在求解過程中的難度。

        猜你喜歡
        論域粒度文檔
        粉末粒度對純Re坯顯微組織與力學(xué)性能的影響
        有人一聲不吭向你扔了個文檔
        基于變論域模糊控制的Taylor逼近型內(nèi)模PID算法
        基于矩陣的多粒度粗糙集粒度約簡方法
        變論域自適應(yīng)模糊PID控制系統(tǒng)仿真與應(yīng)用
        基于粒度矩陣的程度多粒度粗糙集粒度約簡
        基于RI碼計算的Word復(fù)制文檔鑒別
        雙論域粗糙集在故障診斷中的應(yīng)用
        微生物燃料電池的變論域自適應(yīng)模糊控制研究
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        日本韩国黄色三级三级| 亚洲av无码一区二区三区天堂古代| 亚洲av无码专区电影在线观看| 伊人一道本| 中文字幕一区二区三区喷水| av网站免费在线浏览| 无码人妻精品一区二区三区9厂| 一本一道久久a久久精品综合| 欧美日韩国产色综合一二三四| 极品美女尤物嫩模啪啪| 在线天堂av一区二区| 韩国三级中文字幕hd| 国产精品视频牛仔裤一区| 久久婷婷国产五月综合色| 人妻少妇69久久中文字幕| 国产高清av首播原创麻豆| 国产女合集小岁9三部| 亚洲日本VA午夜在线电影| 羞羞色院99精品全部免| 欧美老肥妇做爰bbww| 欧美疯狂性xxxxxbbbbb| 深夜福利国产| 亚洲天堂亚洲天堂亚洲色图| 鲁一鲁一鲁一鲁一曰综合网| 亚洲碰碰人人av熟女天堂| 久久无码高潮喷水抽搐| av在线免费观看大全| av狠狠色丁香婷婷综合久久 | 亚洲精品国产美女久久久| 熟女人妻一区二区在线观看| 最新中文字幕一区二区| 屁屁影院ccyy备用地址 | 欧美成人精品午夜免费影视| 荡女精品导航| 极品美女销魂一区二区三| 日韩人妻系列在线观看| 亚洲av无码久久| 国产一区视频在线免费观看| 人妻风韵犹存av中文字幕 | 国产精品国产三级国产av剧情 | 久久狠狠高潮亚洲精品暴力打|