尤垂桔,邱錦明
(三明學(xué)院 信息工程學(xué)院,福建 三明 365004;數(shù)字福建工業(yè)能源大數(shù)據(jù)研究所,福建 三明 365004;工業(yè)大數(shù)據(jù)分析及應(yīng)用福建省高校重點(diǎn)實(shí)驗(yàn)室,福建 三明 365004;物聯(lián)網(wǎng)應(yīng)用福建省高校工程研究中心,福建 三明 365004)
隨著Web2.0的廣泛應(yīng)用,數(shù)據(jù)開放、共享和聚合已成為網(wǎng)絡(luò)發(fā)展的一大趨勢(shì)。 在開放的Web環(huán)境下,網(wǎng)絡(luò)信息資源海量增長、用戶貢獻(xiàn)內(nèi)容不斷擴(kuò)充,形成數(shù)據(jù)量大、來源分散、類型多樣、噪聲大、異構(gòu)無序的Web大數(shù)據(jù)。Web大數(shù)據(jù)給用戶帶來資源選擇多樣化和自主化的同時(shí),也面臨著信息選擇過程中主題不明確、特征不清晰的的困境。如何將離散分布、動(dòng)態(tài)的、不確定的“信息碎片”根據(jù)主題特征屬性進(jìn)行篩選、過濾、識(shí)別、聚合,形成動(dòng)態(tài)的信息聚合系統(tǒng),有效提供服務(wù)并促進(jìn)知識(shí)共享,成為當(dāng)前研究的重點(diǎn)領(lǐng)域。
如果把影響信息聚合的因素看作信息元特征(屬性)α,那么信息聚合系統(tǒng)A的信息聚合過程就可抽象為A的特征屬性α通過遷移f函數(shù)作用于信息聚合系統(tǒng)A的過程。顯然,信息聚合系統(tǒng)的信息元的變化規(guī)律與特征屬性之間存在著某種關(guān)系,人們希望通過這個(gè)關(guān)系掌握信息聚合系統(tǒng)的信息元與特征屬性之間的動(dòng)態(tài)規(guī)律,為Web大數(shù)據(jù)的應(yīng)用提供理論依據(jù)和技術(shù)支持。
設(shè) U={u1(x),u2(x),…,un(x)}是信息聚合系統(tǒng) A 的信息元集合,α={α1,α2,… ,αk}是 U 的特征(屬性)集,如果在α內(nèi)補(bǔ)充(增加)某些屬性,使α變成αf,那么信息元集合U變成Uf,或者對(duì)U的特征屬性集α的f遷移生成了信息元集合Uf。顯然U與Uf存在某種關(guān)系,這個(gè)過程等價(jià)于集合 S 的屬性集 α={α1,α2,… ,αk}受到屬性遷移f的干擾,使得S中的元素發(fā)生變化,生成S的內(nèi)P集合(集合中元素減少)或S的外P集合 Sf(集合中元素增多),(,Sf)稱為集合 S 生成的P-集合。P-集具有動(dòng)態(tài)特征,把這一特征拓展應(yīng)用到信息聚合管理,那么特征屬性的遷移對(duì)信息聚合系統(tǒng)的影響,等價(jià)于信息聚合系統(tǒng)受到f-屬性的入侵,引起信息聚合系統(tǒng)的信息元變化。自然產(chǎn)生以下幾個(gè)問題:f-屬性遷移與信息聚合系統(tǒng)的信息元變化之間存在什么關(guān)系?在f-屬性遷移作用下,信息聚合系統(tǒng)的信息元變化是否存在規(guī)律?這樣的關(guān)系和規(guī)律如果存在,能否被識(shí)別?
本文基于P-集理論,利用MapReduce研究Web大數(shù)據(jù)環(huán)境下信息聚合系統(tǒng)的信息元與其特征屬性的變化規(guī)律,對(duì)f-屬性遷移與信息聚合系統(tǒng)的信息元的變化關(guān)系,在f-特征屬性遷移作用下的信息聚合系統(tǒng)信息元的聚合和分離規(guī)律展開討論。
約定 U是有限元素論域,V是有限屬性論域,S={s1,s2,… ,sm}? U 是 U 上的有限普通集合,α={α1,α2,… ,αk}是 V 上的有限屬性集,f={f1,f2,… ,fn}是元素遷移族。
給定有限元素集合 S={s1,s2,…,sq}? U ,α={α1,α2,… ,αk}?V 是 S 的屬性集,f={f1,f2,… ,fn}是元素遷移族。α在 f遷移下變成αf,元素集合S變成Sf,稱Sf是S的屬性集α在f遷移下生成的內(nèi)P-集合(internal packetset),而且
S-稱作 S 的-元素刪除集合。這里,αf? α,Sf? S。
給定有限元素集 S={s1,s2,… ,sq}? U ,α={α1,α2,… ,αk}? V 是 S 的屬性集,f={f1,f2,… ,fn}是 α的遷移族。α在f遷移下變成,元素集S變成Sf,稱Sf是S的屬性集α在遷移下生成的外P-集合(outerpacket set),而且
S+稱作S的f-元素補(bǔ)充集合。這里?α,Sf?S。
P-集的動(dòng)態(tài)特征:P-集是以集合S為原點(diǎn),由于集合S的屬性集α受到f的遷移影響,引起集合S的動(dòng)態(tài)擴(kuò)充和收縮。
約定U是有限信息元論域,V是信息元有限特征(屬性)論域,F(xiàn) 是信息元特征(屬性)遷移族。α={α1,α2,… ,αm}? V 表示 X 對(duì)應(yīng)的特征(屬性)集;f={f1,f2,… ,fn}? F是屬性遷移族。
定義 1 設(shè) X={x1,x2,… xk}? U 是信息聚合系統(tǒng) A的信息元集合,α是信息元集合X的屬性集,稱在α內(nèi)形成的信息元集合[x]是X在α上形成的α-信息聚合體,記為[x]α。
定義2 設(shè) [x]α?U是信息聚合系統(tǒng)A的α-信息聚合體,α在遷移 f下變成是X在f下生成的內(nèi)P-信息聚合體。
定義3 設(shè) [x]α?U是信息聚合系統(tǒng)A的α-信息聚合體,α在遷移下變成 af,[x]α變成是X在下生成的外P-信息聚合體。
若 αf和 α分別是和[x]α的屬性集,存在 Δα≠φ ,使得 αf=α∪ Δα,由定義 2,有:。根據(jù)定義 5,可得:▽[x]是在屬性遷移f作用下的[x]α的P-分離。
定理3的證明是直接的,證明略。
定義 7 設(shè) x={x1,x2,… xn}? X 是 X 上的信息聚合體,α={α1,α2,… ,αm}是 x 的屬性集,μij(x)為信息元 xi在其屬性 αj的特征值,i=1,2,… ,n,j=1,2,… ,m ,稱 C(x)是信息聚合體x上的信息元特征矩陣,如果
定義 8 設(shè)信息元 xi,xj,稱 R(xi,xj)是 xi關(guān)于 xj的信息元關(guān)系測(cè)度,如果
其中,μik,μjk分別是信息元 xi,xj在其屬性 αk上的特征值,且
定義9設(shè)是信息元集合[x]的屬性集,δ(α)是信息元集合[x]的信息元關(guān)系測(cè)度閾值,稱[x]δ(α)是[x]基于δ(α)的信息聚合體。
Web大數(shù)據(jù)環(huán)境下的P-信息聚合體生成過程如圖1所示。
圖1 P-信息聚合體生成過程
Web大數(shù)據(jù)環(huán)境下P-信息聚合體生成算法如下:
1.劃分大數(shù)據(jù)集X為n個(gè)子集
2.特征矩陣構(gòu)建
對(duì)數(shù)據(jù)子集 [x]i以及數(shù)據(jù)子集 [x]i的特征屬性α進(jìn)行匯總規(guī)約,構(gòu)建數(shù)據(jù)子集[x]i的特征矩陣C([x]i)。匯總所有的C([x]i),形成數(shù)據(jù)集X的特征矩陣C(X)。
3.特征矩陣C(X)變換,使得C(X)的非零元素值往矩陣的左上角集中。
4.在特征矩陣 C(X)中,選取特征屬性集 α={α1,α2,… ,αk}。
5.在特征矩陣C(X)中,選取與特征屬性集α相對(duì)應(yīng)的特征值非零的信息元集合[x]j。
6.應(yīng)用 R(xi,xj)計(jì)算信息元集合[x]m中信息元 xi,xj之間的關(guān)系測(cè)度。
7.根據(jù)設(shè)定的信息元關(guān)系測(cè)度閾值δ(α),對(duì)信息元進(jìn)行聚合操作,生成信息聚合體[x]δ(α)={x1,x2,… ,xn}。
8.往特征屬性集α增加特征屬性Δα,形成新的特征屬性集 α'=α∪ Δα={α1,α2,… ,αk},k>m 。
9. 重復(fù)步驟 5-7,生成信息聚合 體[x]δ(α')={x1,x2,… ,xm},m <n。
10.往特征屬性集α減少特征屬性集▽?duì)?,形成新的特征屬性集,?=α-Δα={α1,α2,… ,αk},k<m 。
11.重復(fù)步驟 5-7,生成信息聚合體[x]δ(α")={x1,x2,… ,xl},l>n。
12.根據(jù)定義4-6,由于特征屬性的遷移,形成P-信息聚合體([x]δ(α'),[x]δ(α"))。
由于特征屬性Δα的遷入,不具有Δα特征屬性的信息元從[x]δ(α)中分離出來,▽ [x]=[x]δ(α)-[x]δ(α');由于特征屬性▽?duì)恋囊瞥觯痪哂刑卣鲗傩渊對(duì)恋哂刑卣鲗傩?α"=α-Δα的信息元被聚合到聚合體[x]δ(α)中。
本部分以搜狗實(shí)驗(yàn)室的新聞數(shù)據(jù)(SogouCA)的部分?jǐn)?shù)據(jù)源為例分析討論P(yáng)-信息聚合體的生成及應(yīng)用。數(shù)據(jù)來自若干新聞?wù)军c(diǎn)2012年6月-7月期間國內(nèi),國際,體育,社會(huì),娛樂等18個(gè)頻道的新聞數(shù)據(jù),分為三個(gè)數(shù)據(jù)子集[x]1、[x]2、[x]3。數(shù)據(jù)格式如下:
(1)為每篇新聞文檔增加序列號(hào)docid。
(2)采用結(jié)巴分詞器(Jieba)對(duì)文檔進(jìn)行分詞,根據(jù)停用詞表進(jìn)行停用詞過濾,即去掉在語料庫中大量存在,但是與主題特征信息沒什么關(guān)聯(lián)性的詞。
根據(jù)TF-IDF對(duì)每個(gè)數(shù)據(jù)子集 [x]i的每條數(shù)據(jù)進(jìn)行特征詞提取,其中TF(Term Frequency)是詞頻,表示某個(gè)詞在文章出現(xiàn)的頻率,計(jì)算公式為:
其中:count表示某個(gè)詞在文章中出現(xiàn)的次數(shù),words表示文章的詞的總數(shù)
IDF(Inverse Document Frequency)是逆文檔頻率,計(jì)算公式為:
其中:D表示語料庫的文檔總數(shù),Dw表示包含該詞的文檔數(shù)。
特征值計(jì)算公式:
形成特征屬性集 α([x]1)、α([x]2)、α([x]3)。
根據(jù)TF-IDF的計(jì)算結(jié)果,對(duì)所有的屬性集α([x]1)、α([x]2)、α([x]3)進(jìn)行匯總,構(gòu)建特征矩陣。對(duì)特征矩陣的非零元素按照左上角集中化處理,形成如表1所示矩陣C(X)。其中列屬性αi表示主題特征屬性,行xj表示信息元,i=1,2,… ,n,j=1,2,… ,m 。
表1 信息元特征矩陣C(x)Table 1 Information element feature cerfificate C(x)
實(shí)驗(yàn)結(jié)果如表2所示。
表2 信息聚合體生成結(jié)果表Table 2 Information clustering results
在Web大數(shù)據(jù)環(huán)境下P-信息聚合體的生成提高了信息利用的精準(zhǔn)性,其基于屬性的聚合與分離在信息精準(zhǔn)推送方面具有廣泛的應(yīng)用意義。
Web大數(shù)據(jù)環(huán)境的開放性,數(shù)據(jù)類型多樣化、信息來源分散、噪聲大等因素的干擾使得人們?cè)趹?yīng)用Web大數(shù)據(jù)的過程中面臨巨大的挑戰(zhàn)。P-信息聚合體揭示了信息元與信息元特征屬性的動(dòng)態(tài)關(guān)系,為信息分類、快速檢索、精準(zhǔn)推送提供新的方法,為在Web大數(shù)據(jù)環(huán)境下應(yīng)用數(shù)據(jù)價(jià)值提供新的理論支撐。