亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

微信息大數(shù)據(jù)粗糙集的近似約簡(jiǎn)*

2016-07-08 09:45:12任艷

沈陽(yáng)工業(yè)大學(xué)學(xué)報(bào) 2016年3期

關(guān)鍵詞：約簡(jiǎn)粗糙集分詞

任　艷

(新疆財(cái)經(jīng)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院，烏魯木齊 830012)

微信息大數(shù)據(jù)粗糙集的近似約簡(jiǎn)*

任艷

(新疆財(cái)經(jīng)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院，烏魯木齊 830012)

為了應(yīng)對(duì)微信息輿情數(shù)據(jù)的格式復(fù)雜、價(jià)值稀疏和收集困難等大數(shù)據(jù)處理技術(shù)難題，基于隱含語(yǔ)義分析和粗糙集近似約簡(jiǎn)理論，設(shè)計(jì)微信息的數(shù)據(jù)區(qū)間值集和近似匹配分類算法.在不影響數(shù)據(jù)主要關(guān)聯(lián)關(guān)系的原則下，提煉核心屬性、消減次要屬性，實(shí)現(xiàn)一種微信息異常主題傾向的發(fā)現(xiàn)方法.結(jié)果表明，該近似約簡(jiǎn)算法能在完成微信息興趣傾向主題分類的前提下，將數(shù)據(jù)集屬性大幅度縮減，提高微信息的信息挖掘效率，為微信息大數(shù)據(jù)輿情處理工作提供了新的思路和案例.

大數(shù)據(jù)；微信息；近似約簡(jiǎn)；粗糙集；隱含語(yǔ)義分析；主題發(fā)現(xiàn)；區(qū)間值；近似集

隨著智能手機(jī)等移動(dòng)通信設(shè)備的迅猛發(fā)展，SNS(社會(huì)性網(wǎng)絡(luò)服務(wù))規(guī)模空前巨大，大數(shù)據(jù)處理面臨許多難題.交互方式與信息格式復(fù)雜紛繁，處理分析越來(lái)越困難，如何降低數(shù)據(jù)復(fù)雜度，估算微信息興趣傾向成為微信息處理的難點(diǎn).

1　微信息語(yǔ)義傾向與高維問(wèn)題

1.1興趣傾向識(shí)別

微信息文字形式自由，語(yǔ)法不規(guī)范、不嚴(yán)格，諧音詞、派生詞及詼諧語(yǔ)多發(fā)，內(nèi)容也經(jīng)常不完整，相同“圈子”內(nèi)的用戶也不一定有相近的興趣傾向.用戶興趣傾向難以歸類和識(shí)別，所面臨的大數(shù)據(jù)環(huán)境也成為微信息主題分析的重要障礙[1].通過(guò)擴(kuò)展計(jì)算機(jī)網(wǎng)絡(luò)服務(wù)的處理器和存儲(chǔ)陣列，在一定程度上已經(jīng)緩解了數(shù)據(jù)量大所帶來(lái)的困難，但數(shù)據(jù)格式多樣、辨識(shí)難度大和信息稀疏等困難沒有較好的解決辦法[2].大數(shù)據(jù)的整體信息價(jià)值蘊(yùn)含量巨大，而單元信息價(jià)值密度極低，價(jià)值不規(guī)律分布和有效價(jià)值隱藏極深，所以信息集必須在更高的聚類、檢索層面進(jìn)行有效價(jià)值挖掘[3-4].微信息用戶興趣傾向的發(fā)現(xiàn)必須結(jié)合關(guān)聯(lián)性，忽略部分精準(zhǔn)性，建立一種可靠的屬性降維機(jī)制以應(yīng)對(duì)現(xiàn)實(shí)需要.

1.2聚類匹配的高維問(wèn)題

傳統(tǒng)的文本匹配法無(wú)一不受困于數(shù)據(jù)稀疏性嚴(yán)重、NP完全陷阱等缺陷，顯示出明顯的高維屬性局限性[5-7].應(yīng)用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)分類，其屬性特征集的選擇對(duì)分類結(jié)果有極大影響，直接關(guān)系到分類準(zhǔn)確率和效率[8].按文句的重要性進(jìn)行全域性文摘，建立語(yǔ)義相似性關(guān)系和上下文句語(yǔ)境的關(guān)系，歸納分析效果突出[9]，但是文本屬性空間(維性)越來(lái)越龐大，NP完全局限性成為致命難題.文本匹配計(jì)算的主要內(nèi)容：將微文本中的熱詞分開，再將分開的熱詞與詞庫(kù)進(jìn)行比對(duì)，進(jìn)行同類匯聚[10-11]，按照數(shù)據(jù)屬性特征進(jìn)行歸類分隔，使同一類集內(nèi)的數(shù)據(jù)關(guān)系“密切凝聚”，而不同類集間的數(shù)據(jù)“關(guān)系松散”.

1.3分布式索引中的高維問(wèn)題

梳理索引技術(shù)可以發(fā)現(xiàn)數(shù)據(jù)降維的必要性.大數(shù)據(jù)按照“row-key”的關(guān)系表順序形成全局性分布式索引，能夠應(yīng)用MapReduce架構(gòu)來(lái)實(shí)現(xiàn)大數(shù)據(jù)處理的并行化[12-13]，但當(dāng)數(shù)據(jù)維性非常大的時(shí)候，由于事務(wù)性要求比較高，實(shí)效性將無(wú)法滿足實(shí)際的需求.分布式服務(wù)器端的維護(hù)代價(jià)較高，多維性的關(guān)聯(lián)操作需要消耗大量的資源去緩存內(nèi)部節(jié)點(diǎn)，降維是必然的結(jié)果[14-15].

大數(shù)據(jù)降維也稱為離群挖掘，即將整個(gè)目標(biāo)數(shù)據(jù)集投影到包含個(gè)別屬性的子空間上[16].研究微信息降維問(wèn)題，就是選擇和投影有意義的子空間的過(guò)程，以適應(yīng)微信息快速分類和分析的需要.

2　微信息興趣傾向發(fā)現(xiàn)

微信息基于各種強(qiáng)弱關(guān)系的交流圈，具有高頻度和裂變傳播特征，易于采用近似匹配法來(lái)進(jìn)行興趣傾向識(shí)別工作.近似模糊匹配可以容忍數(shù)據(jù)過(guò)濾中存在一定噪聲和錯(cuò)誤，在微信息交互分析和輿情網(wǎng)絡(luò)分析應(yīng)用中，作用越來(lái)越重要[17-19].

2.1PLSA分析

Hofmann提出了一種基于概率模型的隱含語(yǔ)義分析法(PLSA)，使用概率模型可以將微信文本和敏感詞映射到同一個(gè)語(yǔ)義空間中[20].通過(guò)計(jì)算信息文本、關(guān)鍵詞與語(yǔ)義(興趣傾向)空間上的夾角來(lái)實(shí)現(xiàn)近似匹配的量化工作.本文結(jié)合微信息交流的特點(diǎn)，將PLSA隱含語(yǔ)義分析法進(jìn)行了改造，假設(shè)隱含語(yǔ)義(主題傾向)序列為D={d1，d2，…，dk}，相應(yīng)的微信息文本屬性空間表示為C={c1，c2，…，cm}，先驗(yàn)性的敏感詞空間表示為W={w1，w2，…，wn}.首先觀察(C，W)變量的聯(lián)合概率與隱含語(yǔ)義D的關(guān)系，文本和敏感詞的聯(lián)合概率表示為

(1)

(2)

于是有

(3)

假設(shè)敏感詞與語(yǔ)義傾向之間的映射關(guān)系保持不變，即p(wj，dl)不變，則有

(4)

(5)

因?yàn)槊舾性~wj與文本屬性ci之間相互獨(dú)立，則有

(6)

故隱含語(yǔ)義dl相對(duì)于給定觀察對(duì)象(C，W)的條件概率分布為

(7)

2.2微信息數(shù)據(jù)集

本文了建立兩個(gè)數(shù)據(jù)集：微信息興趣傾向數(shù)據(jù)集和敏感分詞數(shù)據(jù)集，從而為傾向性判斷的可靠性提供依據(jù).

2.3粗糙集約簡(jiǎn)

RS粗糙集(Rough set，RS)理論通過(guò)集合模糊運(yùn)算，構(gòu)造出上下近似集來(lái)標(biāo)定有效數(shù)據(jù)的邊界，解決了含糊環(huán)境下的邏輯推理問(wèn)題[23-24].保持住數(shù)據(jù)集主要維性、忽略次要屬性是數(shù)據(jù)集化簡(jiǎn)的基本手段.

(8)

(9)

4) 多屬性依賴.基于區(qū)間值條件下屬性集合依賴度計(jì)算方法為

(10)

3　數(shù)據(jù)實(shí)驗(yàn)

本實(shí)驗(yàn)收集了2014年10月—2014年12月新浪微博貼吧、手機(jī)短信、微信和QQ空間數(shù)據(jù)作為樣本來(lái)測(cè)試算法，具體步驟如下：

1) 原數(shù)據(jù)預(yù)處理.設(shè)置預(yù)制的主題傾向類集D={d1，d2，…，dl}，依次對(duì)應(yīng)著“恐怖”、“低俗”、“污蔑”、“造謠”、“反動(dòng)”、“斗毆”、“欺騙”等預(yù)定傾向類.每一種傾向類下仍有許多具體的主題傾向，例如：低俗d2類下可能具體到發(fā)布黃色圖片、觀看黃色圖片和黃色表演等.文本長(zhǎng)度超過(guò)500字的部分自動(dòng)舍棄；圖片、視頻部分取文件名，非文本部分自動(dòng)舍棄.

2) 針對(duì)每種傾向主題建立敏感分詞子集.首先應(yīng)用漢語(yǔ)詞法分析軟件ICTCLAS進(jìn)行中文分詞、詞性標(biāo)注和詞識(shí)別等操作，刪除平庸中性詞后，選取出現(xiàn)頻率最高的分詞，然后將每個(gè)傾向主題對(duì)應(yīng)到多個(gè)敏感分詞，預(yù)制數(shù)量在10～50之間，最后針對(duì)每一種敏感分詞，按出現(xiàn)的次數(shù)分別定義不同的屬性維度以區(qū)分敏感強(qiáng)度.具體規(guī)則為：以第i個(gè)敏感詞為例，設(shè)置屬性wi1(初級(jí))敏感分詞出現(xiàn)1～2次；wi2(中級(jí))敏感分詞出現(xiàn)4～6次；wi3(高級(jí))敏感分詞出現(xiàn)7～14次；wi4(極高)敏感分詞出現(xiàn)15次及以上，每個(gè)敏感分詞將產(chǎn)生4列區(qū)間屬性值.

3) 構(gòu)建用戶微信息交互行為數(shù)據(jù)集.面對(duì)同類傾向涉嫌的帖子，收集微信息交互行為(ci)，依然將用戶的行為強(qiáng)度定義為四個(gè)等級(jí)：{初級(jí)，中級(jí)，高級(jí)，極高}，使每一種交互行為也有四列區(qū)間屬性值，即ci={ci1，ci2，ci3，ci4}.基于用戶行為數(shù)據(jù)，搜集典型用戶行為，由程序自動(dòng)按行為強(qiáng)度形成用戶行為數(shù)據(jù)集.

圖1　屬性約簡(jiǎn)效果

圖2　用戶行為、敏感類型與傾向主題對(duì)比

4　結(jié)　論

微文數(shù)據(jù)具有價(jià)值稀疏、體量大、內(nèi)容不完整和碎片化等特點(diǎn)，本文基于粗糙集的近似模糊約簡(jiǎn)法將微信息屬性集、敏感詞庫(kù)數(shù)據(jù)集、隱含語(yǔ)義信息數(shù)據(jù)集構(gòu)建成“區(qū)間表”，通過(guò)構(gòu)建上下近似約簡(jiǎn)集進(jìn)行相關(guān)屬性重要性計(jì)算，保留重要性屬性，消除冗余屬性.在微博、微信、短信和QQ空間等微信息數(shù)據(jù)分析中，實(shí)現(xiàn)主題歸納和用戶興趣捕捉工作.從實(shí)驗(yàn)結(jié)果可知，約簡(jiǎn)算法是有效的，為微信息的大數(shù)據(jù)屬性約簡(jiǎn)和語(yǔ)義分析方法提供了新思路.

[1]吳純青，任沛閣，王小峰.基于語(yǔ)義的網(wǎng)絡(luò)大數(shù)據(jù)組織與搜索 [J].計(jì)算機(jī)學(xué)報(bào)，2015，38(1)：1-7.

(WU Chun-qing，REN Pei-ge，WANG Xiao-feng.Survey on semantic-based organization and search technologies for network bid data [J].Chinese Journal of Computers，2015，38(1)：1-7.)

[2]程學(xué)旗，靳小龍.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述 [J].軟件學(xué)報(bào)，2014，25(9)：1240-1252.

(CHENG Xue-qi，JIN Xiao-long.Survey on big data system and analytic technology [J].Journal of Software，2014，25(9)：1240-1252.)

[3]何非，何克清.大數(shù)據(jù)及其科學(xué)問(wèn)題與方法的探討 [J].武漢大學(xué)學(xué)報(bào)(理學(xué)版)，2014，60(1)：1-12.

(HE Fei，HE Ke-qing.The scientific problems and methodology of bid data [J].Journal of Wuhan Uni-versity (Natural Science Edition)，2014，60(1)：1-12.)

[4]孟小峰，慈祥.大數(shù)據(jù)管理：概念、技術(shù)與挑戰(zhàn) [J].計(jì)算機(jī)研究與發(fā)展，2013，50(1)：146-169.

(MENG Xiao-feng，CI Xiang.Bid data management：concepts，techniques and challenges [J].Journal of Computer Research and Development，2013，50(1)：146-169.)

[5]李揚(yáng)，苗奪謙，張志飛.情感不確定詞句的分類方法比較研究 [J].計(jì)算機(jī)科學(xué)，2015，42(1)：210-214.

(LI Yang，MIAO Duo-qian，ZHANG Zhi-fei.Sentiment analysis of words and sentences with uncertainty [J].Computer Science，2015，42(1)：210-214.)

[6]姜芳，李國(guó)和，岳翔.基于語(yǔ)義的文檔關(guān)鍵詞提取方法 [J].計(jì)算機(jī)應(yīng)用研究，2015，32(1)：142-146.

(JIANG Fang，LI Guo-he，YUE Xiang.Semantic-based keyword extraction method for document [J].Application Research of Computers，2015，32(1)：142-146.)

[7]索勃，李戰(zhàn)懷，陳群，等.基于信息流動(dòng)分析的動(dòng)態(tài)社區(qū)發(fā)現(xiàn)方法 [J].軟件學(xué)報(bào)，2014，25(3)：547-559.

(SUO Bo，LI Zhan-huai，CHEN Qun，et al.Dynamic community detection based on information flow analysis [J].Journal of Software，2014，25(3)：547-559.)

[8]張福勇，趙鐵柱.采用路徑IRP的Windows惡意進(jìn)程檢測(cè)方法 [J].沈陽(yáng)工業(yè)大學(xué)學(xué)報(bào)，2015，37(4)：434-439.

(ZHANG Fu-yong，ZHAO Tie-zhu.Windows malicious process detection method with path IRP [J].Journal of Shenyang University of Technology，2015，37(4)：434-439.)

[9]劉德喜，萬(wàn)常選.社會(huì)化短文本自動(dòng)摘要研究綜述 [J].小型微型計(jì)算機(jī)系統(tǒng)，2013，34(12)：2764-2771.

(LIU De-xi，WAN Chang-xuan.Survey on automatic summarization of socialized short text [J].Journal of Chinese Computer Systems，2013，34(12)：2764-2771.)

[10]Liu X L，Liao J X，Zhu X M.Lexical analysis based on combining senses in ontology matching [J].ACTA Electronica Sinica，2012，40(8)：1024-1029.

[11]Rabl T，Sadoghi M，Jacobsen H A.Solving big data challenges for enterprise application performance mana-gement [J].Process of the VLDB Endowment，2012，12(5)：1724-1735.

[12]王東.大數(shù)據(jù)技術(shù)在精準(zhǔn)化營(yíng)銷中的應(yīng)用 [J].中國(guó)流通經(jīng)濟(jì)，2014(7)：90-93.

(WANG Dong.The application of big data technology to precision marketing [J].China Business and Market，2014(7)：90-93.)

[13]馬友忠，孟小峰.云數(shù)據(jù)管理索引技術(shù)研究綜述 [J].軟件學(xué)報(bào)，2014，25(8)：1557-1578.

(MA You-zhong，MENG Xiao-feng.Research on indexing for cloud data management [J].Journal of Software，2014，25(8)：1557-1578.)

[14]Mou Y C，Su H C，Cheng X.An adaptive secondary index for data management in cloud computing environment [J].Journal of Computer Research and Development，2013，24(8)：1836-1851.

[15]劉義，景寧，陳犖，等.MapReduce框架下基于R-樹的k-近鄰連接算法 [J].軟件學(xué)報(bào)，2013，24(8)：1836-1851.

(LIU Yi，JING Ning，CHEN Luo，et al.Algorithm for processingk-nearest join based on R-tree in MapReduce [J].Journal of Software，2013，24(8)：1836-1851.)

[16]張繼福，李永紅.基于MapReduce與相關(guān)子空間的局部離群數(shù)據(jù)挖掘算法 [J].軟件學(xué)報(bào)，2015，26(5)：1079-1095.

(ZHANG Ji-fu，LI Yong-hong.Related-subspace-based local outlier detection algorithm using MapReduce [J].Journal of Software，2015，26(5)：1079-1095.)

[17]于靜.劉燕兵，張宇，等.大規(guī)模圖數(shù)據(jù)匹配技術(shù)綜述 [J].計(jì)算機(jī)研究與發(fā)展，2015，52(2)：391-409.

(YU Jing，LIU Yan-bing，ZHANG Yu，et al.Survey on lame-scale graph pattern matching [J].Journal of Computer Research and Development，2015，52(2)：391-409.)

[18]李偉平，王武生，莫同，等.情境計(jì)算研究綜述 [J].計(jì)算機(jī)研究與發(fā)展，2015，52(2)：542-552.

(LI Wei-ping，WANG Wu-sheng，MO Tong，et al.Survey of contextual computing [J].Journal of Computer Research and Development，2015，52(2)：542-552.)

[19]夏琳琳，潘旭影，王丹，等.基于類高斯隸屬函數(shù)的模糊萬(wàn)能逼近器性能分析 [J].沈陽(yáng)工業(yè)大學(xué)學(xué)報(bào)，2014，36(3)：316-321.

(XIA Lin-lin，PAN Xu-ying，WANG Dan，et al.Performance analysis of fuzzy universal approximator based on Gauss-type membership function [J].Journal of Shenyang University of Technology，2014，36(3)：316-321.)

[20]王云英.基于PLSA模型的Web頁(yè)面語(yǔ)義標(biāo)注算法研究 [J].情報(bào)雜志，2013，32(1)：141-144.

(WANG Yun-ying.Research on Web page semantic annotation algorithm based on PLSA model [J].Journal of Intelligence，2013，32(1)：141-144.)

[21]徐恪，張賽，陳昊，等.在線社會(huì)網(wǎng)絡(luò)的測(cè)量與分析 [J].計(jì)算機(jī)學(xué)報(bào)，2014，37(1)：165-173.

(XU Ke，ZHANG Sai，CHEN Hao，et al.Measurement and analysis of online social networks [J].Chinese Journal of Computers，2014，37(1)：165-173.)

[22]于洪，楊顯.微博中節(jié)點(diǎn)影響力度量與傳播路徑模式研究 [J].通信學(xué)報(bào)，2012，33(增刊1)：96-102.

(YU Hong，YANG Xian.Studying on the node’s influence and propagation path modes in microblogging [J].Journal on Communications，2012，33(Sup1)：96-102.)

[23]李小林，張力娜.基于直覺模糊理論的混合多屬性Web服務(wù)選擇 [J].沈陽(yáng)工業(yè)大學(xué)學(xué)報(bào)，2014，36(6)：676-680.

(LI Xiao-lin，ZHANG Li-na.Hybrid multi-attribute Web service selection based on intuitionistic fuzzy theo-ry [J].Journal of Shenyang University of Technology，2014，36(6)：676-680.)

[24]徐菲菲，雷景生.大數(shù)據(jù)環(huán)境下多決策表的區(qū)間值全局近似約簡(jiǎn) [J].軟件學(xué)報(bào)，2014，25(9)：2119-2125.

(XU Fei-fei，LEI Jing-sheng.Approaches to approximate reduction with interval-valued multidecision tables in big data [J].Journal of Software，2014，25(9)：2119-2125.)

[25]江峰，王莎莎，杜軍威，等.基于近似決策熵的屬性約簡(jiǎn) [J].控制與決策，2015，30(1)：66-70.

(JIANG Feng，WANG Sha-sha，DU Jun-wei，et al.Attribute reduction based on approximation decision entropy [J].Control and Decision，2015，30(1)：66-70.)

(責(zé)任編輯：景勇英文審校：尹淑英)

Approximate reduction of micro-message big data rough set

REN Yan

(School of Computer Science and Engineering, Xinjiang University of Finance &Economy, Urumqi 830012, China)

In order to deal with such technological problems in big data processing as complex format, sparse value and difficult collection of micro-message public opinion data, based on the latent semantic analysis (LSA) and rough set approximate reduction theory, the data interval value set and approximate matching classification algorithm of micro-message were designed. Under the principle of not affecting the main association relationship of data, the core attributes were extracted, the secondary attributes were reduced, and a method of discovering the micro-message abnormal theme tendency was realized. The results show that under the premise of completing the classification of micro-message interest tendency themes, the proposed approximate reduction algorithm can greatly reduce the data set properties, improve the information mining efficiency of micro-message, and provide a new thought and case for the processing work of public opinion of micro-message big data.

big data; micro-message; approximate reduction; rough set; latent semantic analysis; theme discovery; interval value; approximation set

2015-12-04.

教育部規(guī)劃課題資助項(xiàng)目(14YJA860017).

任艷(1979-)，女，新疆烏魯木齊人，講師，主要從事計(jì)算機(jī)信息技術(shù)與應(yīng)用等方面的研究.

10.7688/j.issn.1000-1646.2016.03.13

TP 393.1

1000-1646(2016)03-0309-05

*本文已于2016-03-02 16∶48在中國(guó)知網(wǎng)優(yōu)先數(shù)字出版. 網(wǎng)絡(luò)出版地址： http：∥www.cnki.net/kcms/detail/21.1189.T.20160302.1648.048.html

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

微信息大數(shù)據(jù)粗糙集的近似約簡(jiǎn)*

1 微信息語(yǔ)義傾向與高維問(wèn)題

2 微信息興趣傾向發(fā)現(xiàn)

3 數(shù)據(jù)實(shí)驗(yàn)

4 結(jié) 論

1　微信息語(yǔ)義傾向與高維問(wèn)題

2　微信息興趣傾向發(fā)現(xiàn)

3　數(shù)據(jù)實(shí)驗(yàn)

4　結(jié)　論