亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)特征提取及聚類的網(wǎng)絡(luò)評(píng)論挖掘研究

        2018-03-14 19:14:05李昌兵龐崇鵬凌永亮王強(qiáng)
        現(xiàn)代情報(bào) 2018年2期
        關(guān)鍵詞:means算法Apriori算法特征提取

        李昌兵+龐崇鵬 凌永亮+王強(qiáng)

        〔摘要〕[目的/意義]針對(duì)信息過載條件下中文網(wǎng)絡(luò)產(chǎn)品評(píng)論中特征提取性能低以及特征聚類中初始中心點(diǎn)的選取問題。[方法/過程]本研究提出采用基于權(quán)重的改進(jìn)Apriori算法產(chǎn)生候選產(chǎn)品特征集合,再根據(jù)獨(dú)立支持度、頻繁項(xiàng)名詞非特征規(guī)則及基于網(wǎng)絡(luò)搜索引擎的PMI算法對(duì)候選產(chǎn)品特征集合進(jìn)行過濾。并以基于HowNet的語義相似度和特征觀點(diǎn)共現(xiàn)作為衡量產(chǎn)品特征之間關(guān)聯(lián)程度的特征,提出一種改進(jìn) K-means 聚類算法對(duì)產(chǎn)品特征進(jìn)行聚類。[結(jié)果/結(jié)論]實(shí)驗(yàn)結(jié)果表明,在特征提取階段,查準(zhǔn)率為69%,查全率為9264%,綜合值達(dá)到7907%。在特征聚類階段,本文提出的改進(jìn)K-means算法相對(duì)傳統(tǒng)算法具有更優(yōu)的挖掘性能。

        〔關(guān)鍵詞〕Apriori算法;特征提取;PMI算法;K-means算法;語義相似度

        DOI:10.3969/j.issn.1008-0821.2018.02.011

        〔中圖分類號(hào)〕TP393〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2018)02-0068-07

        Research on Network Review Mining Based on Improved

        Feature Extraction and Clustering

        Li ChangbingPang Chongpeng*Ling YongliangWang Qiang

        (School of Economics and Management,Chongqing University of Posts and Telecommunications,

        Chongqing 400065,China)

        〔Abstract〕[Purpose/Significance]Aiming at the problem that the feature extraction performance is low and the initial center point in the feature clustering is under the condition of information overload condition.[Method/Process]In this study,a new Apriori algorithm based on weight was proposed to generate candidate product feature sets,and then the candidate product feature sets were filtered according to independent support,frequent item term non-feature rules and PMI algorithm based on web search engine.Based on HowNets semantic similarity and feature view co - occurrence as a feature to measure the degree of correlation between product features,an improved K - means clustering algorithm was proposed to cluster the product characteristics.[Result/Conclusion]The experimental results showed that the precision is 69%,the recall rate was 9264%,and the comprehensive value was 7907%.In the stage of feature clustering,the improved K-means algorithm proposed in this paper had better mining performance than traditional algorithm.

        〔Key words〕Apriori algorithm;feature extraction;PMI algorithm;K-means algorithm;semantic similarity

        隨著互聯(lián)網(wǎng)的迅速發(fā)展,評(píng)論挖掘作為一種從數(shù)據(jù)中探索有用信息為目標(biāo)的技術(shù)逐漸被研究者所關(guān)注。在許多電商領(lǐng)域,用戶在做出購買決策之前都會(huì)瀏覽產(chǎn)品的評(píng)論信息以此決定是否購買該產(chǎn)品。然而,在信息過載條件下,通常的分類目錄和搜索引擎需要用戶能準(zhǔn)確描述自己的需求,而當(dāng)用戶無法準(zhǔn)確描述自己的需求時(shí),前述方法就無能為力了。這時(shí)就需要借助以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ)的推薦系統(tǒng),從海量的網(wǎng)絡(luò)產(chǎn)品評(píng)論信息中獲取自己需要的信息、產(chǎn)品或服務(wù)。

        產(chǎn)品特征提取是在海量的網(wǎng)絡(luò)產(chǎn)品評(píng)論信息中提取出用戶真正關(guān)心的產(chǎn)品特征。在這些產(chǎn)品特征里,往往會(huì)發(fā)現(xiàn)同一種特征在評(píng)論句子中可以有不同的短語或詞來描述,如評(píng)價(jià)手機(jī)的“功能”和“機(jī)能”實(shí)際上表示的是同一個(gè)產(chǎn)品特征。因此,對(duì)提取出的產(chǎn)品特征信息進(jìn)行相應(yīng)聚類也是非常有意義的?,F(xiàn)如今,許多國內(nèi)外研究者在這些方面都取得了不錯(cuò)的成果。在特征提取方面,Zhuang L等[1]采用人工或半自動(dòng)的方式對(duì)電影中文評(píng)論領(lǐng)域進(jìn)行產(chǎn)品特征提取研究。Kobayash N等[2]提出利用產(chǎn)品、產(chǎn)品特征和觀點(diǎn)詞之間的共現(xiàn)模式的半自動(dòng)化方法提取產(chǎn)品特征和觀點(diǎn)詞。婁德成等[3]利用半自動(dòng)方式進(jìn)行人工定義,從而抽取出產(chǎn)品評(píng)論信息。Hu M等[4]抽取出現(xiàn)頻率大的名詞及名詞短語作為候選產(chǎn)品特征,通過壓縮剪枝和冗余剪枝策略對(duì)提取的頻繁商品特征進(jìn)行篩選,再使用關(guān)聯(lián)規(guī)則挖掘識(shí)別頻繁產(chǎn)品特征。此方法使得各性能指標(biāo)有了較大提升。Popescu A M等[5]將產(chǎn)品特征看作是產(chǎn)品的一部分,使用候選產(chǎn)品特征和領(lǐng)域特征之間的共現(xiàn)來提取商品特征,并使用點(diǎn)互信息PMI(Pointwise Mutual Information)表示關(guān)聯(lián)程度,最終按關(guān)聯(lián)程度大小選擇商品特征。該方法提高了產(chǎn)品特征提取的準(zhǔn)確率,但召回率有所下降。在特征聚類方面,Guo H等人提出了一種兩層監(jiān)督算法mLSA,根據(jù)多層次潛在語義關(guān)聯(lián)技術(shù)實(shí)現(xiàn)對(duì)產(chǎn)品特征的聚類[6]。Zhai和Liu在EM算法的基礎(chǔ)上提出了一種約束的半監(jiān)督的SC-EM學(xué)習(xí)方法歸納特征,主要采用兩條約束信息,選擇文本上下文信息作為特征,并對(duì)其中一條約束信息進(jìn)行人工標(biāo)注,進(jìn)行分類器分類,通過實(shí)驗(yàn)驗(yàn)證此方法具有明顯的可行性[7]。楊源等提出一種權(quán)重標(biāo)準(zhǔn)化方法,然后結(jié)合Zhai提出的SC-EM方法,來計(jì)算被提取的產(chǎn)品特征之間的相似度,大大提高了聚類效果[8]。張姝等人第一次把經(jīng)典K-means算法應(yīng)用于對(duì)產(chǎn)品特征進(jìn)行聚類[9]。Guo H等人提出了一種PLSA方法,利用產(chǎn)品特征詞和觀點(diǎn)詞往往同時(shí)出現(xiàn)的信息,對(duì)產(chǎn)品特征進(jìn)行聚類,并取得比較好的聚類效果[6]。對(duì)于傳統(tǒng)的K-means算法來說,對(duì)初始類中心點(diǎn)的選擇并不理想,導(dǎo)致聚類效果不佳。

        所以,針對(duì)上述存在的問題。傳統(tǒng)關(guān)聯(lián)規(guī)則Apriori算法運(yùn)行效率低,以及其是根據(jù)特征項(xiàng)出現(xiàn)頻次來設(shè)置最低支持度,會(huì)導(dǎo)致頻次相對(duì)較低且更有價(jià)值的特征項(xiàng)未被提取出來?;诖耍疚氖状螌⒒跈?quán)重的改進(jìn)Apriori算法[10]引入到產(chǎn)品特征預(yù)抽取階段進(jìn)行頻繁項(xiàng)挖掘,然后采用基于網(wǎng)絡(luò)搜索引擎的PMI算法[11]進(jìn)行過濾提取最優(yōu)產(chǎn)品特征集合。傳統(tǒng)的K-means算法在選擇初始類中心點(diǎn)的時(shí)候是隨機(jī)選擇的,而初始類中心點(diǎn)的選擇對(duì)聚類效果起著重要性作用,本文引入圖論中最小生成樹Prim算法[12]選擇初始類中心點(diǎn),對(duì)聚類算法進(jìn)行改進(jìn)。實(shí)驗(yàn)結(jié)果表明,挖掘性能指標(biāo)均有顯著提高。

        1中文網(wǎng)絡(luò)產(chǎn)品評(píng)論挖掘的框架流程

        如圖1所示,具體步驟如下:

        1)應(yīng)用Python工具的Jieba分詞包對(duì)原始評(píng)論語料進(jìn)行分詞和詞性標(biāo)注。

        2)根據(jù)Jieba分詞工具所使用的詞語標(biāo)記符號(hào),其中與名詞相關(guān)的子集標(biāo)記符號(hào)有{/n,/nr,/ns,/nt,/nz,/nl,/ng},再根據(jù)這些標(biāo)記符號(hào)所代表的含義和語法特點(diǎn),本文選取{/n}作為抽取規(guī)則。使用計(jì)算機(jī)程序?qū)γ恳粭l評(píng)論中進(jìn)行抽取。

        3)采用基于權(quán)重的改進(jìn)Apriori算法產(chǎn)生候選集合。

        4)建立常見中文頻繁項(xiàng)名詞卻非產(chǎn)品特征的集合,并從中文語義及語法角度過濾候選特征集合,利用基于網(wǎng)絡(luò)搜索引擎的PMI算法進(jìn)一步過濾形成產(chǎn)品特征集合。常見的頻繁項(xiàng)名詞卻非產(chǎn)品特征主要?jiǎng)澏橐韵聨追N情況:

        ①常見商品的品牌。例如“諾基亞”、“三星”、“西門子”等名詞。

        ②一些常見的口語化名詞。例如“機(jī)子”、“情況”、“方面”、“賣點(diǎn)”、“優(yōu)缺點(diǎn)”等。

        ③與產(chǎn)品無關(guān)的稱呼類名詞,例如“朋友”、“同事”、“男子”等。

        ④計(jì)算機(jī)程序識(shí)別出來的少量錯(cuò)誤名詞,例如“高端”、“聊天”、“海量”等。

        ⑤常見的集合類名詞,例如“群組”、“大家”等。

        ⑥單字詞,例如“功”、“卡”等。

        5)利用改進(jìn)語義相似度算法提取特征信息。

        6)利用改進(jìn)傳統(tǒng)K-means算法進(jìn)行特征聚類形成特征聚類集合。

        2具體改進(jìn)算法

        本文從兩個(gè)方面對(duì)中文網(wǎng)絡(luò)產(chǎn)品評(píng)論挖掘方法進(jìn)行改進(jìn)。首先首次將基于矩陣與權(quán)重的改進(jìn)Apriori算法運(yùn)用到特征預(yù)選擇階段,再利用基于網(wǎng)絡(luò)與搜索引擎的PMI算法進(jìn)行最終過濾;然后,針對(duì)傳統(tǒng)K-means聚類算法隨機(jī)選擇初始類中心點(diǎn)的不足,提出用圖論中的Prim算法來確定選擇初始類中心點(diǎn),從而實(shí)現(xiàn)較好的聚類效果。

        21基于權(quán)重的改進(jìn)Apriori算法

        用評(píng)論語料和特征集合I0構(gòu)建0~1矩陣M如下:

        M=a11a12…a1n

        a21a22…a2n

        am1am2…amn

        式中,aij=1,aij∈Ti

        0,aijTi,Ti表示第i條評(píng)論,i=1,2,3,…,m,j=1,2,3,…,n,I={I1,I2,I3,…,In}表示N個(gè)特征

        圖1中文網(wǎng)絡(luò)產(chǎn)品評(píng)論挖掘的框架流程

        集合。Ij在事務(wù)數(shù)據(jù)庫中出現(xiàn)的概率為p(Ij),計(jì)算見式(1),IJ的權(quán)重記為w(Ij),與p(Ij)有關(guān),w(Ij)的計(jì)算公式見(2)。

        p(Ij)=l/m(1)

        w(Ij)=1/p(Ij)(2)

        式中,l表示Ij在事務(wù)集中出現(xiàn)的次數(shù),即上述矩陣中第j列中1的個(gè)數(shù),m是評(píng)論語料的總條數(shù)。

        事務(wù)Tk指數(shù)據(jù)集中的第k條評(píng)論,它的權(quán)重指該評(píng)論中所包含的特征項(xiàng)的平均權(quán)重,記為wt(Tk),即對(duì)aij=1的所有w(Ij)求平均值,其中j=1,2,3,…,n,計(jì)算見式(3)。

        wt(Tk)=∑Ij∈Tkj=1w(Ij)/Tk(3)

        式中,Tk表示評(píng)論Tk中包含的特征項(xiàng)的個(gè)數(shù)。

        項(xiàng)的權(quán)重支持度記為w sup port,權(quán)重支持度表示包含特征項(xiàng)的事務(wù)權(quán)重占所有事務(wù)權(quán)重的比例,計(jì)算見式(4)。

        w sup port(S)=∑STkk=1wt(Tk)/∑mk=1wt(Tk)(4)

        式中,S表示事務(wù)數(shù)據(jù)庫中的任意特征項(xiàng)。

        基于權(quán)重的改進(jìn)Apriori算法具體步驟如下:

        1)掃描事務(wù)數(shù)據(jù)庫,構(gòu)建0~1事務(wù)矩陣,并根據(jù)事務(wù)矩陣計(jì)算出每個(gè)特征項(xiàng)和事務(wù)的權(quán)重,即w(Ij),wt(Tk)。

        2)根據(jù)事務(wù)矩陣得到候選1-項(xiàng)集C1,計(jì)算C1中每個(gè)特征項(xiàng)的權(quán)重支持度w sup port(S),找出滿足最小支持度k的頻繁-項(xiàng)集Lk。

        基于權(quán)重的改進(jìn)Apriori算法流程圖如圖2所示:

        22基于語義相似度聚類算法

        本文首先用向量空間模型把產(chǎn)品特征f用向量表示,如feature(f1,f2,…,fn,o1,o2,…,om),其中fi表示產(chǎn)品特征詞,oj表示產(chǎn)品特征對(duì)應(yīng)的觀點(diǎn)詞,通過f和fi的字符串相似度及語義相似度來衡量fi的權(quán)重,同樣的用f和oj的PMI值來衡量oi的權(quán)重。

        本文以HowNet的語義相似度和特征觀點(diǎn)共現(xiàn)作為衡量產(chǎn)品特征之間關(guān)聯(lián)程度的特征。具體公式如下:

        sim(Si,Sj)=x*simA(Si,Sj)+(1-x)*simB(Si,Sj)(5)

        其中,x為對(duì)應(yīng)的參數(shù)閾值,simA(Si,Sj)為特征之間基于HowNet詞典中詞語語義之間的相似度。假設(shè)有兩個(gè)特征詞S1、S2,若S1中含有m個(gè)概念:S11,S12,…,S1m,同樣的S2中含有n個(gè)概念:S21,S22,…,S2n,對(duì)于S1和S2中對(duì)應(yīng)的m和n個(gè)概念進(jìn)行相應(yīng)的組合,計(jì)算概念間的相似度,其中得到的相似度最大值作為兩個(gè)詞語S1和S2的相似度,相應(yīng)的公式如(6)所示:

        simA(S1,S2)=maxe=1…m,f=1…nsim(S1e,S2f)(6)

        simB(Si,Sj)為基于特征和觀點(diǎn)信息共現(xiàn)的特征相似度。將特征f表示為{O1,O2,…,On},其中Oi為特征f的觀點(diǎn)信息詞,wi(S)對(duì)應(yīng)為Oi的權(quán)重值,也就是觀點(diǎn)詞與特征詞在詞匯集中同時(shí)出現(xiàn)的頻次,任意兩個(gè)特征f1和f2語義相似度定義如(7)所示:

        simB(S1,S2)=∑nOi∈S1,Oj∈S2wi(S1)wj(S2)sim(Oi,Oj)∑Oi∈S1wi(S1)∑Oj∈S2wj(S2)(7)

        其中式(7)中,sim(Oi,Oj)表示兩個(gè)特征詞對(duì)應(yīng)的觀點(diǎn)詞基于HowNet得出的相似度。

        K-means聚類算法中最開始的一步是對(duì)初始類中心點(diǎn)進(jìn)行選擇,其選擇的結(jié)果對(duì)下一步的聚類效果有著重要作用,而傳統(tǒng)的聚類算法是隨機(jī)選擇初始類中心點(diǎn),本文研究聚類算法就是對(duì)初始類中心點(diǎn)進(jìn)行改進(jìn),并且采用產(chǎn)品特征之間的距離作為考核度量值,考慮將距離相近的兩個(gè)特征放在同一個(gè)簇中,簇內(nèi)特征盡量緊湊,最終得到的結(jié)果是各個(gè)獨(dú)立的簇。

        本文算法的基本思想是首先構(gòu)建一個(gè)無向賦權(quán)圖G=(V,E);其次對(duì)初始類中心點(diǎn)進(jìn)行選擇,過程如下:首先利用圖論中Prim算法生成最小生成樹,最小生成樹中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的是產(chǎn)品特征詞,根據(jù)權(quán)重值大小選擇權(quán)重最小的K-1條邊依次刪除,最后得到K個(gè)連通子圖;接著對(duì)K個(gè)連通子圖中所有對(duì)象計(jì)算均值,并依據(jù)這些均值作為K個(gè)初始類中心點(diǎn)的選擇然后進(jìn)行相關(guān)聚類。改進(jìn)的K-means聚類算法如圖3所示:

        圖3改進(jìn)后的K-means算法流程圖

        K-means聚類算法中還需要事先給出聚類類別K,但是一般情況下,聚類前都是不知道類別K的,本文算法中利用連通子圖個(gè)數(shù)K來作為聚類類別K。本文研究的聚類算法中,每一個(gè)產(chǎn)品特征對(duì)應(yīng)一個(gè)簇,通過計(jì)算該特征與其他簇中的產(chǎn)品特征的相似度都要超過設(shè)定的閾值來進(jìn)行設(shè)定算法。

        3算法性能評(píng)估

        31評(píng)估指標(biāo)

        311特征抽取評(píng)估指標(biāo)

        本文采用查準(zhǔn)率P、查全率R和綜合值F-score作為特征抽取性能評(píng)估指標(biāo),具體計(jì)算方法如下:

        P=AA+B(8)

        R=AA+C(9)

        F-score=2RPR+P(10)

        A、B、C含義見表1所示:

        312特征聚類評(píng)估指標(biāo)

        本文研究聚類算法為了驗(yàn)證算法的有效性,采用Rand Statistics來評(píng)價(jià)[13]。Rand Statistics評(píng)價(jià)的具體指標(biāo)如下:若特征集合L得到一個(gè)聚類結(jié)果為R={R1,R2,…,Rk},而且對(duì)應(yīng)的特征集合的劃分為C={C1,C2,…,Cs},通過比較R與C之間的相似程度來衡量聚類算法的有效性,對(duì)于任意一對(duì)特征(li,lj)計(jì)算以下特征:

        SS:li,lj在C和R中都屬于同一個(gè)類。

        SD:li,lj在C中屬于同一個(gè)類,在R中不屬于同一個(gè)類。

        DS:li,lj在C中不屬于同一個(gè)類,在R中屬于同一個(gè)類。

        DD:li,lj在C和R中都不屬于同一個(gè)類。

        用a、b、c、d來表示SS、SD、DS、DD的數(shù)目。假設(shè)a、b、c、d 4個(gè)指標(biāo)之和為n,其中n為特征集中所有特征的個(gè)數(shù),對(duì)應(yīng)n=N(N-1)/2,那么R與C之間的相似程度可用如下公式來衡量:Rand Statistics=(a+b)/n,Rand Statistics的取值范圍在0~1之間,越往1靠近,表示二者之間的相似度越高,聚類有效性也就越好。

        由于研究算法中閾值的選取好壞直接影響到聚類效果,因此選擇恰當(dāng)?shù)拈撝?,?duì)于提高聚類效果意義重大,本文研究把評(píng)論語料作為訓(xùn)練集,通過不斷調(diào)整Rand Statistics,觀察聚類效果,當(dāng)Rand Statistics值達(dá)到最大值時(shí),聚類效果最好,也把此時(shí)的值作為閾值。

        32實(shí)驗(yàn)數(shù)據(jù)

        本文利用數(shù)據(jù)堂提供的手機(jī)評(píng)論語料(http://www.datatang.com/data/43824)。選取其中800條作為實(shí)驗(yàn)數(shù)據(jù),對(duì)語料進(jìn)行手工標(biāo)注得到手機(jī)產(chǎn)品特征204個(gè),如表2所示:

        通過前面對(duì)中文網(wǎng)絡(luò)產(chǎn)品評(píng)論進(jìn)行產(chǎn)品特征提取、優(yōu)化過濾后得到產(chǎn)品評(píng)論的特征集合。針對(duì)此集合,采用人工標(biāo)注的方法對(duì)產(chǎn)品評(píng)論對(duì)象進(jìn)行人工標(biāo)注,得到產(chǎn)品特征集。

        33實(shí)驗(yàn)結(jié)果與分析

        331特征提取結(jié)果分析

        在用基于權(quán)重的改進(jìn)Apriori算法進(jìn)行頻繁項(xiàng)挖掘,在考慮噪聲的情況下,為使抽取出來的特征更加全面,本文多次對(duì)特征維度進(jìn)行改變,得到的特征維度變化以及抽取出來的正確特征數(shù)(查全率)變化見表3:

        根據(jù)表3可知,將特征維度選取為1900最佳。再根據(jù)中文產(chǎn)品特征規(guī)則進(jìn)一步過濾特征集合,最后利用PMI算法進(jìn)行最終過濾,提取出最優(yōu)部分特征結(jié)果如表4所示:

        對(duì)PMI設(shè)置不同的閾值,性能變化如圖4所示:

        通過以上實(shí)驗(yàn)結(jié)果可知,結(jié)合基于權(quán)重的改進(jìn)Apriori算法與PMI算法進(jìn)行特征提取時(shí),當(dāng)PMI值為-5時(shí),挖掘結(jié)果綜合性能最優(yōu),查準(zhǔn)率達(dá)到69%,查全率達(dá)到9264%,綜合值達(dá)到7907%。

        332特征聚類結(jié)果分析

        1)評(píng)估結(jié)果

        首先對(duì)中文網(wǎng)絡(luò)產(chǎn)品進(jìn)行產(chǎn)品特征提取并進(jìn)行過濾優(yōu)化后,利用公式(7)的點(diǎn)互信息公式計(jì)算特征之間的相似度,然后進(jìn)行聚類算法,在算法中選擇Rand Statistics值最大時(shí)作為最后選擇閾值,選擇閾值如表6所示,從表中可以看出當(dāng)閾值的值為045時(shí),對(duì)應(yīng)的Rand Statistics最高,為8675%,而此時(shí)對(duì)應(yīng)的聚類效果也最好。針對(duì)于不同的閾值,對(duì)Rand Statistics變化情況如圖5所示。

        3)對(duì)比分析

        對(duì)于手機(jī)評(píng)論的產(chǎn)品特征挖掘,通過實(shí)驗(yàn)分析,本文所提出的方法與K-means方法在性能指標(biāo)上的比較結(jié)果如圖6所示。

        4結(jié)語

        用戶評(píng)論中蘊(yùn)含了大量有價(jià)值的信息,識(shí)別出用戶關(guān)注的產(chǎn)品特征并將產(chǎn)品信息按照特征進(jìn)行組織至關(guān)重要。

        本文專注于解決用戶評(píng)論中產(chǎn)品特征的提取及聚類問題,首次采用基于矩陣與權(quán)重的改進(jìn)Apriori算法進(jìn)行頻繁項(xiàng)挖掘,然后利用基于網(wǎng)絡(luò)搜索引擎的PMI算法進(jìn)行過濾形成最優(yōu)特征集合。最后采用改進(jìn)的聚類算法對(duì)所提取的產(chǎn)品特征進(jìn)行聚類。通過使用本文的挖掘方法進(jìn)行實(shí)驗(yàn),取得了較好的效果??梢詽M足不同用戶的信息需求,幫助潛在的消費(fèi)者做出購買決策,也可以為生產(chǎn)商的產(chǎn)品改進(jìn)提供有價(jià)值的反饋信息,為其提供決策支持。今后也將結(jié)合更多機(jī)器學(xué)習(xí)算法對(duì)評(píng)論文本中的情感傾向性進(jìn)行相關(guān)研究。

        參考文獻(xiàn)

        [1]Zhuang L,Jing F,Zhu X Y.Movie Review Mining and Summarization[C].In:Proceedings of the 15th ACM International Conference on Information and Knowledge Management (CIKM06),Arlington,Virginia,USA.New York:ACM,2006:43-50.

        [2]Kobayashi N,Inui K,Matsumoto Y.Collecting Evaluative Expressions for Opinion Extraction[C].In:Proceedings of the 1st International Joint Conference on Natural Language Processing(IJCNLP04).Berlin,Heidelberg:Springer-Verlag,2004:596-605.

        [3]婁德成,姚天防.漢語句子語義極性分析和觀點(diǎn)抽取方法的研究[J].計(jì)算機(jī)應(yīng)用,2006,26(11):2622-2625.

        [4]Hu M,Liu B.Mining Opinion Features in Customer Reviews[C].In AAAI,2004:755-760.

        [5]Popescu A M,Etzioni O.Extracting Product Features and Opinions From Reviews[C].In Proceedings of HLT-EMNLP 2005,ACL,2005:339-346.

        [6]Guo H,Zhu H,Guo Z,et al.Product Feature Categorization with Multilevel Latent Sentiment Association.In:Proceedings of CIKM,2009:1087-1096.

        [7]Zhai Zhongwu,Liu Bing,Xu Hua,et al.Groupting Features Using Semi-Supervised Learning with Soft-Constrains.Proceeding of the 23rd International Conference on Computational Linguistics (COLING-2010),2010:1272-1280.

        [8]楊源,馬云龍,林鴻飛.評(píng)論挖掘中產(chǎn)品屬性歸類問題研究[J].中文信息學(xué)報(bào),2012,26(3):104-108.

        [9]扈中凱,鄭小林,吳亞峰,等.基于用戶評(píng)論挖掘的產(chǎn)品推薦算法[J].浙江大學(xué)學(xué)報(bào):工學(xué)版,2013,47(8):1475-1485.

        [10]邊根慶,王月.一種基于矩陣和權(quán)重改進(jìn)的Apriori算法[J].微電子學(xué)與計(jì)算機(jī),2017,(1):136-140.

        [11]王永,張勤,楊曉潔.中文網(wǎng)絡(luò)評(píng)論中產(chǎn)品特征提取方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2013,(12):70-73.

        [12]江波,張黎.基于Prim算法的最小生成樹優(yōu)化研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(13):3244-3247.

        [13]Halkidi M,Batistakis Y,Vazirgiannis M.On Clustering Validation Techniques[J]. Journal of Intelligent Information Systems,2001,17(2-3):107-145.

        (實(shí)習(xí)編輯:陳媛)

        猜你喜歡
        means算法Apriori算法特征提取
        基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
        基于Hadoop平臺(tái)的并行DHP數(shù)據(jù)分析方法
        基于Apriori算法的高校學(xué)生成績數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
        基于云平臺(tái)MapReduce的Apriori算法研究
        關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
        中國市場(2016年36期)2016-10-19 04:10:44
        基于K—Means聚類算法入侵檢測系統(tǒng)研究
        基于Weka的Apriori算法在原油產(chǎn)量預(yù)測中的應(yīng)用
        基于HSI顏色空間的小麥粉精度自動(dòng)識(shí)別研究
        基于聚類的Web日志挖掘
        亚洲熟妇自偷自拍另欧美| 高清高速无码一区二区| 亚洲人成绝费网站色www| 亚洲一级天堂作爱av| 开心激情视频亚洲老熟女| 久久午夜福利无码1000合集| 亚洲一区 日韩精品 中文字幕| 97免费人妻在线视频| 丰满人妻一区二区乱码中文电影网 | 快射视频网站在线观看| 老熟女的中文字幕欲望| 亚洲精品无码久久久久av老牛| 97午夜理论片在线影院| 欧美亚洲另类自拍偷在线拍| 久久av少妇亚洲精品| 亚洲色图三级在线观看| 综合色区亚洲熟妇另类| 亚洲av无码之日韩精品| 综合久久久久6亚洲综合| av免费在线播放一区二区| 国内自拍情侣露脸高清在线| 97精品超碰一区二区三区| 四虎影视在线观看2413| 亚洲av伊人久久综合性色| 国产一区二区黑丝美胸| 99精品视频69v精品视频| 中国熟妇人妻xxxxx| 亚洲av乱码专区国产乱码| 蜜桃成人精品一区二区三区| 午夜视频国产在线观看| 天天鲁在视频在线观看| 国产精品99久久久久久98AV| 日本最大色倩网站www| 97人人超碰国产精品最新o| 天堂岛国精品在线观看一区二区| 侵犯了美丽丰满人妻中文字幕| 婷婷五月深深久久精品| 日日猛噜噜狠狠扒开双腿小说| 无码视频一区二区三区在线播放| 国产视频一区二区三区久久亚洲| 国产大屁股视频免费区|