亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞性分析的產(chǎn)品評價信息挖掘

        2013-11-30 05:01:58馮秀珍
        計算機工程與設(shè)計 2013年1期
        關(guān)鍵詞:分詞副詞語句

        馮秀珍,郝 鵬

        (北京工業(yè)大學(xué) 軟件學(xué)院,北京100124)

        0 引 言

        互聯(lián)網(wǎng)的快速發(fā)展,產(chǎn)品交易方式也隨之改變,以電子商務(wù)的產(chǎn)品交易方式在生活中占了很大的比例。顧客在購買了產(chǎn)品之后,會在相應(yīng)的產(chǎn)品評價系統(tǒng)里表達使用產(chǎn)品的感受,如針對產(chǎn)品的某個特征不是很滿意,而對產(chǎn)品的另外一個特征很滿意等。對這類信息的抽取、分析,可以得到顧客都對哪些特征進行了評價,評價的語義傾向如何,是正面評價還是負(fù)面評價。這些信息反應(yīng)了該產(chǎn)品在顧客心中的使用情況,進而了解顧客對該類產(chǎn)品的需求信息。這類信息的挖掘可以為企業(yè)新產(chǎn)品的開發(fā)和產(chǎn)品的推薦提供重要的參考價值,可以作為企業(yè)進行下一步生產(chǎn)決策的重要的理論依據(jù)。

        目前,很多學(xué)者對這個領(lǐng)域進行了深入研究。如,文獻[1]提出了利用關(guān)聯(lián)規(guī)則挖掘的方法對訓(xùn)練集進行訓(xùn)練,得到一些產(chǎn)品特征及其評價的信息抽取規(guī)則,按照這些規(guī)則進行產(chǎn)品特征及其評價的信息抽取并可視化展示。文獻[2-4]在基于互信息(PMI)的基礎(chǔ)上提出把測試短語與給定的積極短語之間的互信息減去測試短語與給定的消極短語之間的互信息的值作為測試短語的語義傾向(SO),SO(phrase)=PMI(phrase,”excellent”)-PMI(phrase,“poor”),其中,互信息PMI(word1,word2)=log2 {P(word1 & word2)/P(word1)P(word2)}。盡 管這類文章中提到的方法在對特征提取與語義傾向判別上有很好的效果,但這類文章大都集中在對英文進行處理,很少涉及對中文進行處理的。對中文的產(chǎn)品評價內(nèi)容進行產(chǎn)品特征提取和語義傾向判別難度要比英文大的多,這主要是因為漢語具有很大的歧義性、多義性、結(jié)構(gòu)復(fù)雜性、上下文相關(guān)性等特點。最近幾年,針對漢語的特征提取與語義傾向判別也有相應(yīng)的文章出現(xiàn),如文獻[5]提出一種基于漢語語法格式的特征抽取和基于HowNet的語義傾向判別。文獻[6]提出了基于詞共現(xiàn)的特征提取和互信息(PMI)的語義傾向判別等。

        針對北京某一個電子商務(wù)網(wǎng)站上的一款相機的評價內(nèi)容,本文首先用標(biāo)點符號進行切分,切分后把每一個單獨的句子作為處理單元單元進行分詞和詞性標(biāo)注。結(jié)合每一評論語句中提到的產(chǎn)品特征和評價對相應(yīng)的詞性進行分析后發(fā)現(xiàn):評論語句中能表達產(chǎn)品特征及評價的詞都與一定的詞性相聯(lián)系;當(dāng)評論語句中出現(xiàn)多個可能表達產(chǎn)品特征或評價的詞性時,選擇詞性的順序也是不一樣的。因此,本文在對語料庫中可能表達產(chǎn)品特征和評價的詞性進行頻數(shù)統(tǒng)計后排序,把詞性排序后的先后順序作為對應(yīng)詞性在表達產(chǎn)品特征和評價的重要程度,并按照詞性的重要程度順序建立了一個詞性重要程度高則優(yōu)先考慮的產(chǎn)品特征及其評價的篩選規(guī)則,然后根據(jù)不同情況建立相應(yīng)評價的語義傾向計算公式。通過對實驗結(jié)果進行分析,證明本文的方法在產(chǎn)品特征抽取及評價抽取并對評價語句的語義傾向進行判別有很好的效果。

        1 產(chǎn)品特征及語義抽取系統(tǒng)架構(gòu)

        圖1展示了產(chǎn)品特征及相應(yīng)評的抽取策略,主要包括5個步驟:產(chǎn)品評論內(nèi)容抽取、分詞和詞性標(biāo)注、產(chǎn)品特征和及其評價信息的抽取、評價信息的語義傾向判斷、產(chǎn)品特征的同義詞替換。

        圖1 產(chǎn)品特征及語義抽取系統(tǒng)架構(gòu)

        (1)第一步是從互聯(lián)網(wǎng)上抽取顧客對產(chǎn)品評論的具體內(nèi)容。這些產(chǎn)品評論信息是沒經(jīng)過任何處理直接從網(wǎng)上抽取下來的,它是我們分析的原始數(shù)據(jù)。

        (2)第二步是抽取的評論內(nèi)容進行分詞和詞性標(biāo)注。抽取下來的評論雖然能表達一定的產(chǎn)品特征及相應(yīng)的評價信息,但是面對這些沒有任何特點的句子必須尋找一個恰當(dāng)?shù)姆绞竭M行處理,分詞和詞性標(biāo)注是目前最為常用的手段。

        (3)第三步是利用一定的抽取方法對分詞和詞性標(biāo)注后的產(chǎn)品評論語句進行產(chǎn)品特征和評價信息抽取。這一步是整個抽取過程中最重要的一步,也是本文研究的重點。

        (4)第四步是對第三步抽取的產(chǎn)品特征的評價信息進行語義傾向判斷。針對第三步抽取的產(chǎn)品特征的評價內(nèi)容本身進行分析是不可能的,因為評價的內(nèi)容表達是多種多樣。但是,無論什么評價,只有3種可能的結(jié)果:正面評價、負(fù)面評價、中性評價。針對這3種評價進行分析則是可行的。因此,需要對產(chǎn)品特征的評價內(nèi)容進行語義傾向判斷。

        (5)第五步是對抽取的產(chǎn)品特征進行同義詞替換。不同的顧客在對產(chǎn)品的某一個特征進行評論時可能采用不同的產(chǎn)品特征表達詞語,而且這種現(xiàn)象在評論中占有很大的比例。如果不對這些產(chǎn)品特征的同義詞進行替換、合并,必將丟失一些信息甚至得到錯誤的分析結(jié)果。

        2 涉及的主要技術(shù)

        2.1 產(chǎn)品評價內(nèi)容抽取

        能夠表達對產(chǎn)品特征及其觀點的語句有兩種:一種是明顯表達的語句;一種是潛在表達的語句。比如,針對相機來說,“照片不是很清晰”這句話明顯表達了對相機的拍照功能不是很滿意;“很模糊”這句話同樣也表達對相機的拍照功能不是很滿意,只是省略了特征詞。針對這兩種情況,處理方法也是不一樣。明顯表達產(chǎn)品特征和觀點的語句用一定的方法可以直接抽取出產(chǎn)品特征及相應(yīng)的評價。但是對于潛在表達的語句,僅根據(jù)觀點詞是沒法判斷其對應(yīng)的產(chǎn)品特征的,它要結(jié)合實際的抽取產(chǎn)品類型。比如,語句 “很模糊”對于相機則是潛在的表達相機的拍照功能,而對于電視則是潛在表達電視的分辨率特征。因此,為了使我們建立的產(chǎn)品特征及其觀點的抽取規(guī)則更具有普遍適用性,在評價內(nèi)容抽取時,這類信息不作為考慮對象,不予抽取。抽取方式采取以標(biāo)點符號為分隔符,即把每個單句作為抽取的一個單元并進行分析。抽取的單句形式如:“圖片不是很清晰”“電池容量太小”等。

        2.2 分詞和詞性標(biāo)注

        眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。把中文的漢字序列切分成有意義的詞,就是中文分詞。分詞和詞性標(biāo)注是漢語信息處理中重要的基礎(chǔ)性工作,在中文信息處理中起著關(guān)鍵性作用。主流的中文分詞方法[7-8]有:①基于字符串匹配的分詞方法;②基于理解的分詞方法;③基于統(tǒng)計的分詞方法。

        本文的分詞系統(tǒng)采用中文分詞系統(tǒng)ictclas4j[9],ictclas4j是sinboy在中國科學(xué)院張華平、劉群老師研制的FreeICTCLAS的基礎(chǔ)上完成的一個java開源項目,簡化了原分詞程序的復(fù)雜度,對中文分詞有很好的效果。利用ictclas4j對抽取的每一個產(chǎn)品評論語句進行分詞和詞性標(biāo)注,得到如下形式:“圖片/n不/d是/v很/d清晰/a” “電池/n容量/n太/d?。痑”等。

        2.3 產(chǎn)品特征及其評價的抽取規(guī)則

        建立產(chǎn)品特征及其評價的抽取規(guī)則是本文研究的重點和創(chuàng)新點,下面將對本文如何建立產(chǎn)品特征及其評價的抽取規(guī)則進行詳細(xì)闡述。

        通過對分詞和詞性標(biāo)注后的每一個產(chǎn)品評論語句進行分析后發(fā)現(xiàn):

        (1)能表達產(chǎn)品特征的詞性主要集中在名詞性詞語(包括以下子類:名詞n,專有名詞nz,名詞性語素ng等)和動詞性詞語(包括以下子類:動詞v,名動詞vn,動詞性語素vg等);

        (2)能表達對特征評價的詞性主要集中在形容詞性詞語(包以下子類:括容詞a,名形詞an,形容詞性語素ag等);

        (3)每一個產(chǎn)品評論語句可能同時含有多個表達產(chǎn)品特征和評價的詞性(如,同時出現(xiàn)兩個名詞性詞語或兩個形容詞性詞語等)。

        (1)首先,確定表達特征及評價的不同詞性及其子類的重要程度順序。本文通過對北京的一家電子商務(wù)網(wǎng)站上的一款相機的評論進行抽取,抽取了20頁評論,去除重復(fù)的語句和不能表達任何產(chǎn)品特征及其評價的語句后得到197個語句,這197個語句都表達了某一產(chǎn)品特征及其評價。分詞和詞性標(biāo)注后對表達產(chǎn)品特征及其評價的詞性進行統(tǒng)計,得到表1,表2。

        表1 表達產(chǎn)品特征的詞性統(tǒng)計

        表2 表達觀點的詞性統(tǒng)計表

        分析表1,表2中的數(shù)據(jù),易得:

        針對表達產(chǎn)品特征的詞性主要集中在n,v,vn且它們的重要程度排序如下:Imp(n)>Imp(v)>Imp(vn)>Imp(其它),Imp代表重要程度。

        針對表達對特征進行評價的詞性主要集中在a,an且它們的重要程度排序如下:Imp(a)>Imp(an)>Imp(其它)。

        在對每一個產(chǎn)品評論語句進行產(chǎn)品特征和評價信息抽取時,如果這些詞性同時出現(xiàn)時,應(yīng)該優(yōu)先考慮重要程度高的詞性。

        (2)其次,考慮到有些表達產(chǎn)品特征及其評價的詞性出現(xiàn)的幾率很小如(nz,ag等),去除這些詞性后不僅不會影響抽取結(jié)果,而且可以提供抽取的效率。因此,在對產(chǎn)品特征及其評價進行抽取時只考慮出現(xiàn)頻率最為經(jīng)常的詞性,這樣,表達產(chǎn)品特征的詞性只需要考慮[n,v,vn],表達對產(chǎn)品特征進行評價的詞性只考慮[a,an]。

        (3)最后,考慮到表達對產(chǎn)品特征進行評價的形容詞性(a,an)的詞語只要出現(xiàn)就能表達一定的觀點,因為形容詞性詞語本身就是一種有情感傾向的詞語,是表達對產(chǎn)品特征一定評價的詞。而表達產(chǎn)品特征的名詞性詞語和動詞性詞語則不一定。如,圖片/n不/d是/v很/d清晰/a,其中這句話經(jīng)過分詞后 “不”被標(biāo)注為v,但它不是產(chǎn)品特征。

        因此,結(jié)合以上分析,本文對每一個產(chǎn)品評論語句進行產(chǎn)品特征及其評價抽取是時,把每一個產(chǎn)品評論句中的a(an)作為產(chǎn)品特征的評價詞,并以它為基礎(chǔ)尋找其對應(yīng)的產(chǎn)品特征詞。特征詞的選擇主要是根據(jù)上面建立的表達產(chǎn)品特征的詞性的重要程度順序上分別進行考論。具體的產(chǎn)品特征及評價的抽取規(guī)則如下:

        財政部近期發(fā)布消息表示,為進一步提高地方預(yù)算完整性,加快支出進度,幫助地方提前謀劃和打贏脫貧攻堅戰(zhàn),中央財政近期提前下達28個?。ㄗ灾螀^(qū)、直轄市)2019年中央財政專項扶貧資金預(yù)算909.78億元,約占2018年中央財政專項扶貧資金1060.95億元的86%。在此次提前下達的909.78億元中,安排資金120億元,繼續(xù)重點支持西藏、四省藏區(qū)、南疆四地州和四川涼山州、云南怒江州、甘肅臨夏州等深度貧困地區(qū),并將資金分解到具體區(qū)、州。

        定義Nword為詞性的word的個數(shù),如Na為形容詞a的個數(shù),針對產(chǎn)品評論的每一個單獨語句:

        (1)當(dāng)Na+Nan=0或者Na+Nan>=3或者Nn+Nv+Nvn=0時,不作考慮。

        針對規(guī)則(1),當(dāng)Na+Nan=0,說明沒有觀點詞;當(dāng)Nn+Nv+Nvn=0,說明沒有產(chǎn)品特征詞;當(dāng)Na+Nan>=3,說明一個評論語句出現(xiàn)3個能表達對產(chǎn)品評價的詞性,這種情況在我們抽取的訓(xùn)練庫中出現(xiàn)的概率為0。所以,這3種情況都不符合提取的要求,不作考慮。

        針對規(guī)則(2),當(dāng)產(chǎn)品評論語句中能表達產(chǎn)品特征的詞性在一個重要程度級上存在重復(fù)時(如,n、n或v、v),選取與能表達對產(chǎn)品評價評價的詞性a(an)距離最近的一個為特征詞[10],主要是因為形容詞性(a、an)修飾與其相鄰的名詞性(n)或動詞性(v、vn)詞語是一種常見的特征。如,相機/n的/u電池/n使用/v時間/n太/d短/a,在一個重要程度級n上存在兩個詞語(相機/n,電池/n),按照規(guī)則取與產(chǎn)品評價詞 “短”最近的一個,選取結(jié)果是“電池”,這種選擇方式是正確的。這種特征的存在和人們使用語言的表達方式有很大的關(guān)系。但當(dāng)距離相等時,則意味著在觀點的左邊和右邊各有一個能表達產(chǎn)品特征的詞性,這種情況在抽取的訓(xùn)練庫中出現(xiàn)的概率同樣為0。因此也不作考慮。

        針對規(guī)則(3),當(dāng)Nn>=2或(Nn=0,Nv>=2)或(Nn=0,Nv=0,Nvn>=2)時不作考慮主要是出于兩點考慮:一是這3種情況出現(xiàn)的概率很小,這3種情況在我們抽取的訓(xùn)練庫中出現(xiàn)的概率之和為僅為0.022,因此,去除后不僅不會影響到抽取的總體結(jié)果,反而會提高抽取的準(zhǔn)確性。

        綜上所述,按我們的規(guī)則對產(chǎn)品評論進行抽取,可能出現(xiàn)以下結(jié)果:符合規(guī)則(1)的將不作考慮;符合規(guī)則(2)的將會抽取一個特征詞和一個對產(chǎn)品評價詞。如,[圖片 清晰];符合規(guī)則(3)的將會抽取一個特征詞和兩個觀點詞。如,[圖片 清晰 漂亮]

        2.4 語義傾向判斷

        由2.3節(jié)可知,對產(chǎn)品評價內(nèi)容進行抽取時只考慮形容詞性的詞語(a、an)作為對產(chǎn)品評價的可能的詞性。因此,本文中產(chǎn)品特征評價信息的語義傾向判別主要是對形容詞性的詞語的褒貶進行判別。本文在對形容詞性的詞語進行語義的褒貶判別時采用的是 《知網(wǎng)》發(fā)布的 “情感分析用詞語集”[11],其中,含有正面情感和正面評價的詞語4566個,含有負(fù)面情感和負(fù)面評價的詞語4370個。

        另外,對產(chǎn)品評價的語義傾向起到?jīng)Q定性作用的還有否定副詞(d)的個數(shù),主要包括:“不”、 “沒”、 “沒有”等。如果一個產(chǎn)品評論語句中含有一個對產(chǎn)品特征正面評價的評價詞,同時含有一個否定副詞 “不”,顯然,句子的語義傾向由正面評價轉(zhuǎn)換為負(fù)面評價,如 “照片/n不/d是/v很/d清晰/a”等。但是,當(dāng)一個產(chǎn)品評論語句中含有一個對產(chǎn)品特征正面評價的評價詞,同時含有兩個個否定副詞 “不”,顯然,句子的語義傾向不發(fā)生變化,如 “照片/n不/d是/v不/d清晰/a”等。

        這種對產(chǎn)品特征的正面評價和負(fù)面評價之間的轉(zhuǎn)換取主要決于否定副詞的個數(shù):當(dāng)每一個產(chǎn)品評論語句中否定副詞個數(shù)為偶數(shù)時,該評論句子的語義將不發(fā)生變化;當(dāng)每一個產(chǎn)品評論語句中否定副詞個數(shù)為奇數(shù)時,句子的整體語義傾向在正面評價與負(fù)面評價之間進行轉(zhuǎn)換。

        因此,產(chǎn)品評論語句的整體語義傾向取決于產(chǎn)品評價詞本身的語義傾向(褒義或貶義)和語句中否定詞的個數(shù)。但是,考慮到實際情況下,抽取的產(chǎn)品評價詞可能不存在于 “情感分析用詞語集”[11]中,這種情況下為了減少錯誤的判斷,定義這種詞為中性詞,即不作語義傾向判斷。

        針對2.3節(jié)中提到的產(chǎn)品特征及評價的抽取規(guī)則(2)和抽取規(guī)則(3),本文提出以下公式計算每一個評論語句的整體語義。

        定義:產(chǎn)品評價詞為Opinion,其Opinion的情感色彩為SemanticOpinion。當(dāng)Opinon為褒義時,SemanticOpinion=+1;當(dāng)Opinon為貶義時,SemanticOpinion=-1;當(dāng)Opinon不存在于 “情感分析用詞語集”[10]時,即SemanticOpinion=0;句子中否定副詞的個數(shù)為NumDenyword;每一個對產(chǎn)品特征進行評價的評論語句的整體語義傾向為Semantic,當(dāng)Semantic為正數(shù)m時表示句子整體對特征詞贊同m次;當(dāng)Semantic為負(fù)數(shù)n時表示句子整體對特征詞否定n次。當(dāng)Semantic為0時表示句子整體對特征詞不作判斷。

        規(guī)則(2)中提取的結(jié)果中含有產(chǎn)品特征詞性和評價詞性的個數(shù)都為1,無論否定副詞的個數(shù)為多少都是對一個產(chǎn)品特征詞性起作用作用,因此,句子整體的語義傾向Semantic的計算公式如下

        規(guī)則(3)中提取的結(jié)果中含有產(chǎn)品特征詞性的個數(shù)為1,但是評價詞性的個數(shù)都為2,否定副詞作用的產(chǎn)品評價詞性不同,結(jié)果可能不一樣。

        如 “相機/n 不/d是/v 很/d 好/a而且/c很/d 貴/a”這句話含有兩個產(chǎn)品特征的評價詞性 “好/a” “貴/a”,一個否定副詞 “不/d”,其中 “好/a”是褒義,“貴/a”是貶義。由于否定副詞 “不/d”作用于 “好/a”,因此把其中的一個褒義評價轉(zhuǎn)換為一個貶義評價,這樣句子其實是對相機的兩次負(fù)面評價。

        如 “相機/n很/d好/a而且/c不/d貴/a”這句同樣是含有兩個產(chǎn)品特征的評價詞性 “好/a” “貴/a”,一個否定副詞 “不/d”,其中 “好/a”是褒義,“貴/a”是貶義。但是,由于否定副詞 “不/d”作用對象由之前的 “好/a”轉(zhuǎn)換為現(xiàn)在的 “貴/a”,把貶義的 “貴/a”轉(zhuǎn)換為褒義,這樣句子其實是對相機的兩次正面評價。

        考慮到上述情況,本文用一下方法建立句子整體的語義傾向Semantic的計算公式:

        假設(shè),不考慮否定副詞時,我們可以作以下判斷:①當(dāng)兩個產(chǎn)品特征評價詞都是褒義時,如,圖片/n非常/d漂亮/a清晰/a,“漂亮/a”、“清晰/a”兩個產(chǎn)品特征的評價詞都是褒義,則句子整體對特征詞取2次正面評價,即Semantic=+2;②當(dāng)兩個產(chǎn)品特征的評價詞一個是褒義另一個是貶義時,如,相機/n很/d好/a但是/c太/d貴/a了/y,評價詞 “好/a”是褒義,評價詞 “貴/a”是貶義,這種情況下,取其折中,則句子整體對特征詞保存中性評價,即Semantic=0;③當(dāng)兩個產(chǎn)品特征評價詞都是貶義時,如,相機/n很/d差/a而且/c貴/a,評價詞 “差/a” “貴/a”都是貶義,則句子整體對特征詞取兩次負(fù)面評價,即Semantic=-2;

        接下來,根據(jù)上面3種情況,考慮否定副詞。

        因為否定副詞對產(chǎn)品特征的評價詞起到的作用是語言傾向的轉(zhuǎn)換,因此,只要確定否定副詞對哪個產(chǎn)品特征的評價詞其作用,再轉(zhuǎn)換這個評價詞的語的語義傾向,那么句子整體語言傾向分析仍然是上面考慮的3種情況。對于否定副詞對哪個觀點詞起作用,同樣根據(jù)文獻[10]中提到思想,采取距離否定副詞最近的對產(chǎn)品評價的詞語作為否定副詞起作用的評價詞語。當(dāng)然,如果存在距離相等的情況,不作考慮,畢竟這種情況出現(xiàn)的概率幾乎為0。

        根據(jù)上面的分析,定義為觀點詞為Opinion1,Opinion2,對應(yīng)觀點詞的語義傾向為SemanticOpinion1,SemanticOpinion2,根據(jù)距離,判斷Opinion1所擁有的否定副詞的個數(shù)NumDenyWord1,判斷Opinion2所擁有的否定副詞的個數(shù)NumDenyWord2,因此,句子整體語義傾向Semantic計算公式如下

        特別說明的是,針對規(guī)則(3)中涉及的兩個產(chǎn)品特征的評價詞,如果其中的評價詞沒有出現(xiàn)在 “情感分析用詞語集”[10]時,根據(jù)上面的定義SemanticOpinion=0,這種情況下,規(guī)則(3)的語義計算公式則轉(zhuǎn)換為規(guī)則(2)的形式,計算結(jié)果仍是正確的。

        2.5 同義詞替換

        根據(jù)2.4節(jié)的分析,對每一個評論語句可能得到相應(yīng)的產(chǎn)品特征詞及相應(yīng)評價詞的語義傾向。若要對語料庫中所有的評論語句進行產(chǎn)品特征及評價的語義傾向進行統(tǒng)計,必須要解決同義詞問題。如,“照片”和 “相片”是同義詞,只有把這兩種特征詞進行同義詞替換、合并后,然后再對產(chǎn)品特征及其相應(yīng)的評價的語義傾向進行統(tǒng)計的結(jié)果才能更準(zhǔn)確。

        針對同義詞之間的關(guān)系,國內(nèi)國外都由很多學(xué)者進行研究,如,國外的WordNet[12]就被許多研究人員用于同義詞替換和信息抽取。文獻[1]在進行同義詞替換時也是根據(jù)WordNet[12]進行判斷是否為同義詞的。國內(nèi)的 How-Net[11]就對同義詞之間的關(guān)系進入了深入研究,其提供了詞語之間的多種關(guān)系,如上下文關(guān)系、同義關(guān)系、反應(yīng)關(guān)系等。文獻[13]在對微博就行特征詞提取時采用了詞性分析與HowNet相結(jié)合,提出了一種特征詞的選擇方法。本文在進行同義詞分析、替換時主要也是根據(jù)HowNet。

        在進行產(chǎn)品特征的同義詞替換時,可以根據(jù)實際的需要并結(jié)合抽取的產(chǎn)品特點,自行增加一定的同義詞。比如,在對相機領(lǐng)域進行產(chǎn)品特征及評價抽取時,如果對產(chǎn)品外觀進行研究,可以把尺寸、大小、顏色等定義為同義詞,這些詞的定義主要取決于你所定義的外觀的粒度大小。針對某一個產(chǎn)品領(lǐng)域,這些詞的數(shù)量也是很有限的。因此,通過定義產(chǎn)品領(lǐng)域同義詞的方法是可行的,這樣也可以大大提高信息抽取的準(zhǔn)確性。本文在下面的實驗在對產(chǎn)品特征及其評價抽取時,就把 “發(fā)貨”“送貨”“物流”定義為 “服務(wù)”的同義詞。

        3 實 驗

        本文用java語言在集成開發(fā)環(huán)境NetBeans下對本文中提出的產(chǎn)品特征及其相應(yīng)的評價的抽取策略進行實現(xiàn)。本文針對北京的一家電子商務(wù)網(wǎng)站--京東商城進行實驗,抽取內(nèi)容是該網(wǎng)站出售的一款尼康相機(型號是s3100)的30頁顧客評論內(nèi)容??紤]到實驗抽取結(jié)果中含義60個特征詞,為了方便展示,實驗把輸出結(jié)果按照產(chǎn)品的特征個數(shù)進行先后排序,取排在前面也就是討論次數(shù)最多的產(chǎn)品特征進行可視化展示,具體的輸出結(jié)果如圖2,分析可得:

        (1)根據(jù)評論次數(shù),顧客購買相機時的關(guān)注的特征順序為:照片>外觀>感覺>價格>操作>質(zhì)量>功能>服務(wù)>電池>反應(yīng)。這是符合顧客實際購買心態(tài)的。

        (2)顧客對相機的 “照片” “外觀” “價格” “操作”“質(zhì)量”特征的滿意程度遠(yuǎn)遠(yuǎn)大于不滿意程度,這也是 “感覺”的滿意程度遠(yuǎn)大于不滿意的原因所在。

        (3)其中電池的不滿意程度遠(yuǎn)大于滿意的程度,電池的缺陷帶導(dǎo)致相機的 “反應(yīng)”時間太慢,因此,在圖標(biāo)中,反應(yīng)的不滿意程度遠(yuǎn)大于滿意程度。

        (4)“服務(wù)”雖然不是相機的特征,但作為顧客在網(wǎng)絡(luò)購物時比較關(guān)注的一個方面,同樣也被作為特征抽取出來。

        圖2 產(chǎn)品評價內(nèi)容抽取結(jié)果分析

        通過這款相機的產(chǎn)品介紹得知,這款相機是一款價位低,機身小巧,操作簡單,電池容量小等特點的傻瓜相機。這些產(chǎn)品介紹中所描述的信息與實驗抽取的結(jié)果所反應(yīng)出的信息基本上是匹配的。

        為了對本文所提到的方法的準(zhǔn)確性和可行性進行驗證,對實驗抽取的實驗數(shù)據(jù)按照每一個評論語句反應(yīng)的產(chǎn)品特征進行人工標(biāo)注,然后,再次利用我們的方法對數(shù)據(jù)進行抽取,具體測試結(jié)果見表3。

        表3 實驗結(jié)果分析

        觀察表3可以看出,利用我們的方法對產(chǎn)品評價內(nèi)容進行產(chǎn)品特征抽取和觀點的語義傾向判斷有很高的準(zhǔn)確率。

        4 結(jié)束語

        表達產(chǎn)品特征及其評價的詞都與一定的詞性相聯(lián)系,本文通過對語料庫中表達產(chǎn)品特征及評價的詞的詞性進行頻率統(tǒng)計并排序,確定了表達產(chǎn)品特征和評價的詞性的重要程度順序。根據(jù)詞性的重要程度順序本文提出了一種新的產(chǎn)品特征及其評價的抽取規(guī)則并提出了評價信息的語義傾向計算公式。通過對實驗結(jié)果分析,證明我們的方法在產(chǎn)品特征及評價的語義傾向判斷上有很高的查全率和查準(zhǔn)率。但是,本文沒有考慮潛在表達的產(chǎn)品特征及相應(yīng)評價的語句,這必將遺漏一些信息,因此,我們下一步的工作將是對潛在表達的產(chǎn)品特征及其相應(yīng)評價的語句進行研究。

        [1]Liu B,Hu M,Cheng J.Opinion observer:Analyzing and comparing opinions on the web[C]//Chiba,Japan:Proceedings of the 14th International Conference on World Wide Web,2005:342-351.

        [2]Luchaichana O,Korkerd W,Tuchinda R.Classifying semantic orientation of domain-dependent words with unknown sentiments[C]//Chaing Mai:International Conference on Electrical Engineering/Electronics Computer Telecommunications and Information Technology,2010:1055-1059.

        [3]Wenqian Shang,Youli Qu,Houkuan Huang,et al.A Rolebased customer review mining system[C]//Taipei:IEEE International Conference on Systems,Man and Cybernetics,2006:4855-4860.

        [4]Singh V K.An automated course feedback system using opinion mining[C]//Mumbai:World Congress on Information and Information and Communication Technologies,2011:72-76.

        [5]Hui Yang,Xu Zhou,Tong Zhou,et al.Semantic inclination mining based on dependency grammar for Chinese BLOG[C]//Changsha:IEEE Fifth International Conference on Bio-Inspired Computing:Theories and Applications,2010:880-884.

        [6]Chang Chia-Hui,Tsai Kun-Chang.Aspect summarization from Blogsphere for social study[C]//Omaha,NE:Seventh IEEE International Conference on Data Mining Workshops,2007:9-14.

        [7]YANG Chunming,HAN Yongguo.Fast algorithm of keywords automatic extraction in fiel[J].Computer Engineering and Design,2011,32(6):2142-2145(in Chinese).[楊春明,韓永國.快速的領(lǐng)域文檔關(guān)鍵詞自動提取算法[J].計算機工程與設(shè)計,2011,32(6):2142-2145.]

        [8]LIU Bo,ZHENG Jiaheng,ZHANG Hu.Consistency check of segment using combination of rule and statistics[J].Computer Engineering and Design,2008,(29)7:1814-1818(in Chinese).[劉博,鄭家恒,張虎.規(guī)則與統(tǒng)計相結(jié)合的分詞一致性檢驗[J].計算機工程與設(shè)計,2008,29(7):1814-1818.]

        [9]張華平,劉 群.ictclastj[EB/OL].[2008-05-01].http://code.google.com/p/ictclas4j/downloads/list.

        [10]DLSI,Univ.Alicante,Alicante.A feature dependent method for opinion mining and classification[C]//Beijing:International Conference on Natural Language Processing and Knowledge Engineering,2008:1-7.

        [11]董振東,董 強.知 網(wǎng) 簡 介[EB/OL].[2011-05-01].http://www.keenage.eom/zhiwang/.html.

        [12]Bwalenz,Didion J.JWNL-Java WordNet Library[EB/QL].[2008-05-14].http://jwordnet.sourceforge.net.

        [13]Liu Zitao,Yu Wenchao,Chen Wei,et al.Short text feature selection for micro-blog mining[C]//Wuhan:International Conference on Computational Intelligence and Software Engineering,2010:1-4.

        猜你喜歡
        分詞副詞語句
        The Wheels on the Bus
        副詞“好容易”及其詞匯化成因
        重點:語句銜接
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        精彩語句
        值得重視的分詞的特殊用法
        副詞和副詞詞組
        如何搞定語句銜接題
        語文知識(2014年4期)2014-02-28 21:59:52
        高考分詞作狀語考點歸納與疑難解析
        論英語不定式和-ing分詞的語義傳承
        一本色道av久久精品+网站| 加勒比日韩视频在线观看| 日韩日韩日韩日韩日韩日韩日韩| 中文www新版资源在线| 久久国产自偷自免费一区100| 永久免费毛片在线播放| 桃色一区一区三区蜜桃视频| 亚洲熟妇av一区| 免费观看又污又黄的网站| 亚洲一区二区在线视频播放| 81久久免费精品国产色夜| 欧美大片va欧美在线播放| 精品麻豆国产色欲色欲色欲www| 深夜国产成人福利在线观看女同| 久久综合老鸭窝色综合久久| 亚洲一区二区三区高清在线| 亚洲av无码精品蜜桃| 久久综合五月天| 加勒比一本大道大香蕉| 蜜桃18禁成人午夜免费网站| 久久久精品456亚洲影院| 麻豆国产乱人伦精品一区二区| 国产熟女露脸大叫高潮| 欧美伦费免费全部午夜最新 | 亚洲熟妇丰满大屁股熟妇| 精品国免费一区二区三区| 极品少妇人妻一区二区三区| 国产精品国三级国产av| 亚洲国产精品无码久久电影| 日本高清h色视频在线观看| 99国产免费热播视频| www.亚洲天堂.com| 中文字幕日韩高清乱码| 宅男666在线永久免费观看| 亚洲欧美日韩高清专区一区| 蜜桃视频中文字幕一区二区三区| 亚洲一区二区三区综合免费在线| 亚洲精品国产精品乱码在线观看| 丰满熟女人妻中文字幕免费| 国产在线h视频| 久久本道久久综合伊人|