亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于“屬性-情感詞”汽車本體的文本情感分析

        2020-08-12 02:33:00王連喜
        關(guān)鍵詞:語料本體領(lǐng)域

        王連喜

        (1.廣州市非通用語種智能處理重點實驗室,廣東 廣州 510006;2.廣東外語外貿(mào)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,廣東 廣州 510006)

        0 引 言

        隨著社會媒體與電子商務(wù)技術(shù)的快速發(fā)展與普及,普通民眾已經(jīng)習(xí)慣在網(wǎng)絡(luò)發(fā)布和獲取信息。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第43次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,2018年中國數(shù)字經(jīng)濟(jì)以電子商務(wù)為先導(dǎo)力量獲得迅速發(fā)展,引領(lǐng)數(shù)字產(chǎn)業(yè)崛起和產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型[1]。特別在在線汽車網(wǎng)絡(luò)評論領(lǐng)域,互聯(lián)網(wǎng)用戶創(chuàng)造了大量蘊含情感色彩的UGC,準(zhǔn)確地對用戶主動生產(chǎn)的口碑評論信息進(jìn)行挖掘和分析,可以有效幫助消費者了解汽車產(chǎn)品各方面性能的評價分布,從而優(yōu)化其消費決策,同時也可以幫助商家了解用戶需求和理解用戶消費習(xí)慣,總結(jié)自身產(chǎn)品和服務(wù)的優(yōu)勢與不足。

        由于網(wǎng)絡(luò)上的產(chǎn)品評論大多是以半結(jié)構(gòu)化形式表示的,缺乏對數(shù)據(jù)本身的描述,也沒有規(guī)范性的結(jié)構(gòu),甚至有些評論的情感詞在與不同產(chǎn)品屬性進(jìn)行組合時會表達(dá)出不同的情感傾向。例如,“這款車的油耗高”與“這款車的性價比高”兩個評論中都存在情感詞“高”,但是前者的情感傾向性是消極的,而后者是積極的。上述問題會對網(wǎng)民獲取、利用、分析UGC帶來一定的困難,因此亟需高效、有用的方法對特定領(lǐng)域的情感詞、產(chǎn)品屬性對象以及它們組合所蘊含的情感傾向性進(jìn)行準(zhǔn)確識別。

        基于此,文中以汽車評論文本為研究對象,通過構(gòu)造面向汽車領(lǐng)域的“屬性-情感詞”本體,提出基于“屬性-情感詞”本體的觀點句情感分析方法,以期準(zhǔn)確識別出情感詞與不同產(chǎn)品屬性對象組合所表達(dá)的情感傾向,從而提高汽車產(chǎn)品的細(xì)粒度情感分析效果。

        1 相關(guān)研究

        近年來,本體技術(shù)[2-3]已經(jīng)被廣泛應(yīng)用于評論情感分析研究中。許多學(xué)者通過構(gòu)建通用型情感詞匯本體或情感詞典來輔助情感分析研究,也有部分學(xué)者嘗試結(jié)合領(lǐng)域本體技術(shù)與產(chǎn)品特征來提高特定領(lǐng)域評論情感分析的準(zhǔn)確性。2008年,徐琳宏等人通過整理和標(biāo)注了多種詞典和語義資源,構(gòu)建了中文情感詞匯本體庫[4]。該情感詞匯本體由三元組來描述,并通過計算情感詞匯與給定的20類標(biāo)準(zhǔn)詞匯在語料中的互信息來確定情感強度和極性。該情感詞匯本體已成為目前被廣大研究人員借鑒或使用最多的工具。Lau等人[5]提出一種用模糊領(lǐng)域本體的實例化版本來表示情感知識,重點關(guān)注領(lǐng)域特征、領(lǐng)域情感詞以及它們之間的對應(yīng)關(guān)系抽取,能夠較好地應(yīng)用于上下文敏感的意見挖掘。郭沖等人[6]定義了一種用于細(xì)粒度意見挖掘的情感本體樹結(jié)構(gòu),并結(jié)合細(xì)粒度意見要素抽取技術(shù)提出基于本體樹的自動構(gòu)建方法。

        在領(lǐng)域本體構(gòu)建及產(chǎn)品輿情分析方面,目前也產(chǎn)生了許多有價值的成果。杜嘉忠等人[7]提出了一種基于領(lǐng)域?qū)S们楦性~的網(wǎng)絡(luò)評論情感分析方法,該方法通過構(gòu)建并利用特征-情感詞本體對網(wǎng)絡(luò)上的產(chǎn)品評論進(jìn)行情感分析。王曉東等人[8]在現(xiàn)有情感詞匯本體的基礎(chǔ)上,結(jié)合規(guī)則集和詞類組合模型提出了一種基于語料庫的情感詞匯本體擴(kuò)展算法。劉麗珍等人[9]構(gòu)建了產(chǎn)品領(lǐng)域情感本體,并利用領(lǐng)域情感本體的先驗情感知識消除情感詞的領(lǐng)域依賴性,有效識別了暗含的產(chǎn)品特征,能夠提高在線產(chǎn)品評論情感分析的性能。唐曉波等人[10]以情感詞典為基礎(chǔ),根據(jù)手機(jī)產(chǎn)品特征及其評論特點,構(gòu)建了手機(jī)產(chǎn)品領(lǐng)域的本體,并實現(xiàn)了手機(jī)產(chǎn)品特征的抽取、分類與情感分析。尹裴等人[11]從特征詞與觀點詞的語義關(guān)系入手,根據(jù)領(lǐng)域本體判斷特征觀點對的極性,并通過加權(quán)平均方法計算整個產(chǎn)品的極性。鄭麗娟等人[12]結(jié)合基于語義和基于統(tǒng)計的方法,通過抽取特征觀點對和觀點詞情感判斷,構(gòu)建相應(yīng)的情感本體,提出了一種基于情感本體的在線評論情感極性及強度分析方法。何有世等人[13]通過構(gòu)建手機(jī)產(chǎn)品領(lǐng)域本體實現(xiàn)了產(chǎn)品屬性的提取與層次劃分,并提出了基于領(lǐng)域本體的產(chǎn)品網(wǎng)絡(luò)口碑信息多層次細(xì)粒度情感挖掘方法。

        以上研究都偏向于用邏輯推理和情感計算的方法實現(xiàn)產(chǎn)品評論領(lǐng)域本體構(gòu)建。相對其他方法,領(lǐng)域本體對于特定領(lǐng)域的網(wǎng)絡(luò)輿情分析、屬性詞提取和觀點抽取等內(nèi)容更具專業(yè)性和針對性。除基于領(lǐng)域本體的情感分析方法外,還有基于情感知識的情感分析方法和基于機(jī)器學(xué)習(xí)的情感分析方法。

        基于情感知識的方法通常使用一些已有的各類情感詞典、領(lǐng)域詞典以及主觀文本的情感極性組合評價單元對主觀文本的極性進(jìn)行計算[14-17]。常用的知識有WordNet、情感屬性、位置屬性、關(guān)鍵詞屬性、詞性搭配關(guān)系等。盡管這一類方法可以較為充分地利用文本情感的先驗知識,能夠較好地解決規(guī)范性文本的情感分析問題,但由于忽視了文本分布的信息,所以容易出現(xiàn)經(jīng)驗偏置,難以解決新興語言表達(dá)以及隱式表達(dá)的形式。

        基于機(jī)器學(xué)習(xí)的方法一般是先采用機(jī)器學(xué)習(xí)方法對文本特征進(jìn)行識別、提取和選擇,然后構(gòu)建相應(yīng)模型完成相關(guān)情感分析任務(wù)。Pang等[18]將n-gram詞語和詞性作為特征,分別采用樸素貝葉斯、最大熵和支持向量機(jī)等機(jī)器學(xué)習(xí)方法來解決文檔級情感分類的問題?;跈C(jī)器學(xué)習(xí)的方法由于能充分利用文本特征的分布信息,對規(guī)范化和非規(guī)范化的文本都能有效處理,但容易忽略與情感相關(guān)的先驗語義特征,所以其分類性能仍存在較大提升空間。陳炳豐等人[19]通過構(gòu)建汽車情感詞典,提出了基于條件隨機(jī)場模型的情感實體識別和情感傾向分類方法,結(jié)果表明該方法能夠應(yīng)用于汽車領(lǐng)域的網(wǎng)絡(luò)輿情分析。

        綜上所述,對于領(lǐng)域依賴性和屬性關(guān)聯(lián)性的產(chǎn)品網(wǎng)絡(luò)輿情分析研究來說,如果能將描述產(chǎn)品屬性和情感傾向的詞匯進(jìn)行結(jié)合和映射,這樣或許能得到更準(zhǔn)確的屬性評論傾向?;诖?,文中針對汽車領(lǐng)域評論文本的網(wǎng)絡(luò)輿情分析,提出采用基于規(guī)則的方法構(gòu)建“屬性-情感詞”本體,并以此識別汽車屬性及關(guān)于屬性的評論傾向,然后將該方法與觀點句識相結(jié)合實現(xiàn)汽車領(lǐng)域的網(wǎng)絡(luò)口碑信息的情感分析。

        2 基于“屬性-情感詞”本體的汽車領(lǐng)域口碑情感分析方法

        汽車領(lǐng)域網(wǎng)絡(luò)輿情分析是一個非常復(fù)雜的文本信息處理和建模的過程,在這個過程中不僅要構(gòu)建領(lǐng)域詞典或本體,還需要借助機(jī)器學(xué)習(xí)方法構(gòu)建相關(guān)的情感分析模型。在進(jìn)行情感分析之前,首先需要獲取網(wǎng)絡(luò)論壇中的汽車產(chǎn)品評論,同時需要借助外部數(shù)據(jù)源收集并提取有關(guān)于汽車的屬性和專有名詞,然后利用數(shù)據(jù)預(yù)處理方法識別和提取評論中的屬性詞和情感詞,并提出基于四元組的“屬性-情感詞”本體構(gòu)建方法,最后在上述過程的基礎(chǔ)上結(jié)合觀點句識別方法提出基于“屬性-情感詞”本體的情感分析方法。具體實現(xiàn)過程如圖1所示。

        圖1 基于“屬性-情感詞”本體的汽車領(lǐng)域文本情感分析框架

        如圖1所示,提出的基于“屬性-情感詞”本體的汽車領(lǐng)域網(wǎng)絡(luò)輿情分析方法主要包括三個過程:基于“屬性-情感詞”的本體構(gòu)建、觀點句識別以及情感分析。

        2.1 基于四元組表示的“屬性-情感詞”本體構(gòu)建

        文中構(gòu)建的汽車領(lǐng)域“屬性-情感詞”本體是一個包含汽車屬性、情感詞以及情感極性的知識模型,可以將其定義為一個四元組,即:O={C,N,S,pol(N,S)},其中,C表示汽車屬性類別,如“性價比”、“油耗”等,N表示汽車屬性關(guān)鍵詞,如“質(zhì)量”、“價格”等,S表示情感詞,如“上乘”、“寬敞”等,pol(N,S)表示屬性關(guān)鍵詞-情感詞對的極性,如“1”表示正向,“-1”表示負(fù)向。由該定義可知,“屬性-情感詞”本體可用于識別相同情感詞與不同產(chǎn)品屬性對象組合所表達(dá)出的情感極性。在具體實現(xiàn)過程中,可采用基于規(guī)則的方法構(gòu)建“屬性-情感詞”本體方法(如圖2所示)。

        圖2 汽車領(lǐng)域“屬性-情感詞”本體構(gòu)建流程

        由圖2可知,汽車領(lǐng)域的“屬性-情感詞”本體構(gòu)建過程主要包括兩大模塊:一是種子詞抽取,二是屬性詞、情感詞擴(kuò)充。在種子詞的識別和抽取方面,一方面通過從企業(yè)官方網(wǎng)站、搜狗詞庫、微博、汽車門戶網(wǎng)站等相關(guān)資源中獲取汽車名稱術(shù)語及部件術(shù)語,構(gòu)建汽車專有名詞本體庫;另一方面,從汽車之家論壇中采集已對操控、空間、動力、內(nèi)飾、舒適性、外觀、性價比、油耗等八個方面進(jìn)行評論的規(guī)范語料,并通過斷句、分詞、詞性標(biāo)注、詞頻統(tǒng)計、文本抽取等處理過程形成屬性詞和情感詞的種子詞。在屬性詞和情感詞的擴(kuò)充方面,首先選取一定數(shù)量的正負(fù)向語料作為訓(xùn)練集,然后對訓(xùn)練語料進(jìn)行預(yù)處理(斷句、分詞、詞性標(biāo)注、PMI計算、文本抽取),并結(jié)合否定詞/副詞詞典及相關(guān)規(guī)則匹配屬性關(guān)鍵詞-形容詞對,最終在進(jìn)行四元組表示的基礎(chǔ)上形成汽車領(lǐng)域的“屬性-情感詞”本體。

        表1 屬性關(guān)鍵詞-情感詞對匹配規(guī)則集

        由“屬性-情感詞”本體的定義可知,該四元組既包含汽車屬性,也包含了描述該屬性的具體關(guān)鍵詞及其情感傾向。但在識別、抽取和判斷評論中的屬性關(guān)鍵詞與情感詞對的極性時,需要遵循如表1所示的規(guī)則:如果評論中存在否定詞,則根據(jù)否定詞數(shù)量對屬性關(guān)鍵詞-情感詞對的情感極性進(jìn)行計算;如果評論中存在多個相同屬性的屬性關(guān)鍵詞-情感詞對,則對它們進(jìn)行線性求和。最后,結(jié)合屬性關(guān)鍵詞的類別,得到“屬性-情感詞”本體的四元組O={屬性類別,屬性關(guān)鍵詞,情感詞,情感極性}。

        2.2 汽車評論觀點句識別

        由于汽車領(lǐng)域評論語料中包含大量客觀信息,這些信息并不表達(dá)用戶對汽車或?qū)傩缘脑u價。太多客觀信息會增加情感分析的工作量,也會影響情感分析的結(jié)果,因此在對語料進(jìn)行情感分析前,需要對語料進(jìn)行主客觀分類,即對評論語料進(jìn)行觀點句識別。

        針對汽車評論的觀點句識別問題,文中采用融合基于特征模板和基于SVM分類的觀點句識別方法,其主要過程包括:特征提取和SVM分類器構(gòu)造。在識別觀點句之前,設(shè)計了如表2所示的特征模板,該模板包含兩個一元特征和三個二元特征,用于匹配和提取評論中的有用特征。

        在基于特征模板的特征提取的基礎(chǔ)上,結(jié)合基于SVM分類方法構(gòu)建觀點句識別模型。該模型的構(gòu)建步驟如下:首先,對訓(xùn)練語料進(jìn)行斷句、分詞、詞性標(biāo)注,并根據(jù)特征模板匹配并提取出訓(xùn)練語料中的相關(guān)特征,同時利用向量空間模型將語料向量化;然后,利用Libsvm軟件中的C-SVC模型構(gòu)造SVM分類器;最后,利用SVM分類器對測試語料進(jìn)行觀點句識別。

        表2 特征模板

        2.3 情感分析

        在“屬性-情感詞”本體構(gòu)建和觀點句識別的基礎(chǔ)上,文中提出基于“屬性-情感詞”本體的情感分析方法。該方法主要是基于特征匹配和映射得出評論中的屬性關(guān)鍵詞-情感詞對,并以“屬性-情感詞”本體判定句子情感傾向性,其過程如下:

        輸入:汽車評論語料、“屬性-情感詞”本體;

        輸出:汽車評論情感分析結(jié)果。

        Step1:對語料進(jìn)行斷句(以句號、分號、感嘆號等作為斷句的依據(jù))、分詞、詞性標(biāo)注等預(yù)處理;

        Step2:建立并利用規(guī)則對評論中情感詞進(jìn)行識別,同時計算評論中屬性-情感詞對的情感極性;

        Step3:識別并提取評論中的汽車屬性關(guān)鍵詞,并利用“屬性關(guān)鍵詞-情感詞”對匹配規(guī)則對屬性關(guān)鍵詞及其鄰近的詞語進(jìn)行匹配;

        Step4:若匹配成功,則提取相應(yīng)的情感詞并根據(jù)“屬性-情感詞”本體規(guī)則構(gòu)建四元組;

        Step5:對語料中的所有句子按屬性進(jìn)行情感極性累加,即對具有相同屬性的四元組進(jìn)行分類求和。

        在情感分析過程中,如果匹配過程中出現(xiàn)詞語情感極性無法判定的情況,則可以通過其與對應(yīng)屬性關(guān)鍵詞在訓(xùn)練集正負(fù)向語料中的共現(xiàn)頻率大小來判斷其情感極性。具體判斷規(guī)則如下:

        3 實驗與結(jié)果分析

        3.1 實驗數(shù)據(jù)

        實驗中所用到的語料均來自于太平洋汽車網(wǎng)和汽車之家,且都是經(jīng)由三名專業(yè)人員進(jìn)行人工標(biāo)注而成的。語料規(guī)模為3 200條評論句子,其中用于描述操控、空間、動力、內(nèi)飾、舒適性、外觀、性價比、油耗等八個屬性的正負(fù)向語料各200條評論句子。

        3.2 實驗過程

        文中使用protégé工具包,通過從企業(yè)官方網(wǎng)站、搜狗詞庫、微博、汽車門戶網(wǎng)站等相關(guān)資源獲取汽車名稱術(shù)語及部件術(shù)語構(gòu)建汽車評價對象本體庫。將汽車產(chǎn)品評論分為操控、空間、動力、內(nèi)飾、舒適性、外觀、性價比、油耗這八個屬性,分別構(gòu)建了這八個屬性的關(guān)鍵詞表,然后在此基礎(chǔ)上構(gòu)建“屬性-情感詞”本體。下面以實驗中某個句子的分析處理為例,詳細(xì)說明提出的基于“屬性-情感詞”的情感分析過程(如圖3所示)。

        圖3 情感分析示例

        3.3 評價指標(biāo)

        采用準(zhǔn)確率、召回率和F1值來評價情感分析方法的性能,其計算方法如下:

        3.4 結(jié)果分析

        為了驗證提出方法的有效性,選擇經(jīng)典的樸素貝葉斯方法作為對比算法。在實驗過程中,選取標(biāo)注語料的三分之二作為訓(xùn)練集,訓(xùn)練出情感分類模型,剩下的三分之一作為測試集。表3列出了基于“屬性-情感詞”本體的情感分析方法和基于樸素貝葉斯的情感分析方法的實驗結(jié)果。

        表3 對比實驗結(jié)果 %

        從表3可以看出,提出的基于“屬性-情感詞”本體的情感分析方法比樸素貝葉斯情感分類方法的效果更好。這是因為,樸素貝葉斯分析方法忽略了與情感相關(guān)的先驗語義特征,同時也沒有結(jié)合語境進(jìn)行分析,即沒有考慮到情感詞在不同的語境表達(dá)中可能會出現(xiàn)不同情感的問題。

        而文中方法則可以將情感詞與特定的語境相結(jié)合,有效解決了情感詞在描述不同屬性關(guān)鍵詞時情感傾向可能不同的問題。例如:文中方法可以正確判別“空間大”為正向情感,“車內(nèi)噪音大”為負(fù)向情感。但由于構(gòu)建的本體規(guī)模不夠大,使用的規(guī)則不夠完善,該方法在召回率方面還有待改進(jìn)。

        4 結(jié)束語

        隨著汽車行業(yè)的快速發(fā)展,不同汽車品牌的競爭日趨強烈。通過對用戶使用評論的分析和利用,對汽車企業(yè)的發(fā)展和走向有重要意義。但是,在大數(shù)據(jù)時代,用戶評論中存在大量噪音,使得企業(yè)對信息的獲取成本大大增加。在此背景下,期望通過基于屬性-情感詞本體的評論情感挖掘?qū)ζ囶I(lǐng)域產(chǎn)品的八大屬性進(jìn)行細(xì)粒度情感分析,從而給汽車企業(yè)與消費者帶來一定的參考價值。

        但是,該研究目前還存在很多的不足。例如,在該方法中由于依賴人工方式構(gòu)建本體和情感詞典構(gòu)建的工作量非常大,所以屬性關(guān)鍵詞和情感詞的抽取準(zhǔn)確率仍然有待提高;該方法在處理成分殘缺句子時的健壯性較差,導(dǎo)致評論分析的召回率比較低。

        在未來的研究中,可考慮引入情感強度的計算,從而幫助解決成分殘缺句子屬性關(guān)鍵詞的匹配映射以及比較要素的抽取問題。

        猜你喜歡
        語料本體領(lǐng)域
        Abstracts and Key Words
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        領(lǐng)域·對峙
        青年生活(2019年23期)2019-09-10 12:55:43
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
        華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
        新常態(tài)下推動多層次多領(lǐng)域依法治理初探
        《苗防備覽》中的湘西語料
        國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
        肯定與質(zhì)疑:“慕課”在基礎(chǔ)教育領(lǐng)域的應(yīng)用
        一区二区精品国产亚洲| 欧美日本视频一区| 成年人视频在线播放麻豆| 精品国产三级a在线观看不卡| 无码视频在线观看| 久久婷婷综合色丁香五月| 无码伊人久久大蕉中文无码| 亚洲av专区一区二区| 国产成人精品日本亚洲专区61| 麻豆国产人妻欲求不满谁演的| 亚洲av影院一区二区三区四区| 亚洲中文字幕一二区精品自拍 | 天天躁日日操狠狠操欧美老妇| 黄片午夜免费观看视频国产| 色呦呦九九七七国产精品| 天堂资源中文最新版在线一区| 无遮挡网站| 日本加勒比一区二区在线观看| 亚洲综合极品美女av| 久久久午夜精品福利内容| 久久久无码一区二区三区| 粉嫩小泬无遮挡久久久久久| 在线观看视频免费播放| 毛片免费视频在线观看| 欧美午夜a级精美理论片| 91精品国产色综合久久不| 亚洲精品在线国产精品| 欧美两根一起进3p做受视频| 456亚洲人成在线播放网站| h视频在线免费观看视频| 吃奶呻吟打开双腿做受视频| 日韩AV不卡六区七区| 肉丝高跟国产精品啪啪| 国产女人精品视频国产灰线| 国产无遮挡裸体免费视频| 欧美高h视频| 久久综合久久综合久久| 午夜性无码专区| 精品国偷自产在线不卡短视频| 久久综合亚洲鲁鲁五月天| 日本19禁啪啪吃奶大尺度|