亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)聯(lián)規(guī)則的語境情感搭配詞組挖掘算法

        2022-10-10 05:59:04蘇靖楓婁鑫坡趙軍民
        河南城建學(xué)院學(xué)報 2022年4期
        關(guān)鍵詞:傾向性置信度詞組

        蘇靖楓,婁鑫坡,趙軍民

        (河南城建學(xué)院 計算機(jī)與數(shù)據(jù)科學(xué)學(xué)院,河南 平頂山 467036)

        語言學(xué)界往往將詞語的情感傾向稱為詞語的感情色彩,即詞語所附帶表示褒義或貶義態(tài)度的色彩[1-2]。根據(jù)詞語的感情色彩是否具有穩(wěn)定性將情感詞分為2類:一類是情感詞不隨語言環(huán)境而改變,具有比較穩(wěn)定的情感色彩,例如漂亮、善良、丑陋;另一類情感詞會隨著環(huán)境的不同改變其情感色彩,例如,詞語“驕傲”在“我為祖國的四大發(fā)明感到驕傲”中表現(xiàn)出了褒義的情感傾向,在“他考了99分就驕傲了”表現(xiàn)出了貶義的情感傾向。再如詞語“高”在“服務(wù)質(zhì)量高、水平高”中呈現(xiàn)了正面的情感傾向,而在“耗油高、價格高”中呈現(xiàn)了負(fù)面的情感傾向,稱此類詞語為語境情感詞語。

        近年來,自然語言處理逐漸成為人工智能的研究熱點(diǎn)[3-4],情感分析又是自然語言處理中的研究重點(diǎn)和難點(diǎn)[5-7],而情感詞語情感傾向性的識別對情感分析極其重要。近幾年,有關(guān)文本情感分析方面出現(xiàn)了很多研究成果[8-9],主要是采用規(guī)則與統(tǒng)計相結(jié)合的方法對文本進(jìn)行識別,語言的復(fù)雜性導(dǎo)致其準(zhǔn)確度提升的難度較大。不少研究機(jī)構(gòu)將其研究成果構(gòu)建了情感傾向性詞典,例如HowNet情感分析詞語集[10-11]、同濟(jì)大學(xué)褒貶義情感詞典[12]、大連理工大學(xué)的DUTIR文本傾向性分析知識庫[13]等。盡管這些詞典給研究者提供了極大的便利,但是這些情感詞典對于每個詞語僅僅給出褒義或貶義的情感標(biāo)記,而語境情感詞語的情感色彩往往是由上下文來決定的,只簡單地給出單個詞語的情感傾向是無法直接使用的。并且,由于缺乏統(tǒng)一的構(gòu)建標(biāo)準(zhǔn),同一個詞語在不同的情感詞典中可能會標(biāo)記不同的感情色彩,如“風(fēng)流”在HowNet中既有褒義又有貶義,而在臺灣大學(xué)的NTUSD中卻只是貶義。這就會給情感詞典的使用帶來混亂。因此,將通用情感詞語和語境情感詞語進(jìn)行區(qū)分,構(gòu)建準(zhǔn)確度更高的情感詞典十分必要。

        本文將情感詞語的識別分為兩個方面:通用情感詞語的識別和語境情感搭配詞組的識別。對于語境情感詞語,研究發(fā)現(xiàn)當(dāng)它們與某些詞語搭配后往往能夠呈現(xiàn)出比較穩(wěn)定的情感傾向。

        本文提出了一種基于關(guān)聯(lián)規(guī)則的語境情感搭配詞組的挖掘算法,本算法主要用于語境情感搭配詞組的識別。首先利用關(guān)聯(lián)規(guī)則中的支持度、置信度和可用度,從語料文本中識別出與語境情感詞具有搭配關(guān)系的常用詞語組合;然后,綜合利用搭配詞組所在句子以及相鄰句子信息對其傾向性進(jìn)行分析,進(jìn)而構(gòu)建領(lǐng)域相關(guān)的情感詞語搭配集合。

        1 基于關(guān)聯(lián)規(guī)則的語境情感搭配詞組挖掘算法

        1.1 相關(guān)概念

        定義1:設(shè)T={w1,w2,…,wk…,wm}。其中wk表示項集T的數(shù)據(jù)項,m表示數(shù)據(jù)項的個數(shù)。

        定義2:P{wi→wj}表示詞wi出現(xiàn)時wj出現(xiàn)的概率。其中wi,wj?T,且wi∩wj=Φ,wi≠Φ,wj≠Φ。

        定義5:如果sup(wi→wj)≥min_sup且conf(wi→wj)≥min_conf,則認(rèn)為wi、wj滿足強(qiáng)關(guān)聯(lián)規(guī)則。

        其中:min_sup為最小支持度閾值,min_conf為最小置信度閾值。

        1.2 語境情感搭配詞識別

        從1.1節(jié)定義可知,支持度是關(guān)聯(lián)規(guī)則挖掘[14]重要度的評價標(biāo)準(zhǔn),其中支持度越大,表示詞在數(shù)據(jù)項集合中出現(xiàn)的頻率越高,則該詞在數(shù)據(jù)項集合中越具有代表性。置信度是衡量關(guān)聯(lián)規(guī)則準(zhǔn)確度的評價準(zhǔn)則,其置信度越大表示其準(zhǔn)確度也越大。對于關(guān)聯(lián)規(guī)則挖掘,只有支持度和置信度都大時挖掘出的規(guī)則才有價值。如果有規(guī)則支持度低但置信度高,說明該規(guī)則出現(xiàn)的概率較小,在數(shù)據(jù)集中不具有代表性。在文本集合上采用規(guī)則挖掘算法,其期望可信度表示后面一個詞在沒有前面詞作用下的自身支持度。

        作用度則表示前面一個詞對后面一個詞的影響力,其作用度越大表示前面一個詞對后面一個詞的影響力就越大。在本文中,認(rèn)為作用度大于1的規(guī)則才是有價值意義的規(guī)則,說明前面一個詞對后面一個詞有促進(jìn)作用。

        在一些具體的話題領(lǐng)域,語境情感詞往往會有一些常用的語用習(xí)慣,例如在電子產(chǎn)品評論中,情感詞“大”往往出現(xiàn)在含“屏幕、噪聲、聲音、存儲”等詞語的句子的概率較高,則可以認(rèn)為這些詞語之間存在著關(guān)聯(lián)關(guān)系。因此,本文提出了一種基于關(guān)聯(lián)規(guī)則的語境情感搭配詞組挖掘算法,能夠從產(chǎn)品評價語料中挖掘語境情感詞語的常用搭配詞組合。首先將語料中含語境情感詞的語句提取出來,然后計算其支持度、置信度和作用度,進(jìn)而得到語境情感詞的常用搭配。

        基于關(guān)聯(lián)規(guī)則的語境情感搭配詞組識別算法如下:

        輸入:文檔集合T,歧義情感詞表AW

        輸出:常用搭配詞表FW

        1 for每一個文本t∈Tdo

        2 for 每一個詞wk∈tido

        3 ifwk∈AWdo

        4ti→事務(wù)集合TN

        5 end if

        6 end for

        7 end for

        8 for 每一個文本ti∈TNdo

        9 計算sup、conf、lift

        10 iflift≥1 andsup≥min_supandconf≥min_conf

        11 (wi,wj)→FW

        12 do if

        13 do for

        1.3 語境情感搭配詞組的傾向性分析

        語境情感詞本身并不具備情感傾向性,但當(dāng)其與某些詞搭配之后往往表現(xiàn)出較強(qiáng)的情感傾向[15-16],本文稱之為“語境情感詞+搭配詞”組合。當(dāng)前,“語境情感詞+搭配詞”組合并沒有情感詞典可供其查詢。因此,要求算法不僅能夠識別出該組合,同時也要能夠判斷出該搭配詞組合的情感傾向性。由于“語境情感詞+搭配詞”組合受語境影響較深,往往隨語境的不同表現(xiàn)出差異較大的情感傾向性,即在某些語境中該組合表現(xiàn)為正向的情感傾向性,當(dāng)語境改變時,同樣的搭配詞組合表現(xiàn)為負(fù)向情感傾向性。因此,“語境情感詞+搭配詞”組合需要充分考慮其語境的上下文信息。本文提出的基于“語境情感詞+搭配詞”算法充分考慮該詞組所在句子以及前后句信息來綜合判斷其情感傾向。

        通常情況下,人們用語言對事情進(jìn)行描述時呈現(xiàn)一致性和連續(xù)性。例如,當(dāng)人們對某種事物進(jìn)行描述時,往往是先進(jìn)行贊揚(yáng),再指出其缺點(diǎn);或者相反,先進(jìn)行批評再對其某一部分或者特征進(jìn)行肯定,一般情況下不會表揚(yáng)和批評交替進(jìn)行。因此,如果句子中出現(xiàn)轉(zhuǎn)折連詞,則轉(zhuǎn)折連詞前后其情感傾向性相反。如果未出現(xiàn)轉(zhuǎn)折連詞,但句子中出現(xiàn)多個情感詞,與其前后句中出現(xiàn)的多個情感詞的情感傾向性相同的概率較大。如果該句表現(xiàn)為正向的情感傾向性,則其中情感詞的情感傾向性為正向的概率較大。相反,如果該句表現(xiàn)為負(fù)向情感傾向性,則句子中情感詞為負(fù)向的情感傾向性概率較大。因此,本文提出了一種基于句內(nèi)和前后相鄰句的語境情感詞搭配組合情感識別算法。該算法充分利用語境情感詞詞組的相鄰情感詞來確定其情感傾向性。

        規(guī)則1:句中出現(xiàn)轉(zhuǎn)折連詞,則轉(zhuǎn)折連詞前后情感傾向相反,否則,句中未出現(xiàn)轉(zhuǎn)折連詞則情感傾向性相同。例如:“蘋果新推出的iPhone11 plus屏幕大但電池不耐用”,其中搭配詞“電池-不耐用”是負(fù)向的情感搭配詞組,可以推出“電池-耐用”是正向的情感傾向。因為句中出現(xiàn)轉(zhuǎn)折詞“但”,則“屏幕-大”是一個正向的情感傾向?!澳强钴囉秃牡投臆噧?nèi)布局寬敞”,其中搭配詞組“油耗-低”是一個正向的詞組,因為寬敞是一個正向情感詞,而且在此起遞進(jìn)作用。在沒有轉(zhuǎn)折句的句中“MS surface很好,滿足了學(xué)習(xí)的所有需求,功能很強(qiáng)大,外觀漂亮”,可以根據(jù)通用情感詞“漂亮”判斷“功能-強(qiáng)大”是一個正向的情感搭配詞組。

        規(guī)則2:如果無法通過本句識別其中的情感句,則可以通過前后相鄰句子的情感傾向性來識別該句子。如果前后相鄰句子之間出現(xiàn)轉(zhuǎn)折連詞,則前后兩個句子情感傾向相反,否則前后句子情感傾向性相同。例如“這房間隔音差、房間小、性價比較低、衛(wèi)生也不好”,該句中不含通用性情感詞,但可以通過其句子前后句判斷其傾向性,句中“衛(wèi)生-不好”是負(fù)向的情感傾向性,則可以判斷“隔音-差”、“房間-小”、“性價比-低”也是負(fù)向的情感傾向。

        一般情況下,“語境情感詞+搭配詞”的情感傾向性在句子中較穩(wěn)定,一旦識別出來,則可以將其加入情感詞典中去。但是少數(shù)詞組會隨語境的變化表現(xiàn)出不同的情感傾向性。例如,“華為MATE40的屏幕太大了”,該句中“屏幕-大”是一個負(fù)向的情感詞搭配詞組。而在“華為P40屏幕大,能耗低”中“屏幕-大”是一個正向的搭配詞組。此時需要考慮在大多數(shù)情況下,該搭配詞的情感傾向,一般認(rèn)為用戶評論“屏幕-大”是好事,可以認(rèn)定是一個正向的情感傾向詞。另外,該算法還可以根據(jù)同義詞、反義詞和搭配詞組中是否有否定詞等擴(kuò)展搭配詞詞組,例如,出現(xiàn)“能耗-大”是一個負(fù)向的情感搭配詞詞組,則“能耗-小”就是正向的搭配詞詞組。

        綜上,則基于語境情感詞的傾向性識別算法如下:

        輸入:句子集合S,搭配詞集合FW,情感詞典PW,連接詞詞表DC

        輸出:搭配詞集合FW中搭配詞的情感傾向性

        1 for 每一個句子si∈Sdo

        2 ifPW∈sido

        3 ifDC∈sido

        4FWj←~PW//搭配詞與PW傾向性相反

        5 end if

        6 else do

        7FWj←PW//搭配詞與PW傾向性相同

        8 end else

        9 end if

        10 else ifwi-1&PW∈si-1do // 如果前一個句子si-1存在,且si-1包含情感詞語PW

        11 ifDC∈si-1do

        12FWj←~PW//搭配詞與PW傾向性相反

        13 end if

        14 else do

        15FWj←PW//搭配詞與PW傾向性相同

        16 end else

        17 end else if

        18 else ifsi+1&PW∈si+1do

        19 ifDC∈si+1do

        20FWj←~PW//搭配詞與PW傾向性相反

        21 end if

        22 else do

        23FWj←PW//搭配詞與PW傾向性相同

        24 end else

        25 end else if

        26 else do

        27FWj←0//FWj無情感傾向性

        28 end else

        29 end for

        2 實(shí)驗結(jié)果分析

        2.1 語境情感搭配詞組識別

        (1)將候選情感詞表中的非通用情感詞都作為語境情感詞語,詞語數(shù)目共計4 769個。語境情感詞語有:屏幕、靚、均勻、手感、顏控、口味、捂持感、顫抖、信賴、方便、皮實(shí)、扛用、運(yùn)行、速度、流暢、快、輕盈、性價比、滿足、簡約、大氣、高級、便宜、低廉、夸張……

        (2)利用關(guān)聯(lián)規(guī)則挖掘技術(shù)從語料集合中識別語境情感詞語的常用搭配組合。利用關(guān)聯(lián)規(guī)則首先要確定文本語料的事務(wù)集。由于在評論文本中,人們經(jīng)常使用簡短的句子進(jìn)行評價,而不傾向于用長句來表達(dá)觀點(diǎn),因此與語境情感詞語具有搭配關(guān)系的詞語大部分都在歧義情感詞附近,一般前后距離不會超過6個詞語。另外,一些獨(dú)立性差、無實(shí)義的虛詞或停用詞也很難成為有效的搭配詞,為此實(shí)驗只選擇以歧義情感詞為中心前后M個名詞、動詞或形容詞的語句片段組成事務(wù)集。

        (3)利用本文1.2節(jié)提出的基于關(guān)聯(lián)規(guī)則的語境情感搭配詞組識別算法從語料庫中挖掘出相應(yīng)的“語境情感詞+搭配詞”組合,在評論文本和微博文本中,文本較短,直接表述觀點(diǎn),一般詞性為名詞、形容詞和動詞等更容易做搭配詞,并且位于語境情感詞相搭配的搭配詞前后M個詞的位置。

        本實(shí)驗在Linux操作系統(tǒng)環(huán)境下,采用Java語言編寫,實(shí)驗的數(shù)據(jù)集主要采用NLPCC2012和COAE2014關(guān)于微博文本情感分析的評測數(shù)據(jù)。實(shí)驗參數(shù)設(shè)計,α表示關(guān)聯(lián)規(guī)則的最小支持度閾值,β表示關(guān)聯(lián)規(guī)則的最小置信度閾值。考慮到中文詞的低頻性和歧義性,本實(shí)驗認(rèn)為詞與詞之間共同出現(xiàn)超過10次則認(rèn)為這2個詞之間具有關(guān)聯(lián)性。因此α=10/N,其中N表示文本的總數(shù)。為了確定實(shí)驗最優(yōu)化的參數(shù),則設(shè)計窗口大小W的取值為3、4、5、6共4組,參數(shù)β的值設(shè)置了0.001、0.005、0.01、0.015、0.02、0.03共6組。最后,實(shí)驗選擇電子產(chǎn)品、酒店和旅游3個領(lǐng)域的文本作為實(shí)驗數(shù)據(jù)集,選擇“高”、“大”、“差”等詞作為基礎(chǔ)詞來確定W和β的值,M表示搭配詞的數(shù)目。其中本實(shí)驗的正確率P、召回率R和F值公式分別對應(yīng)公式(1)、(2)和(3)。

        (1)

        (2)

        (3)

        不同參數(shù)設(shè)置下獲取的搭配詞組數(shù)目見表1,實(shí)驗結(jié)果見表2~表4。

        表1 不同參數(shù)設(shè)置下獲取的搭配詞組數(shù)目

        表2 不同參數(shù)設(shè)置下的正確率

        表3 不同參數(shù)設(shè)置下的召回率

        表4 不同參數(shù)設(shè)置下的F值

        由表1可知:最小置信度閾值越小,窗口越大獲取的搭配情感詞越多。由表2和表3可以看出:隨著窗口W的逐漸增大,搭配詞組識別的正確率有所下降,但召回率有所提升。這是由于隨著窗口的逐漸增大,能過的詞被算法捕獲到,不僅捕獲了更多情感搭配詞,同時也捕獲到了噪聲詞。

        由表4可以發(fā)現(xiàn),當(dāng)窗口大小為4,最小置信度閾值β為0.001時,F(xiàn)值最高,達(dá)到0.63。因此將W的值設(shè)置為4,將語境情感詞語前后各4個詞語組成的語句片段提取出來作為事務(wù),最小置信度β取值0.001。

        2.2 搭配詞組傾向性分析結(jié)果

        搭配詞組傾向性分析主要利用搭配詞的上下文關(guān)系來進(jìn)行判斷,實(shí)驗分別從數(shù)碼產(chǎn)品、娛樂媒體和金融證券3個領(lǐng)域中共識別褒義情感詞組2 372組和貶義情感詞組466組,具體情況見表5。

        表5 搭配詞組的識別結(jié)果

        3 結(jié)論

        提出了一種基于關(guān)聯(lián)規(guī)則的語境情感搭配詞組的挖掘方法,首先利用關(guān)聯(lián)規(guī)則中的支持度、置信度和可用度,從語料文本中識別出與語境情感詞具有搭配關(guān)系的常用詞語組合。然后,綜合利用搭配詞組所在句子以及相鄰句子信息對其傾向性進(jìn)行分析,進(jìn)而構(gòu)建與該領(lǐng)域相關(guān)的情感詞語搭配集合。實(shí)驗結(jié)果表明,本文提出的基于關(guān)聯(lián)規(guī)則的語境情感搭配詞組挖掘算法能夠挖掘出大量情感搭配詞語。

        猜你喜歡
        傾向性置信度詞組
        硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
        基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測
        正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
        關(guān)于醫(yī)患沖突報道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
        置信度條件下軸承壽命的可靠度分析
        軸承(2015年2期)2015-07-25 03:51:04
        “沒準(zhǔn)兒”“不一定”“不見得”和“說不定”的語義傾向性和主觀性差異
        語言與翻譯(2015年4期)2015-07-18 11:07:43
        一種面向博客群的主題傾向性分析模型
        副詞和副詞詞組
        多假設(shè)用于同一結(jié)論時綜合置信度計算的新方法?
        成人无码一区二区三区| 国产国拍精品亚洲av在线观看| 99青青草视频在线观看| 人妻少妇中文字幕久久| 亚洲一区二区三区小说| 亚洲av永久无码天堂网毛片| 国语对白做受xxxxx在线中国| 久久久精品国产亚洲AV蜜| 无码专区天天躁天天躁在线| 爱我久久国产精品| 亚洲中文欧美日韩在线| 日韩精品久久不卡中文字幕| 日产国产精品亚洲高清| 精品厕所偷拍一区二区视频| 精品视频无码一区二区三区 | 亚洲AV无码永久在线观看| 搡老女人老妇女老熟妇69| 亚洲一区二区三区免费的视频| 最新在线观看免费的a站国产| 亚洲gay片在线gv网站| 国产农村乱辈无码| 国产女女做受ⅹxx高潮| 久久精品免费无码区| 国产亚洲三级在线视频| 久久一区二区三区久久久| 久久久国产乱子伦精品| 亚洲色欲色欲综合网站| 欧美性一区| 亚洲天堂一区二区精品| 亚洲国产色婷婷久久精品| 国产欧美日韩精品丝袜高跟鞋| 少妇高潮潮喷到猛进猛出小说| 国产一级毛片AV不卡尤物| 亚洲日本精品一区久久精品| 日本一区二区不卡二区| 国产成人av综合色| 国产乱人伦av在线无码| 亚洲va成无码人在线观看| 亚洲中文字幕在线第六区| 综合偷自拍亚洲乱中文字幕| 久久久久久人妻一区二区三区|