亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合類別序列規(guī)則的中文比較評論的識別

        2021-06-18 06:06:36朱茂然蔣凱艷王洪偉
        系統(tǒng)管理學報 2021年3期
        關(guān)鍵詞:規(guī)則方法

        朱茂然 ,蔣凱艷 ,高 松 ,王洪偉

        (1.同濟大學 經(jīng)濟與管理學院,上海 200092;2.中國信息安全測評中心,北京 100085)

        比較在對事物的認識過程中發(fā)揮著重要作用[1]。例如,消費者在購物網(wǎng)站輸入關(guān)鍵字時,網(wǎng)站會顯示數(shù)十個對應的產(chǎn)品,消費者會反復比較和選擇,通過貨比三家買到最滿意的產(chǎn)品。比較凸顯了事物的共性和差異,給予我們評判一個產(chǎn)品好壞的客觀標準[2]。相對于單一商品評論觀點,含有比較信息的評論(簡稱比較評論)涉及兩個或多個產(chǎn)品的特征信息。比較評論反映了多個商品之間的優(yōu)劣比較,彰顯了評論者具有豐富的購物經(jīng)歷,也增強了評論的說服效果。

        在產(chǎn)品評論中,比較評論約占15%[3],占據(jù)了一定的數(shù)量,并具有較高的信息價值。近幾年,很多研究關(guān)注到該領(lǐng)域,內(nèi)容涉及比較評論的識別、抽取以及應用[2,4-5]。特別是在比較評論的識別任務中,由于商品評論多是非結(jié)構(gòu)化文本,識別方法一直面臨人工干預多、句子缺乏完整語義以及比較特征不明顯等難題[7],故比較句的識別方法亟待探索。

        本文將規(guī)則與依存句法關(guān)系特征相結(jié)合,在縮小人工干預程度的基礎上,提高比較評論的識別效果。首先,將比較評論識別視為比較句的挖掘,比較句分為顯性和隱性比較句。針對顯性比較句,在CSR(Class Sequence Rule)基礎上,融合依存句法關(guān)系特征,提出一種新的混合CSR 方法,以期提高CSR 方法在生成規(guī)則時的準確率和效率;針對隱性比較句,通過對實體名的識別,挖掘隱含的語義特征,完善整個比較句識別過程。

        1 文獻綜述

        本質(zhì)上,比較句識別是分類問題,即把評論句分為比較類和非比較類。研究方法分為基于規(guī)則的方法和基于統(tǒng)計的方法:基于規(guī)則的方法有CSR 和句法語義規(guī)則;基于統(tǒng)計的方法是機器學習技術(shù),如支持向量機(Support Vector Machine,SVM)、樸素貝葉斯(Naive Bayes,NB)和條件隨機場(Conditional Random Fields,CRF)等,如表1所示。

        表1 比較句識別方法

        基于規(guī)則的方法中,規(guī)則可以人工制定,也可以從大量標注語料中學習獲得。典型的比較句判別規(guī)則包括關(guān)鍵詞策略和模式庫等。已有研究指出,單純的關(guān)鍵詞策略效果不如同時考慮比較詞和比較結(jié)果詞的模式庫方法[12],因為關(guān)鍵詞在中文中難以窮盡,并且受領(lǐng)域知識的限制,多領(lǐng)域通用性差。綜合來看,CSR 方法的綜合表現(xiàn)最優(yōu)[1],是比較句識別研究中最常使用的方法。Jindal等[4]將CSR 方法應用在英文比較句識別之中,結(jié)合貝葉斯分類器來學習和識別英文比較評論語句,實現(xiàn)了較好的識別效果。王洪偉等[12]將人工模式庫與句法規(guī)則相結(jié)合,分別識別出平比、差比這種細分類型的比較句。基于規(guī)則的方法面臨若干難題:不同語境下的比較關(guān)鍵詞差別較大;缺乏公認的比較關(guān)鍵詞庫;人工收集困難;規(guī)則的生成未考慮深層語義信息,停留在表層的句子序列規(guī)則的挖掘。為此,學者也提出了各自的改進意見,如基于關(guān)聯(lián)詞庫的模式匹配方法[13],考慮語義相似度的模式匹配方法[14]等。上述方法都取得了不錯的識別精度,但依然沒有解決人工的過多干預問題。

        基于統(tǒng)計的方法中,常采用支持向量機、樸素貝葉斯等方法進行識別。黃小江等[15]對中文評論的比較關(guān)系識別進行了研究,采用SVM 分類器提高了規(guī)則的識別結(jié)果。張辰等[16]在采用CSR 規(guī)則提取的基礎上,利用CRF挖掘?qū)嶓w對象信息及語義角色信息,然后利用SVM 分類器選取不同特征維數(shù)調(diào)高識別精度。Xu等[17]針對差比關(guān)系的比較句,提出一種基于比較句間依賴關(guān)系的兩層CRF方法。上述基于機器學習的識別方法依賴于比較特征的組合和優(yōu)化,而組合和優(yōu)化的過程中具有不可解釋性。

        上述研究都是針對有明確比較關(guān)鍵詞的比較句。在比較句識別中,還有一類比較句雖然沒有明確的比較關(guān)鍵詞,但是整個句子卻有比較含義。這類比較句的識別難度很大,目前沒有文獻對其進行研究[18]。綜上可知,目前研究存在如下不足:一是對CSR方法本身沒有根本的改進,未結(jié)合句法或語義分析方法來生成類別序列規(guī)則;二是缺乏對沒有明確比較關(guān)鍵詞的比較句識別研究。為此,本文將CSR 方法與句法分析方法結(jié)合在一起,改進CSR 序列的生成方法,并尋找生成CSR 的最優(yōu)策略。在此基礎上,使用實體識別的方法,對隱性比較句進行識別,進一步提高比較評論識別的準確性。

        2 研究方法

        2.1 基于混合類別序列規(guī)則的比較評論識別模型

        在線評論是一種非結(jié)構(gòu)化文本,錯別字、網(wǎng)絡用語、中英文詞語等會導致比較關(guān)系識別難度加大[18-19],表2示例了產(chǎn)品評論中存在的結(jié)構(gòu)松散和口語化情況。在“但是最坑的是數(shù)據(jù)線接口和其他安卓系統(tǒng)手機不一樣”這一句中,“最坑的是”用來引導從句,比較關(guān)系蘊含在從句“數(shù)據(jù)線接口和其他安卓系統(tǒng)手機不一樣”中。另一個口語化的例子,“照相感覺還沒有我老g3好”,書面語的語序應當是“感覺照相還沒有我以前的g3好”。上述例子并不適用嚴格按照語序來生成序列模式的傳統(tǒng)CSR 方法,故需在傳統(tǒng)CSR 方法的基礎上,尋找能夠解決上述問題的新方法。自然語言處理中常用的兩種針對句子層級的分析方法是語義角色標注和依存句法分析??紤]到語義角色標注研究的是句子中其他元素與謂語的關(guān)系,而依存句法分析關(guān)注的是句子成分之間的相互依賴關(guān)系。因為依存句法分析更能反映句子整體結(jié)構(gòu)和語義,本文提出的方法是將CSR 方法與依存句法分析方法結(jié)合在一起,進行中文比較關(guān)系的挖掘。

        表2 產(chǎn)品評論中結(jié)構(gòu)松散與口語化示例

        此外,盡管大部分中文比較評論中有明顯的比較指示詞,但有的評論中比較含義隱含在語義之中。本文將前者定義為顯性比較評論(對應顯性比較句),后者為隱性比較評論(對應隱性比較句)。通常,顯性比較句出現(xiàn)在一個分句中,通過比較詞和比較搭配展示比較關(guān)系。隱性比較句出現(xiàn)在兩個前后相連的分句中,無明顯比較詞和比較搭配,內(nèi)容上多是對不同產(chǎn)品的同一屬性分別表達觀點。典型的顯性比較句和隱性比較句的示例如表3所示。由表3可以發(fā)現(xiàn),隱性比較句盡管在句子語義和句子結(jié)構(gòu)上不存在固定的模式,但通常會存在相異的產(chǎn)品名,這給隱性比較關(guān)系的挖掘提供了可能。

        表3 顯性和隱性比較句

        綜上所述,提出本文的研究框架,如圖1所示。

        圖1 基于混合類別序列規(guī)則的比較評論識別模型

        首先,對標注后的語料進行文本預處理,包括去除特殊符號、修正錯別字、文本分詞和依存句法分析;然后,將標注語料分為訓練集和測試集;隨后,使用混合CSR 方法識別顯性比較句:①對于序列生成部分,本文提出了3種改進算法進行序列生成,包括CSR_DP、CSR_N2DP 和CSR_HH。②基于生成的序列,采用prefix-span算法進行頻繁CSR 規(guī)則的抽取。③將生成的規(guī)則運用到測試集中進行匹配,使用模式識別的方法,若一個評論中出現(xiàn)了任意一個頻繁CSR 規(guī)則,則對應的特征位置標記為1,否則為0,特征向量元素之和不為0的分句判定為比較句。④識別隱性比較句。針對判定為非比較的評論,進行二次識別,識別過程分為構(gòu)建品牌系列型號詞典、按產(chǎn)品結(jié)構(gòu)樹規(guī)則抽取實體以及產(chǎn)品名規(guī)范化。⑤對測試集進行實驗并取得實驗結(jié)果。

        2.2 混合CSR規(guī)則方法

        CSR 是傳統(tǒng)的比較關(guān)系識別算法,以比較關(guān)鍵詞、關(guān)鍵詞詞性及鄰近詞的詞性作為序列,在比較句識別中取得不錯的效果。Jindal等[4]以比較詞為中心,3個分詞為半徑,生成待挖掘序列。最后,采用prefixspan算法進行類別序列規(guī)則挖掘。以表4為例,按照Jindal等的方法生成待挖掘序列,句子1生成序列1,句子2生成序列2。

        表4 傳統(tǒng)CSR方法生成的序列

        依存句法分析通過分析句子成分之間的依存關(guān)系來解釋句子的結(jié)構(gòu)和含義,依存關(guān)系是二元結(jié)構(gòu),包括核心詞和依存詞,兩者之間有依賴關(guān)系。圖2是一個依存句法分析實例:用弧來顯示兩者之間存在依存關(guān)系,弧從核心詞發(fā)起,指向依存詞,核心詞支配依存詞。依存關(guān)系可用如下序列表示:{(w1,relation1,head1),(w2,relation2,head2),…,(wn,relation2,head2)},其 中:wi表示詞;relationi表示依存關(guān)系成分;headi表示依存關(guān)系指向的詞在句子中的位置。則圖2 中例子可以表示為:{(1/5,ATT,3),(的,RAD,1),(亮度,SBV,9),(跟,ADV,9),(華為,ATT,8),(的,RAD,5),(最低,ATT,8),(亮度,POB,4),(差不多,HED,0)}。其中,比較特殊的依存關(guān)系成分是HED,表示整個句子的中心詞。在后續(xù)的算法提出中,會將依存關(guān)系成分和依存關(guān)系指向融入CSR 序列。

        圖2 句法分析示例

        針對顯性比較句的識別過程分為序列生成、類序列規(guī)則生成和模式匹配3步。類序列規(guī)則生成采用prefixspan算法,模式匹配則進行規(guī)則匹配。本文主要的貢獻在于序列生成這一步驟,考慮到序列生成是決定比較句識別準確度高低的基礎,提出了3種改進算法對這一關(guān)鍵步驟進行處理。

        (1)CSR_N2DP 算法。首先提出CSR_N2DP算法,它利用句法分析中的依存關(guān)系成分替換傳統(tǒng)CSR 方法中的詞性,但不使用依存關(guān)系指向。該算法的執(zhí)行過程為:從句子中抽取序列時采用固定窗口,以比較關(guān)鍵詞為中心,首先抽取比較詞和它對應的依存關(guān)系成分,然后抽取鄰近n個詞的依存關(guān)系成分作為待挖掘的序列。表5中以n=3為例,句子1以比較詞“不如”和它的依存關(guān)系成分“HED”作為中心,按順序抽取前后3個詞的依存關(guān)系成分,最終形成序列1。

        表5 CSR_N2DP方法生成的序列

        (2)CSR_DP算法。CSR_N2DP算法是采用固定窗口的方法使得整個句子被截斷,拆解了句子成分,從而影響依存句法分析的優(yōu)勢。因此,本文在CSR_N2DP算法的基礎上進行改進,提出了CSR_DP 算法。該算法存在兩個優(yōu)勢:①不僅考慮依存關(guān)系成分,而且考慮依存關(guān)系指向;②不采用固定窗口方法進行待挖掘序列的抽取,而是利用句法分析中各個詞之間依存關(guān)系的指向進行序列抽取。

        CSR_DP算法執(zhí)行過程:首先,對整個語句進行句法分析,得到依存關(guān)系各個成分及其指向;然后,抽取比較關(guān)鍵詞和其依存關(guān)系成分。抽取規(guī)則為:若比較關(guān)鍵詞是核心成分,即依存關(guān)系成分為HED,就抽取依存于關(guān)鍵詞前后最近的依存關(guān)系成分;若比較關(guān)鍵詞為非核心成分,就抽取其依存的詞語的依存關(guān)系成分,判斷是否為核心成分。若為核心成分,則停止尋找;若不是,則繼續(xù)抽取其依存詞的依存關(guān)系成分,直至出現(xiàn)核心成分。

        以表6中的句子1為例,比較詞“不如”為句子的核心成分“HED”,然后尋找“不如”前后最近的并且依賴于它的詞。由于“不如”在句子中是第4個成分,故尋找“不如”前后依存關(guān)系指向為4的詞。前面有兩個詞“但是”和“信號”,后面有一個詞“好”,按照先后順序取“但是”和“信號”的依存關(guān)系成分“ADV”和“SBV”,比較詞本身和其對應的依存關(guān)系成分“不如/HED”,最后取“好”的依存關(guān)系成分得到序列1。句子2轉(zhuǎn)換為序列2,與序列1的生成基本一致,運用的是上述比較關(guān)鍵詞為非核心成分的規(guī)則。

        表6 CSR_DP方法生成的序列

        (3)CSR_HH 算法。CSR_DP 算法完整地運用了句法分析中的依存關(guān)系成分和指向,但是考慮到本文的研究對象為中文在線評論,其句式的隨意性與自由度較大,句法分析的準確性會受到影響。如“跟”對應的詞性僅有“/p”,但其對應的依存關(guān)系成分卻存在較多的情況,這將導致頻繁序列模式難以滿足支持度和置信度的要求,被確定為非頻繁序列模式。此外,考慮到比較詞的限定已經(jīng)很強,若再加上比較詞的依存關(guān)系成分會將原本頻繁的規(guī)則拆分成幾個弱化規(guī)則。因此,提出了CSR_HH 算法,該算法的主要優(yōu)勢有兩個:①在依存關(guān)系中加入詞性,加強頻繁序列模式的針對性識別;②不考慮比較詞的依存關(guān)系成分,通過詞性強化規(guī)則。CSR_HH 算法的執(zhí)行過程:在CSR_DP 的基礎上,將比較詞對應的依存關(guān)系成分替換成詞性。這樣就融合了傳統(tǒng)的CSR 方法與CSR_DP方法。如表7中的句子1轉(zhuǎn)化為序列1就是基于表6中的序列1將比較詞“不如”的依存關(guān)系成分替換為詞性“c”。

        表7 CSR_HH 方法生成的序列

        本文在算法特點、算法執(zhí)行過程與算法缺陷方面,對上述3種方法進行了全方位對比,具體對比結(jié)果如表8所示。

        表8 3種算法的比對

        2.3 基于實體的二次識別算法

        在本文的標注語料中,隱性比較評論約占評論總數(shù)的4%。在絕大部分隱性比較句中,通常蘊含產(chǎn)品實體,但是無明顯比較詞和比較搭配。本文認為,通過挖掘比較實體可以識別大部分評論中的隱性比較句[16]。在非評論文本中,若文本含有兩個不同實體,通常語義關(guān)系包括因果、順承、并列、遞進、轉(zhuǎn)折和比較等。但在商品評論文本中,評論者評價的主體是某一產(chǎn)品實體,若評論文本中出現(xiàn)了另一產(chǎn)品實體,推測評論者的意圖是用來和當前產(chǎn)品做比較[20]。本文從研究語料中抽樣統(tǒng)計,發(fā)現(xiàn)評論中出現(xiàn)另一產(chǎn)品實體并且是表達比較含義的概率高達91.23%,證實了上述結(jié)論有一定的合理性。

        本文語料來自智能手機的評論文本,其中涉及到的產(chǎn)品名稱具有層次性,可以通過產(chǎn)品名稱結(jié)構(gòu)樹來找出命名規(guī)律。如圖3所示,產(chǎn)品名稱結(jié)構(gòu)樹大部分包含產(chǎn)品層、系列層和型號層3層,有時還涉及屬性層,本文只精確到型號這一層次。以手機產(chǎn)品為例,統(tǒng)計京東平臺上知名的手機品牌有32個,手工建立品牌詞典。同時,考慮系列名,一個品牌一般有3~5個系列,能夠建立系列名詞典。由于智能手機的更新?lián)Q代很快,產(chǎn)品的型號變化較多,故需借助非人工方法來解決。產(chǎn)品名實體識別可以轉(zhuǎn)化為分層次的標注任務,即分別識別出品牌、系列和型號名稱,組合起來則構(gòu)成詳細的產(chǎn)品名稱。

        圖3 產(chǎn)品名結(jié)構(gòu)樹

        基于上述分析,本文提出基于實體名的比較評論二次識別算法,如圖4所示。在比較句一次識別之后,對于非比較部分進行產(chǎn)品命名實體識別,若在該評論中識別出相異于當前評論的實體,則認為該評論為比較評論。識別過程分為3步:構(gòu)建品牌、系列和型號詞典;按規(guī)則抽取產(chǎn)品命名實體;產(chǎn)品名規(guī)范化。

        圖4 基于實體的二次識別算法

        下面依次介紹3個步驟的實現(xiàn)方式。

        (1)在構(gòu)建品牌、系列和型號詞典時,對于品牌、系列和型號分而治之。品牌和系列名稱相對較少,可以通過人工收集。針對型號詞典的構(gòu)建,本文提出基于相似度的型號詞典構(gòu)建方法,即收集一部分型號詞典作為種子詞典,以相似度計算的方法,擴展種子詞典[21]。相似度計算借鑒編輯距離算法,該算法是由原字符串變化到目標字符串所需最少的編輯操作次數(shù)。編輯距離反映了兩個字符串的絕對差異,但是如果一個字符串長短有差距,則絕對差異的衡量不夠準確。相似度以[0,1]區(qū)間的數(shù)值反映兩個字符串的相似程度。根據(jù)編輯距離計算的相似度為

        式中:dist(a,b)表示字符串a(chǎn)、b之間的編輯距離;suma,b表示字符串a(chǎn)、b的字符長度之和。

        (2)通過已經(jīng)構(gòu)建好的品牌、系列以及型號詞典自動標記語料,再根據(jù)產(chǎn)品名結(jié)構(gòu)樹規(guī)則,按照品牌、系列和型號的層次抽取。同時,在實驗語料中發(fā)現(xiàn),大多數(shù)評論中提及的產(chǎn)品名稱混雜了品牌、型號與系列,本文為此設計了表8中的抽取規(guī)則,進行多輪抽取匹配,確定完整實體名稱。

        表8 抽取規(guī)則

        (3)在線評論的口語化特征使得產(chǎn)品名稱經(jīng)常有缺省,同一個產(chǎn)品在評論中也會有多種命名。調(diào)查發(fā)現(xiàn),對于系列、型號缺失的產(chǎn)品名(只出現(xiàn)“品牌+系列”或“品牌”),這種情況多為用戶語義上的省略,很難判斷具體的產(chǎn)品,本文保留原有的產(chǎn)品名實體;對于品牌或系列缺省的情況,采用表9中的規(guī)則,實現(xiàn)產(chǎn)品名的替換?;诋a(chǎn)品名的識別是實現(xiàn)隱性比較關(guān)系判斷的有利方法,若評論語句中存在與被評論對象不同的產(chǎn)品名稱,并且被評論產(chǎn)品與出現(xiàn)的產(chǎn)品在產(chǎn)品樹上距離較大,則判斷該句為比較句,否則為非比較句。

        表9 產(chǎn)品名規(guī)范化規(guī)則

        3 實驗和結(jié)果

        3.1 實驗數(shù)據(jù)

        實驗數(shù)據(jù)來自國內(nèi)最大的數(shù)碼產(chǎn)品購物平臺——京東購物平臺。編寫爬蟲程序,抓取50個產(chǎn)品的18萬條中文在線評論,最終選取10個品牌的23個手機產(chǎn)品,每個產(chǎn)品隨機抽取1 000 條評論。對評論進行去重、刪除無意義評論和疑問句評論,最終得到19 909條實驗語料。對實驗語料進行文本預處理和人工識別,語料概覽見表10。比較評論數(shù)量為4 439條,占整個語料的22.3%,其中,18.43%的評論為顯性比較評論,3.86%為隱性比較評論。

        表10 語料概覽

        3.2 比較評論識別模型實驗

        3.2.1混合CSR 方法識別比較評論實驗 參照黃小江[15]的支持度設計進行CSR 序列的挖掘,選取即規(guī)則至少出現(xiàn)一次。置信度閾值設為0.6,CSR 與CSR_N2DP 采用窗口半徑設為4。關(guān)于λ,本文將探究其取值在[0.1,0.2,0.3,0.4,0.5]上變化時CSR 的生成情況。

        將本文方法與CSR 方法比較,將待比較的算法以字母縮寫的形式表示如下:CSR 表示標準的CSR方法;CSR_N2DP表示依存句法關(guān)系成分替代CSR方法中詞性的方法;CSR_DP表示融合句法關(guān)系成分與句法關(guān)系指向的方法;CSR_HH 表示融合句法成分、句法結(jié)構(gòu)與詞性的CSR 方法的方法。

        由于4種方法中均需使用比較詞和比較搭配,故在人工整理比較詞和比較搭配的基礎上,又廣泛參考了部分文獻中的詞語搭配,最終構(gòu)建了本文的比較詞庫。表11分別列舉了一部分典型的比較詞和比較搭配。

        表11 比較詞與比較搭配示例

        圖5所示為上述4種方法生成CSR 規(guī)則的時間。結(jié)果證明,通過依存關(guān)系指向?qū)π蛄心J竭M行刪減后,CSR 的生成效率由采用傳統(tǒng)CSR 算法所耗費的10.11 min 降為采用CSR_HH 算法的0.05 min。CSR_N2DP與CSR 抽取效果差異并不明顯,而使用了依存關(guān)系指向縮短序列長度的CSR_DP和CSR_H H 算法則極大地節(jié)約了時間,使得生成序列模式的效率有了很大的提高。

        圖5 各算法CSR 生成耗時

        采用上述4種算法,從實驗語料中的訓練數(shù)據(jù)獲取規(guī)則,通過測試數(shù)據(jù)檢驗規(guī)則的識別效果。識別過程按分層劃分的方式采用五折交叉驗證,識別結(jié)果的評價指標如表12所示。

        表12 比較評論識別結(jié)果評價

        通過4種算法和5個不同λ值生成的20組頻繁序列規(guī)則,分別進行抽取與驗證,獲得20組實驗的準確率、召回率和F值,結(jié)果如圖6所示。進一步獲得4種算法的最優(yōu)參數(shù)(見表13)和對應的最優(yōu)識別結(jié)果(見表14)。其中,CSR_N2DP、CSR_DP和CSR_HH 的識別準確率都優(yōu)于CSR,CSR_HH算法達到了最高79.36%的識別準確率,F值達到了78.43%。準確率為:P=Tc/(Fc+Tc);召回率為:R=Tc/(Fn+Tc),F=(2P×R)/(P+R);總體準確率=

        表14 比較評論識別評價結(jié)果 %

        圖6 不同λ 值下比較句識別的準確率、支持度和F 值

        表13 4種方法下最優(yōu)參數(shù)選擇及CSR數(shù)量和耗時

        3.2.2比較評論產(chǎn)品名識別實驗 首先構(gòu)建品牌、系列和型號詞典。借助爬蟲技術(shù),抓取京東手機搜索頁前10頁300個手機產(chǎn)品,從中篩選出179個自營手機產(chǎn)品頁標題,利用正則表達式提取出具體的品牌、系列和型號,小范圍人工修正,得到最終的品牌、系列和型號詞典,如表15所示。本文建有包含52個品牌的品牌詞典,包含17個系列的系列詞典,以及包含143個型號的型號詞典。此外,由于評論中提及型號的詞語口語化嚴重,故基于種子詞典和萊文斯坦比算法,進行型號字典的擴展,最終獲得181個型號。

        表15 品牌、系列和型號詞典

        本文認為,評論中出現(xiàn)了與當前評論對象相異的產(chǎn)品名稱,即認為該評論具有比較含義,判定為比較句。運用CSR_HH 算法和模式匹配方法,對整個評論語料,包括隱性比較句進行比較句一次識別。對于非比較句的語料,運用上述方法,實現(xiàn)產(chǎn)品名識別的過程,并將出現(xiàn)了其他產(chǎn)品名實體的評論判定為比較評論。最終結(jié)果如表16所示。加上實體識別的方法,比較句識別F值為84.67%。

        表16 結(jié)合實體識別的比較評論二次識別結(jié)果 %

        由實驗結(jié)果還可以發(fā)現(xiàn),基于CSR_H H 方法,對于隱性比較句識別的效果不強。比較實體識別能夠顯著提高比較句的識別效果。

        4 結(jié)語

        本文提出了識別中文在線評論比較關(guān)系的新算法,針對顯性比較評論,提出了融合CSR 方法與依存句法分析算法,即通過比較句的形式化結(jié)構(gòu)與內(nèi)在依存關(guān)系兩方面結(jié)合,提高比較句識別的精度。針對隱性比較評論,提出了基于產(chǎn)品名識別的方法,可有效識別隱性比較句,由此拓寬了比較句識別的范圍。在線評論中比較關(guān)系的識別具有重要意義,通過多個產(chǎn)品兩兩間的比較關(guān)系,能夠構(gòu)建出產(chǎn)品比較網(wǎng)絡,進而分析產(chǎn)品比較網(wǎng)絡中的節(jié)點特性與整體結(jié)構(gòu),發(fā)現(xiàn)產(chǎn)品市場中的產(chǎn)品排名與產(chǎn)品分類。

        首先,改進后的CSR 方法仍有部分比較模式無法準確識別,這是因為評論文本存在一定比例的比較語句并不嚴格按照語法規(guī)則來書寫,存在省略詞、替代詞和網(wǎng)絡用語;其次,本文的方法仍需要借助部分人工標注來實現(xiàn);最后,二次識別算法中對于隱性比較句的識別處于探索階段,僅僅通過識別不同實體來判斷隱性比較有局限,準確性較低。為此,未來研究需要關(guān)注3個方面:①通過機器學習深度理解比較評論的構(gòu)成,CSR 方法側(cè)重于“比較關(guān)鍵詞+詞性”,但對于深層次的詞語理解仍有欠缺;②提出基于無監(jiān)督算法的比較評論識別方法,進一步減少人工干預,有利于大規(guī)模的商業(yè)應用;③針對隱性比較句識別的優(yōu)化,一種可能的方法是識別不同的實體-觀點對,通過不同實體對應的情感值來判斷隱性比較評論,因此有待進一步研究。

        猜你喜歡
        規(guī)則方法
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        學習方法
        規(guī)則的正確打開方式
        幸福(2018年33期)2018-12-05 05:22:42
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        TPP反腐敗規(guī)則對我國的啟示
        可能是方法不對
        搜索新規(guī)則
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        精品久久久久久无码不卡| 国产v片在线播放免费无码| 国产精品午夜爆乳美女视频| 国产一区二区波多野结衣| 一区二区丝袜美腿视频| 91偷自国产一区二区三区| 国产精品久久久久久一区二区三区| 激情久久av一区av二区av三区| 天天插天天干天天操| 久久黄色精品内射胖女人| 亚洲av综合一区二区在线观看 | 国模私拍福利一区二区| av天堂吧手机版在线观看| 中文字幕亚洲视频一区| 国产综合无码一区二区辣椒| 免费人成黄页在线观看视频国产 | 免费99视频| 亚洲综合色视频在线免费观看| 日韩亚洲精品中文字幕在线观看 | 久久国产精品精品国产色婷婷| 精品视频在线观看免费无码| 在线亚洲精品免费视频| 午夜精品久久久久久久久 | 久久精品中文字幕极品| 91麻豆精品久久久影院| 亚洲成av人片乱码色午夜| 国精产品一品二品国在线| 亚洲啪啪AⅤ一区二区三区| 人妖一区二区三区视频| 特级a欧美做爰片第一次| 无码AV高潮喷水无码专区线| 国产午夜激无码av毛片| 亚洲青青草视频在线播放| 美女被男人插得高潮的网站| 国产精品伦一区二区三级视频| 国产片AV在线永久免费观看| 亚洲一区二区三区自拍麻豆| 中文字幕亚洲欧美在线不卡| 天天操夜夜操| 亚洲av第一区综合激情久久久 | 亚洲中文字幕精品久久久久久直播|