亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種面向商品評價(jià)對象挖掘的領(lǐng)域詞典構(gòu)建法

        2019-02-08 07:35:58石玉鑫楊澤青趙志濱姚蘭
        軟件工程 2019年1期

        石玉鑫 楊澤青 趙志濱 姚蘭

        摘? 要:通過挖掘商品評論中的評價(jià)對象,可以得知用戶更關(guān)心商品哪些方面的屬性,從而幫助企業(yè)改進(jìn)商品,幫助用戶選擇商品。因此,商品評價(jià)對象的挖掘具有重要的意義。本文提出了一種用于商品評價(jià)對象挖掘的領(lǐng)域詞典構(gòu)建方法:首先基于LDA模型,提出了一種領(lǐng)域基礎(chǔ)詞典的構(gòu)建方法;然后,分別提出了基于詞匯之間的PMI值和基于依存句法分析的領(lǐng)域詞典擴(kuò)充方法。本文基于京東商城的洗衣液產(chǎn)品真實(shí)評論數(shù)據(jù)集,使用構(gòu)建的詞典分別進(jìn)行了一級標(biāo)簽評價(jià)對象挖掘和二級標(biāo)簽評價(jià)對象挖掘的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在進(jìn)行評價(jià)對象挖掘時(shí)具有良好的性能;相比一級標(biāo)簽評價(jià)對象,擴(kuò)充后的詞典對二級標(biāo)簽評價(jià)對象挖掘的效果有更好的提升。

        關(guān)鍵詞:領(lǐng)域詞典;對象挖掘;商品評論;LDA;PMI

        中圖分類號:TP391? ? ?文獻(xiàn)標(biāo)識碼:A

        A Method on Domain Dictionary Construction for Object

        Mining on Commodity Comments

        SHI Yuxin,YANG Zeqing,ZHAO Zhibin,YAO Lan

        (School of Computer Science and Engineering,Northeastern University,Shenyang 110819,China)

        Abstract:Enterprises hope to be aided by object mining on comments of their products,which reveals the clients' concerns,to improve their manufacturing.This object mining also makes sense to subsequent consumers while they are making their choice.Therefore,it is significant to mine objects of a comment.This paper proposes a method on domain dictionary construction for object mining on comments of commodity:Firstly,a method based on the LDA model,a basic domain dictionary is proposed;then,the domain dictionary expansion methods based on the PMI value of words and dependency parsing are proposed respectively.Data applied for experiments in this paper is from detergent sale data of JD.COM.The dictionaries are applied on this data set for the first-level and second-level label object mining.The experimental results prove the proposed methods great potential in object mining.Compared with the first-level label object mining,the extensive dictionary has improved the second-level label object mining.

        Keywords:domain dictionary;object mining;commodity comment;LDA;PMI

        1? ?引言(Introduction)

        在互聯(lián)網(wǎng)中,有海量的商品評論文本。這些評論可能來自于不同的電商平臺和不同的商品品類,是一種重要的資源,具有很高的研究價(jià)值。通過分析電商平臺的商品評論,市場調(diào)查工作人員可以得知用戶更關(guān)心商品哪些方面的屬性,以及用戶對這些屬性持有消極的觀點(diǎn)還是積極的觀點(diǎn),從而幫助公司更好地改進(jìn)產(chǎn)品;消費(fèi)者也可以通過查看這些商品評論來了解其他人的真實(shí)購物體驗(yàn),有助于快速找到口碑良好的商品,做出更好的購物選擇。

        電商平臺的商品評論是中文短文本,面向商品評論的口碑分析的基礎(chǔ)工作是挖掘出評論所描述的商品屬性,即短文本的評價(jià)對象挖掘。正因?yàn)楹A康脑u論數(shù)據(jù)中蘊(yùn)藏著非常有價(jià)值的商業(yè)信息,因此面向商品評論的評價(jià)對象挖掘備受關(guān)注。目前為止,基于領(lǐng)域詞典的規(guī)則匹配方法是評價(jià)對象挖掘的最有效手段之一,業(yè)界普遍采用,構(gòu)建領(lǐng)域詞典是其中的關(guān)鍵工作內(nèi)容。但是,人工構(gòu)建詞典的方法工作量巨大,并且難以保證詞典的覆蓋性,因此亟需一種有效的方法來自動(dòng)構(gòu)建領(lǐng)域詞典。

        針對這一問題,本文提出了一種基于隱狄利克雷分布(Latent Dirichlet Allocation,簡稱LDA)模型、點(diǎn)互信息(Pointwise Mutual Information,簡稱PMI)和依存句法分析的面向商品評價(jià)對象挖掘的領(lǐng)域詞典構(gòu)建方法,目標(biāo)是針對某個(gè)品類的商品評論,構(gòu)建領(lǐng)域詞典,并利用領(lǐng)域詞典實(shí)現(xiàn)對該品類文本的評價(jià)對象挖掘。本文構(gòu)建的領(lǐng)域詞典包括兩部分,一部分是領(lǐng)域基礎(chǔ)詞典,由單個(gè)的詞匯構(gòu)成;另一部分是領(lǐng)域詞典的擴(kuò)充,由詞匯的搭配組合構(gòu)成。本文的主要貢獻(xiàn)包括:

        (1)提出了構(gòu)建領(lǐng)域基礎(chǔ)詞典的方法。將已標(biāo)注的訓(xùn)練集按標(biāo)簽分為若干個(gè)文檔,使用LDA模型得到每個(gè)文檔中主題的概率分布,以及每個(gè)主題中詞匯的概率分布,提取出主題詞,從而得到該標(biāo)簽下的詞典。對每個(gè)標(biāo)簽對應(yīng)的文檔重復(fù)上述過程,就得到了領(lǐng)域基礎(chǔ)詞典。

        (2)基于PMI擴(kuò)充領(lǐng)域詞典。通過計(jì)算點(diǎn)互信息(PMI)來衡量每個(gè)文檔中詞匯之間的相關(guān)性,將相關(guān)性高的詞匯作為詞組加入每個(gè)標(biāo)簽對應(yīng)的詞組集合,得到所有標(biāo)簽對應(yīng)的詞組集合。用詞組集合對領(lǐng)域基礎(chǔ)詞典中每個(gè)標(biāo)簽下的詞典進(jìn)行擴(kuò)充,構(gòu)建擴(kuò)充后的領(lǐng)域詞典。

        (3)基于依存句法分析擴(kuò)充領(lǐng)域詞典。本文定義了一種新形式的詞典:句法詞典。通過對已標(biāo)注的語料進(jìn)行句法分析,可以得到一個(gè)由詞組構(gòu)成的句法詞典;利用該詞典可以對領(lǐng)域詞典進(jìn)行進(jìn)一步的擴(kuò)充。

        本文按照如下方式組織全文。第二部分總結(jié)了近些年的評價(jià)對象挖掘、詞典構(gòu)建的研究成果和相關(guān)技術(shù);第三部分明確了本文要解決的問題,并且定義了相關(guān)符號;第四部分介紹了基于LDA模型構(gòu)建領(lǐng)域基礎(chǔ)詞典和基于PMI、依存句法分析擴(kuò)充詞典的具體過程;第五部分通過評價(jià)對象挖掘?qū)嶒?yàn),對本文所提出方法的性能進(jìn)行了評估。第六部分總結(jié)了本文的工作,并提出未來可繼續(xù)改進(jìn)的地方。

        2? ?相關(guān)工作(Related work)

        本文工作的核心是構(gòu)建面向商品評價(jià)對象挖掘的領(lǐng)域詞典,需要用到文本挖掘的相關(guān)技術(shù)來構(gòu)建詞典。現(xiàn)在就文本挖掘技術(shù)的最新應(yīng)用,以及有關(guān)詞典構(gòu)建工作的最新研究成果進(jìn)行總結(jié)。

        文本挖掘是一個(gè)從大規(guī)模的文本數(shù)據(jù)集合中挖掘出潛在且有價(jià)值的信息的過程[1]。隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)文本數(shù)據(jù)大量涌現(xiàn),這使得文本信息挖掘成為多個(gè)領(lǐng)域的重點(diǎn)研究課題。文本挖掘的主要方法有基于主題模型的方法、基于機(jī)器學(xué)習(xí)的方法、基于句法分析的方法和基于詞典的方法等。Pavlinek[2]等人提出了一種基于半監(jiān)督學(xué)習(xí)和LDA主題模型的文本分類方法,對文本進(jìn)行分類。He[3]等人提出了一種基于依存句法分析的評論觀點(diǎn)挖掘方法,可以有效地從評論中挖掘觀點(diǎn)。Tomas[4]等人在Spark中實(shí)現(xiàn)了樸素貝葉斯、隨機(jī)森林、決策樹、支持向量機(jī)和Logistic回歸分類器等五種分類器,并對每種分類器的分類準(zhǔn)確度進(jìn)行了評估。Mandal[5]提出了一種基于詞典進(jìn)行意見挖掘并計(jì)算情感極性水平的算法。在這幾種文本挖掘方法中,基于詞典的規(guī)則匹配方法是最有效的手段之一,并且可維護(hù)性較好,在工程上普遍采用。因此,本文要構(gòu)建面向商品評價(jià)對象挖掘的領(lǐng)域詞典。

        關(guān)于領(lǐng)域詞典的構(gòu)建,有很多可行的方法,相關(guān)研究也有很多。尹文科[6]等人基于維基百科鏈接結(jié)構(gòu)圖,結(jié)合LSI算法和CPMw算法,提出了一種構(gòu)建領(lǐng)域詞典的方法,實(shí)現(xiàn)了領(lǐng)域詞典的自動(dòng)構(gòu)建。基于大量的商品評論文本,李偉卿[7]等人提出了一種構(gòu)建產(chǎn)品特征詞典的方法。該方法在大量已標(biāo)注文本數(shù)據(jù)的基礎(chǔ)上,基于同義詞詞林?jǐn)U展版和Word2Vec工具進(jìn)行詞向量訓(xùn)練,計(jì)算詞匯的語義相似程度,對特征詞匯進(jìn)行總結(jié),從而構(gòu)建產(chǎn)品的特征詞典。與其他方法相比,該方法有良好的召回率。Chen[8]等人提出了一種新穎的詞典構(gòu)建方法,這種方法能夠使詞典包含更多的長尾關(guān)鍵詞,從而提高詞典的質(zhì)量。文獻(xiàn)[9]介紹了4種構(gòu)建領(lǐng)域情感詞典的方法,并評估了每種方法所構(gòu)建詞典的性能。Wu[10]等人基于已標(biāo)注的文本數(shù)據(jù),利用TF-IDF算法和Word2Vec工具,構(gòu)建了足球領(lǐng)域的情感詞典。Alqasemi[11]等人基于KNN查詢算法構(gòu)建了觀點(diǎn)詞庫,并取得了較好的實(shí)驗(yàn)結(jié)果。Ju[12]等人提出了一種基于條件隨機(jī)場的迭代機(jī)器學(xué)習(xí)算法,目標(biāo)是自動(dòng)構(gòu)建中文臨床語料庫中的癥狀詞典。文獻(xiàn)[13]研究了國內(nèi)外幾種詞典系統(tǒng)的功能,建立了一個(gè)領(lǐng)域詞典構(gòu)建系統(tǒng),并設(shè)計(jì)了總體框架和組件模塊。Zhang[14]等人通過提取和構(gòu)建程度副詞詞典、網(wǎng)絡(luò)詞典、負(fù)面詞典和其他相關(guān)詞典來擴(kuò)展情感詞典。Song[15]等人提出了一個(gè)命名實(shí)體詞典半自動(dòng)構(gòu)建系統(tǒng),該系統(tǒng)基于維基百科,使用主動(dòng)學(xué)習(xí)技術(shù)和BM25算法,在命名實(shí)體識別實(shí)驗(yàn)中表現(xiàn)出良好的性能。文獻(xiàn)[16]中設(shè)計(jì)了一種關(guān)系詞詞典的新結(jié)構(gòu),采用弱監(jiān)督方法找到詞典項(xiàng),并填充到關(guān)系詞詞典中。該詞典用于提取生物醫(yī)學(xué)文獻(xiàn)中有關(guān)蛋白質(zhì)的詞匯。文獻(xiàn)[17]提出了一種自動(dòng)構(gòu)建情感詞典的方法,構(gòu)建的詞典用于處理特定領(lǐng)域的情感分析任務(wù)。文章中還比較了來自不同領(lǐng)域的情感詞典的效率。Wu[18]等人提出了一種基于數(shù)據(jù)驅(qū)動(dòng)的方法,來為微博情緒分析系統(tǒng)構(gòu)建高質(zhì)量的情感詞典。針對現(xiàn)有中文情感詞匯覆蓋率較低的問題,Liu[19]等人通過整合當(dāng)前情感詞匯,構(gòu)建了一個(gè)微博情感詞典。

        3? ?問題描述(Problem description)

        商品評論的評價(jià)對象挖掘是一個(gè)多標(biāo)簽分類問題。表1是京東商城洗衣液產(chǎn)品評論中的兩條評論,以及它們的評價(jià)對象。評論t1的評價(jià)對象是這款洗衣液的氣味和物流/送貨速度,評論t2的評價(jià)對象是洗衣液的清潔效果,濃度和物流/送貨速度。從這兩條評論可以看出,“氣味”“清潔效果”“濃度”和“物流/送貨速度”等屬性都有可能成為洗衣液產(chǎn)品評論中所包含的評價(jià)對象,而類似于“口感”等屬性不大可能成為正常的洗衣液評論中所提及的評價(jià)對象。因此,單個(gè)領(lǐng)域是具有封閉性的,評論中可能涉及的評價(jià)對象數(shù)量是有限的,這些評價(jià)對象可以窮舉出來。因此,基于詞典的多標(biāo)簽分類方法能夠在商品評論的評價(jià)對象挖掘工作中取得較好的效果。本文要解決的問題是,生成一個(gè)用于挖掘商品評價(jià)對象的領(lǐng)域詞典。

        本文使用集合來表示商品品類的一組中文短文本集合,用集合來表示集合中可能涉及的種評價(jià)對象。若商品品類是洗衣液產(chǎn)品,則集合就是洗衣液產(chǎn)品本身,以及外延性質(zhì)的總集。

        通過對關(guān)鍵詞或詞組的匹配,可以確定評論中包含了哪些評價(jià)對象。例如,關(guān)鍵詞“清香”對應(yīng)的評價(jià)對象是“氣味”,關(guān)鍵詞“洗衣效果”對應(yīng)的評價(jià)對象是“清潔效果”。因此,挖掘商品評價(jià)對象的領(lǐng)域詞典中需要包含每個(gè)評價(jià)對象所對應(yīng)的關(guān)鍵詞集合。領(lǐng)域詞典可形式化表示為式(1)。

        (1)

        其中,是評價(jià)對象所對應(yīng)的關(guān)鍵詞集合,其中的元素有可能是單個(gè)詞匯,也有可能是多個(gè)詞匯組成的詞組。

        因此,本文的目標(biāo)是,找到領(lǐng)域詞典構(gòu)建函數(shù),基于商品品類的文本集合,構(gòu)建領(lǐng)域詞典??梢孕问交枋鰹椋?。

        4? ?算法描述(Algorithm description)

        4.1? ?構(gòu)建領(lǐng)域基礎(chǔ)詞典

        首先需要對商品評論集合進(jìn)行人工標(biāo)注。每條評論需要標(biāo)注出其包含的評價(jià)對象,以及描述這些評價(jià)對象的文本;標(biāo)注出的評價(jià)對象可能是一個(gè),也可能是多個(gè)。標(biāo)注后的任一文本 都對應(yīng)一個(gè)標(biāo)簽集合。標(biāo)注的示例如表2所示,該文本標(biāo)注了四個(gè)標(biāo)簽,分別是“品牌忠誠度”“洗滌效果”“價(jià)格”“物流/送貨速度”等四個(gè)評價(jià)對象,以及描述它們的文本。

        標(biāo)注完成之后,需要對標(biāo)注的文本進(jìn)行分詞,去除停用詞,并將文本分為等個(gè)集合,分別是包含評價(jià)對象的文本集合,任意兩個(gè)集合之間都可能有交集。

        本文基于LDA模型來構(gòu)建領(lǐng)域基礎(chǔ)詞典。LDA模型是一種文檔主題生成模型。在LDA模型中,一個(gè)文檔以一定概率選擇了一個(gè)主題,一個(gè)主題又以一定的概率選擇了一個(gè)詞匯,形式化表示為式(2):

        (2)

        首先,要給出LDA模型的主題數(shù)。之后,將描述評價(jià)對象的文本集合作為一個(gè)文檔,通過LDA模型對該文檔的學(xué)習(xí),可以得到該文檔的文檔-主題分布和主題-詞匯分布,從而可以得到評價(jià)對象的主題詞語,這些主題詞語的集合記作。通過對所有文檔重復(fù)上述過程,就可以得到集合。這些集合就構(gòu)成了領(lǐng)域的領(lǐng)域基礎(chǔ)詞典。

        4.2? ?基于PMI擴(kuò)充詞典

        基于LDA模型構(gòu)建的領(lǐng)域基礎(chǔ)詞典只包含單個(gè)的詞匯,且詞匯之間都是相互獨(dú)立的,不存在搭配關(guān)系。然而,如果要挖掘細(xì)粒度的評價(jià)對象,有時(shí)兩個(gè)單獨(dú)的詞匯并不能挖掘出某個(gè)評價(jià)對象,但是它們作為詞組時(shí)卻可以挖掘出這個(gè)評價(jià)對象。例如,在洗衣液評論中,我們可以將“氣味”這一評價(jià)對象拆分為“打開時(shí)的氣味”“洗衣時(shí)的氣味”“晾衣時(shí)的氣味”等若干個(gè)更細(xì)粒度的評價(jià)對象。評論“打開蓋子時(shí)很香,很好聞”顯然包含了“打開時(shí)的氣味”這一評價(jià)對象,而無論是詞匯“打開”,還是詞匯“香”,單獨(dú)拿出來都無法挖掘出“打開時(shí)的氣味”這一評價(jià)對象,而它們搭配起來卻可以挖掘出這個(gè)評價(jià)對象。因此,我們需要對上一小節(jié)中得到的領(lǐng)域基礎(chǔ)詞典進(jìn)行擴(kuò)充,在詞典中加入詞組做關(guān)鍵詞。

        本文通過計(jì)算點(diǎn)互信息(PMI)來衡量兩個(gè)詞語之間的關(guān)聯(lián)程度,從而抽取出關(guān)聯(lián)程度較高的詞匯組合,用這些詞組對領(lǐng)域基礎(chǔ)詞典進(jìn)行擴(kuò)充。PMI從統(tǒng)計(jì)學(xué)的角度來衡量詞語之間的語義關(guān)聯(lián)程度。針對某文本集合中的詞匯和,若這兩個(gè)詞匯出現(xiàn)在同一條商品評論中,則稱詞匯和共現(xiàn)。和在中的共現(xiàn)概率可表示為式(3)。

        (3)

        其中,是和共現(xiàn)的評論數(shù)量。和在中的PMI值可由式(4)計(jì)算出來,其中和分別是和在中的頻率。

        (4)

        當(dāng)大于一定閾值時(shí),可以認(rèn)為集合中的詞匯和具有搭配關(guān)系,并且該搭配關(guān)系可以描述評價(jià)對象。將符合上述條件的詞組構(gòu)成集合,其中任一元素都是由一對詞匯構(gòu)成的具有搭配關(guān)系的詞組。集合就是描述評價(jià)對象的詞組集合。對所有評價(jià)對象重復(fù)上述過程,最終得到集合。集合可以對領(lǐng)域基礎(chǔ)詞典進(jìn)行擴(kuò)充,從而得到新的領(lǐng)域詞典。

        4.3? ?基于依存句法分析擴(kuò)充詞典

        除了基于PMI對領(lǐng)域詞典進(jìn)行擴(kuò)充之外,還可以基于依存句法分析對領(lǐng)域詞典進(jìn)行擴(kuò)充。依存句法分析是通過分析某個(gè)句子來構(gòu)建該句子的依存句法樹,從而描述句子之間的依存關(guān)系。利用哈工大“語言技術(shù)平臺(LTP)”得到的依存句法分析實(shí)例如圖1所示。

        圖1中的有向弧被稱為依存弧,表示兩個(gè)詞之間存在從屬關(guān)系。每個(gè)依存弧上都有一個(gè)標(biāo)注,表示兩個(gè)詞之間的依存關(guān)系類型,每個(gè)詞匯下方標(biāo)注了它的詞性。例如,“很”與“一般”之間存在依存關(guān)系A(chǔ)DV(狀中結(jié)構(gòu)),“很”是程度副詞,修飾形容詞“一般”?!耙话恪笔沁@對關(guān)系中的核心詞,也叫支配詞;“很”是用來修飾支配詞的詞語,也叫從屬詞。類似于“很”和“好”這樣的詞對,本文將其稱為“依存詞對”,其形式化定義如下:

        定義1(依存詞對):存在依存關(guān)系的兩個(gè)詞語稱為依存詞對,形式化表示為式(5):

        (5)

        其中,是從屬詞的詞號,即該從屬詞在句子中的位置;是的詞性;而和分別是支配詞的詞號和詞性;relation是詞匯和的依存關(guān)系類型。例如,圖2中的“很”和“一般”就可以稱為一個(gè)依存詞對,可以形式化表示為:WordPair(很,一般)=(5,很,d,6,一般,a,ADV)。

        在文本集合中,某種詞性組合的依存詞對可能較為頻繁的出現(xiàn)。以洗衣液產(chǎn)品的評論為例,評論中出現(xiàn)了“潔凈衣領(lǐng)”“祛除異味”等關(guān)于產(chǎn)品功效的描述,均為“動(dòng)詞+名詞”形式的依存詞對。同時(shí),多個(gè)依存詞對的組合可能也會頻繁出現(xiàn),例如,短語“祛除頑固污漬”為“動(dòng)詞+形容詞+名詞”的形式,其中也包含“動(dòng)詞+名詞”形式的依存詞對和“形容詞+名詞”形式的依存詞對。對于某個(gè)文本集合中類似于“動(dòng)詞+名詞”“動(dòng)詞+形容詞+名詞”等包含一個(gè)或多個(gè)依存詞對的頻繁出現(xiàn)的詞匯集合,本文稱為“句法模板”,形式化定義如下:

        定義2(句法模板):在文本集合中,存在文本,包含詞性為的詞匯集合,且對于集合中的任意詞匯,至少存在一個(gè)詞匯,與其存在依存關(guān)系,構(gòu)成依存詞對或。

        假設(shè)與具有上述相同性質(zhì)的文本集合為,中文本數(shù)量占中文本數(shù)量的比例大于一個(gè)給定的閾值,則稱元組為文本集合的一個(gè)句法模板,每個(gè)符合該句法模板的詞組都是句法模板的一個(gè)實(shí)例。

        根據(jù)句法模板的定義,本文又給出了一種新形式詞典的定義——句法詞典,其形式化定義如下。

        定義3(句法詞典):在文本集合中,有句法模板集合,其中任意一個(gè)句法模板均存在描述評價(jià)對象的詞組集合,則這些集合可以構(gòu)成一個(gè)新的集合。集合就是文本集合的一個(gè)句法詞典

        如果對每個(gè)文本集合都構(gòu)建句法詞典,就可以得到文本集合的一個(gè)句法詞典。為了提高詞典的質(zhì)量,在構(gòu)建句法詞典之前,需要計(jì)算文本集合中每個(gè)詞匯的TF-IDF值。TF-IDF是用來評估一個(gè)詞匯對于一個(gè)文檔重要程度的指標(biāo),TF指的是某一個(gè)給定的詞語在該文檔中出現(xiàn)的頻率;IDF是逆向文檔頻率,是一個(gè)詞語普遍重要性的度量。

        將看作一個(gè)文檔,從微博上抓取一定數(shù)量的文本,將每條微博看作一個(gè)文檔,與組成文本集合。對于詞匯,它對于的TF值和IDF值計(jì)算方式分別如式(6)和式(7)所示。

        其中,是詞匯在本文集合中出現(xiàn)的次數(shù),是包含詞匯的微博文本集合。詞匯對于文本的TF-IDF值計(jì)算方法如式(8)所示。

        (8)

        根據(jù)詞匯的TF-IDF值,可以構(gòu)建一個(gè)重要詞匯詞典,其中是一個(gè)閾值,TF-IDF值大于的詞匯均可看作商品品類的重要詞匯。

        根據(jù)上述定義,構(gòu)造的句法詞典。從中抽取出句法模板集合。針對任一句子中符合句法模板的詞組,若詞組滿足以下兩個(gè)條件之一的,即可加入詞組集合:

        (1)存在詞匯,有,且對于中標(biāo)注出的描述評價(jià)對象的文本,有。

        (2)中包含描述評價(jià)對象的文本,對于中的任一詞匯,均有。

        對中所有句法模板的所有實(shí)例重復(fù)上述步驟,即可得到集合。用同樣的方法也可以得到集合,從而得到最終的句法詞典。句法詞典可以對領(lǐng)域詞典進(jìn)行擴(kuò)充,從而得到新的領(lǐng)域詞典。

        5? ?實(shí)驗(yàn)(Experiment)

        5.1? 實(shí)驗(yàn)數(shù)據(jù)集

        本文的實(shí)驗(yàn)數(shù)據(jù)集是京東商城洗衣液評論數(shù)據(jù)集。根據(jù)從領(lǐng)域?qū)<姨幍玫降南匆乱寒a(chǎn)品的特征碼表,本文首先列出了“方便性”“品牌”“包裝”“產(chǎn)品”“價(jià)格”“香味”“快遞”“購物渠道”“產(chǎn)品功效”等9種評價(jià)對象,本文稱這9種評價(jià)對象為一級標(biāo)簽評價(jià)對象;并將每個(gè)一級標(biāo)簽評價(jià)對象再細(xì)分為更加細(xì)粒度的評價(jià)對象,例如“快遞”可以細(xì)分為“快遞(籠統(tǒng))”“快遞速度”“快遞人員服務(wù)態(tài)度”“快遞包裝”等,細(xì)分完成后共有69種細(xì)粒度的評價(jià)對象,本文稱這69個(gè)評價(jià)對象為二級標(biāo)簽評價(jià)對象。

        由于實(shí)際獲取到的商品評論隨意性較大,會出現(xiàn)少量無效的評論,例如只出現(xiàn)標(biāo)點(diǎn)符號的評論,或類似于“呵呵哈哈哈”這樣無意義的評論,所以在進(jìn)行數(shù)據(jù)預(yù)處理前需要剔除這些無效評論。剔除無效評論后,剩余的用戶評論共計(jì)32400條。之后對所有有效的數(shù)據(jù)進(jìn)行標(biāo)注,標(biāo)注內(nèi)容包括每個(gè)評論所包含的一級標(biāo)簽評價(jià)對象、二級標(biāo)簽評價(jià)對象,以及每個(gè)評價(jià)對象所對應(yīng)的文本。評價(jià)對象的標(biāo)注是多標(biāo)簽標(biāo)注,即一條短文本可以包含多個(gè)評價(jià)對象。由于人工標(biāo)注難免有疏漏,所以對標(biāo)注結(jié)果進(jìn)行了細(xì)致的檢查,并對百分之一的數(shù)據(jù)進(jìn)行了重復(fù)標(biāo)注。標(biāo)注完成后,將每條評論進(jìn)行分詞,并剔除相應(yīng)的停用詞。

        本文工作均采用Python 3.5語言實(shí)現(xiàn),使用PyCharm開發(fā)工具,操作系統(tǒng)為Windows 7。洗衣液評論數(shù)據(jù)采用MongoDB數(shù)據(jù)庫存儲。

        5.2? ?實(shí)驗(yàn)結(jié)果

        本文提出了一種面向商品評價(jià)對象挖掘的領(lǐng)域詞典構(gòu)建方法,該方法可分為三部分:基于LDA模型構(gòu)建領(lǐng)域基礎(chǔ)詞典的方法;基于PMI擴(kuò)充領(lǐng)域詞典的方法;基于依存句法分析擴(kuò)充領(lǐng)域詞典的方法。首先,使用29160條已標(biāo)注的數(shù)據(jù)構(gòu)建領(lǐng)域詞典;之后,用剩余的3240條數(shù)據(jù)進(jìn)行商品評價(jià)對象挖掘?qū)嶒?yàn),來驗(yàn)證所構(gòu)建領(lǐng)域詞典的性能。

        由于評價(jià)對象挖掘是一個(gè)多標(biāo)簽分類的過程,所以本文使用Macro-averaging評價(jià)指標(biāo)來對評價(jià)對象挖掘?qū)嶒?yàn)的結(jié)果進(jìn)行評估。Macro-averaging指標(biāo)首先對各類的分類結(jié)果進(jìn)行評估,然后再取所有類評估結(jié)果的均值作為整體的評估結(jié)果。Macro-averaging由三個(gè)具體指標(biāo)構(gòu)成:Macro_P,Macro_R和Macro_F,計(jì)算方法如式(9)、式(10)和式(11)所示,是實(shí)際包含評價(jià)對象,預(yù)測結(jié)果也包含的評論數(shù);是實(shí)際不包含評價(jià)對象,但預(yù)測結(jié)果卻包含的評論數(shù);是實(shí)際包含評價(jià)對象,預(yù)測結(jié)果卻不包含的評論數(shù)。

        本文將分別使用領(lǐng)域基礎(chǔ)詞典、僅基于PMI擴(kuò)充后的領(lǐng)域詞典(LDA+PMI)、僅基于依存句法分析擴(kuò)充后的領(lǐng)域詞典(LDA+DP)、基于PMI和依存句法分析方法擴(kuò)充后的領(lǐng)域詞典(LDA+PMI+DP)等四種進(jìn)行評價(jià)對象挖掘?qū)嶒?yàn),并對比實(shí)驗(yàn)結(jié)果。本文的實(shí)驗(yàn)數(shù)據(jù)可挖掘到的評價(jià)對象可以分為兩種,一種是一級標(biāo)簽評價(jià)對象,一種是二級標(biāo)簽評價(jià)對象,因此本文將分別對這兩種評價(jià)對象進(jìn)行挖掘?qū)嶒?yàn)。

        一級標(biāo)簽評價(jià)對象有九種,分別是“方便性”“品牌”“包裝”“產(chǎn)品”“價(jià)格”“香味”“快遞”“購物渠道”“產(chǎn)品功效”。 基于PMI和依存句法分析等兩種方法擴(kuò)充后(LDA+PMI+DP)的一級標(biāo)簽領(lǐng)域詞典的一部分如表3所示,僅列出了“香味”和“快遞”等兩種評價(jià)對象的部分詞匯和詞組。

        一級標(biāo)簽評價(jià)對象挖掘?qū)嶒?yàn)結(jié)果如表4所示。從表4中的結(jié)果可以看出,與領(lǐng)域基礎(chǔ)詞典相比,基于PMI方法和依存句法分析方法擴(kuò)充后的詞典的Macro_P指標(biāo)有所降低,Macro_R指標(biāo)有所提升,衡量整體性能的Macro_F指標(biāo)有所提升,這說明本文提出的詞典擴(kuò)充方法對一級標(biāo)簽領(lǐng)域詞典的整體性能是有所提升的,但是由于詞典規(guī)模的擴(kuò)大,隨之也會出現(xiàn)更多的誤判,導(dǎo)致精確率降低。同時(shí)可以看出,在只使用一種詞典擴(kuò)充方法的情況下,基于依存句法分析的詞典擴(kuò)充方法要優(yōu)于基于PMI的詞典擴(kuò)充方法;兩種擴(kuò)充方法都使用時(shí)Macro_F指標(biāo)可以達(dá)到最高,相較于只使用領(lǐng)域基礎(chǔ)詞典時(shí)提升了1.9個(gè)百分點(diǎn)。雖然擴(kuò)充后的詞典可以提升一級標(biāo)簽評價(jià)對象挖掘的性能,但是提升十分有限。

        二級標(biāo)簽評價(jià)對象有69種,由一級標(biāo)簽評價(jià)對象細(xì)分而得。其中“香味”被分為了“香味(籠統(tǒng))”“打開包裝時(shí)的香味”“浸泡時(shí)的香味”“洗衣時(shí)的香味”“晾衣時(shí)的香味”“快遞”被分為了“快遞(籠統(tǒng))”“物流/送貨速度”“快遞包裝”“快遞費(fèi)用”“快遞人員”。使用兩種方法擴(kuò)充后的二級標(biāo)簽領(lǐng)域詞典的一部分如表5所示,僅列出了“香味”和“快遞”等兩種評價(jià)對象細(xì)分后的11個(gè)評價(jià)對象的部分詞匯和詞組。

        將表5和表3對比可以看出,表3中很多對應(yīng)同一評價(jià)對象的詞匯在表5中被對應(yīng)到不同的評價(jià)對象。同時(shí),很多二級標(biāo)簽評價(jià)對象的關(guān)鍵詞集合中詞組較多,單個(gè)詞匯較少。

        二級標(biāo)簽評價(jià)對象挖掘?qū)嶒?yàn)結(jié)果如表6所示。表6中的各項(xiàng)指標(biāo)變化趨勢與表4中各項(xiàng)指標(biāo)變化趨勢相似。與一級標(biāo)簽評價(jià)對象挖掘的實(shí)驗(yàn)結(jié)果相比,二級標(biāo)簽評價(jià)對象挖掘的實(shí)驗(yàn)結(jié)果各項(xiàng)指標(biāo)均有所下降。將表4和表6的實(shí)驗(yàn)結(jié)果進(jìn)行對比可以看出,相較于一級標(biāo)簽評價(jià)對象挖掘?qū)嶒?yàn),擴(kuò)充后的詞典對二級標(biāo)簽評價(jià)對象挖掘?qū)嶒?yàn)的Macro_F指標(biāo)有更大的提升,相較于只使用領(lǐng)域基礎(chǔ)詞典時(shí)提升了4.2%,這意味著本文提出的詞典擴(kuò)充方法對二級標(biāo)簽評價(jià)對象的挖掘有更重要的意義。由于很多二級標(biāo)簽評價(jià)對象的關(guān)鍵詞集合中詞組較多,單個(gè)詞匯較少,因此用詞組擴(kuò)充領(lǐng)域詞典對于這些標(biāo)簽的挖掘是非常有效的。

        6? ?結(jié)論(Conclusion)

        本文提出了一種面向商品評價(jià)對象挖掘的詞典構(gòu)建方法,并使用京東商城洗衣液評論數(shù)據(jù)集進(jìn)行了評價(jià)對象挖掘?qū)嶒?yàn),以評估詞典的性能。本文的詞典分為兩部分,一部分是領(lǐng)域基礎(chǔ)詞典,由單個(gè)的詞匯構(gòu)成;另一部分是領(lǐng)域詞典的擴(kuò)充,由詞組構(gòu)成。本文基于LDA模型從文本中提取主題詞,提出了構(gòu)建基礎(chǔ)詞典的方法;通過計(jì)算詞匯之間的PMI值,提出了一種擴(kuò)充領(lǐng)域詞典的方法;基于依存句法分析和TF-IDF,提出了另一種擴(kuò)充領(lǐng)域詞典的方法。實(shí)驗(yàn)證明,擴(kuò)充后的領(lǐng)域詞典的挖掘效果好于領(lǐng)域基礎(chǔ)詞典單獨(dú)使用的效果;用詞組擴(kuò)充領(lǐng)域詞典對二級標(biāo)簽評價(jià)對象的挖掘意義更大。

        本文的方法在針對洗衣液產(chǎn)品評論的評價(jià)對象挖掘?qū)嶒?yàn)中取得了良好的表現(xiàn),將來可以使用本文方法對其他領(lǐng)域的短文本進(jìn)行實(shí)驗(yàn);同時(shí),由于本文的方法需要大量的標(biāo)注,屬于有監(jiān)督學(xué)習(xí),需要耗費(fèi)大量的人力物力,因此接下來將會考慮是否可以基于無監(jiān)督學(xué)習(xí)的方法構(gòu)建詞典;本文所提出的方法只能針對特定的領(lǐng)域來構(gòu)建詞典,無法構(gòu)建一個(gè)開放領(lǐng)域的詞典,下一步將嘗試是否可以得到一個(gè)跨領(lǐng)域的詞典構(gòu)建框架,來構(gòu)建跨領(lǐng)域的詞典。

        參考文獻(xiàn)(References)

        [1] Mashechkin I V,Petrovskiy M I,Popov D S,et al.Applying text mining methods for data loss prevention[J].Programming & Computing Software,2015,41(1):23-30.

        [2] Pavlinek M,Podgorelec V.Text classification method based on self-training and LDA topic models[J].Expert Systems with Applications,2017,80:83-93.

        [3] He T,Hao R,Qi H,et al.Mining Feature-Opinion from Reviews Based on Dependency Parsing[J].International Journal of Software Engineering & Knowledge Engineering,2017,26(9n10):1581-1591.

        [4] Tomas P,Virginijus M.Comparison of Na?ve Bayes,Random Forest,Decision Tree,Support Vector Machines,and Logistic Regression Classifiers for Text Reviews Classification[J].Baltic Journal of Modern Computing,2013.

        [5] Mandal S,Gupta S.A novel dictionary-based classification algorithm for opinion mining[C].Second International Conference on Research in Computational Intelligence and Communication Networks.IEEE,2017:175-180.

        [6] 尹文科,朱明,陳天昊.基于Wiki鏈接結(jié)構(gòu)圖聚類的領(lǐng)域詞典構(gòu)建方法[J].小型微型計(jì)算機(jī)系統(tǒng),2014,35(6):1286-1292.

        [7] 李偉卿,王偉軍.基于大規(guī)模評論數(shù)據(jù)的產(chǎn)品特征詞典構(gòu)建方法研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(1):41-50.

        [8] Chen Z,Cafarella M,Jagadish H V.Long-tail Vocabulary Dictionary Extraction from the Web[C].Proceedings of the Ninth ACM International Conference on Web Search and Data Mining,2016:625-634.

        [9] Kim M,Kim J,Cui J.Performance Evaluation of Domain-Specific Sentiment Dictionary Construction Methods for Opinion Mining[J].International Journal of Database Theory and Application,2016,9:257-268.

        [10] Wu J,Li Y.Research on construction of semantic dictionary in the football field[C].IEEE,International Conference on Software Engineering Research,Management and Applications.IEEE,2017:303-306.

        [11] Alqasemi F,Abdelwahab A,Abdelkader H,et al.Opinion Lexicon Automatic Construction on Arabic language[C].International Conference on Advanced Technology and Applied Sciences,2017.

        [12] Ju M,Duan H,Li H.A CRF-based Method for Automatic Construction of Chinese Symptom Lexicon[C].International Conference on Information Technology in Medicine and Education.IEEE,2016:5-8.

        [13] Cheng Y,Huang Y.Research and Development of Domain Dictionary Construction System[C].IEEE/WIC/ACM International Conference on Web Intelligence,2017:1162-1165.

        [14] Zhang S,Wei Z,Wang Y,et al.Sentiment analysis of Chinese micro-blog text based on extended sentiment dictionary[J].Future Generation Computer Systems-The International Journal of eScience,2018(81):395-403.

        [15] Song Y,Jeong S,Kim H.A Semi-automatic Construction method of a Named Entity Dictionary Based on Wikipedia[J].Journal of KIISE,2015,42(11):1397-1403.

        [16] Guo X,He T,Xing Y.Construction of relational word dictionary and learning of relational rules in PPI extraction from biomedical literatures[J].International Journal of Data Mining and Bioinformatics,2016,15(2):125-144.

        [17] Hangya V.Automatic Construction of Domain Specific Sentiment Lexicons for Hungarian[C].18th International Conference on Text,Speech and Dialogue,2015:183-190.

        [18] Wu F,Huang Y,Song Y,et al.Towards building a high-quality microblog-specific Chinese sentiment lexicon[J].Decision Support Systems,2016,87:39-49.

        [19] Liu J,Yan M,Luo J.Research on the Construction of Sentiment Lexicon Based on Chinese Microblog[C].8th International Conference on Intelligent Human-Machine Systems and Cybernetics (IHMSC),2016:56-59.

        久久综合久久鬼色| 免费看黄片的视频在线观看| 久久久久久av无码免费网站下载| 国精品无码一区二区三区在线蜜臀 | 久久国产精品av在线观看| 在线观看午夜视频国产| 亚洲av无码精品国产成人| 老少交欧美另类| 国产极品喷水视频| 国产一区二区三区成人| 国产午夜手机精彩视频| а√天堂资源8在线官网在线| 69天堂国产在线精品观看| 国产在线视频一区二区三区不卡| 欧美v日韩v亚洲综合国产高清| 91精品国产91综合久久蜜臀| 寂寞人妻渴望被中出中文字幕| 狠狠色狠狠色综合| 97精品伊人久久大香线蕉app| 无码专区亚洲avl| 国产一级内射一片视频免费| 岛国av无码免费无禁网站| 久久亚洲av成人无码国产| 亚洲无码毛片免费视频在线观看| 久久综合激情的五月天| 久久精品国产亚洲av香蕉| 欧美国产成人精品一区二区三区| 香蕉久久夜色精品国产| 一区二区在线观看视频高清| 999国内精品永久免费观看| 亚洲国产精品国自产电影| 亚洲人妻av在线播放| 人人澡人人妻人人爽人人蜜桃麻豆| 亚洲精华国产精华液的福利| 国产成人久久精品亚洲小说| 在线观看国产一区二区av| 免费网站看av片| 97视频在线播放| 国产高清不卡二区三区在线观看| 亚洲欧美v国产一区二区| 欧美午夜精品久久久久久浪潮|