趙威 林煜明 黃濤貽 李優(yōu)
摘 要:用戶評論包含了豐富的用戶觀點(diǎn)信息,對潛在的顧客和商家具有重要的參考價值。觀點(diǎn)目標(biāo)和觀點(diǎn)詞作為用戶評論中的核心對象,它們的自動抽取是用戶評論智能化應(yīng)用的一項核心工作。目前主要采用有監(jiān)督的抽取方法解決該問題,這些方法依賴于利用高質(zhì)量的標(biāo)注樣本進(jìn)行模型訓(xùn)練,而傳統(tǒng)人工標(biāo)注樣本的方法不僅耗時費(fèi)力,且標(biāo)注成本高。眾包計算為構(gòu)建高質(zhì)量訓(xùn)練樣本集提供了一種有效途徑,然而,眾包工作者由于知識背景等因素使得標(biāo)注結(jié)果的質(zhì)量參差不齊。為了在有限的成本下獲取高質(zhì)量的標(biāo)注樣本,提出一種基于工作者專業(yè)水平評估的自適應(yīng)眾包標(biāo)注方法,構(gòu)建可靠的觀點(diǎn)目標(biāo)觀點(diǎn)詞數(shù)據(jù)集。首先,通過小成本挖掘出高專業(yè)水平的工作者;然后,設(shè)計一種基于工作者可靠性的任務(wù)分發(fā)機(jī)制;最后,利用觀點(diǎn)目標(biāo)和觀點(diǎn)詞間的依賴關(guān)系設(shè)計了一種有效的標(biāo)注結(jié)果融合算法,通過整合不同工作者的標(biāo)注結(jié)果生成最終可靠的結(jié)果。在真實(shí)數(shù)據(jù)集上進(jìn)行了一系列實(shí)驗表明,與GLAD模型和多數(shù)投票(MV)算法方法相比,所提方法能夠在成本預(yù)算較小的情況下將構(gòu)建出的高質(zhì)量觀點(diǎn)目標(biāo)觀點(diǎn)詞數(shù)據(jù)集的可靠性提高10%左右。
關(guān)鍵詞:觀點(diǎn)挖掘;眾包計算;成本約束; 工作者檢測;數(shù)據(jù)整合
中圖分類號:TP391
文獻(xiàn)標(biāo)志碼:A
Abstract: User reviews contain a wealth of user opinion information which has great reference value to potential customers and merchants. Opinion targets and opinion words are core objects of user reviews, so the automatic extraction of them is a key work for user review intelligent applications. At present, the problem is solved mainly by supervised extraction method, which depends on high quality labeled samples to train the model. And traditional manual labeling method is timeconsuming, laborious and costly. Crowdsourcing calculation provides an effective way to build a highquality training sample set. However, the quality of the labeling results is uneven due to some factors such as knowledge background of the workers. To obtain highquality labeling samples at a limited cost, an adaptive crowdsourcing labeling method based on professional level evaluation of workers was proposed to construct a reliable dataset of opinion targetopinion words. Firstly, high professional level workers were digged out with small cost. And then, a task distribution mechanism based on worker reliability was designed. Finally, an effective fusion algorithm for labeling results was designed by using the dependency relationship between opinion targets and opinion words, and the final reliable results were generated by integrating the labeling results of different workers. A series of experiments on real datasets show that the reliability of high quality opinion targetopinion word dataset built by the proposed method can be improved by about 10%, compared with GLAD (Generative model of Labels, Abilities, and Difficulties) model and MV (Majority Vote) method when the cost budget is low.
英文關(guān)鍵詞Key words: opinion mining; crowdsourcing calculation; cost constraint; worker measurement; data integration
0 引言
在線評論由于包含了豐富的用戶觀點(diǎn)信息,因此對于潛在的用戶、生產(chǎn)廠商和服務(wù)商具有重要的參考價值; 然而,隨著評論的數(shù)據(jù)量急劇增長,人工分析評論已經(jīng)變得不現(xiàn)實(shí)。觀點(diǎn)挖掘(Opinion Mining),又稱為情感分析,其目標(biāo)是自動分析用戶在各種媒介中表達(dá)的觀點(diǎn)。相對于粗粒度的觀點(diǎn)挖掘(如文檔級別的),細(xì)粒度的觀點(diǎn)挖掘技術(shù)能夠更深入和細(xì)致地識別用戶的觀點(diǎn),在近幾年受到越來越多的關(guān)注。
觀點(diǎn)目標(biāo)和觀點(diǎn)詞是用戶觀點(diǎn)表達(dá)的核心對象。圖1中給出了一個關(guān)于手機(jī)的評論句子,實(shí)線框描述了觀點(diǎn)目標(biāo),虛線框為觀點(diǎn)詞,箭頭觀點(diǎn)的依賴關(guān)系。由此可見,觀點(diǎn)目標(biāo)和觀點(diǎn)詞承載了這句話中絕大部分用戶的觀點(diǎn)信息,因此,觀點(diǎn)詞對的自動識別是細(xì)粒度觀點(diǎn)挖掘的關(guān)鍵任務(wù)之一。本文將觀點(diǎn)目標(biāo)和觀點(diǎn)詞簡稱為觀點(diǎn)詞對,并用二元組(觀點(diǎn)目標(biāo),觀點(diǎn)詞)表示。圖1的例子包含了兩個觀點(diǎn)詞對:(運(yùn)行速度, 棒)和(音質(zhì),差)。
在已有的工作中,有監(jiān)督的觀點(diǎn)詞對抽取方法展現(xiàn)出了較好的效果[1-3],然而,這些方法需要大量高質(zhì)量標(biāo)注的樣本訓(xùn)練抽取模型。人工標(biāo)注樣本是一個費(fèi)力、易錯和耗時的過程。眾包利用在線集體智慧解決計算機(jī)不能勝任的任務(wù),它為機(jī)器學(xué)習(xí)技術(shù)構(gòu)建訓(xùn)練集提供了一種有效的途徑[4-7]。之前利用眾包計算構(gòu)建訓(xùn)練集的工作大部分采用一次性標(biāo)注的方式收集不同工作者的標(biāo)注結(jié)果,然后通過一些復(fù)雜的模型生成最后的結(jié)果,例如EM(ExpectationMaximization)算法模型[8]、貝葉斯方法模型[9]、馬爾可夫決策過程[10]等。這類方法主要是考慮到在公共開放的過程中每個工作者的機(jī)會均等,本文認(rèn)為這種采用冗余標(biāo)注來提高最終標(biāo)注結(jié)果質(zhì)量的方式會增加額外的標(biāo)注成本。
目前,一些眾包平臺提供了指定工作者的任務(wù)發(fā)布機(jī)制,如Crowdsprint(http://crowdspring.com/)、CrowdFlower(http://make.crowdower.com/)和mircoWorkers(http://microworkers.com/)。在這種情況下,如果能夠預(yù)先評估工作者的標(biāo)注質(zhì)量,將有效地降低標(biāo)注成本,為此本文提出了一種自適應(yīng)的眾包標(biāo)注方法來構(gòu)建觀點(diǎn)詞對標(biāo)注樣本集。首先,評估工作者的專業(yè)水平;然后,將剩余的標(biāo)注任務(wù)少量重復(fù)分發(fā)給高專業(yè)水平的工作者;最后,基于工作者的專業(yè)水平程度和觀點(diǎn)目標(biāo)和觀點(diǎn)詞間的依賴關(guān)系融合不同的標(biāo)注結(jié)果產(chǎn)生最終的標(biāo)注結(jié)果。總體而言,本文的主要貢獻(xiàn)如下:
1)提出了一種基于工作者專業(yè)水平評估的眾包任務(wù)分配策略,通過小成本挖掘出高質(zhì)量的眾包工作者;
2)提出了一種面向用戶評論觀點(diǎn)詞對標(biāo)注的眾包任務(wù)分發(fā)機(jī)制,并設(shè)計了一種基于觀點(diǎn)目標(biāo)和觀點(diǎn)詞依賴關(guān)系的標(biāo)注結(jié)果融合算法,生成可靠的標(biāo)注結(jié)果;
3)在真實(shí)數(shù)據(jù)集上通過一系列的實(shí)驗驗證了文中提出方法的有效性。與傳統(tǒng)眾包標(biāo)記方法相比,本文方法能夠在有限成本下收集到更高質(zhì)量的標(biāo)注結(jié)果。
1 相關(guān)工作
對于眾包的研究工作主要集中在兩個方面,分別是任務(wù)的設(shè)計與發(fā)放和任務(wù)數(shù)據(jù)整合。任務(wù)的設(shè)計與發(fā)放的主要內(nèi)容是形成眾包任務(wù)的框架,便于對之后的任務(wù)數(shù)據(jù)整合和成本進(jìn)行控制,并在一定程度上提高工作者的工作質(zhì)量。眾包模式更適合于解決微觀任務(wù),因此為了利用眾包解決復(fù)雜任務(wù),需要將復(fù)雜的任務(wù)分解成微觀任務(wù),這是由于眾包工作者更喜歡完成一些粒度較小的任務(wù),因為這種任務(wù)可以在很短時間內(nèi)完成,同時單個微觀任務(wù)的成本也是比較低的[11]。
相對于傳統(tǒng)的實(shí)時眾包模式,Chang等[6]對其進(jìn)行了一些改進(jìn),不再將雇傭者放入到單一的共享工作環(huán)境當(dāng)中,而是將眾包任務(wù)分成不同的階段,動態(tài)地將這些工作者分配到合適的任務(wù)階段當(dāng)中,不同階段中工作者的結(jié)果相互影響,以便更好地對工作進(jìn)行調(diào)控。毛鶯池等[12]在任務(wù)分配過程中,結(jié)合空間眾包中多類型任務(wù)和用戶的特點(diǎn),對貪婪分配算法改進(jìn)后,將任務(wù)分配給附近的用戶,以提高任務(wù)完成質(zhì)量。施戰(zhàn)等[13]設(shè)計了一種基于歷史信息的用戶可靠性更新機(jī)制,用戶可靠性的更新由用戶歷史可靠性和當(dāng)前完成任務(wù)的質(zhì)量兩部分決定,并將支付給用戶的最終報酬與用戶的可靠性掛鉤,以激勵用戶持續(xù)高質(zhì)量地完成任務(wù)。
眾包任務(wù)數(shù)據(jù)整合面臨的最大挑戰(zhàn)是如何處理工作者提供的質(zhì)量參差不齊的眾包結(jié)果,最直接的方法是先把一個任務(wù)分配給多個工作者,工作者完成之后利用多數(shù)投票的原則來獲取到最終結(jié)果,但這種方式?jīng)]有考慮到工作者工作質(zhì)量的多樣性特點(diǎn)。針對這一問題,一些研究作了相關(guān)改進(jìn),將工作者的專業(yè)性加入到結(jié)果的估計之中,使得最終的結(jié)果質(zhì)量得到了很大的提升[11]。
Liu等 [14]通過增加測試題目得到工作者的專業(yè)性,并利用貝葉斯理論將工作者的專業(yè)水平和工作者給出的任務(wù)答案結(jié)合起來得到最終的結(jié)果;Chang等[6]在得到工作者的反饋結(jié)果后,利用TFIDF(Term FrequencyInverse Document Frequency)的思想對反饋結(jié)果進(jìn)行向量化,每個維度代表了對于工作結(jié)果具有相同解釋內(nèi)容的數(shù)量,并利用余弦相似度將向量化后的反饋結(jié)果進(jìn)行聚類,最終得到幾組不同類別的工作結(jié)果;Omar等[15]將眾包應(yīng)用到了翻譯領(lǐng)域,將一些翻譯領(lǐng)域的基礎(chǔ)知識、特定句子翻譯特點(diǎn)和一些常用于判斷句子翻譯的計算特征相結(jié)合進(jìn)行向量化,并使用一些機(jī)器學(xué)習(xí)的評估手段來評估工作者的翻譯結(jié)果,最終找出與原句子最佳的翻譯結(jié)果;Jacob等[16]在數(shù)據(jù)整合方面考慮了工作者的專業(yè)水平和任務(wù)復(fù)雜度對任務(wù)結(jié)果的影響,并利用EM算法對評估模型進(jìn)行訓(xùn)練直到找到一組能夠達(dá)到最大似然估計的任務(wù)結(jié)果;Raykar等[8]設(shè)計了一種最大似然分類評估器,該分類器的基本分類器由邏輯回歸分類器組成,通過結(jié)合真實(shí)的標(biāo)注結(jié)果來提高標(biāo)注的精度,該方法可以找出該領(lǐng)域工作質(zhì)量最高的工作者并分配給他們更高的權(quán)重值,最后通過EM算法不停地迭代形成一個用來評估工作者專業(yè)水平的最佳邊界值。
上述工作都是將任務(wù)發(fā)放的過程和數(shù)據(jù)整合分開進(jìn)行,還有一些典型的研究工作將這兩部分的過程整合在一起交叉進(jìn)行。Snow等[17]將任務(wù)數(shù)據(jù)的整合過程結(jié)合到了任務(wù)的設(shè)計與發(fā)放當(dāng)中,即在任務(wù)設(shè)計時就考慮到利用測試集來對工作者的專業(yè)水平進(jìn)行評估,然后利用眾包平臺過濾掉低專業(yè)水平工作者的工作結(jié)果;Xi等[10]提出可以根據(jù)MDP(Markov Decision Process)模型與動態(tài)規(guī)劃的思想,將KG(KnowledgeGradient)相似策略和條件風(fēng)險價值度量相結(jié)合,在避免了低專業(yè)水平工作者帶來影響的同時尋找出最佳的眾包任務(wù)設(shè)計與結(jié)果篩選策略。在多分類任務(wù)上,大量的任務(wù)可能會產(chǎn)生海量的任務(wù)結(jié)果,Sarma等[18]為解決這種模式下產(chǎn)生的指數(shù)爆炸式的影響,提出了一種對任務(wù)結(jié)果進(jìn)行類別化映射的方法,將相同的任務(wù)結(jié)果映射為同一類別,并對同一類別中的一些影響因子進(jìn)行分析;Feng等[19]提出了一種新的工作者模型,利用工作者每次返回的新答案,結(jié)合工作者專業(yè)水平設(shè)計了兩種增量式的策略來推斷最終的任務(wù)結(jié)果,進(jìn)而高效準(zhǔn)確地得到任務(wù)結(jié)果。由于不同任務(wù)有著不同的影響因子,Demartini等[20]提出了一種概率模型,該模型基于因子圖,通過綜合考慮工作者所有任務(wù)結(jié)果特點(diǎn),再結(jié)合工作者專業(yè)水平等因素來對高質(zhì)量的任務(wù)結(jié)果進(jìn)行提取。
6 結(jié)語
從在線用戶評論中獲取觀點(diǎn)目標(biāo)和觀點(diǎn)詞詞對對于用戶觀點(diǎn)挖掘來說是一項很重要的任務(wù),本文的工作不同于以往采用構(gòu)建模型的方式對特征和觀點(diǎn)詞詞對進(jìn)行提取,而是采用眾包通過人工的方式直接在評論句子中標(biāo)注出來,這種方式較于以往的方法省略了復(fù)雜模型的構(gòu)建過程,更加高效和便捷。但是這種方式存在的一個很重要問題是如何在有限成本的情況下對眾包任務(wù)進(jìn)行分配并從工作者的工作結(jié)果中精確提取出高質(zhì)量的工作結(jié)果。本文采用了兩段式的任務(wù)分配和結(jié)果評估方法,第一步就是通過測試集來篩選出高專業(yè)水平的工作者,然后將任務(wù)只分發(fā)給高專業(yè)水平工作者,這種方法在降低成本的同時也提高了最終任務(wù)的質(zhì)量;第二步是對第一步得到的任務(wù)結(jié)果進(jìn)行數(shù)據(jù)整合,最終會在較低成本的情況下得到一組高質(zhì)量的標(biāo)注結(jié)果。
參考文獻(xiàn) (References)
[1] WANG H, WANG H, YIN H Z, et al. A unified framework for finegrained opinion mining from online reviews[C]// Proceedings of the 2016 49th Hawaii International Conference on System Sciences. Piscataway, NJ: IEEE, 2016:1134-1143.
[2] TANG D Y, QIN B, FENG X C, et al. Effective LSTMs for targetdependent sentiment classification[J/OL]. arXiv Preprint, 2015, 2015: arXiv:1512.01100 (2015-12-03) [2016-09-26]. https://arxiv.org/abs/1512.01100.
[3] LIN Y M, JIANG X X, LI Y, et al. Collective extraction for opinion targets and opinion words from online reviews[C]// Proceedings of the 2016 7th International Conference on Cloud Computing and Big Data. Washington, DC: IEEE Computer Society, 2017: 3949-3958.
[4] KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. New York: Curran Associates, 2012:1097-1105.
[5] LEASE M, ALONSO O. Crowdsourcing for search evaluation and socialalgorithmic search[C]// Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2012:1180.
[6] CHANG J C, AMERSHI S, KAMAR E. Revolt: collaborative crowdsourcing for labeling machine learning datasets[C]// Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems. New York: ACM, 2017:2334-2346.
[7] MITRA T, HUTTO C J, GILBERT E. Comparing personand processcentric strategies for obtaining quality data on Amazon mechanical turk[C]// Proceedings of the 33rd Annual ACM Conference on Human Factors in Computing Systems. New York: ACM, 2015:1345-1354.
[8] RAYKAR V C, VIKAS C. Supervised learning from multiple experts: whom to trust when everyone lies a bit[C]// Proceedings of the 26th Annual International Conference on Machine Learning. New York: ACM, 2009:889-896.
[9] DONMEZ, PINAR, CARBONELL J G, et al. Efficiently learning the accuracy of labeling sources for selective sampling[C]// Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM, 2009:259-268.
[10] XI C, LIN Q H, ZHOU D Y. Optimistic knowledge gradient policy for optimal budget allocation in crowdsourcing[C]// Proceedings of the 2013 International Conference on Machine Learning. Cambridge: MIT Press, 2013:64-72.
[11] 馮劍紅, 李國良, 馮建華. 眾包技術(shù)研究綜述[J]. 計算機(jī)學(xué)報, 2015, 38(9):1713-1726.(FENG J H, LI G L, FENG J H. A survey on crowdsourcing[J]. Chinese Journal of Computers, 2015, 38(9):1713-1726.)
[12] 毛鶯池, 穆超, 包威. 空間眾包中多類型任務(wù)的分配與調(diào)度方法[J]. 計算機(jī)應(yīng)用, 2018,38(1):6-12.(MAO Y C,MU C,BAO W. Multitype task assignment and scheduling oriented to spatial crowdsourcing[J]. Journal of Computer Applications,2018, 38(1):6-12.)
[13] 施戰(zhàn), 辛煜, 孫玉娥. 基于用戶可靠性的眾包系統(tǒng)任務(wù)分配機(jī)制[J]. 計算機(jī)應(yīng)用, 2017, 37(9):2449-2453.(SHI Z, XIN Y, SUN Y E. Task allocation mechanism for crowdsourcing system based on reliability of users[J]. Journal of Computer Applications, 2017, 37(9):2449-2453.)
[14] LIU X, LU M Y, OOI B C, et al. CDAS: a crowdsourcing data analytics system[J]. Proceedings of the VLDB Endowment, 2012, 5(10):1040-1051.
[15] OMAR F Z, CHRIS C B. Crowdsourcing translation: professional quality from nonprofessionals[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2011:1220-1229.
[16] JACOB W, PAUL R, WU T F, et al. Whose vote should count more: Optimal integration of labels from labelers of unknown expertise[C]// Proceedings of the 22nd International Conference on Neural Information Processing Systems. New York: Curran Associates, 2009: 2035-2043.
[17] SNOW R, CONNOR B O, JURAFSKY D, et al. Cheap and fast — but is it good? evaluating nonexpert annotations for natural language tasks[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2008: 254-263.
[18] SARMA A D, PARAMESWARAN A, WIDOM J. Towards globally optimal crowdsourcing quality management: the uniform worker setting[C]// Proceedings of the 2016 International Conference on Management of Data. New York: ACM, 2016:47-62.
[19] FENG J, LI G, WANG H, et al. Incremental quality inference in crowdsourcing[C]// DASFAA 2014: International Conference on Database Systems for Advanced Applications. Berlin: Springer, 2014:453-467.
[20] DEMARTINI G, DIFALLAH D E, MAUROUX P C. ZenCrowd: leveraging probabilistic reasoning and crowdsourcing techniques for largescale entity linking[C]// Proceedings of the 21st International Conference on World Wide Web. New York: ACM, 2012: 469-478.
[21] McCALLUM D R, PETERSON J L. Computerbased readability indexes[C]// Proceedings of the ACM82 Conference. New York: ACM, 1982: 44-48.
[22] HU M, LIU B. Mining opinion features in customer reviews[C]// Proceedings of the 19th National Conference on Artifical Intelligence. Menlo Park: AAAI Press, 2004:755-760.