亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶自然標(biāo)注的微博文本的消費(fèi)意圖識(shí)別

        2017-10-11 07:10:28陳毅恒邵艷秋
        中文信息學(xué)報(bào) 2017年4期
        關(guān)鍵詞:博文語料意圖

        付 博, 陳毅恒,邵艷秋,劉 挺

        (1. 哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院社會(huì)計(jì)算與信息檢索研究中心, 黑龍江 哈爾濱 150001;2. 北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083)

        基于用戶自然標(biāo)注的微博文本的消費(fèi)意圖識(shí)別

        付 博1, 陳毅恒1,邵艷秋2,劉 挺1

        (1. 哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院社會(huì)計(jì)算與信息檢索研究中心, 黑龍江 哈爾濱 150001;2. 北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083)

        消費(fèi)意圖是指用戶在文本中明確表達(dá)出的購買產(chǎn)品或服務(wù)等一些商業(yè)消費(fèi)的意愿,如“想買一部手機(jī)”。該文針對(duì)微博上的消息文本,提出一種基于用戶自然標(biāo)注的微博消費(fèi)意圖識(shí)別方法。該方法將微博消費(fèi)意圖識(shí)別看作為領(lǐng)域自適應(yīng)學(xué)習(xí)問題,通過自動(dòng)獲取的訓(xùn)練語料基于源域和目標(biāo)域共同特征設(shè)計(jì)分類器,抽取置信度高的偽標(biāo)注消費(fèi)意圖微博,再利用微博特征訓(xùn)練新的分類器對(duì)微博進(jìn)行消費(fèi)意圖識(shí)別。實(shí)驗(yàn)結(jié)果表明該文所采用的方法是有效的,F值達(dá)到69%和77%,其中使用的各種特征對(duì)于提高消費(fèi)意圖識(shí)別的效果皆有幫助。

        消費(fèi)意圖;自然標(biāo)注;社會(huì)媒體;領(lǐng)域自適應(yīng)

        Abstract: Consumption Intent refers to an exact indication of an immediate or future purchase in microblog. For example, a post like “I want to buy a mobile phone” indicates a buying intention. The paper proposes to study the problem of identifying consumption intent in microblogs based on user naturally annotated resources. Specifically, the proposed method recasts consumption intent recognition as a domain adaptation problem, and presents an approach utilizing automatic acquisition of large text corpora for classification. First, we look for a set of common features generalizable across domain adaptation, and then we extract the high confidence of pseudo annotation samples. Finally, we pick up useful features specific to the target domain. Experimental results show that the proposed method is effective for consumption intent recognition, achieving 69% and 77% in F-value, respectively. And, the features adopted are all contributive to the performance.

        Key words: consumption intent; naturally annotated; social media; domain adaptation

        1 引言

        隨著網(wǎng)絡(luò)媒體技術(shù)的發(fā)展和普及,用戶樂于在互聯(lián)網(wǎng)上搜索、發(fā)布和分享自身的消費(fèi)需求,因此互聯(lián)網(wǎng)上積累了大量的帶有消費(fèi)意圖的內(nèi)容信息。本文著重研究社會(huì)媒體(以新浪微博文本為例)中的消費(fèi)意圖識(shí)別,來判斷用戶是否對(duì)某一產(chǎn)品產(chǎn)生了購買意愿。消費(fèi)意圖分析是一個(gè)多學(xué)科綜合的研究領(lǐng)域,在眾多的應(yīng)用場(chǎng)景中都有重要的意義。例如在產(chǎn)品推薦研究中,消費(fèi)意圖識(shí)別可以為用戶提供精準(zhǔn)的產(chǎn)品推薦,提高用戶對(duì)推薦系統(tǒng)的滿意度;在社會(huì)需求預(yù)測(cè)研究中,消費(fèi)意圖識(shí)別可以對(duì)產(chǎn)品市場(chǎng)容量需求及投資前景進(jìn)行預(yù)先判定,以實(shí)現(xiàn)社會(huì)生產(chǎn)與社會(huì)需求之間的平衡;在社會(huì)媒體營(yíng)銷的研究中,消費(fèi)意圖識(shí)別既可用于電子商務(wù)公司挖掘用戶當(dāng)前需求,又有助于針對(duì)社會(huì)媒體富有價(jià)值的用戶提供廣告宣傳,在產(chǎn)品策劃、設(shè)計(jì)和營(yíng)銷過程中做到有的放矢。

        圖1是微博文本消費(fèi)意圖實(shí)例。盡管微博上有類似大量的消費(fèi)意圖文本,但消費(fèi)意圖需求表達(dá)隱藏在噪聲文本和無關(guān)鋪墊成分中,給標(biāo)注帶來干擾。幸運(yùn)的是,互聯(lián)網(wǎng)上有大量的用戶自然標(biāo)注 的 消 費(fèi)意圖文本可供使用,如查詢?nèi)罩局杏脩酎c(diǎn)擊電商網(wǎng)站的查詢、淘寶問答等基于購物知識(shí)的問答平臺(tái)、電商網(wǎng)站用戶的歷史購買等,可以看作為用戶自然標(biāo)注的與消費(fèi)相關(guān)的語料。表1為百度*www.baidu.com查詢?nèi)罩局械牟樵兿M(fèi)意圖實(shí)例,記錄了消費(fèi)意圖查詢、點(diǎn)擊的電商網(wǎng)站URL鏈接。

        圖1 微博消費(fèi)意圖實(shí)例

        查詢查詢點(diǎn)擊URL雷柏8100怎么樣http://www.360buy.com/sales/...html臺(tái)式機(jī)用酷睿i5好嗎http://product.it168.com/list/...shtml

        在以往的工作中,有學(xué)者研究搜索引擎查詢?nèi)罩局械牟樵兩虡I(yè)意圖識(shí)別[1-3](即本文定義的消費(fèi)意圖識(shí)別),進(jìn)而將其應(yīng)用到搜索引擎廣告投放和競(jìng)價(jià)排名中[4]。然而查詢商業(yè)意圖識(shí)別在應(yīng)用中也存在著幾個(gè)明顯的局限性。首先,研究者們通常認(rèn)為熱門查詢?cè)~即是廣告關(guān)鍵詞,故而將廣告關(guān)鍵詞定位在熱門查詢中。但在實(shí)際應(yīng)用中,查詢僅記錄了用戶搜索的關(guān)鍵詞信息,無關(guān)的噪聲信息和缺失的用戶信息讓大多數(shù)的廣告資源投入在不相關(guān)的用戶中。再者是資源獲取方面的限制,查詢?nèi)罩?、廣告點(diǎn)擊等用戶行為信息只能從搜索引擎公司處獲取,難以實(shí)現(xiàn)自動(dòng)抓取。相對(duì)于查詢商業(yè)意圖識(shí)別研究,本文所研究的微博消費(fèi)意圖具有以下顯著的優(yōu)點(diǎn): 首先,微博消費(fèi)意圖文本中含有表示消費(fèi)意圖的觸發(fā)詞和消費(fèi)對(duì)象(如圖1中“想買”和“空氣凈化機(jī)”),意圖表達(dá)更明確;其次,微博消費(fèi)意圖文本可以通過分析獲得文本信息和用戶信息,查詢特征更豐富;再者,社會(huì)媒體(如新浪微博和Twitter等)提供開放的API接口,可以實(shí)時(shí)地獲取微博和用戶信息以供研究。因此,微博中的消費(fèi)意圖識(shí)別研究具有很重要的意義。

        然而截至目前,國(guó)內(nèi)外對(duì)消費(fèi)意圖識(shí)別的研究卻很少。Goldberg率先提出buy wish的概念[5](即本文定義的消費(fèi)意圖),Chen[6]也提出過相似的概念“intention posts”。早期的一部分研究者將這項(xiàng)任務(wù)分為兩個(gè)步驟,首先獲取模板和詞袋等特征,繼而基于特征分類器來完成消費(fèi)意圖的識(shí)別[7]。這種方法大大提高了識(shí)別的準(zhǔn)確率,但由于模板具有局限性及語料不平衡的限制,召回率不高。近期的一部分研究工作,側(cè)重于對(duì)不平衡語料的處理,用弱監(jiān)督的方法或遷移學(xué)習(xí)的方法來識(shí)別消費(fèi)意圖[8]。此類方法假設(shè)在不同的領(lǐng)域下意圖表達(dá)的方式具有相似性,這種方法可以獲取大規(guī)模語料或意圖詞來提高系統(tǒng)識(shí)別的性能。然而,前人方法通常需要大規(guī)模的標(biāo)注語料,否則會(huì)影響學(xué)習(xí)到的分類器效果。

        鑒于已有方法存在的缺陷,本文提出了一種基于用戶自然標(biāo)注的微博消費(fèi)意圖識(shí)別方法。我們將這一問題看作是領(lǐng)域遷移學(xué)習(xí)問題[9],利用搜索引擎搜索日志,結(jié)合偽相關(guān)反饋,實(shí)現(xiàn)高性能的微博消費(fèi)意圖識(shí)別方法。由于查詢(源域)與微博(目標(biāo)域)相關(guān)但并不完全相同,如何充分考慮不同領(lǐng)域數(shù)據(jù)之間的這種共性和特性,是基于用戶自然標(biāo)注的微博消費(fèi)意圖識(shí)別研究中需要解決的主要問題。具體來說,本文首先提出了一種自動(dòng)構(gòu)建大量源域訓(xùn)練語料的方法,繼而把各個(gè)領(lǐng)域的數(shù)據(jù)從原始高維特征空間映射到低維特征空間,再利用大量標(biāo)記的源域數(shù)據(jù)訓(xùn)練分類器初始目標(biāo)域數(shù)據(jù);進(jìn)一步地,選擇目標(biāo)域數(shù)據(jù)中標(biāo)記置信度高的樣本作為偽標(biāo)記數(shù)據(jù),利用目標(biāo)域數(shù)據(jù)特征來對(duì)其重新訓(xùn)練,得到新的分類器;最后對(duì)各種特征的作用進(jìn)行了較為詳細(xì)的分析和比較。實(shí)驗(yàn)結(jié)果表明,本文 提 出 的 基 于 用 戶

        自然標(biāo)注的方法對(duì)于微博消費(fèi)意圖的識(shí)別是有效的。利用本方法,在微博文本測(cè)試集上的F值達(dá)到69%和77%。

        2 問題描述

        2.2 方法描述

        本文旨在利用自然標(biāo)注的搜索引擎查詢消費(fèi)意圖語料來指導(dǎo)微博文本的消費(fèi)意圖識(shí)別。消費(fèi)意圖查詢和微博盡管在表述上相似,但仍有區(qū)別。為此我們希望識(shí)別出源域與目標(biāo)域中共有的特征表示,然后利用這些特征進(jìn)行知識(shí)遷移。類似于方法[10],我們把樣本類別高度相關(guān)的那些文本作為訓(xùn)練樣本,方法框架如圖2所示。其中,兩個(gè)橢圓分別表示源域藍(lán)色和目標(biāo)域大字紋,陰影區(qū)域代表實(shí)例可以很好地解釋分類模型。我們很希望可以由源域訓(xùn)練數(shù)據(jù)學(xué)習(xí)到目標(biāo)域的真實(shí)標(biāo)記(圖2中虛線部分),但在實(shí)際中很難實(shí)現(xiàn)。因而我們把學(xué)習(xí)過程分成兩個(gè)階段,在第一階段,我們利用源域和目標(biāo)域共同部分訓(xùn)練初始分類模型;在第二階段,利用目標(biāo)域特有特征去學(xué)習(xí)適應(yīng)目標(biāo)域的新模型。

        圖2 兩階段的領(lǐng)域自適應(yīng)微博消費(fèi)意圖識(shí)別框圖

        3 基于用戶自然標(biāo)注的微博消費(fèi)意圖識(shí)別

        3.1 系統(tǒng)框架描述 本文方法的系統(tǒng)框架如圖3所示。

        在第一階段中,首先利用源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)共有部分的特征學(xué)習(xí)詞向量表示,初始化學(xué)習(xí)一個(gè)分類模型,這里共有部分的特征使用了查詢和微博的詞特征集合,通過詞向量表示方法把各個(gè)領(lǐng)域的數(shù)據(jù)從原始高維詞特征空間映射到低維詞特征空間,并對(duì)目標(biāo)域數(shù)據(jù)進(jìn)行初始分類;在第二階段,從初始分類模型為目標(biāo)領(lǐng)域標(biāo)注的數(shù)據(jù)中,選擇置信度高的微博標(biāo)注文本作為偽標(biāo)注微博消費(fèi)意圖文本,然后重新訓(xùn)練分類器,以對(duì)目標(biāo)數(shù)據(jù)再次判別類別,以確定數(shù)據(jù)的真實(shí)標(biāo)注類別。

        3.2 基于自然標(biāo)注的初始模型訓(xùn)練

        自然標(biāo)注資源,是指不同媒體用戶在互聯(lián)網(wǎng)上生成的各種資源,用戶在無意中為這些資源做了一定程度的義務(wù)“標(biāo)注”,如論壇、用戶日志、百度百科、微博等[11]。我們主要利用了用戶查詢?nèi)罩局械淖匀粯?biāo)注資源,基本思想是利用用戶點(diǎn)擊電商網(wǎng)站的查詢,獲取大量的具有消費(fèi)意圖的查詢及點(diǎn)擊標(biāo)題,以此為基礎(chǔ)訓(xùn)練查詢的消費(fèi)意圖識(shí)別分類器。

        為構(gòu)建消費(fèi)意圖識(shí)別的初始訓(xùn)練模型,首先收集電商網(wǎng)站鏈接(URL)。電商網(wǎng)站鏈接可以從分類網(wǎng)站目錄中抽取(為了降低噪聲,本文人工定義了八類URL,見4.1.1節(jié))。然后我們對(duì)查詢以及點(diǎn)擊的標(biāo)題文本進(jìn)行分詞,利用詞向量表示將每個(gè)詞映射成k維實(shí)數(shù)向量(本文設(shè)k的值為200維),即將詞表征為實(shí)數(shù)值向量,然后針對(duì)源域和目標(biāo)域數(shù)據(jù)中的句子,把句中出現(xiàn)的每個(gè)詞向量對(duì)應(yīng)相加然后除以詞數(shù),得到每句話的向量特征表示。最后基于共同的語義特征在源域上訓(xùn)練初始分類器。

        目前,基于神經(jīng)網(wǎng)絡(luò)的詞向量表示(word embedding)方法在詞語語義表示方面表現(xiàn)出很好 的 性 能,

        受到廣泛關(guān)注,包括Word2Vec*http: //word2vec.googlecode.com/svn/trunk,C&W 2008[12]、M&H 2009[13]、Mikolov 2013[14]等。各種詞表示方法之間沒有絕對(duì)的優(yōu)劣之分,其性能的好壞往往取決于待處理的具體問題及待處理數(shù)據(jù)的效率要求等。本文選擇目前較流行的Word2Vec的訓(xùn)練方法來實(shí)現(xiàn)詞向量表示。

        3.3 基于偽相關(guān)反饋的微博文本消費(fèi)意圖識(shí)別

        基于偽相關(guān)反饋的思想,假設(shè)將上述初始分類系統(tǒng)返回的置信度高的文本作為消費(fèi)意圖類微博。微博文本一般都含有自己的結(jié)構(gòu)特征,針對(duì)其特定的結(jié)構(gòu),本文在實(shí)現(xiàn)偽相關(guān)反饋的微博消費(fèi)意圖識(shí)別時(shí)共使用了四類11個(gè)特征,表2詳細(xì)描述了每類特征。

        表2 微博文本消費(fèi)意圖識(shí)別的特征描述

        (2) 微博影響力特征??梢杂^察到,用戶發(fā)布微博文本的內(nèi)容與用戶影響力具有一定的正相關(guān)性。認(rèn)證用戶通常很少發(fā)布消費(fèi)意圖類微博,而消費(fèi)意圖類微博也很少被用戶大量轉(zhuǎn)發(fā)和評(píng)論。此外,微博上有一些廣告用戶會(huì)關(guān)注大量用戶,但是被關(guān)注數(shù)卻很少。此外,本文采用文獻(xiàn)[11]中提出的用戶信譽(yù)度概念,作為一維特征。用戶信譽(yù)度用以描述一個(gè)用戶的關(guān)注行為特征,計(jì)算公式如式(1)。

        (1)

        (3) 微博發(fā)布特征。通常情況下,人們發(fā)布消費(fèi)意圖類微博時(shí)是以普通方式發(fā)布在社會(huì)媒體平臺(tái)上的,而廣告、活動(dòng)等非消費(fèi)意圖的微博常利用第三方開發(fā)的微博管理應(yīng)用工具定時(shí)發(fā)布,實(shí)現(xiàn)定時(shí)發(fā)布微博、定時(shí)轉(zhuǎn)發(fā)微博等功能,這時(shí)微博平臺(tái)會(huì)記錄微博發(fā)布的來源,我們把微博發(fā)布源作為一種特征。

        (4) 觸發(fā)詞特征?!坝|發(fā)詞(Trigger)”的概念出自于事件抽取等研究領(lǐng)域,它是指能夠清楚表達(dá)事件發(fā)生的詞,如“出生”、“爆炸”等。通過分析我們發(fā)現(xiàn),一個(gè)消費(fèi)意圖句中通常包含有兩個(gè)主要元素,分別是觸發(fā)詞和消費(fèi)對(duì)象。其中,觸發(fā)詞表明文本中的消費(fèi)意圖,而消費(fèi)對(duì)象表明消費(fèi)意圖的目標(biāo)。在本文中,我們利用依存句法工具LTP[5]來獲得觸發(fā)詞及對(duì)應(yīng)的消費(fèi)對(duì)象。觸發(fā)詞定義由動(dòng)詞在消費(fèi)意圖句(正例)和非消費(fèi)意圖句(負(fù)例)中的相關(guān)頻率決定。這個(gè)動(dòng)詞wv的相關(guān)頻率的權(quán)重得分score(wv)基于式(2)計(jì)算。

        (2)

        我們利用文獻(xiàn)[11]中的觸發(fā)詞列表,其中包含818個(gè)觸發(fā)詞,分別有52個(gè)消費(fèi)意圖觸發(fā)詞和766 個(gè)非消費(fèi)意圖觸發(fā)詞。表3列出了top-k個(gè)觸發(fā)詞,可以看出消費(fèi)意圖觸發(fā)詞中“求購”、“想買”、“推薦”等都是很強(qiáng)烈的購買意愿。在非消費(fèi)意圖觸發(fā)詞中,如“免費(fèi)”、“參加”、“轉(zhuǎn)發(fā)”等與消費(fèi)意圖沒有明顯的關(guān)系。

        觸發(fā)詞特征實(shí)例如圖4所示。

        表3 消費(fèi)意圖觸發(fā)詞和非消費(fèi)意圖觸發(fā)詞實(shí)例

        圖4 觸發(fā)詞相關(guān)特征實(shí)例

        4 實(shí)驗(yàn)設(shè)置

        4.1 實(shí)驗(yàn)數(shù)據(jù) 本文在新浪微博用戶發(fā)布的微博文本內(nèi)容集合上進(jìn)行了構(gòu)建大規(guī)模消費(fèi)意圖語料的相關(guān)實(shí)驗(yàn)。在種子語料集合中,本文使用了百度搜索引擎記錄的查詢?nèi)罩緮?shù)據(jù)集合。實(shí)驗(yàn)使用的微博語料數(shù)據(jù)集合和查詢?nèi)罩炯戏謩e來自于利用微博API自動(dòng)抓取的2012年3月的11 854 002條微博數(shù)據(jù)和百度2012年3月共1個(gè)月1億條查詢。其中,微博數(shù)據(jù)記錄了微博文本相關(guān)信息及其對(duì)應(yīng)的用戶信息。百度查詢?nèi)罩局邪糠謨?nèi)容,分別是查詢、查詢點(diǎn)擊的URL及查詢點(diǎn)擊的標(biāo)題。

        4.1.1 種子數(shù)據(jù)準(zhǔn)備

        在本文實(shí)驗(yàn)中選取了八個(gè)網(wǎng)站作為消費(fèi)意圖查詢點(diǎn)擊的鏈接,并從百度查詢?nèi)罩局谐槿〕鳇c(diǎn)擊了相關(guān)網(wǎng)站的查詢作為消費(fèi)意圖查詢(本文僅進(jìn)行信息類的消費(fèi)意圖研究,因而過濾了導(dǎo)航類和事務(wù)類查詢),訓(xùn)練集合中的URL列表如表4所示。此外,我們隨機(jī)抽取60 000條查詢作為非消費(fèi)意圖查詢。

        續(xù)表

        表4 訓(xùn)練集合中URL列表

        4.1.2 微博文本數(shù)據(jù)預(yù)處理

        本文對(duì)微博語料進(jìn)行了兩方面的數(shù)據(jù)預(yù)處理。一是使用文獻(xiàn)[2]中的方法對(duì)垃圾微博文本進(jìn)行過濾。二是為使數(shù)據(jù)正負(fù)比例平衡,我們選取了必須包含本文定義的四類產(chǎn)品名稱的微博文本作為處理對(duì)象。表5中列出了經(jīng)過上述數(shù)據(jù)預(yù)處理后,利用四個(gè)領(lǐng)域詞表抽取出的微博數(shù)量。

        表5 四個(gè)領(lǐng)域產(chǎn)品類別對(duì)應(yīng)的微博數(shù)量

        4.1.3 測(cè)試數(shù)據(jù)集

        由于二元分類的方法需要測(cè)試語料,而目前國(guó)內(nèi)外并沒有公開發(fā)布的相關(guān)語料,因此,本實(shí)驗(yàn)通過人工標(biāo)注的方法構(gòu)建測(cè)試集。我們從微博語料中隨機(jī)抽取出5 000條微博,將其交由兩名標(biāo)注者和一名仲裁者進(jìn)行標(biāo)注。其標(biāo)注流程為: (1)由兩名標(biāo)注者分別對(duì)抽取出的數(shù)據(jù)進(jìn)行獨(dú)立標(biāo)注,每一條候選微博消費(fèi)意圖文本被標(biāo)注為正例(消費(fèi)意圖)或負(fù)例(非消費(fèi)意圖); (2)計(jì)算兩名標(biāo)注者的標(biāo)注一致性,我們通過計(jì)算得到兩組標(biāo)注結(jié)果的Kappa值為0.861,這說明兩名標(biāo)注者的一致性很高; (3)由仲裁者對(duì)兩名標(biāo)注者意見不同的數(shù)據(jù)進(jìn)行重新標(biāo)注,并將其標(biāo)注作為最終標(biāo)注結(jié)果。依照上述過程,我們共從5 000條微博文本中過濾廣告后進(jìn)行標(biāo)注,得到正例和負(fù)例分別是431條和2 530文本。

        4.2 評(píng)價(jià)方法

        我們首先利用上述標(biāo)注數(shù)據(jù)對(duì)本文提出的分類特征進(jìn)行評(píng)價(jià)。這里我們采用的評(píng)價(jià)指標(biāo)包括準(zhǔn)確率P、召回率R以及F值F。具體定義為:P=|A∩B|/|A|;R=|A∩B|/|B|;F=2PR/(P+R)。其中,A表示分類器識(shí)別為正例的數(shù)據(jù)集合,B表示人工標(biāo)注為正例的數(shù)據(jù)集合。

        4.3 對(duì)比實(shí)驗(yàn)系統(tǒng)

        為證明跨領(lǐng)域消費(fèi)意圖識(shí)別中的有效性,我們將其與利用詞袋特征訓(xùn)練的SVM分類器進(jìn)行了對(duì)比。本實(shí)驗(yàn)所使用的SVM分類器為libsvm-2.82*http: //www.cite.nt.deu.tw/cjlin/libsvm,我們利用詞向量(bag-of-words)特征在自動(dòng)標(biāo)注的查詢?nèi)罩鞠M(fèi)意圖數(shù)據(jù)集上對(duì)SVM分類器進(jìn)行實(shí)驗(yàn),并在微博文本測(cè)試集上進(jìn)行分類。

        ? SVM-Q(BOW): 利用源域中的查詢?cè)~項(xiàng)作為訓(xùn)練語料構(gòu)建分類器。

        ? SVM-T(BOW): 利用源域中的查詢點(diǎn)擊標(biāo)題中的詞項(xiàng)作為訓(xùn)練語料構(gòu)建分類器。

        ? SVM-QT(BOW): 利用自然標(biāo)注語料中的查詢以及查詢點(diǎn)擊的標(biāo)題中的詞項(xiàng)作為訓(xùn)練語料構(gòu)建分類器。

        ? SVM-QT(BOW-Word2Vec): 利用大規(guī)模的查詢及查詢點(diǎn)擊的標(biāo)題中的詞項(xiàng)訓(xùn)練一個(gè)詞向量表示。這里,我們用Word2Vec將單詞轉(zhuǎn)換成向量形式,然后對(duì)每一條文本中的詞向量加和求平均,來表示每條文本詞向量特征。利用查詢及點(diǎn)擊標(biāo)題中的詞項(xiàng)和詞向量表示作為特征構(gòu)建分類器。

        5 實(shí)驗(yàn)與分析

        5.1 基于用戶自然標(biāo)注的微博消費(fèi)意圖識(shí)別方法 的評(píng)價(jià) 為考察本文所使用的自然標(biāo)注的語料是否對(duì)微博消費(fèi)意圖識(shí)別產(chǎn)生作用,我們對(duì)在4.3節(jié)提出的基準(zhǔn)方法進(jìn)行了對(duì)比,其實(shí)驗(yàn)結(jié)果見表6。從表6中我們可以看到,對(duì)于僅利用查詢?cè)~特征,即表6中的SVM-Q(BOW)基線實(shí)驗(yàn)時(shí),系統(tǒng)的性能很低,主要是由于查詢是關(guān)鍵詞的意圖表示方式,與微博文本的自然語言表示方法有著明顯區(qū)別。而查詢點(diǎn)擊的標(biāo)題相當(dāng)于一種自然語言的表示方式,因而性能會(huì)隨之提升,當(dāng)隨著查詢?cè)~項(xiàng)和點(diǎn)擊標(biāo)注詞項(xiàng)加入到訓(xùn)練語料中,分類F值達(dá)到63.32%。這說明本文所使用的基于自然標(biāo)注的訓(xùn)練語料對(duì)于提高二元分類的性能是有幫助的。也就是說,查詢關(guān)鍵詞和點(diǎn)擊標(biāo)注關(guān)鍵詞均有助于微博消費(fèi)意圖的識(shí)別。在此基礎(chǔ)上,當(dāng)加入詞表示特征(Word2Vec)后,系統(tǒng)的性能有了進(jìn)一步的提升,這也證明了本文提出方法的有效性。

        表6 基于自然標(biāo)注的微博消費(fèi)意圖識(shí)別

        5.2 基于弱指導(dǎo)的微博消費(fèi)意圖識(shí)別方法的評(píng)價(jià)

        上面的實(shí)驗(yàn)驗(yàn)證了領(lǐng)域自適應(yīng)學(xué)習(xí)方法的有效性。接下來,我們通過實(shí)驗(yàn)考察在目標(biāo)域數(shù)據(jù)標(biāo)記判別學(xué)習(xí)時(shí)本文使用的四類特征是否對(duì)微博消費(fèi)意圖識(shí)別都有作用,我們進(jìn)行了四組實(shí)驗(yàn),每組實(shí)驗(yàn)依次加入基于視覺的特征、影響力特征、發(fā)布特征、微博觸發(fā)詞特征,其實(shí)驗(yàn)結(jié)果如表7所示。從表7中可以看到,隨著加入每一類特征,分類的F值都有明顯提高。尤其是當(dāng)使用全部四類特征時(shí),分類準(zhǔn)確率、召回率和F值均達(dá)到最高。這一結(jié)果說明本文所采用的四類特征對(duì)于提高二元分類的性能都是有幫助的。也就是說,全部四類特征均有助于微博文本消費(fèi)意圖的識(shí)別。

        表7 四類特征的貢獻(xiàn)

        6 結(jié)論與展望

        本文首次提出基于用戶自然標(biāo)注的消費(fèi)意圖識(shí)別方法,并將此方法作為一個(gè)領(lǐng)域自學(xué)習(xí)問題加以研究。具體的,文章的貢獻(xiàn)可以總結(jié)為以下幾個(gè)方面: (1)提出一種自動(dòng)生成查詢消費(fèi)意圖識(shí)別訓(xùn)練語料的方法,解決了有指導(dǎo)方法需要大量人工標(biāo)注訓(xùn)練數(shù)據(jù)的問題,并且通過實(shí)驗(yàn)驗(yàn)證了自動(dòng)獲取和標(biāo)注的訓(xùn)練數(shù)據(jù)的質(zhì)量; (2)基于半監(jiān)督的方法自動(dòng)標(biāo)注了大規(guī)模無標(biāo)注數(shù)據(jù)集,解決了對(duì)無標(biāo)注語料進(jìn)行自動(dòng)標(biāo)注的困難,并且通過實(shí)驗(yàn)驗(yàn)證了方法的有效性; (3)在對(duì)目標(biāo)領(lǐng)域的模型構(gòu)建中,嘗試了多種特征,既包括前人使用過的基于文本內(nèi)容特征,又包括本文提出的基于視覺特征和用戶信息特征。本文對(duì)多種特征加以融合、比較和分析,希望其結(jié)論對(duì)后續(xù)的研究有所裨益。

        [1] Dai H K, Zhao L,Nie Z, et al. Detecting online commercial intention (OCI)[C]//Proceedings of the 15th international conference on World Wide Web. ACM, 2006: 829-837.

        [2] Ashkan A, Clarke C L A. Term-based commercial intent analysis[C]//Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval. ACM, 2009: 800-801.

        [3] 陳磊, 劉奕群, 茹立云, 等. 基于用戶日志挖掘的搜索引擎廣告效果分析[J]. 中文信息學(xué)報(bào), 2008, 22(6): 92-97.

        [4] Jansen B J. The comparative effectiveness of sponsored andnonsponsored links for Web e-commerce queries[J]. ACM Transactions on the Web (TWEB), 2007, 1(1): 3.

        [5] Goldberg A B, Fillmore N, Andrzejewski D, et al. May All Your Wishes Come True: A Study of Wishes and How to Recognize Them[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics. 2009: 263-271.

        [6] Z Chen, B Liu, M Hsu, et al. Identifying intention posts in discussion forums[C]//Proceedings of the HLT-NAACL, 2013. 1041-1050.

        [7] Yang H, Li Y. Identifying user needs from social media[R]. IBM Tech Report. goo.gl/2XB7NY, 2013.

        [8] Fu B, LIU T. Weakly-supervised consumption intent detection in microblogs[J]. Journal of Computational Information Systems, 2013, 6(9): 2423-2431.

        [9] 莊福振,羅平,何清,史忠植.遷移學(xué)習(xí)研究進(jìn)展[J].軟件學(xué)報(bào),2015,26(1): 26-39.

        [10] Jiang J,Zhai C X. A two-stage approach to domain adaptation for statistical classifiers[C]//Proceedings of the sixteenth ACM conference on Conference on information and knowledge management.ACM, 2007: 401-410.

        [11] 孫茂松. 基于互聯(lián)網(wǎng)自然標(biāo)注資源的自然語言處理[J]. 中文信息學(xué)報(bào), 2011, 25(6): 26-32.

        [12] Collobert R, Weston J. A unified architecture for natural language processing: Deep neural networks with multitask learning[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 160-167.

        [13] Mnih A, Hinton G E. A scalable hierarchical distributed language model[C]//Advances in neural information processing systems. 2009: 1081-1088.

        [14] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv: 1301.3781, 2013.

        [15] Q Liu, Y Wang, J Li, et al. Predicting user likes in online media based on conceptualized social network profiles.//Web Technologies and Applications.Springer, 2014: 82-92.

        付博(1983—),博士,主要研究領(lǐng)域?yàn)樯鐣?huì)計(jì)算,自然語言處理、信息檢索。

        E-mail: bfu1983@163.com

        陳毅恒(1979—),博士,講師,主要研究領(lǐng)域?yàn)樯鐣?huì)計(jì)算、自然語言處理、信息檢索。

        E-mail: yhchen@ii.hit.edu.cn

        邵艷秋(1971—),博士,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、語言監(jiān)測(cè)、社會(huì)計(jì)算。

        E-mail: yashao@pku.edu.cn

        Consumption Intent Recognition Based on User Natural Annotation

        FU Bo1, CHEN Yiheng1, SHAO Yanqiu2, LIU Ting1

        (1. Research Center for Social Computing and Information Retrieval, School of Computer Science and Technology, Harbin Institute of Technology, Harbin, Heilongjiang 150001, China;2. School of Information Sciences, Beijing Language and Culture University, Beijing 100083, China)

        1003-0077(2017)04-0208-08

        TP391

        A

        2015-10-20 定稿日期: 2016-04-08

        國(guó)家青年科學(xué)基金(61202277);國(guó)家自然科學(xué)基金(61170144,61472107)

        猜你喜歡
        博文語料意圖
        原始意圖、對(duì)抗主義和非解釋主義
        法律方法(2022年2期)2022-10-20 06:42:20
        陸游詩寫意圖(國(guó)畫)
        第一次掙錢
        制定法解釋與立法意圖的反事實(shí)檢驗(yàn)
        法律方法(2021年3期)2021-03-16 05:56:58
        誰和誰好
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        打電話2
        《苗防備覽》中的湘西語料
        国产一区二区三区免费在线视频| 国产一区二区三区精品毛片 | 日韩精品人妻久久久一二三| 吃奶呻吟打开双腿做受视频| 国产三级在线观看免费| 欧美韩国精品另类综合| av成人资源在线观看| 国产一区二区三区av天堂| 国产女人高潮叫床免费视频| 国产精品11p| 国产精品视频免费一区二区三区| 久久精品国产白丝爆白浆| 国产精品一区二区av麻豆日韩 | 日韩成人免费一级毛片| 精品免费看国产一区二区白浆| 水蜜桃在线观看一区二区国产| 国产综合开心激情五月| 人人摸人人搞人人透| 妺妺窝人体色www在线图片| 99在线无码精品秘 人口| 国产天堂av在线播放资源| 门卫又粗又大又长好爽| 又爽又黄禁片视频1000免费| 国产美女亚洲精品一区| 二区免费在线视频观看| 亚洲av高清在线一区二区三区| 最近高清中文在线字幕观看| 国产美女被遭强高潮露开双腿 | 美利坚合众国亚洲视频 | 成人性生交大片免费看r| 亚洲成a人片在线观看高清| 一区二区三区乱码专区| 国产av无码专区亚洲av蜜芽| 爱我久久国产精品| 久久本道久久综合一人| 无码少妇丰满熟妇一区二区| 中文字幕亚洲情99在线| 国产视频不卡在线| 天堂av网手机线上天堂| 人人摸人人操| 国产一区二区精品久久凹凸|