邱云飛 劉聰
摘 要:[目的/意義]針對(duì)單純使用統(tǒng)計(jì)自然語(yǔ)言處理技術(shù)對(duì)社交網(wǎng)絡(luò)上產(chǎn)生的短文本數(shù)據(jù)進(jìn)行意向分類時(shí)存在的特征稀疏、語(yǔ)義模糊和標(biāo)記數(shù)據(jù)不足等問(wèn)題,提出了一種融合心理語(yǔ)言學(xué)信息的Co-training意圖分類方法。[方法/過(guò)程]首先,為豐富語(yǔ)義信息,在提取文本特征的同時(shí)融合帶有情感傾向的心理語(yǔ)言學(xué)線索對(duì)特征維度進(jìn)行擴(kuò)展。其次,針對(duì)標(biāo)記數(shù)據(jù)有限的問(wèn)題,在模型訓(xùn)練階段使用半監(jiān)督集成法對(duì)兩種機(jī)器學(xué)習(xí)分類方法(基于事件內(nèi)容表達(dá)分類器與情感事件表達(dá)分類器)進(jìn)行協(xié)同訓(xùn)練(Co-training)。最后,采用置信度乘積的投票制進(jìn)行分類。[結(jié)論/結(jié)果]實(shí)驗(yàn)結(jié)果表明融入心理語(yǔ)言學(xué)信息的語(yǔ)料再經(jīng)過(guò)協(xié)同訓(xùn)練的分類效果更優(yōu)。
關(guān)鍵詞:社交網(wǎng)絡(luò);意圖分類;心理語(yǔ)言學(xué);協(xié)同訓(xùn)練(Co-training)
DOI:10.3969/j.issn.1008-0821.2019.05.008
〔中圖分類號(hào)〕TP391 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2019)05-0057-07
Abstract:[Purpose/Significance]Aiming at the problems of feature sparseness,semantic ambiguity and mark data insufficiency caused by using single statistical natural language processing technology for intention classification of short text data generated on social networks,a psycholinguistic information based Co-training intention classification method was proposed.[Method/Process]Firstly,in order to enrich the semantic information,the feature dimension was extended by extracting the features of the text while synthesizing the psycholinguistic clues with emotional tendencies.Secondly,aiming at the insufficiency of mark data,two machine learning classification methods(based on the event content expression classifier and the emotional event expression classifier)were used cooperatively for training the model. Finally,the classification was performed by using a voting system of confidence products.[Conclusion/Results]The experimental results show that,by adding psycholinguistic information into the corpus,the cooperative training could provide better classification results.
Key words:social network;intention classification;psycholinguistic;Co-training
隨著互聯(lián)網(wǎng)的飛速發(fā)展,人們的生活、交流方式早已和社交網(wǎng)絡(luò)平臺(tái)緊緊聯(lián)系在一起。在日常生活中,用戶通過(guò)微博平臺(tái)發(fā)布簡(jiǎn)短信息(例如,Twitter)來(lái)表達(dá)他們的需求和愿望[1],這會(huì)促使網(wǎng)絡(luò)平臺(tái)產(chǎn)生大量的用戶數(shù)據(jù)。從這些數(shù)據(jù)中挖掘用戶信息和潛在行為,將使公司企業(yè)或政府部門對(duì)用戶進(jìn)行更準(zhǔn)確的定位[2]。因此,正確識(shí)別用戶意圖并進(jìn)行精準(zhǔn)分類作為挖掘用戶潛在行為信息的子項(xiàng)目,具有重要意義。
由于微博平臺(tái)對(duì)所發(fā)布信息的字?jǐn)?shù)限制,以及用戶在表述時(shí)常使用不標(biāo)準(zhǔn)的習(xí)慣用語(yǔ),使得微博信息常具有碎片化特征[3]。而這些碎片化的短文本數(shù)據(jù)往往不能獲得完整的上下文信息,導(dǎo)致提取出的特征稀疏,從而影響分類效果。同時(shí),由于微博信息即時(shí)更新的特性[4],很難在一定時(shí)間內(nèi)獲取大量標(biāo)記數(shù)據(jù),這使得完全依賴于人工標(biāo)記數(shù)據(jù)的監(jiān)督學(xué)習(xí)沒(méi)有足夠的覆蓋范圍,無(wú)法取得良好的分類效果。鑒于以上兩點(diǎn)問(wèn)題,如何利用有限的標(biāo)記數(shù)據(jù)對(duì)這些碎片化信息進(jìn)行高效地意圖分類是這項(xiàng)工作的主要挑戰(zhàn)。
Hollerit B等人曾指出推文被認(rèn)為是挖掘用戶意圖的重要來(lái)源[5]。因此,本文的研究將針對(duì)推文數(shù)據(jù),結(jié)合社會(huì)心理學(xué)信息進(jìn)行特征維度擴(kuò)展,并采用半監(jiān)督集成方法對(duì)少量標(biāo)記數(shù)據(jù)和大量未標(biāo)記數(shù)據(jù)進(jìn)行協(xié)同訓(xùn)練,最終使用置信度乘積的投票制進(jìn)行分類,以達(dá)到更優(yōu)的分類效果。
目前,尚無(wú)研究試圖建立意圖推文的類別。為了建立意圖推文的分類,調(diào)研了大量的推文,并研究了京東、亞馬遜等網(wǎng)絡(luò)購(gòu)物商城的分類模塊。這里提到購(gòu)物商城分類的原因是:1)微博用戶在推文中表達(dá)的意圖通常與日常生活有關(guān),其中包含大量的生活用品信息;2)購(gòu)物商城涵蓋廣泛的日常生活用品的優(yōu)惠活動(dòng)。最后,通過(guò)整合兩大網(wǎng)絡(luò)商城的分類模塊,將意圖推文分為以下5類:
購(gòu)物(Goods):這個(gè)類別主要指商品、時(shí)尚和購(gòu)物分享。它們結(jié)合在一起是因?yàn)樗鼈兌寂c商業(yè)意圖和服務(wù)相關(guān)。
餐飲(Food):這個(gè)類別主要與食物、餐廳相關(guān)。通常用戶會(huì)在這一類中表示自己的饑餓程度或飲食需求。
社交通信(Social):這一類別包括聊天、打電話以及發(fā)表個(gè)人情緒。這項(xiàng)意圖類別的研究可以了解用戶的心理情緒波動(dòng)。
智能互娛(Entertainment):包括娛樂(lè)、音樂(lè)、游戲等類別。由于它們同屬生活中的娛樂(lè)項(xiàng)目被統(tǒng)稱為智能互娛。
戶外運(yùn)動(dòng)(Outside):主要指旅行、運(yùn)動(dòng)、看電影等外出行為。
本文結(jié)構(gòu)安排如下:第一節(jié)指出意圖分類的研究現(xiàn)狀及相關(guān)工作;第二節(jié)介紹使用的關(guān)鍵技術(shù);第三節(jié)給出實(shí)驗(yàn)過(guò)程及分析;第四節(jié)給出總結(jié),并對(duì)下一步工作進(jìn)行展望。
1 相關(guān)工作
1.1 國(guó)內(nèi)外研究現(xiàn)狀
用戶意圖分類屬自然語(yǔ)言處理范疇,是情感分析與短文本分類下的交叉模塊?,F(xiàn)階段國(guó)內(nèi)外對(duì)意圖分類的改進(jìn)研究大致分為以下3種方式:
一是改進(jìn)分詞技術(shù)。國(guó)內(nèi)的葛達(dá)明使用表情符號(hào)、新詞與網(wǎng)絡(luò)流行詞語(yǔ)擴(kuò)充了情感詞典,以達(dá)到更優(yōu)的分詞效果[6]。儲(chǔ)濤濤通過(guò)降低公有特征詞集的權(quán)重消除多義詞的影響,從而進(jìn)行更精準(zhǔn)的分詞[7]。
二是改進(jìn)模型訓(xùn)練中特征向量。對(duì)于特征項(xiàng)的改進(jìn)又可進(jìn)行如下細(xì)分。1)挖掘文本中潛在的表達(dá)情緒并結(jié)合語(yǔ)義、語(yǔ)境進(jìn)行特征維度擴(kuò)展。國(guó)內(nèi)的何炎祥等人將深度學(xué)習(xí)模型MCNN與基于表情符號(hào)的情感空間映射相結(jié)合,提高了分類能力[8]。Haibo Ding等人結(jié)合多種外部字典對(duì)詞語(yǔ)進(jìn)行分類標(biāo)注,基于人類需求類別對(duì)人類情感進(jìn)行分類[9]。2)針對(duì)文本自身語(yǔ)法規(guī)則和特殊字符的維度擴(kuò)展。國(guó)內(nèi)的趙文清等人提出了一種基于語(yǔ)義規(guī)則的方法,考慮程度副詞、否定詞和表情符號(hào)的褒貶分類對(duì)文本情感傾向的影響[10]。國(guó)外的Sudha Subramani等人使用具有卡方度量的TF-IDF方法作為特征選擇參數(shù),以提高分類精度[11]。3)結(jié)合外部社會(huì)行為信息進(jìn)行的特征維度擴(kuò)展。國(guó)內(nèi)的Wayne Xin Zhao等人從微博中抽取用戶的人口統(tǒng)計(jì)信息特征,并結(jié)合lexical-POS的文本特征進(jìn)行意圖分類[12]。付博等人實(shí)現(xiàn)了跨社交平臺(tái)的信息關(guān)系連接,提高了意圖識(shí)別的效果[13]。國(guó)外的Hemant Purohit等人研究危機(jī)領(lǐng)域的意圖分類。他使用不同知識(shí)來(lái)源派生的模式集(類似于規(guī)則前項(xiàng)),來(lái)獲得在本地上下文之外的語(yǔ)義,以改善意圖分類的信息語(yǔ)境[14]。
三是改進(jìn)分類算法。國(guó)內(nèi)的江偉等人將提取的N-gram短語(yǔ)加入到循環(huán)神經(jīng)網(wǎng)絡(luò)詞嵌入層,再用帶注意機(jī)制的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)分類[15]。Jinpeng Wang等人提出基于圖傳播的半監(jiān)督意圖分類,通過(guò)關(guān)鍵字與意圖推文間的正則化關(guān)系建立意向圖進(jìn)行自學(xué)習(xí)(Self-training)[16]。
以上研究從不同角度對(duì)意圖分類進(jìn)行改進(jìn),為本文提供了重要的理論基礎(chǔ)。
1.2 相關(guān)概念
意圖推文:最早來(lái)自于Chen等人在論壇上關(guān)于意圖帖子定義的討論[17],以及Hollerit等人關(guān)于商業(yè)意圖推文的定義[5]。如果一個(gè)句子滿足以下3個(gè)條件,就稱這條推文為意圖推文:
1)至少包含一個(gè)動(dòng)詞;
2)明確描述用戶執(zhí)行活動(dòng)的意圖;
3)以一種可以識(shí)別的方式。(Hollerit在研究商業(yè)意圖推文中表明,“可識(shí)別”在人工智能和模式識(shí)別領(lǐng)域意義為:能夠在一定時(shí)間內(nèi)做出決定[5])。
短文本分類:短文本通常被定義為長(zhǎng)度不超過(guò)160個(gè)字符的文本形式,如微博信息、手機(jī)短信、觀點(diǎn)評(píng)論等比較短的文本。自動(dòng)化的短文本分類是一項(xiàng)具有挑戰(zhàn)性的任務(wù)[18-19],目的是自動(dòng)對(duì)用戶輸入的短文本按照給定的分類體系進(jìn)行分類輸出。短文本通常存在特征稀疏、不遵循語(yǔ)法規(guī)則以及規(guī)模巨大等問(wèn)題[20],一般在文本預(yù)處理、模型的訓(xùn)練等環(huán)節(jié)中進(jìn)行優(yōu)化和改進(jìn),以提高分類效果。意圖分類的核心問(wèn)題就是如何對(duì)短文本進(jìn)行高精度的自動(dòng)分類。
如圖1所示,短文本分類包括文本預(yù)處理、特征抽取、模型訓(xùn)練、分類預(yù)測(cè)等幾個(gè)主要環(huán)節(jié)。
半監(jiān)督學(xué)習(xí):半監(jiān)督學(xué)習(xí)是指不依賴外界交互的學(xué)習(xí)器,能夠自動(dòng)地利用未標(biāo)記數(shù)據(jù)和已標(biāo)記數(shù)據(jù)來(lái)提升學(xué)習(xí)性能的學(xué)習(xí)方式[21]。在機(jī)器學(xué)習(xí)領(lǐng)域中,半監(jiān)督學(xué)習(xí)作為監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的結(jié)合產(chǎn)物,在只有少量標(biāo)記數(shù)據(jù)集的問(wèn)題上,對(duì)于減少數(shù)據(jù)標(biāo)注代價(jià)、提高學(xué)習(xí)性能有重大意義。近年來(lái),半監(jiān)督學(xué)習(xí)在分類方法上的研究越來(lái)越多。
Co-training:它是目前分類任務(wù)中最常見的半監(jiān)督集成學(xué)習(xí)方法,又稱協(xié)同訓(xùn)練方法。在半監(jiān)督學(xué)習(xí)研究的早期,Blum等人提出兩個(gè)相互獨(dú)立且充分冗余的視圖通過(guò)協(xié)同訓(xùn)練方法可以提高分類性能[22]。它用已標(biāo)記數(shù)據(jù)分別在兩個(gè)視圖上進(jìn)行訓(xùn)練學(xué)習(xí),再利用訓(xùn)練好的學(xué)習(xí)器對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行分類預(yù)測(cè),選取置信度較高的類別進(jìn)行標(biāo)記,然后將這些偽標(biāo)記數(shù)據(jù)加入已有的標(biāo)記數(shù)據(jù)集,重新對(duì)分類器進(jìn)行訓(xùn)練,反復(fù)迭代至兩個(gè)學(xué)習(xí)器都不再更新為止。該方法為半監(jiān)督學(xué)習(xí)開辟了新的分支[23]。
2 關(guān)鍵技術(shù)
2.1 數(shù)據(jù)預(yù)處理
對(duì)于有效分析,數(shù)據(jù)預(yù)處理是最重要的步驟,因?yàn)樗私档头诸愋阅艿脑肼暋Mㄟ^(guò)結(jié)合數(shù)據(jù)清洗、分詞、去停用詞以及詞語(yǔ)標(biāo)準(zhǔn)化(詞干、詞形還原等技術(shù))對(duì)數(shù)據(jù)進(jìn)行預(yù)處理來(lái)獲得高質(zhì)量的信息。
1)數(shù)據(jù)清洗:用戶在發(fā)布的推文中常會(huì)加入一些特殊字符,如“Emoji、@、*、&”等,推文中還會(huì)加入一些URL鏈接以及數(shù)字。在對(duì)數(shù)據(jù)進(jìn)行分詞前,要將這些無(wú)用的噪聲數(shù)據(jù)剔除。
2)分詞、去停用詞、標(biāo)準(zhǔn)化:首先,根據(jù)語(yǔ)法習(xí)慣,將文本內(nèi)容分成若干單詞。其次,刪除介詞、連詞、代詞等停用詞。例如:一個(gè)、他的、然而和因此。接下來(lái),是詞語(yǔ)標(biāo)準(zhǔn)化(即詞形還原)。將單詞形式轉(zhuǎn)換為更有限的規(guī)范形式可以減少詞形對(duì)特征提取的影響,從而減少數(shù)據(jù)特征稀疏。
2.2 特征提取
特征提取階段是數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的最重要的步驟之一。為提高分類準(zhǔn)確度,需提取出更有價(jià)值的特征。為解決推文數(shù)據(jù)文本內(nèi)容有限所導(dǎo)致的特征稀疏問(wèn)題,需對(duì)文本數(shù)據(jù)進(jìn)行特征維度擴(kuò)展。在以下部分,分別討論了這項(xiàng)工作中使用的兩種不同提取技術(shù)。
2.2.1 基于事件內(nèi)容的特征提取
2.3 模型訓(xùn)練
為解決標(biāo)記數(shù)據(jù)集不足所導(dǎo)致的分類精度低的問(wèn)題,提出使用兩種不同的分類器(事件內(nèi)容表達(dá)分類器和情感事件表達(dá)分類器)分別對(duì)已標(biāo)記數(shù)據(jù)集進(jìn)行學(xué)習(xí)訓(xùn)練的方法,再將兩種分類器進(jìn)行協(xié)同訓(xùn)練,以獲得最終的分類模型。
本文研究的意圖分類問(wèn)題屬多元分類問(wèn)題。在機(jī)器學(xué)習(xí)算法中,通常使用MNB(Multinomial Naive Bayes)、LinearSVC(Linear Support Vector Classifier)、KNN(K-Nearest Neighbour)等算法進(jìn)行多元分類。因此,在分類模型選取上對(duì)比使用了以上多種多元分類算法。最終,在實(shí)驗(yàn)驗(yàn)證的基礎(chǔ)上,得出在事件內(nèi)容表達(dá)分類器的分類問(wèn)題上使用LinearSVC分類器效果可以達(dá)到最優(yōu),在情感事件表達(dá)分類器上使用MNB算法效果最優(yōu)。
2.3.1 事件內(nèi)容表達(dá)分類器
在事件內(nèi)容表達(dá)分類器中,單獨(dú)考慮文本內(nèi)容自身所具有的特征,即使用基于文本內(nèi)容所提取的特征項(xiàng)進(jìn)行訓(xùn)練。將經(jīng)過(guò)數(shù)據(jù)預(yù)處理后的已標(biāo)記數(shù)據(jù)集傳入事件內(nèi)容表達(dá)分類器進(jìn)行模型訓(xùn)練,訓(xùn)練過(guò)程中使用LinearSVC分類算法。
2.3.2 情感事件表達(dá)分類器
在情感事件表達(dá)分類器中,融合了社會(huì)心理語(yǔ)言學(xué)知識(shí),即使用基于心理語(yǔ)言學(xué)所提取的特征項(xiàng)進(jìn)行模型訓(xùn)練。訓(xùn)練過(guò)程中使用MNB分類算法。
2.3.3 Co-training
由于無(wú)監(jiān)督學(xué)習(xí)常用的方法是借助領(lǐng)域詞典進(jìn)行分類,而領(lǐng)域詞典的構(gòu)建需要巨大的開銷,且適用領(lǐng)域范圍小,因此無(wú)監(jiān)督學(xué)習(xí)在文本分類問(wèn)題上還沒(méi)有得到很顯著的成功。又因社交網(wǎng)絡(luò)數(shù)據(jù)的實(shí)時(shí)流動(dòng)性,想要借助監(jiān)督學(xué)習(xí)獲取全部的標(biāo)記數(shù)據(jù)進(jìn)行分類,難度系數(shù)很大,且分類效果不佳。因此,本文選取了適合處理社交短文本數(shù)據(jù)的半監(jiān)督學(xué)習(xí)。近年來(lái),半監(jiān)督的分類方法受到了越來(lái)越多的重視[23]。
上文提出的兩類分類器,單獨(dú)使用時(shí)都只能表現(xiàn)出較弱的“學(xué)習(xí)能力”。因此,為使分類模型具有較高的泛化能力,并進(jìn)一步提高分類的精度,本文提出使用半監(jiān)督學(xué)習(xí)與集成學(xué)習(xí)相融合的Co-training算法對(duì)上文提出的兩種分類方案進(jìn)行結(jié)合。Co-training算法是最早出現(xiàn)的半監(jiān)督集成學(xué)習(xí)方法[22]。一般而言,通過(guò)集成學(xué)習(xí),分類器的性能往往比只使用一個(gè)分類器要好[21]。下文對(duì)比實(shí)驗(yàn)驗(yàn)證,將兩類分類器進(jìn)行協(xié)同訓(xùn)練可以得到更優(yōu)分類結(jié)果。本文采用的Co-training方法具體流程如圖2所示。
2.3.4 置信度相乘的投票制
在最終的分類決策上采用基于置信度相乘的投票方法。在使用兩種分類器預(yù)測(cè)得到相應(yīng)類別的置信度后,篩選滿足置信度閾值(≥0.5)的項(xiàng),再將兩類分類器預(yù)測(cè)出的相同類別的置信結(jié)果做乘積運(yùn)算,最終選取置信度乘積分?jǐn)?shù)最高的類別作為分類的標(biāo)簽。
3 實(shí)驗(yàn)設(shè)置
3.1 實(shí)驗(yàn)數(shù)據(jù)
對(duì)于當(dāng)前的研究,使用從推特社交平臺(tái)提取的推文數(shù)據(jù)。在意圖推文的識(shí)別和檢索問(wèn)題上,采用了Riloff E等人提出的Bootstrapping方法[26]。實(shí)驗(yàn)中共使用了兩類數(shù)據(jù)集確保實(shí)驗(yàn)結(jié)果的真實(shí)有效性。第一類是2009下半年的推文數(shù)據(jù),從Jinpeng Wang論文中獲取的已標(biāo)注的實(shí)驗(yàn)數(shù)據(jù)集[15],該類數(shù)據(jù)集被有經(jīng)驗(yàn)的標(biāo)注者進(jìn)行分類標(biāo)注,共1 599條,將該類意圖推文數(shù)據(jù)作為已標(biāo)注數(shù)據(jù)(EL,Labled Data)。第二類是通過(guò)網(wǎng)絡(luò)爬蟲技術(shù)爬取的用戶于2018年4月10號(hào)23時(shí)到24時(shí)發(fā)布的推文數(shù)據(jù),共23 601條,該類數(shù)據(jù)作為未標(biāo)記數(shù)據(jù)(EU,Unlabeled Data)。
3.2 實(shí)驗(yàn)環(huán)境
本實(shí)驗(yàn)使用Python3.5版本,在Pycharm2018平臺(tái)進(jìn)行算法實(shí)現(xiàn)?;谑录?nèi)容表達(dá)分類器使用Spacy自然語(yǔ)言處理工具包對(duì)數(shù)據(jù)進(jìn)行分詞、標(biāo)準(zhǔn)化等處理,通過(guò)調(diào)用Sklearn包中的機(jī)器學(xué)習(xí)算法SVC進(jìn)行分類。SVC算法采用線性核函數(shù),通過(guò)對(duì)比最終的F1-score選取出參數(shù)C(C=1,2,5,10,20,100)的最優(yōu)取值。為確保兩種分類器的充分獨(dú)立性基于情感事件表達(dá)分類器使用NLTK自然語(yǔ)言處理工具包進(jìn)行分詞、去停用詞以及標(biāo)準(zhǔn)化等工作,并將LIWC字典提取的特征項(xiàng)融入到文本特征項(xiàng)中,最后通過(guò)調(diào)用MNB算法進(jìn)行分類。
3.3 實(shí)驗(yàn)步驟
具體流程:
1)將已標(biāo)注數(shù)據(jù)EL采用3倍交叉驗(yàn)證劃分成訓(xùn)練集和測(cè)試集,并將訓(xùn)練集作為兩種分類器的輸入,分別訓(xùn)練兩類分類器;
2)將未標(biāo)記數(shù)據(jù)EU分別放入兩類初步訓(xùn)練的分類器中,通過(guò)分類預(yù)測(cè)得出屬于不同類別的置信分?jǐn)?shù),過(guò)濾掉不滿足置信度閾值的結(jié)果;
3)在滿足置信度閾值的結(jié)果中,挑選兩種分類器預(yù)測(cè)的表示同一類別的置信分?jǐn)?shù)進(jìn)行乘積運(yùn)算,最終采用得分最高的類別標(biāo)記EU;
4)將新標(biāo)記的偽標(biāo)記數(shù)據(jù)加入EL;
5)使用最新的EL重新訓(xùn)練兩類分類器;
6)如此迭代,直至達(dá)到最大迭代次數(shù)(I=30),生成最終分類器;
7)讀取測(cè)試集,分別放入兩類分類器,對(duì)測(cè)試集進(jìn)行分類預(yù)測(cè),與真實(shí)值進(jìn)行對(duì)比,進(jìn)而求出分類器性能參數(shù)。
通過(guò)實(shí)驗(yàn)結(jié)果可以看出,已有的經(jīng)典算法在長(zhǎng)數(shù)據(jù)集上分類表現(xiàn)較好,但在具有嚴(yán)重稀疏性的推文數(shù)據(jù)上表現(xiàn)不佳。表4結(jié)果進(jìn)一步論證了本文算法在處理推文數(shù)據(jù)分類問(wèn)題上的有效性。
另外,圖4展示了本文算法在不同迭代次數(shù)下的表現(xiàn)能力。如圖4所示,經(jīng)過(guò)30次迭代后,F(xiàn)1-score達(dá)到0.84,此時(shí)Co-training算法表現(xiàn)最佳。此外,可以看到,迭代次數(shù)小于30時(shí),分類情況并沒(méi)有單獨(dú)使用事件內(nèi)容表達(dá)分類器或情感事件表達(dá)分類器的效果好。這是因?yàn)閷?shí)驗(yàn)標(biāo)記數(shù)據(jù)集很小、未標(biāo)記數(shù)據(jù)集巨大,所以我們沒(méi)有足夠的數(shù)據(jù)來(lái)微調(diào)參數(shù)。但在實(shí)驗(yàn)中我們可以找到一個(gè)最佳的停止標(biāo)準(zhǔn),通過(guò)設(shè)定合理的迭代次數(shù)來(lái)進(jìn)一步提高性能。
4 結(jié)束語(yǔ)
本文針對(duì)社交網(wǎng)絡(luò)所產(chǎn)生的短文本數(shù)據(jù)進(jìn)行意圖分類的問(wèn)題,提出了一種基于協(xié)同訓(xùn)練的意圖分類優(yōu)化方法。該方法將基于事件內(nèi)容表達(dá)分類器和基于情感事件表達(dá)分類器進(jìn)行協(xié)同訓(xùn)練,并在情感事件表達(dá)分類器中融入社會(huì)心理學(xué)知識(shí),結(jié)合LIWC字典進(jìn)行特征維度的擴(kuò)展,以解決數(shù)據(jù)稀疏性所造成的分類精度低的問(wèn)題。通過(guò)實(shí)驗(yàn)驗(yàn)證,融入了心理語(yǔ)言學(xué)信息的特征項(xiàng)對(duì)模型訓(xùn)練有積極作用。在實(shí)驗(yàn)中,我們分別評(píng)估了兩種分類器的獨(dú)自的分類性能,又分析了兩種分類器協(xié)同工作的效果,發(fā)現(xiàn)在只有少量標(biāo)記數(shù)據(jù)集的情況下經(jīng)過(guò)Co-training學(xué)習(xí)后的分類器提高了單一分類器的分類能力。
在今后的研究中,將從以下3個(gè)方面入手。一是嘗試在基于事件內(nèi)容表達(dá)分類器上融合從文本內(nèi)容中提取出的更多有用的特征項(xiàng)(如詞性、表情符號(hào)等),以使模型的訓(xùn)練效果更優(yōu)。二是嘗試找到一個(gè)更優(yōu)的調(diào)節(jié)迭代次數(shù)的方法,讓分類器可以自動(dòng)適應(yīng)并設(shè)置迭代次數(shù)。三是針對(duì)細(xì)粒度分類問(wèn)題的研究,即結(jié)合應(yīng)用領(lǐng)域知識(shí)研究特定領(lǐng)域的分類問(wèn)題,使該研究課題更具有商業(yè)價(jià)值。
參考文獻(xiàn)
[1]薛春香,張玉芳.面向新聞?lì)I(lǐng)域的中文文本分類研究綜述[J].圖書情報(bào)工作,2013,57(14):134-139.
[2]曹玖新,吳江林,石偉,等.新浪微博網(wǎng)信息傳播分析與預(yù)測(cè)[J].計(jì)算機(jī)學(xué)報(bào),2014,37(4):779-790.
[3]李伶俐.微博熱的冷思考——兼論微博碎片化的特征及影響[J].新聞愛好者,2011,(9):82-83.
[4]楊亮,林原,林鴻飛.基于情感分布的微博熱點(diǎn)事件發(fā)現(xiàn)[J].中文信息學(xué)報(bào),2012,26(1):84-90,109.
[5]Hollerit B,Krll M,Strohmaier M.Towards Linking Buyers and Sellers:Detecting Commercial Intent on Twitter.In WWW,2013:629-632.
[6]葛達(dá)明.基于微博平臺(tái)的中文情感分析技術(shù)的研究[D].沈陽(yáng):沈陽(yáng)工業(yè)大學(xué),2017.
[7]儲(chǔ)濤濤.微博用戶的興趣發(fā)現(xiàn)與意圖識(shí)別的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2017.
[8]何炎祥,孫松濤,牛菲菲,等.用于微博情感分析的一種情感語(yǔ)義增強(qiáng)的深度學(xué)習(xí)模型[J].計(jì)算機(jī)學(xué)報(bào),2017,40(4):773-790.
[9]Haibo Ding,Ellen Riloff.Human Needs Categorization of Affective Events Using Labeled and Unlabeled Data[C]//Proceedings of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies(NAACL HLT),2018.
[10]趙文清,侯小可,沙海虹.語(yǔ)義規(guī)則在微博熱點(diǎn)話題情感分析中的應(yīng)用[J].智能系統(tǒng)學(xué)報(bào),2014,9(1):121-125.
[11]Subramani Sudha,Vu Huy Quan,Wang Hua.Intent Classification Using Feature Sets for Domestic Violence Discourse on Social Media.In Preprint arXiv,2018:1804.03497.
[12]Zhao X.W,Guo Y,He Y.We Know What You Want to Buy:A Demographic-based System for Product Recommendation on Microblogs.In KDD,2014:1935-1944.
[13]付博,劉挺.社會(huì)媒體中用戶的隱式消費(fèi)意圖識(shí)別[J].軟件學(xué)報(bào),2016,27(11):2843-2854.
[14]Hemant Purohit,Guozhu Dong,Valerie Shalin,et al.Intent Classification of Short-Text on Social Media.In IEEE,2015.
[15]江偉,金忠.基于短語(yǔ)注意機(jī)制的文本分類[J].中文信息學(xué)報(bào),2018,32(2):102-109,119.
[16]Jinpeng Wang,Gao Cong,Wayne Xin Zhao,et al.Mining User Intents in Twitter:A Semi-Supervised Approach to Inferring Intent Categories for Tweets.In AAAI,2015.
[17]Chen Z,Liu B,Hsu M.Identifying Intention Posts in Discussion Forums[C]//Proceedings of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies(NAACL HLT),2013:1041-1050.
[18]王仲遠(yuǎn),程健鵬,王海勛,等.短文本理解研究[J].計(jì)算機(jī)研究與發(fā)展,2016,53(2):262-269.
[19]張群,王紅軍,王倫文.詞向量與LDA相融合的短文本分類方法[J].現(xiàn)代圖書情報(bào)技術(shù),2016,(12):27-35.
[20]張倩,劉懷亮.一種基于半監(jiān)督學(xué)習(xí)的短文本分類方法[J].現(xiàn)代圖書情報(bào)技術(shù),2013,(2):30-35.
[21]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.
[22]Blum A,Mitchell T.Combining Labeled and Unlabeled Data with Co-training[C]//Proceedings of the 7th Conference on Computational Learning Theory(COLT),2000:92-100.
[23]蔡毅,朱秀芳,孫章麗,等.半監(jiān)督集成學(xué)習(xí)綜述[J].計(jì)算機(jī)科學(xué),2017,44(S1):7-13.
[24]J W Pennebaker,R L Boyd,K Jordan.The Development and Psychometric Properties of Liwc2015,Tech.Rep.,2015.
[25]James W Pennebaker,Roger J Booth,and Martha E Francis.Linguistic Inquiry and Word Count:LIWC2007.Austin,TX:Liwc.net,2007.
[26]Riloff E,Wiebe J,Wilson T.Learning Subjective Nouns Using Extraction Pattern Bootstrapping[C]//Proceedings of Conference on Computational Natural Language Learning(CoNLL),2003:25-32.
[27]徐禹洪,黃沛杰.基于優(yōu)化樣本分布抽樣集成學(xué)習(xí)的半監(jiān)督文本分類方法研究[J].中文信息學(xué)報(bào),2017,31(6):180-189.
(責(zé)任編輯:陳 媛)