張劍峰,夏云慶,姚建民
(1.清華大學(xué),北京 100084;2.蘇州大學(xué),江蘇 蘇州 215006)
隨著互聯(lián)網(wǎng)和通訊產(chǎn)業(yè)的快速發(fā)展,微博成為了又一個(gè)跨時(shí)代的產(chǎn)品。微博存在著一個(gè)很顯著的特點(diǎn),就是能非常迅速及時(shí)地將信息傳遞到每一個(gè)用戶。
微博文本與正式文本有很多不同的地方。第一,微博最大的特點(diǎn)就是文本長度短。不同微博系統(tǒng)對(duì)微博文本的字?jǐn)?shù)限制不盡相同,以新浪微博為例,限定一個(gè)微博文本的字?jǐn)?shù)不多于140個(gè)字符,更多的微博文本只是一個(gè)句子甚至一個(gè)短語。這一特點(diǎn)給微博文本處理造成了嚴(yán)重的數(shù)據(jù)稀疏問題。
第二,微博文本的文法通常是非正式的,語言是口語化的。為了提高交流速度,微博文本中縮寫和拼寫錯(cuò)誤很常見,還經(jīng)常摻雜著一些新近流行的網(wǎng)絡(luò)語言和表情符號(hào)。
例1: “原來醬紫我^_^”
例1中的“醬紫”,是“這樣子”對(duì)應(yīng)的網(wǎng)絡(luò)用語,“我”是“哦”的錯(cuò)別字,“^_^”代表了微笑表情。這些特點(diǎn)會(huì)給微博文本理解帶來很大困難。
第三,半結(jié)構(gòu)化。除了文本內(nèi)容,微博文本還包含一些元數(shù)據(jù),例如,作者、發(fā)布時(shí)間、轉(zhuǎn)發(fā)數(shù)量、收藏?cái)?shù)量、評(píng)論等信息。
第四,微博文本通常是某對(duì)話線索(conversation thread)中的一個(gè)發(fā)言或回復(fù)。通常定義線索為滿足對(duì)話特征的微博文本序列,線索的第一個(gè)發(fā)言稱為首帖。首帖發(fā)布后,更多的發(fā)言以回復(fù)的方式產(chǎn)生,稱為跟帖。微博系統(tǒng)保存了大量的微博文本線索(thread),每個(gè)線索又包含了多個(gè)微博文本。微博文本的這一特點(diǎn)實(shí)際上形成了充足的上下文,給微博文本理解帶來重要依據(jù)。
第五,顯著的意圖性和主觀性。微博上言論自由,因此個(gè)性化語言和表達(dá)方式成為個(gè)性張揚(yáng)的體現(xiàn)。但多數(shù)人意圖明顯,對(duì)首帖所提到的內(nèi)容進(jìn)行評(píng)論或補(bǔ)充,且?guī)в忻黠@的主觀性。
第六,大量的省略和指代。由于提供了豐富的上下文,微博文本經(jīng)常省略前文提到的內(nèi)容,或者采取指代方式。每個(gè)微博文本都在評(píng)論別人,同時(shí)也是別人評(píng)論的對(duì)象。這一特點(diǎn)是微博文本大量采用省略和指代的最主要原因。
由于微博文本具有以上特點(diǎn),在處理微博文本時(shí),采用與處理普通文本時(shí)相同的方法通常難以奏效。與微博短文本在形式上類似的,還有短信、聊天記錄等網(wǎng)絡(luò)短文本,他們同樣具有“短”、“口語化”、“網(wǎng)絡(luò)性”、“圖標(biāo)化”“對(duì)話性”等特點(diǎn)。這些方面的研究同樣值得密切關(guān)注。
關(guān)于聊天記錄的相關(guān)研究起步較早。Dyke等提出了一種可以與用戶對(duì)話的實(shí)時(shí)聊天工具,并記錄用戶的興趣愛好,提供給用戶可能感興趣的資源[1]。Zhou等對(duì)特定技術(shù)領(lǐng)域的聊天記錄按照話題進(jìn)行聚類,并使用機(jī)器學(xué)習(xí)的方法,選取一些詞匯特征,實(shí)現(xiàn)對(duì)聚類完成后的聊天記錄的摘要生成[2]。Adams和Martell對(duì)在線聊天室記錄上進(jìn)行了話題分析研究,在VSM模型的基礎(chǔ)上提出了三個(gè)加強(qiáng)因素: 時(shí)間距離、上位詞和昵稱,取得了不錯(cuò)的效果[3]。與微博文本不同之處在于,聊天記錄文本更注重實(shí)時(shí)性,而且在聊天過程中,用戶討論的話題演變速度更快,所以,對(duì)聊天記錄進(jìn)行話題分析的難度更大。
而關(guān)于短信文本方面的工作則較少。Shen等提出基于VSM模型的短信文本會(huì)話(thread)識(shí)別方法,在相似度計(jì)算中融合時(shí)間因素和位置信息,并取新的message和原先存在的thread中的message最大的cosine值作為相似度。實(shí)驗(yàn)證明,改進(jìn)取得了較好的效果[4]。彭京等針對(duì)短信文本中數(shù)據(jù)稀疏的問題,基于《知網(wǎng)》(HowNet)概念模型,提出了一種語義內(nèi)積空間模型,并在此基礎(chǔ)上構(gòu)造了兩階段聚類算法完成文本數(shù)據(jù)的聚類[5]。而吳薇則對(duì)短信文本的過濾和分類方法進(jìn)行了總結(jié)[6]。龔才春則對(duì)短信文本的特點(diǎn)進(jìn)行了總結(jié),并概括了挖掘網(wǎng)絡(luò)短信文本的方法[7]。與微博文本相比,短信文本的“對(duì)話性”更強(qiáng),主要是兩個(gè)用戶之間的交互行為,而與微博文本類似的是,短信文本的話題相對(duì)一致,演變速度不快。
研究者還將三種網(wǎng)絡(luò)短文本(短信、聊天記錄、微博)混合在一起進(jìn)行了一些嘗試。Wang對(duì)三類網(wǎng)絡(luò)短文本(即時(shí)通訊、在線聊天室記錄和手機(jī)短信)進(jìn)行話題的抽取。該研究注意到網(wǎng)絡(luò)短文本語句較短且不完整的特點(diǎn)[8]。Phan等借助外部資源,建立了一個(gè)框架體系,利用LDA工具進(jìn)行話題分析,從大規(guī)模語料集中抽取主題,進(jìn)而對(duì)混合短文本進(jìn)行分類[9]。方法的優(yōu)勢(shì)在于降低了數(shù)據(jù)稀疏的影響,并擴(kuò)展了分類器的覆蓋面。黃永光等將短信、聊天記錄這類表述不規(guī)范的文本稱為變異短文本,并針對(duì)其特性提出了一種基于特征串匹配的聚類算法[10]。實(shí)驗(yàn)表明,該算法對(duì)于變異短文本聚類這一特殊領(lǐng)域有著很高的執(zhí)行效率和準(zhǔn)確率。
雖然研究者對(duì)短信、聊天記錄、微博等短文本進(jìn)行了一些研究工作,但是總體來說,對(duì)于短文本中的數(shù)據(jù)稀疏問題解決方法的效果并不好,所以,還有待研究者們根據(jù)短文本的結(jié)構(gòu)特征,對(duì)于短文本中存在的問題,提出更好的解決方法。
由于微博極大促進(jìn)了信息的傳播和共享,其巨大的商業(yè)價(jià)值開始顯現(xiàn),并在危機(jī)公關(guān)、輿論炒作和網(wǎng)絡(luò)推廣等方面凸顯商業(yè)優(yōu)勢(shì)。中國首屆微博開發(fā)者大會(huì)于2010年11月16日在北京舉行,將互聯(lián)網(wǎng)行業(yè)對(duì)微博的關(guān)注推向高潮。根據(jù)新浪的統(tǒng)計(jì)數(shù)據(jù),截止2010年11月,新浪微博用戶數(shù)已達(dá)5 000萬,每天微博發(fā)布量超過2 500萬,微博總數(shù)超過20億條[11]。據(jù)第三方調(diào)研機(jī)構(gòu)DCCI預(yù)計(jì),2011年中國互聯(lián)網(wǎng)微博累計(jì)活躍賬戶數(shù)將突破1.5億[11]。
在商界熱捧微博的同時(shí),互聯(lián)網(wǎng)信息監(jiān)管部門也意識(shí)到他們所面臨的嚴(yán)峻挑戰(zhàn)。微博允許任何人用電腦、手機(jī)等方式在任何時(shí)間發(fā)布任何言論,且這些言論能頃刻之間傳播給互聯(lián)網(wǎng)所能觸及的任何人。微博正式啟動(dòng)了一個(gè)“人人都是記者”的新時(shí)代。微博的美好初衷不可否認(rèn),但如果缺少必要且及時(shí)的監(jiān)管,各類影響社會(huì)穩(wěn)定的負(fù)面信息必會(huì)有機(jī)可乘,終將釀成嚴(yán)重的社會(huì)后果。試想,一個(gè)惡意或虛假的消息可能被微博無限放大,將觸發(fā)政府或商業(yè)機(jī)構(gòu)的信任危機(jī),乃至群體性惡性事件的出現(xiàn)。2011年1月18日,2010中國互聯(lián)網(wǎng)產(chǎn)業(yè)年會(huì)發(fā)布了“影響2010年中國互聯(lián)網(wǎng)發(fā)展的十件大事”,認(rèn)為“規(guī)范管理和合理利用微博是經(jīng)營者和相關(guān)主管部門面臨新挑戰(zhàn)”[12]。
近兩年微博的迅速發(fā)展,給監(jiān)管部門帶來了以下挑戰(zhàn): 第一,數(shù)量驚人,產(chǎn)生速度驚人,傳播速度驚人。僅新浪微博網(wǎng)站,目前已經(jīng)積累了20億條微博,每秒鐘能產(chǎn)生785條微博,這些微博可瞬間遍布于與新浪微博網(wǎng)站建立內(nèi)容分享關(guān)系的1萬家全球網(wǎng)站。微博數(shù)量之大、影響規(guī)模之廣,令人震驚;第二,微博內(nèi)容極其獨(dú)特,除了具有“短”、“口語化”、“網(wǎng)絡(luò)性”、“圖標(biāo)化”等網(wǎng)絡(luò)文本所具有的共同特點(diǎn)外,還具有顯著的“對(duì)話性”特點(diǎn)。這些特點(diǎn)給傳統(tǒng)文本分析處理帶來了數(shù)據(jù)稀疏性問題,不規(guī)范的文法也給語言分析帶來巨大困難。
于是,針對(duì)微博文本的研究工作應(yīng)運(yùn)而生。在語言分析層面上,研究涉及詞匯層(如分詞和詞性標(biāo)注),句法層(如命名實(shí)體識(shí)別和語法分析),語義層(如語義分析)。而微博文本的研究還和一些語言技術(shù)有關(guān),例如,文本分類,信息抽取,話題檢測(cè),自動(dòng)摘要,對(duì)話系統(tǒng),情感分析等。對(duì)于微博文本的研究還可以應(yīng)用于現(xiàn)實(shí)生活中的許多方面,例如,電子商務(wù),信息監(jiān)控,民意調(diào)查,電子學(xué)習(xí),商業(yè)智能,企業(yè)管理等。例如,挖掘一個(gè)企業(yè)的官方微博評(píng)論或回復(fù),可以了解用戶對(duì)該企業(yè)推出的新產(chǎn)品有什么意見和建議,促使企業(yè)進(jìn)一步改進(jìn)產(chǎn)品的質(zhì)量,其他用戶也可以根據(jù)評(píng)論來決定是否購買該產(chǎn)品。
圖1說明了對(duì)于微博文本的研究所涉及的語言分析層面、相關(guān)語言技術(shù)和部分應(yīng)用領(lǐng)域。
圖1 微博文本處理研究所涉及的語言分析、文本處理和部分應(yīng)用領(lǐng)域
綜上所述,微博文本的研究是一項(xiàng)有前途的、新穎的工作,但是,它同樣也面臨著許多問題和挑戰(zhàn)。因此,對(duì)于微博文本的研究工作不僅具有理論意義,而且具有實(shí)用價(jià)值。
本節(jié),我們從語言分析、文本處理和用戶行為三個(gè)方面介紹國際國內(nèi)針對(duì)微博文本的研究現(xiàn)狀。在文本處理層面,我們又將研究工作劃分四個(gè)典型的課題進(jìn)行闡述。最后,介紹目前已經(jīng)存在的微博文本數(shù)據(jù)集和兩個(gè)微博文本應(yīng)用系統(tǒng)。
早期與微博文本相關(guān)的工作集中在語言分析方面。Java等對(duì)微博的概念和作用進(jìn)行了總結(jié)和探討,介紹了微博的即時(shí)性、共享性、快速傳播等特點(diǎn),并從各個(gè)角度統(tǒng)計(jì)了微博在近年來的使用增長情況[13]。文章根據(jù)用戶之間的關(guān)系,闡述了哪一類用戶會(huì)分享相同的微博信息。Kwak等討論了微博的出現(xiàn),作為一種社交網(wǎng)絡(luò)或者是一種新聞媒介,對(duì)世界的影響[14]。并全面統(tǒng)計(jì)和剖析了從Twitter出現(xiàn)的三年來,Twitter的所有相關(guān)數(shù)據(jù),包括Twitter的日發(fā)布量、發(fā)布總量、使用人數(shù)等。Ellen則對(duì)微文本(microtext)進(jìn)行了特征分析,認(rèn)為微文本具有“短”、“文法不規(guī)范”和“半結(jié)構(gòu)化”等特點(diǎn)[15]。這些工作對(duì)研究者了解并把握微博文本的特征提供了重要依據(jù)。
在此基礎(chǔ)上,Shen等從Twitter(www.twitter.com)、飯否網(wǎng)(http://fanfou.com/)和嘰歪網(wǎng)(m.jiwai.de)下載了976 348 篇微博文本,采用TFIDF算法對(duì)中文微博文本語言進(jìn)行了初步的分析和統(tǒng)計(jì)[16]。而Locke等則將命名實(shí)體識(shí)別引入到微博文本的研究中[17]。文章采用分類的方法,將命名實(shí)體分為三個(gè)不同的類別(人名,地名,機(jī)構(gòu)名),Locke指出,微博文本由于具有與普通文本許多不同的特征,所以在進(jìn)行特征選擇時(shí),應(yīng)該選擇微博文本所特有的特征,再進(jìn)行分類。實(shí)驗(yàn)證明,該方法取得了一定程度的提高。
在初步了解了微博文本的語言特點(diǎn)后,研究者們開始嘗試對(duì)微博文本進(jìn)行處理。與微博文本相關(guān)的文本處理技術(shù)有很多,在這里,我們主要介紹四個(gè)典型的課題,即文本分類和聚類、信息抽取、話題檢測(cè)和情感分析。
3.2.1 文本分類和聚類
所謂微博文本的分類和聚類,就是根據(jù)微博主題的不同,將描述一類話題的微博文本聚集到一起,方便用戶閱讀和參考。但由于微博文本字?jǐn)?shù)少,區(qū)別于普通文本的特點(diǎn)很多,所以在使用機(jī)器學(xué)習(xí)的方法對(duì)其進(jìn)行分類或聚類時(shí),常常會(huì)產(chǎn)生嚴(yán)重的數(shù)據(jù)稀疏問題,對(duì)性能產(chǎn)生影響。
于是,研究者們對(duì)解決數(shù)據(jù)稀疏問題進(jìn)行了一些嘗試。Sriram等考慮到微博文本區(qū)別于普通文本的特征,共選取了八類特征(即作者信息,發(fā)布時(shí)間,標(biāo)志符號(hào)等)[18]。加入這些特征后,分類性能得到了顯著提高,改善了數(shù)據(jù)稀疏的問題。而Liu等提出在特征選擇的時(shí)候考慮詞性,選擇微博文本中詞性豐富的詞匯作為初始特征,再采取HowNet語義知識(shí)庫,將這些詞匯擴(kuò)展到語義相關(guān)的詞匯,從而達(dá)到特征擴(kuò)展的目的,最終克服微博文本的數(shù)據(jù)稀疏問題[19]。實(shí)驗(yàn)證明,該方法獲得了一定程度的提高。
另外,還有一些研究方法并不局限于對(duì)微博文本的特征選擇,而是利用數(shù)據(jù)中的某些現(xiàn)象來提高分類或聚類效果。例如,彭澤映等通過實(shí)驗(yàn)分析,發(fā)現(xiàn)了微博數(shù)據(jù)類別中所具有的“長尾現(xiàn)象”,并由此提出了不完全聚類信息,可以有效地提高這類信息的聚類性能[20]。Churchill等則根據(jù)微博用戶的社會(huì)關(guān)系,先對(duì)用戶進(jìn)行聚類,然后結(jié)合貝葉斯分類算法,利用用戶聚類的結(jié)果提高分類性能[21]。類似的,M. Yoshida等首先對(duì)檢索微博的查詢?cè)~分類,然后再根據(jù)查詢結(jié)果對(duì)檢索到的微博進(jìn)行分類[22],同樣取得了一些提升。
上述這些研究工作只是發(fā)現(xiàn)和利用了微博文本中的一部分特點(diǎn)和現(xiàn)象。如果能利用盡可能多的微博文本特點(diǎn),則會(huì)在特征選擇的過程中盡可能多地提取特征,從而提高微博文本分類或聚類的效果。
3.2.2 信息抽取
對(duì)微博文本的信息抽取工作,其目標(biāo)類似于對(duì)普通文本的信息抽取。特殊的是,由于微博文本長度較短,在對(duì)其進(jìn)行處理時(shí),通常是先將同一話題的一批微博文本聚類到一起,再抽取用戶所需的信息。
B. Sharifi等首先提出了從與某一話題相關(guān)的眾多微博中自動(dòng)的抽取出具有概括性總結(jié)的方法[23]。文章中使用了PR(Phrase Reinforcement)算法,找到包含某一話題出現(xiàn)次數(shù)最多的短語作為總結(jié)句。然后B.Shrarifi等將上述文章的方法應(yīng)用到了從Twitter.com網(wǎng)站上挖掘到的特定領(lǐng)域的微博資源[24]。實(shí)驗(yàn)結(jié)果顯示,系統(tǒng)的效果和人工的效果很相近。
針對(duì)微博文本的信息抽取還涉及到其他相關(guān)的自然語言處理技術(shù)。例如,Petrovi′c等將事件檢測(cè)技術(shù)融入到微博文本中,文章提出的方法的處理速度好于目前大多數(shù)的事件檢測(cè)系統(tǒng)[25]。而Sakaki等借助用戶行為特征,對(duì)網(wǎng)絡(luò)微博文本進(jìn)行實(shí)時(shí)監(jiān)控,從而在第一時(shí)間使用戶了解近期內(nèi)發(fā)生的熱點(diǎn)事件[26]。實(shí)驗(yàn)結(jié)果表明,該實(shí)時(shí)事件檢測(cè)系統(tǒng)的效果較好。Zhao等對(duì)Twitter文本進(jìn)行與話題相關(guān)的關(guān)鍵詞抽取[27]。他們提出了一種基于上下文的PageRank算法,根據(jù)相關(guān)度,對(duì)與話題相關(guān)的關(guān)鍵詞排序,最終抽取關(guān)鍵詞。當(dāng)然,微博本身還有很多有趣的信息可以提取,還有待研究者們進(jìn)一步探索和思考。
3.2.3 話題檢測(cè)
區(qū)別于微博的信息抽取工作,針對(duì)微博文本的話題檢測(cè)則是將每個(gè)微博文本看作一個(gè)個(gè)體,然后將其與給定話題進(jìn)行比較,由此得出微博的主題。
微博話題檢測(cè)工作具有很重要的意義,它主要具有兩方面的功能: 第一,可以使用戶了解近期國內(nèi)外所發(fā)生的重要事件。Sharifi等提出了自動(dòng)總結(jié)微博文本主題的方法[28]。文章提出了一種基于最大公共子串的方法將含有該子串的微博聚集到一起,并最終采用該最大公共子串作為這一類微博的主題。而O’Connor等則采用文檔聚類和文本摘要的技術(shù),采用四個(gè)步驟對(duì)與檢索詞相關(guān)的話題進(jìn)行歸納[29]。他們的成果形成了一個(gè)微博應(yīng)用系統(tǒng)(見3.3節(jié))。這些研究工作的貢獻(xiàn)主要在于,為用戶提供了一個(gè)平臺(tái),根據(jù)話題的不同,去了解用戶感興趣的事件。
第二,可以幫助用戶在瀏覽微博時(shí)濾去很多無關(guān)文本,節(jié)省用戶的操作時(shí)間。Ramage等采取Labeled LDA模型,將Twitter微博文本映射到substance、style、 status和social characteristics 四個(gè)潛在維,并基于上述分析結(jié)果實(shí)現(xiàn)了微博排序和微博推薦兩個(gè)功能[30]。Weng等則采用了一種擴(kuò)展自PageRank的TwitterRank算法,對(duì)在檢索模型中檢索到的相關(guān)微博文本,根據(jù)與話題的相似度進(jìn)行排序[31]。類似的,Duan等提出用Learning to rank算法選取特征的方法,結(jié)合微博本身的內(nèi)容,對(duì)微博文本和話題的相關(guān)度進(jìn)行排序[32]。
但是以上工作均假定微博文本之間彼此獨(dú)立,針對(duì)一個(gè)個(gè)的微博文本進(jìn)行處理,并不能有效利用微博的“對(duì)話性”特點(diǎn),所以有些工作還是存在著嚴(yán)重的數(shù)據(jù)稀疏問題。
3.2.4 情感分析
關(guān)于微博文本的情感分析工作具有十分重要的商業(yè)價(jià)值。越來越多的商家都推出了官方微博,用戶可以通過其他消費(fèi)者在微博上的評(píng)論信息來決定是否購買該商家的產(chǎn)品,同時(shí),商家也可以根據(jù)用戶的評(píng)論反饋,監(jiān)督產(chǎn)品的市場效應(yīng)。
在微博文本中,時(shí)常有表情符號(hào)出現(xiàn),這種現(xiàn)象也給微博的情感分析工作帶來了困難。Read等闡述了在情感分類問題中處理表情符號(hào)的問題[33]。文章指出,利用Twitter API可以獲得大量的表情符號(hào),而表情符號(hào)所表示的含義一般都是很明顯的。如代表積極,而代表消極。
除了對(duì)表情符號(hào)的處理外,微博文本的情感分析工作主要是由機(jī)器學(xué)習(xí)方法來處理。Go等首次提出了對(duì)微博文本進(jìn)行情感分析的思想[34]。文章采用無監(jiān)督指導(dǎo)的三種機(jī)器學(xué)習(xí)方法(樸素貝葉斯,最大熵和支持向量機(jī)),將表情符號(hào)也加入到選取的特征中,取得了超過80%的分類準(zhǔn)確率。接著Go等在他們前期工作的基礎(chǔ)上,加入在文本中識(shí)別出的諷刺或反語句作為新特征,提升了情感分類的效果[35]。最后,Go等對(duì)微博文本的情感分析研究工作進(jìn)行了總結(jié)[36],包括使用的機(jī)器學(xué)習(xí)方法,選取特征的方法,以及錯(cuò)誤的分析方法示例。
類似使用機(jī)器學(xué)習(xí)方法來進(jìn)行微博文本情感分析的研究工作還有很多。Pak 和Paroubek組織標(biāo)注了一個(gè)Twitter微博文本情感極性數(shù)據(jù)集,實(shí)現(xiàn)了基于樸素貝葉斯、SVM和CRF的情感分類器[37]。Barbosa和Feng提出了一個(gè)兩階段Twitter文本情感極性分類方法,第一步區(qū)分主觀與客觀,第二步再區(qū)分積極與消極[38]。由于評(píng)測(cè)數(shù)據(jù)來自三個(gè)不同的Tweet網(wǎng)站: Twendz、Twitter Sentiment和TweetFeel,而三個(gè)網(wǎng)站對(duì)情感分類的標(biāo)注不一,導(dǎo)致數(shù)據(jù)噪音。為解決這個(gè)問題,Barbosa和Feng對(duì)三個(gè)網(wǎng)站進(jìn)行了分析,并設(shè)計(jì)了不同的融合策略,以最終實(shí)現(xiàn)較好的分類性能。而Li等則采用在線協(xié)同學(xué)習(xí)的方法,對(duì)Twitter的微博文本進(jìn)行情感分類[39]。他們?cè)诓煌卣鞯奈⒉┯?xùn)練文本的基礎(chǔ)上,訓(xùn)練出多個(gè)單一的情感分類器,然后,這些單一的分類器組成一個(gè)全局模型,進(jìn)行情感分類。
用戶是微博系統(tǒng)的根本,除了對(duì)微博進(jìn)行語言分析和文本處理方面的研究外,對(duì)微博系統(tǒng)用戶的行為分析也是十分必要的。在很多情況下,一個(gè)微博系統(tǒng)的用戶體驗(yàn),是決定該微博系統(tǒng)成功與否的重要因素。
Ritter等提出了一種無指導(dǎo)建模方法,分別采取Conversation模型、Conversation+Topic模型及貝葉斯模型三種模型,從Twitter微博文本中識(shí)別八類用戶的對(duì)話行為[40]。而Davidov等則提出了一種半監(jiān)督的指導(dǎo)學(xué)習(xí)方法,識(shí)別微博文本和產(chǎn)品評(píng)論中的諷刺和反語句子[41]。文章采用了模板匹配和機(jī)器學(xué)習(xí)相結(jié)合的方法,抽取目標(biāo)語句。但文章在分類時(shí)采用了基于標(biāo)點(diǎn)符號(hào)的特征,特征的覆蓋面較小,對(duì)分類效果產(chǎn)生了影響。
除了對(duì)用戶行為語句的挖掘外,還有一些研究工作針對(duì)用戶本身來展開。例如,判斷用戶自身的興趣以及用戶發(fā)布微博所在地等。Weng等通過分析網(wǎng)頁中的Hashtags,建立基于全局的用戶興趣判定模型,從而判斷用戶的真正感興趣的事物[42]。而Cheng等的研究工作十分新穎: 根據(jù)用戶發(fā)布的Twitter內(nèi)容,對(duì)用戶目前的所在地進(jìn)行判斷[43]。不需要獲得用戶的IP地址,分析用戶的發(fā)布內(nèi)容,從中提取特征訓(xùn)練分類器,從而達(dá)到判斷用戶所在地的目的。但由于微博文本的自身特點(diǎn),使用機(jī)器學(xué)習(xí)方法對(duì)微博文本進(jìn)行處理,總會(huì)帶來嚴(yán)重的數(shù)據(jù)稀疏問題,上述文章對(duì)數(shù)據(jù)稀疏的解決效果并不突出。
對(duì)微博文本的研究沒有公認(rèn)的數(shù)據(jù)集,大部分的研究工作都采用從微博網(wǎng)站上挖掘到的網(wǎng)絡(luò)資源。大多數(shù)的研究工作都從Twitter網(wǎng)站上挖掘到大量的微博文本,然后再根據(jù)研究者的需要進(jìn)行預(yù)處理。例如,上文提到的Sharifi等、O’Connor等、Ritter等都從Twitter上獲得微博文本。也存在一些研究工作使用從不同的微博網(wǎng)站上抽取到的資源。例如,Barbosa和Feng就使用了Twendz、Twitter、Sentiment和TweetFeel網(wǎng)站上抽取到的微博文本,因?yàn)檫@三個(gè)網(wǎng)站對(duì)微博文本進(jìn)行了一定程度的情感標(biāo)注,所以對(duì)微博文本的情感分析工作有很大的幫助。
而由于中文微博文本的研究工作起步較晚,針對(duì)中文微博文本的數(shù)據(jù)集也相對(duì)較少。目前使用較廣泛的中文微博網(wǎng)站有新浪微博、騰訊微博、搜狐微博等。
關(guān)于微博文本的研究已經(jīng)出現(xiàn)了一些成熟的演示系統(tǒng)。上文中所提到的O’Connor等開發(fā)了一個(gè)微博檢索和話題檢測(cè)聚類平臺(tái)*http://tweetmotif.com/,對(duì)用戶給定的查詢?cè)~,系統(tǒng)首先生成與該查詢?cè)~所相關(guān)的40個(gè)話題詞或短語(短語長度不超過三個(gè)詞),然后對(duì)每個(gè)話題進(jìn)行檢索,生成包含該話題詞或短語的微博文本。
另外,Mathioudakis和Koudas也開發(fā)出了一個(gè)對(duì)微博文本進(jìn)行分類,以檢測(cè)其描述話題的應(yīng)用系統(tǒng)[44]。文章首先收集相同時(shí)間段內(nèi)突現(xiàn)的高頻熱門詞,認(rèn)為這些高頻詞都是在談?wù)撏粋€(gè)話題,例如,“NBA”、“湖人”、“魔術(shù)”、“比賽”這些詞語在同一時(shí)間段內(nèi)反復(fù)出現(xiàn),則文章認(rèn)為是有很多網(wǎng)友通過微博對(duì)一場NBA比賽進(jìn)行評(píng)論。然后再通過對(duì)熱門詞的歸類,完成對(duì)微博的分類。
本文介紹了國內(nèi)外在對(duì)微博文本研究的方法、技術(shù)和應(yīng)用系統(tǒng)中所取得的成果。在這些研究中,主要是圍繞著兩大方面、四個(gè)子任務(wù)展開的。雖然在國內(nèi)外所進(jìn)行的微博文本研究已取得了相當(dāng)?shù)倪M(jìn)展,但還存在著一些不足之處,主要有以下四點(diǎn)。
1) 尚未提出有效的數(shù)據(jù)稀疏問題解決方法。盡管有研究者采取語義詞典對(duì)微博文本進(jìn)行擴(kuò)展,但這種拓展并不能實(shí)質(zhì)擴(kuò)大文本的規(guī)模。前文分析中多次提到微博文本的“對(duì)話性”。我們認(rèn)為,可充分利用這一特性,有效利用微博線索中的文本,根本解決數(shù)據(jù)稀疏問題。
2) 針對(duì)微博文本不正式文法的研究并不多,尤其在漢語微博文本方面并不多見。Xia等曾對(duì)出現(xiàn)在聊天文本的網(wǎng)絡(luò)語言進(jìn)行了系統(tǒng)研究,但針對(duì)微博文本的研究尚待繼續(xù)[45]。
3) 評(píng)論的數(shù)量在微博文本中占多數(shù),為提高發(fā)帖效率,人們經(jīng)常通過指代或者省略手段利用上下文,這導(dǎo)致大量話題省略、指代現(xiàn)象的出現(xiàn),給話題分析和意見對(duì)象分析帶來重大挑戰(zhàn)。
4) 意見陳述極具個(gè)性化,表達(dá)非常靈活,網(wǎng)絡(luò)語言經(jīng)常出現(xiàn),語法也很不規(guī)范,有時(shí)從字面難以獲知主觀性,這給主觀性分析和意見陳述識(shí)別帶來了困難。
上述問題的普遍存在,使微博文本研究與實(shí)際應(yīng)用還相距較遠(yuǎn)。深入系統(tǒng)的研究將彌補(bǔ)上述研究中的不足,包括魯棒話題分析模型、大規(guī)模微博文本處理系統(tǒng)等方面。同時(shí),迫切需要一個(gè)大規(guī)模的微博文本語料庫,并基于該語料庫展開公開的算法評(píng)測(cè),以推動(dòng)大規(guī)模研究的開展。這對(duì)有效應(yīng)對(duì)微博迅速發(fā)展、微博文本急劇膨脹的現(xiàn)實(shí)需求,無疑是十分重要和必要的。
[1] N. Dyke, H. Lieberman, P. Maes. Butterfly: A Conversation-Finding Agent for Internet Relay Chat[C]//Proceedings of the 4th International Conference on Intelligent User Interfaces, 1999.
[2] L. Zhou, E. Hovy. Digesting Virtual “Geek” Culture: The Summarization of Technical Internet Relay Chats[C]//Proceedings of ACL 2005: 298-305.
[3] P. Adams, C. Martell. Topic Detection and Extraction in Chat[C]//Proceedings of ICSC 2008: 581-588.
[4] D. Shen, Q. Yang,J. Sun, et al. Thread Detection in Dynamic Text Message Streams[C]//Proceedings of SIGIR’06: 35-42.
[5] 彭京,楊冬青,唐世渭,等. 一種基于語義內(nèi)積空間模型的文本聚類算法[J]. 計(jì)算機(jī)學(xué)報(bào),2007,8(30):1354-1363.
[6] 吳薇. 大規(guī)模短文本的分類過濾方法研究[D]. 北京郵電大學(xué),2007碩士學(xué)位論文.
[7] 龔才春. 短文本語言計(jì)算的關(guān)鍵技術(shù)研究[D]. 中國科學(xué)院研究生院,2008博士學(xué)位論文.
[8] L. Wang. Conversation Extraction in Dynamic Text Message Stream[J]. Journal of Computers, 2008, 3(10): 86-93.
[9] X.-H. Phan, L.-M. Nguyen. Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections[C]//Proceedings of WWW 2008.
[10] 黃永光,劉挺,車萬翔,等. 面向變異短文本的快速聚類算法[J]. 中文信息學(xué)報(bào),2007,21(3):63-68.
[11] 周文林. 中國微博市場催生巨大商業(yè)價(jià)值[N/OL]. 新華網(wǎng). 2010年11月17日,http://news.xinhuanet.com/eworld/2010-11/17/c_12783668.htm.
[12] 網(wǎng)易科技. 影響2010中國互聯(lián)網(wǎng)發(fā)展的十件大事[N/OL]. 網(wǎng)易科技報(bào)道. 2011年1月18日,http://tech.163.com/11/0118/15/6QMJJ4CG00094JC9.html.
[13] A. Java, X. Song. Why We Twitter: Understanding Microblogging Usage and Communities [C]//Proceedings of Joint 9th WEBKDD and 1st SNA-KDD Workshop ’07. San Jose, California, USA, 2007.
[14] Haewoon Kwak, Changhyun Lee, Hosung Park, et al. What is Twitter, a Social Network or a News Media?[C]//Proceedings of WWW2010, Raleigh, North Carolina, 2010.
[15] J. Ellen. All about microtext: A working definition and a survey of current microtext research within artificial intelligence and natural language processing[C]//Proceedings of ICAART-11. Rome, Italy: Springer.
[16] Y. Shen, C. Tian, S. Li, et al. The Grand Information Flows in Micro-blog[J]. Journal of Information & Computational Science 2009,6(2): 683-690.
[17] B. Locke. Named Entity Recognition: Adapting to Microblogging [D]. PhD Thesis, University of Colorado. 2009.
[18] B. Sriram, David Fuhry, Engin Demir, et al. Short Text Classification in Twitter to Improve Information Filtering[C]//Proceedings of SIGIR’10. Geneva, Switzerland, 2010.
[19] Z. Liu, W. Yu, W. Chen, et al. Short Text Feature Selection and Classification for Micro Blog Mining [C]//Proceedings of CiSE’2010:1-4, 2010.
[20] 彭澤映,俞曉明,許洪波,等. 大規(guī)模短文本的不完全聚類 [J]. 中文信息學(xué)報(bào),2011, 25(1):54-59.
[21] A. L. Churchill, E. G. Liodakis, S. H. Ye. Twitter Relevance Filtering via Joint Bayes Classifiers from User Clustering [R]. University of Stanford, Dec. 12, 2010.
[22] M. Yoshida, S. Matsushima, S. Ono, et al. ITC-UT: Tweet Categorization by Query Categorization for On-line Reputation Management [R]. University of Tokyo, 2010.
[23] B. Sharifi, M.-A. Hutton, J. Kalita. Summarizing Microblogs Automatically[C]//Proceedings of NAACLHLT’2010:685-688.
[24] B. Sharifi, M.-A. Hutton, J. Kalita. Experiments in Microblog Summarization [C]//Proceedings of NAACL-HLT’2010.
[25] S. Petrovi′c, M. Osborne, V. Lavrenko. Streaming First Story Detection with application to Twitter [C]//Proceedings of HLT-NAACL’2010: 181-189.
[26] T. Sakaki, M. Okazaki, Y. Matsuo. Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors[C]//WWW2010, Raleigh, North Carolina, 2010.
[27] W. Zhao, J. Jiang, J. He, et al. Topical Keyphrase Extraction from Twitter[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, Portland, Oregon, 2011: 379-388.
[28] B. Sharifi, M. Hutton, J. Kalita. Automatic Summarization of Twitter Topics [C]//Proceedings of National Workshop on Design and Analysis of Algorithm, Tezpur, India, 2010.
[29] B. O’Connor, M. Krieger, D. Ahn. TweetMotif: Exploratory Search and Topic Summarization for Twitter [C]//Proceedings of ICWSM 2010.
[30] D. Ramage, S. Dumais, D. Liebling. Characterizing Microblogs with Topic Models[C]//Proceedings of ICWSM’2010.
[31] J. Weng, E.-P. Lim, J. Jiang, et al. TwitterRank: Finding Topic-sensitive Influential Twitterers[C]//Proceedings of WSDM’10. New York, USA, 2010.
[32] Y. Duan, L. Jiang, T. Qin, et al. An Empirical Study on Learning to Rank of Tweets[C]//Proceedings of Coling 2010, Beijing, 2010:295-303.
[33] J. Read. Using emoticons to reduce dependency in machine learning techniques for sentiment classification [C]//Proceedings of the ACL Student Research Workshop. Association for Computational Linguistics, Morristown, NJ, 2005.
[34] A. Go, R. Bhayani, L. Huang. Twitter Sentiment Classification using Distant Supervision [R]. CS224N Project Report, Stanford, 2009.
[35] A. Go, R. Bhayani, L. Huang. Exploiting the Unique Characteristics of Tweets for Sentiment Analysis [R]. CS224N Project Report, Stanford, 2009.
[36] A. Go, R. Bhayani, L. Huang. Twitter Sentiment Analysis [R]. CS224N Final Project Report, Stanford, 2009.
[37] A. Pak, P. Paroubek. Twitter as a Corpus for Sentiment Analysis and Opinion Mining [C]//Proceedings of LREC 2010: 1320-1326.
[38] L. Barbosa, J. Feng. Robust Sentiment Detection on Twitter from Biased and Noisy Data [C]//Proceedings of COLING’2010: 36-44.
[39] G. Li, S. Hoi, K. Chang, et al. Micro-blogging Sentiment Detection by Collaborative Online Learning[C]//Proceedings of ICDM 2010, Sydney, Australia, 2010.
[40] A. Ritter, C. Cherry, B. Dolan. Unsupervised Modeling of Twitter Conversations [C]//Proceedings of HLT-NAACL’ 2010: 172-180.
[41] D. Davidov, O. Tsur, A. Rappoport. Semi-Supervised Recognition of Sarcastic Sentences in Twitter and Amazon [C]//Proceedings of CoNLL 2010.
[42] J. Weng, E. Lim, Q. He, C. Leung. What Do PeopleWant in Microblogs? Measuring Interestingness of Hashtags in Twitter[C]//Proceedings of ICDM 2010, Sydney, Australia, 2010.
[43] Z. Cheng, J. Caverlee, K. Lee. You Are Where You Tweet: A Content-Based Approach to Geo-locating Twitter Users[C]//Proceedings of CIKM 2010, Toronto, Ontario, Canada, 2010.
[44] M. Mathioudakis, N. Koudas. T. Monitor: Trend Detection over the Twitter Stream[C]//Proceedings of SIGMOD’10, New York, USA, 2010.
[45] Y. Xia, K.-F. Wong, W. Li. A Phonetic Based Approach to Chinese Chat Term Normalization[C]//Proceedings of COLING/ACL Joint Conference, Sydney, Australia, 2006, 2: 993-1000.