亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于依存句法分析的社會媒體文本挖掘方法
        ——以飲食習(xí)慣特色分析為例

        2014-02-28 00:45:11車萬翔
        中文信息學(xué)報 2014年6期
        關(guān)鍵詞:特色文本分析

        任 彬,車萬翔,劉 挺

        (哈爾濱工業(yè)大學(xué) 社會計算與信息檢索研究中心,黑龍江 哈爾濱 150001)

        1 引言

        正經(jīng)歷爆發(fā)式增長的社會媒體數(shù)據(jù)對社會科學(xué)的影響越來越大[1-2]。通過挖掘社會媒體文本獲得信息,相比于社會學(xué)研究中傳統(tǒng)的問卷調(diào)查方式,有著更真實、數(shù)據(jù)量大、費用低等優(yōu)點,因而越來越被廣泛使用。通過社會媒體文本挖掘,可以預(yù)測一個人的性別、年齡、個性等[3],甚至可以預(yù)測股票價格或是電影票房[4]。在本文中,我們則嘗試挖掘新浪微博的內(nèi)容文本,來進行飲食習(xí)慣特色的分析。

        目前在社會媒體文本挖掘中,基于詞表的方法使用得最為普遍。其本質(zhì)是將待分析文本與給定詞表中的詞相匹配。例如,“鼻子”、“皮膚”、“手”等詞語會被放進一個“身體”詞表中,通過統(tǒng)計外向的人和內(nèi)向的人誰的語言中這些詞出現(xiàn)得更頻繁,就可以探究哪種人更常討論“身體”這個話題[3]。基于詞表的文本挖掘方法簡單易用,應(yīng)用廣泛。LIWC (Linguistic Inquiry and Word Count)[5-6],就提供了涉及詞性、常見話題等不同方面的英文詞表,得以讓研究者利用不同詞典,開展興趣、情緒、思維方式、個體差異等方面的研究[7]。

        然而,這種基于詞表的文本挖掘方法有較明顯的缺點。只基于詞表,相當于只應(yīng)用詞本身的信息,而不考慮詞的多義性和其在句子中有上下文時的特定含義。這樣就會使得結(jié)果混入較多噪聲,準確率較低。例如,“蘋果”這個詞既有可能指食品蘋果,也可能指蘋果手機。當利用微博文本研究飲食習(xí)慣特色時,如果簡單地應(yīng)用基于詞表的方法,一旦出現(xiàn)詞表中的某個詞就算作一次飲食行為。那么,如果食品詞表包含“蘋果”,就會把談到蘋果手機的微博也算作吃蘋果出現(xiàn)一次。

        另一方面,中文的自然語言處理(NLP)技術(shù)實際分為分詞、詞性標注、句法分析等多個層次?;谠~表的文本挖掘方法只應(yīng)用詞本身的信息,相當于只用分詞層次的結(jié)果,詞性以及句法分析信息都沒得到有效利用。而NLP技術(shù)的發(fā)展,已經(jīng)使得詞性標注、句法分析等技術(shù)相當成熟且容易使用。句法分析就已經(jīng)廣泛用于機器翻譯、自動問答、信息抽取等應(yīng)用。

        因此,我們提出了基于依存句法分析的文本挖掘方法,嘗試把詞性標注、依存句法分析技術(shù)等深層NLP技術(shù)應(yīng)用到對社會媒體文本的挖掘上,使得對社會媒體文本的分析更加準確有效。這種方法在對微博文本進行分詞處理的基礎(chǔ)上,進一步進行詞性標注和依存句法分析,然后根據(jù)任務(wù)需求設(shè)定具體的一個或一系列規(guī)則,來挖掘文本語料中的信息。還是用剛才關(guān)于蘋果的例子來說明這種方法能帶來的進步和好處。當進行了詞性標注和依存句法分析以后,可以用觸發(fā)詞“吃”和動賓搭配的規(guī)則過濾出真正吃蘋果的行為。因為,很明顯,如果你提到的是蘋果手機,你肯定不會說“我吃了蘋果”?;谝来婢浞ǚ治龅奈谋就诰蚍椒?,就是用這樣的方式,利用更多的上下文信息,減少對文本內(nèi)容的誤讀,提高數(shù)據(jù)利用的準確性。我們還設(shè)計并進行了實驗,證明了在社會媒體文本挖掘上,基于依存句法分析的方法,的確比基于詞表的方法準確率更高。

        利用這種基于依存句法分析的文本挖掘方法,我們對微博用戶進行了飲食習(xí)慣特色分析。做法是對微博文本的依存句法分析結(jié)果,通過設(shè)定特定的識別規(guī)則,從中分析出每條微博是否反映了真實的飲食行為,如果確實反映飲食行為,相應(yīng)的食品是什么。再把微博相應(yīng)飲食行為的食品與微博本身的屬性,如發(fā)微博時間、發(fā)微博人的性別、地區(qū)等對應(yīng)起來進行分析,就能得到關(guān)于不同性別、不同地區(qū)、不同時間段的飲食習(xí)慣特色。

        本文的貢獻主要在于: 第3節(jié)提出了一種基于依存句法分析的方法,能更準確地進行社會媒體文本挖掘;第4節(jié)將這種基于依存句法分析的文本挖掘方法與基于詞表的文本挖掘方法進行了實驗對比,證明了前者在準確率上有顯著提高;第5節(jié)用基于依存句法分析的文本挖掘方法,對社會媒體新浪微博上的文本,進行飲食習(xí)慣特色分析,獲得了不同性別、不同地區(qū)、不同時間段的飲食習(xí)慣特色。這是用社會媒體文本進行社會信息挖掘的一種新的嘗試。

        2 背景

        2.1 基于詞表的文本挖掘方法

        在用基于詞表的方法進行文本分析時,使用最廣泛的就是Linguistic Inquiry and Word Count (LIWC)[5-6]。2007年版本的LIWC,包含了將近 4 500個詞,這些詞被64個不同的類別組織起來,即提供了64個詞表,如其中包括涉及情感傾向性分析的積極情緒(positive emotion)詞表和消極情緒(negative emotion)詞表。

        當一個研究者,想要了解一段文本是有積極情緒的傾向還是消極情緒的傾向時,只需把待分析文本輸入給LIWC工具,它就能統(tǒng)計出這段文本中詞語分屬于兩個詞表的比例,進而確定這段文本的情感傾向性。如果屬于積極情緒詞表的詞語比例高,則文本傾向積極;反之則傾向消極。

        所以,基于詞表的文本挖掘方法本質(zhì)上就是通過將待分析文本與給定詞表進行匹配,進而獲得信息。

        2.2 依存句法分析

        由于我們提出的是基于依存句法分析的文本挖掘方法,因而有必要闡述依存句法分析的基本概念。

        例如,對句子“我剛才吃了一個蘋果?!边M行依存句法分析的結(jié)果如圖1所示。

        圖1 依存句法分析結(jié)果示例

        依存分析的結(jié)構(gòu)中,詞與詞之間直接發(fā)生依存關(guān)系,構(gòu)成一個依存對。一個依存對的兩個詞中,其中一個是核心詞,也稱為支配詞;另一個是修飾詞,也稱為從屬詞。依存關(guān)系用一個有向弧表示,稱為依存弧。在本文中,規(guī)定依存弧的方向為由從屬詞指向支配詞。在上圖中,每個依存弧上有一個標記,叫做關(guān)系類型,表示該依存對中的兩個詞之間存在什么樣的依存關(guān)系[8]。本文研究中在依存句法分析過程中使用了哈爾濱工業(yè)大學(xué)LTP開源工具[9]提供的依存句法分析功能,因而依存關(guān)系的規(guī)定與劃分也就默認遵循哈工大LTP所使用的依存規(guī)則。

        2.3 利用社會媒體文本挖掘飲食習(xí)慣特色

        據(jù)我們所知,目前尚未有基于社會媒體文本對飲食習(xí)慣特色進行分析的研究。但有一些基于社會媒體數(shù)據(jù)挖掘社會信息的研究,與我們的研究貼近。Golder利用Twitter數(shù)據(jù)探究工作、睡眠、晝長對個體情緒的影響,發(fā)現(xiàn)了人們在周末更開心[10]。Dodds利用社會媒體文本分析研究社會層面的幸福感[11]。Hannak利用大量Twitter上的文本數(shù)據(jù),研究了天氣和時間對群體情緒的影響[12]。這些工作也都是利用社會媒體文本進行社會學(xué)統(tǒng)計信息的挖掘。

        3 基于依存句法分析的文本挖掘方法

        3.1 識別規(guī)則

        首先,對這些微博文本進行分詞、詞性標注和依存句法分析。接下來我們需要利用依存句法分析結(jié)果判斷微博是否反映了真實的飲食行為。我們使用了規(guī)則匹配的方法。我們都知道,當談到飲食行為時,“我吃/喝了某種食品”是最常見的句式。

        所以,當給定一條微博,要判斷是否反映了真實的飲食行為時,我們可以對微博內(nèi)容的句法分析結(jié)果應(yīng)用這樣一條簡單規(guī)則:

        含詞語“吃”/“喝”且以“吃”/“喝”為支配詞的句法關(guān)系為動賓關(guān)系(VOB) 且 “吃”/“喝”的賓語為名詞(n)

        以此規(guī)則來過濾。如果微博內(nèi)容符合這個有三個條件的規(guī)則,則判定其反映了真實的飲食行為,且提取出來的“吃”/“喝”的賓語就是飲食行為所對應(yīng)的食品。

        例如,對“我剛才吃了一個蘋果”這句話,句法分析結(jié)果如圖1所示。其符合: 含“吃”;以“吃”為支配詞的句法關(guān)系為VOB關(guān)系;“吃”的賓語“蘋果”詞性為名詞。我們就可以說這條微博反映了真實的飲食行為,且其對應(yīng)的食品是“蘋果”。

        而對于“新一代蘋果手機即將亮相?!边@句話,由于其中不含“吃”或“喝”,更無以“吃”或“喝”為支配詞的VOB關(guān)系,明顯不符合我們設(shè)定的規(guī)則,因而不會被算作飲食行為。所以用我們設(shè)定的規(guī)則進行匹配,可以從語義上過濾掉那些“蘋果”并非以食品的義項出現(xiàn)的微博。

        再比如“我喝了一瓶蘋果味汽水?!边@個句子。在基于詞表匹配的文本挖掘方法中,只要食品詞表中包含“蘋果”和“汽水”,就會導(dǎo)致“蘋果”和“汽水”都被當做飲食行為涉及的食品各計算一次。但實際上這里談到的是喝“汽水”,并非吃“蘋果”。通過句法分析分析,可以得到結(jié)果如圖2所示。

        圖2 與吃蘋果無關(guān)微博的句法分析結(jié)果

        用我們設(shè)定的規(guī)則可以很容易地得到這句話描述的飲食行為所對應(yīng)的真實食品“汽水”,而不會把“蘋果”也誤算一次。這也是利用上下文信息來理解詞語在句子中的實際含義。

        3.2 飲食習(xí)慣特色

        首先,我們要界定好“飲食習(xí)慣特色”的概念。在我們的分析中,“飲食習(xí)慣特色”主要指既有一定規(guī)模、又要有特色的食品。舉例來說,想獲得北京地區(qū)的飲食習(xí)慣特色,那么即使北京地區(qū)最常吃的是“飯”、最常喝的是“水”,這也不能算作北京地區(qū)的飲食習(xí)慣特色,因為可能整個中國都在吃“飯”喝“水”,“飯”和“水”并不能體現(xiàn)北京地區(qū)飲食習(xí)慣的特色。

        為了滿足我們對“飲食習(xí)慣特色”的限定,我們引入互信息值(PMI)進行評價如式(1)所示。

        PMI(word,category) 就代表食品word在類別category下的特色程度。例如,PMI(烤鴨,北京)就代表烤鴨在北京地區(qū)的特色程度;PMI(烤鴨,男)就代表男性飲食習(xí)慣中烤鴨的特色程度;而PMI(烤鴨,晚上)代表晚上飲食習(xí)慣中烤鴨的特色程度。要表示某類別的飲食習(xí)慣特色,只需取與該類別PMI值最高的數(shù)個食品詞語即可。

        PMI同樣也可以表示交叉條件下的飲食習(xí)慣特色。例如,PMI(烤鴨,男and北京)表示烤鴨在北京男性飲食習(xí)慣中的特色程度。而在實際操作中只需令category滿足性別男且地區(qū)是北京市,即北京市男性所發(fā)飲食微博即可。

        4 實驗

        為了對比基于詞表的方法和基于依存句法分析的方法在社會媒體文本挖掘上的效果差別,我們設(shè)計了實驗,將兩者在微博用戶飲食行為分析任務(wù)上的表現(xiàn)相對比。在本文所進行的實驗中,用到的分詞工具均是面向微博語料的分詞工具[14],以期獲得更好的分詞效果。

        4.1 基于詞表的飲食習(xí)慣分析

        將基于詞表的文本挖掘方法應(yīng)用在飲食行為分析任務(wù)上的具體做法,就是利用待分析文本與已有的食品詞表相匹配,當文本中出現(xiàn)詞表中的某個詞時,就認為發(fā)生了一次關(guān)于這個詞的飲食行為。

        可以看出,影響這種方法效果的一個重要因素就是詞表的質(zhì)量。為了使得對比實驗真正有意義和有說服力,我們建立了一個質(zhì)量較高的詞表。首先我們獲得了百度百科截止2012年的全部詞條數(shù)據(jù)500萬條,并以此為基礎(chǔ)提取詞表。百度百科是最大的在線中文百科,但有個需要我們考慮的特點,就是其詞條標簽是開放性的,也就是說所有編輯者都可以為某個詞條添加某個標簽。因此,通過“食品”單個標簽來過濾詞條獲得詞表就會效果較差。因為有時某個食品的詞條恰好就會沒有“食品”這一標簽,而是有“飲食”等其他標簽。所以,我們先通過人工篩選的方式,獲得500個食品詞匯,再通過提煉這500個食品詞匯的所有標簽,構(gòu)成一個與飲食相關(guān)的標簽候選集,對這個標簽候選集再進行人工篩選后,獲得與飲食相關(guān)的標簽集。如果一個詞條只含一個標簽集中標簽,就把詞條對應(yīng)的詞算作食品,則會引入較多如“哈爾濱工業(yè)大學(xué)食品學(xué)院”之類的噪聲。因而只有當某個詞條含有2個或2個以上在飲食標簽集中的標簽時,我們才認為該詞條是食品。用這樣的方式,對百度百科500萬詞條數(shù)據(jù)進行篩選,我們獲得了一個有76 754詞大小的食品詞表。這個食品詞表整體質(zhì)量較高,但也摻雜有少量與飲食相關(guān)、但非食品的詞語。

        在獲得食品詞表以后,對每條經(jīng)過分詞處理后的微博文本,我們用飲食詞表進行匹配,一旦詞表中的某個食品詞在微博中出現(xiàn),我們就認為這條微博對應(yīng)了一次該食品的飲食行為。

        4.2 對比實驗

        要評價兩種方法效果的差別主要有兩方面的困難。一方面是沒有標準測試集,需要人工標注數(shù)據(jù);另一方面與飲食行為相關(guān)的微博在所有微博中所占比例很低,對所有微博進行標注則標注工作量過大。受限于此,Schwartz在對基于詞表的文本挖掘方法進行評價時,就只考慮了準確率的指標,而沒考慮召回率[15]。

        對此,我們采取的辦法是,隨機抽取10萬條微博,用這兩種方法分別識別反映飲食行為的微博,將兩種方法識別的結(jié)果合并作為候選集。再由三個人對候選集進行人工標注,判斷結(jié)果是否正確,進而獲得標準結(jié)果集。在本實驗中兩種方法識別出的記錄總數(shù)即候選集大小為3 371條,因而只需要對這些記錄進行人工標注,而不是對原始的10萬條微博,這就使得標注和評價變得可行。并且,在這樣的評價方法下,我們也能夠計算召回率。

        人工標注的具體任務(wù)為每次給定包含一個詞語和對應(yīng)原始微博的詞語-微博對,標注人員要判斷這條微博是否反映了真實的飲食行為和這個詞語是否是飲食行為對應(yīng)的食品。只有正確識別出飲食行為和對應(yīng)食品,才算識別正確。需要多人標注的原因是,有些微博很難判斷究竟是否發(fā)生了飲食行為,例如,“我買了一個蘋果回家吃”這種句子,需要進行簡單的推斷,判斷發(fā)生飲食行為和沒發(fā)生均有一定道理,因而需要多人標注。

        一共有三名標注人員分別對候選集進行人工標注。為了評價標注結(jié)果的一致性,我們計算了用于統(tǒng)計多類多標注人員標注一致性的Fleiss Kappa指標[13],最終三人標注一致性為75.53%。獲得人工標注數(shù)據(jù)后,對三人標注有差異的數(shù)據(jù)用投票的方法確定結(jié)果。

        4.3 實驗結(jié)果及分析

        用人工標注結(jié)果獲得標準結(jié)果集后,即可評價基于詞表的文本挖掘方法和基于依存句法分析的方法在候選集上的表現(xiàn),如表1所示。

        表1 兩種方法的準確率、召回率、F值

        可見,基于依存句法分析的文本挖掘方法,在準確率上要比基于詞表的文本挖掘方法顯著提高,但召回率略低,F(xiàn)值也有大幅提升。

        而基于詞表的文本挖掘方法召回率雖然高于基于依存句法分析的方法,但也并不是很高的原因,并非食品詞表質(zhì)量不好,而是無論構(gòu)建多大的食品詞表,考慮到日常生活中的食品種類和說法之多,我們都很難窮盡食品詞語。例如,百度百科擁有數(shù)百萬詞條,卻尚未收錄“甜筒”。日新月異的食品種類和新的稱呼,也使得食品詞表即使構(gòu)建得很大,也很難達到很高的覆蓋率。而基于句法分析的方法,則不受限于詞表的限制,可以識別出關(guān)于新食品或食品新表達的飲食行為。

        并且,在微博用戶飲食習(xí)慣特色分析中,準確率其實比召回率更重要。因為我們通??梢垣@得大量的微博文本數(shù)據(jù),這時只要有較高的準確率,即使召回率較低,通過足夠的數(shù)據(jù)量,也能正確地挖掘出飲食習(xí)慣特色。而如果是召回率較高、但準確率較低的方法,就相當于在飲食習(xí)慣特色統(tǒng)計中摻入了較多錯誤結(jié)果帶來的噪聲,雖然符合條件的數(shù)據(jù)多了一些,但結(jié)果卻沒有說服力。

        所以,通過實驗評價和分析,我們可以說,使用基于依存句法分析的文本挖掘方法,相比于基于詞表的方法,能夠更準確地挖掘文本的真實含義,在本文中則體現(xiàn)為能更準確地識別一條微博是否反映了真實的飲食行為。

        5 飲食習(xí)慣特色分析結(jié)果

        應(yīng)用上文介紹的基于依存句法分析的社會媒體文本挖掘方法,我們對大規(guī)模微博文本數(shù)據(jù)進行處理,以獲得飲食習(xí)慣特色分析結(jié)果。

        5.1 數(shù)據(jù)集

        我們隨機爬取了新浪微博5千萬條,時間跨度為2009年至2011年。使用這部分數(shù)據(jù)的原因是2009年至2011年新浪微博剛剛興起,虛假用戶較少。而現(xiàn)在微博上虛假用戶及其產(chǎn)生的微博數(shù)量則大大增加。如何識別真實用戶本身就是一個研究問題,但并不是我們要研究的重點。我們選用這段時間內(nèi)的新浪微博數(shù)據(jù),以便較大限度地剔除虛假用戶對我們研究結(jié)果的影響。每條微博,我們除了微博本身的內(nèi)容,還獲得了微博發(fā)布的時間,以及發(fā)微博用戶的性別、地區(qū)信息。

        對這些微博文本應(yīng)用第3節(jié)中的規(guī)則匹配,最終獲得了與飲食相關(guān)的記錄45萬余條。再將識別出的對應(yīng)食品與原微博的性別、地區(qū)和時間屬性結(jié)合起來,即可計算出每個類別下的飲食習(xí)慣特色。

        5.2 可視化

        由于我們對飲食習(xí)慣特色的研究涉及多個維度,且每個維度下的結(jié)果是由多個食品詞語組成,只用列表的方式展現(xiàn)就顯得有些不夠直觀。我們選擇用詞云(word cloud)的形式展示我們的研究結(jié)果。在一般的詞云使用中,詞云中詞語的大小只是由詞語的頻率決定。而我們則用詞語大小來展示PMI,即這個詞語與該類別的相關(guān)性大小,用顏色來表示詞語的頻率。在結(jié)果的展示過程中,我們對明顯的錯誤予以了過濾,最終在詞云中展示的詞語是PMI高的食品詞語。

        5.3 部分結(jié)果展示

        5.3.1 性別維度下的結(jié)果

        如圖3所示,不同性別的飲食習(xí)慣特色有很大區(qū)別。例如,男性的特色飲食有茅臺、啤酒、二鍋頭等,以酒類為主;女性則偏好巧克力、冰淇淋、甜食、芒果等食品,這比較符合我們的常識認識。

        5.3.2 地區(qū)維度下的結(jié)果

        如圖4所示,不同地區(qū)的飲食習(xí)慣特色也有很大區(qū)別。偏南的廣東省的飲食與偏北的北京市距離很遠,飲食習(xí)慣特色差別也很大。香鍋、 烤鴨、 春餅等都是北京著名特色食品且在北京很常見。對于廣東省的結(jié)果,M記是對麥當勞的別稱,從麥當勞中國官網(wǎng)上,我們也可以看到廣東是麥當勞門店數(shù)最多的省份。

        圖3 男性飲食習(xí)慣(左)與女性飲食習(xí)慣特色(右)對比

        圖4 北京市飲食習(xí)慣特色(左)與廣東省飲食習(xí)慣特色(右)對比

        5.3.3 時間維度下的結(jié)果

        為了更直觀地展現(xiàn)時間維度的結(jié)果,我們將一天劃分為四個時間段。6:00~10:59為早上/上午;11:00~13:59為中午;14:00~17:59為下午;18:00~次日5:59為晚上。

        時間維度下的結(jié)果,也可以很好地反映飲食習(xí)慣特色,如圖5所示。例如,晚上時間段的宵夜、烤肉、啤酒等,確實能反映晚上的飲食習(xí)慣特色;而在早上/上午,除了早飯、早點、早餐外,豆?jié){、油條、包子等也主要為早餐食品,與我們的日常認識很接近。

        圖5 早上/上午飲食習(xí)慣特色(左)與晚上飲食習(xí)慣特色(右)對比

        圖6 北京市男性晚上的飲食習(xí)慣特色(左)與北京市女性晚上的飲食習(xí)慣特色(右)

        5.3.4 交叉條件下的結(jié)果

        除了上文提到的三個維度,我們的分析還能得到交叉條件下的飲食習(xí)慣特色分析結(jié)果。例如,可以查看北京市男性晚上的飲食習(xí)慣特色,也可以分析北京市女性晚上的飲食習(xí)慣特色。也就是說,我們可以分析出性別、地區(qū)、時間這三個維度交叉所可能形成的所有特定群體的飲食習(xí)慣特色。

        6 結(jié)論

        我們提出了一種基于依存句法分析的文本挖掘方法,能更準確地挖掘社會媒體文本中的信息。并應(yīng)用這種方法,從性別、地區(qū)、時間三個維度對微博用戶的飲食習(xí)慣特色進行分析和交叉分析, 用詞云的形式可視化地展現(xiàn)了結(jié)果。實驗也證明了在社會媒體文本挖掘上,基于依存句法分析的方法的確要比基于詞表的方法有更高的準確率,因而能獲得更有說服力的飲食習(xí)慣特色分析結(jié)果。并且,基于依存句法分析的方法,可以不受限于詞表內(nèi)的食品進行飲食行為的識別和食品的提取,甚至可以識別出新食品或是食品的新說法。

        同時,用微博語料分析特定群體的飲食習(xí)慣特色,也有著重要意義。用傳統(tǒng)的問卷調(diào)查等方法,很難獲得關(guān)于飲食習(xí)慣的有效結(jié)果,但應(yīng)用我們的方法,可以得到有一定說服力的結(jié)果。并且,我們經(jīng)過分析獲得的關(guān)于特定群體的飲食習(xí)慣結(jié)果,不僅是社會信息的統(tǒng)計結(jié)果, 還可以進一步應(yīng)用于為食品企業(yè)或餐飲行業(yè)的細分市場營銷提供信息等方面。

        當然,我們也注意到了用微博文本進行飲食習(xí)慣的挖掘,所獲得的結(jié)果,會與現(xiàn)實有一定偏差。這是由于微博數(shù)據(jù)相對于真實社會的偏置所造成。我們的工作,目前只限于盡可能準確地理解微博文本內(nèi)容,使分析結(jié)果更貼近微博的真實含義。而對于微博數(shù)據(jù)和真實社會之間的偏置,還有待進一步研究。

        接下來,我們進一步的研究工作主要有兩方面: 一方面,用基于依存句法分析的方法,其實還可以細化規(guī)則,從而更準確地識別飲食行為。按照目前的規(guī)則,他人的飲食行為,例如,“他吃了一個蘋果?!币脖凰阕靼l(fā)微博的人的飲食行為。通過細化規(guī)則,可以設(shè)定當主語不是“我”時不識別為飲食行為,就能過濾掉這種錯誤。另外,還有類似“我沒吃飯”這樣的否定句或者疑問句,也可以用通過細化規(guī)則如限制“吃”的修飾語挖掘出真實含義并處理,從而較少錯誤。

        另一方面,我們目前設(shè)定的規(guī)則只有一條,只是匹配單一的由三個條件組成的規(guī)則。本文證明了,即使只用這一個最簡單的規(guī)則,我們的方法也比基于詞表的文本挖掘方法在準確率上有大幅提高。但實際上,還可以設(shè)定更多規(guī)則從文本中挖掘信息。例如,針對飲食行為的識別,除了“我吃/喝了某種食品”,“某種食品很好吃/好喝”也很常見。擴充規(guī)則的方法,可以人工制定,也可以用機器學(xué)習(xí)的方式進行擴充。通過擴充規(guī)則,可以進一步提高依存基于句法分析方法進行社會媒體文本挖掘時的召回率,這也是我們未來的一個研究方向。

        [1] Miller G. Social scientists wade into the tweet stream[J]. Science, 2011, 333(6051): 1814-1815.

        [2] Lazer D, Pentland A S, Adamic L, et al. Life in the network: the coming age of computational social science[J]. Science (New York, NY), 2009, 323(5915): 721.

        [3] Schwartz H A, Eichstaedt J C, Kern M L, et al. Personality, Gender, and Age in the Language of Social Media: The Open-Vocabulary Approach[J]. PloS one, 2013, 8(9): e73791.

        [4] Asur S, Huberman B A. Predicting the future with social media[C]//Proceedings of Web Intelligence and Intelligent Agent Technology (WI-IAT), 2010 IEEE/WIC/ACM International Conference on. IEEE, 2010, 1: 492-499.

        [5] P Pennebaker J W, Francis M E, Booth R J. Linguistic inquiry and word count: LIWC 2001[J]. Mahway: Lawrence Erlbaum Associates, 2001, 71: 2001.

        [6] Pennebaker J W, Chung C K, Ireland M, et al. The development and psychometric properties of LIWC2007[OL]www.liwc.net.

        [7] Tausczik Y R, Pennebaker J W. The psychological meaning of words: LIWC and computerized text analysis methods[J]. Journal of Language and Social Psychology, 2010, 29(1): 24-54.

        [8] 李正華. 依存句法分析統(tǒng)計模型及樹庫轉(zhuǎn)化研究[D]. 哈爾濱工業(yè)大學(xué)碩士學(xué)位論文,2008.

        [9] Che W, Li Z, Liu T. Ltp: A chinese language technology platform[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations. Association for Computational Linguistics, 2010: 13-16.

        [10] Golder S A, Macy M W. Diurnal and seasonal mood vary with work, sleep, and daylength across diverse cultures[J]. Science, 2011, 333(6051): 1878-1881.

        [11] Dodds P S, Harris K D, Kloumann I M, et al. Temporal patterns of happiness and information in a global social network: Hedonometrics and Twitter[J]. PloS one, 2011, 6(12): e26752.

        [12] Hannak A, Anderson E, Barrett L F, et al. Tweetin’in the Rain: Exploring Societal-Scale Effects of Weather on Mood[C]//Proceedings of ICWSM. 2012.

        [13] Fleiss J L. Measuring nominal scale agreement among many raters[J]. Psychological bulletin, 1971, 76(5): 378.

        [14] Liu Y, Zhang M, Che W, et al. Micro blogs Oriented Word Segmentation System[J]. CLP 2012, 2012: 85.

        [15] Schwartz H A, Eichstaedt J, Dziurzynski L, et al. Choosing the Right Words: Characterizing and Reducing Error of the Word Count Approach[C]//Proceedings of SEM-2013,2013:296-305.

        猜你喜歡
        特色文本分析
        特色種植促增收
        隱蔽失效適航要求符合性驗證分析
        在808DA上文本顯示的改善
        中醫(yī)的特色
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        完美的特色黨建
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        什么是真正的特色
        人妻丰满熟妇av无码区| 国产一区二区在线观看我不卡 | 国产激情久久久久影院老熟女| 国产免费av片在线观看播放| 欧美在线三级艳情网站| 欧美 亚洲 国产 日韩 综AⅤ| 青青草极品视频在线播放| 日韩精品一区二区三区免费观影 | 久久精品女人av一区二区| 精品人妻久久一区二区三区| 国产精品永久在线观看| 青春草在线视频免费观看| 狠狠做深爱婷婷久久综合一区| 天天操夜夜操| 免费无码AⅤ片在线观看| 日韩精品午夜视频在线| 媚药丝袜美女高清一二区| 少妇夜夜春夜夜爽试看视频| 国产亚洲午夜高清国产拍精品| 精品一区二区三区无码视频| 日韩国产成人精品视频| 久草国产视频| 久久爱91精品国产一区| 岛国av一区二区三区| 亚洲97成人精品久久久| 国产成人精品一区二区20p| 久久天堂一区二区三区av| 内射人妻少妇无码一本一道| 无遮挡边摸边吃奶边做视频免费 | 国产女主播大秀在线观看| 国内精品少妇高潮视频| 久久久久人妻一区精品| 久久人人妻人人做人人爽| 又黄又爽又色又刺激的视频| 综合精品欧美日韩国产在线| 欧美片欧美日韩国产综合片| 亚洲免费精品一区二区| 国产精品国产三级第一集| 97在线视频免费人妻| 成人看片黄a免费看那个网址| 亚洲婷婷丁香激情|