亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于興趣偏好的微博用戶性別推斷研究

        2016-12-08 05:45:53劉麗珍王函石
        電子學(xué)報(bào) 2016年10期
        關(guān)鍵詞:特征內(nèi)容用戶

        宋 巍,劉麗珍,王函石

        (首都師范大學(xué)信息工程學(xué)院,北京100048)

        ?

        基于興趣偏好的微博用戶性別推斷研究

        宋 巍,劉麗珍,王函石

        (首都師范大學(xué)信息工程學(xué)院,北京100048)

        用戶屬性,如:性別、年齡等,是計(jì)算心理學(xué)、個(gè)性化搜索、社會(huì)化商業(yè)推廣等研究和應(yīng)用考察的核心因素.利用用戶生成數(shù)據(jù)自動(dòng)推斷用戶屬性成為新興的研究課題.本文提出基于用戶興趣偏好研究微博用戶的性別推斷問(wèn)題.考察了用戶內(nèi)容偏好以及關(guān)注行為偏好對(duì)性別推斷的作用.在新浪微博近萬(wàn)名用戶的數(shù)據(jù)集上證明了用戶偏好特征的有效性.與傳統(tǒng)的語(yǔ)用特征相比,將用戶內(nèi)容偏好與關(guān)注偏好相結(jié)合能夠顯著提高推斷準(zhǔn)確率.關(guān)注偏好特征對(duì)推斷非活躍用戶的性別尤其有效.

        用戶隱藏屬性;用戶性別推斷;用戶偏好建模;社交媒體

        1 引言

        隨著大規(guī)模用戶生成的內(nèi)容與行為數(shù)據(jù)被采集與保存,自動(dòng)分析用戶數(shù)據(jù)從而深入理解個(gè)人和群體的基本信息、挖掘社會(huì)心理和行為模式,成為多學(xué)科共同關(guān)注的重要課題.計(jì)算社會(huì)學(xué)[1]、計(jì)算心理學(xué)[2]等交叉研究領(lǐng)域應(yīng)運(yùn)而生.

        在此背景下,對(duì)用戶信息的深度理解成為其中核心問(wèn)題.由于涉及隱私,個(gè)人用戶的基本信息通常無(wú)法直接獲取.用戶隱藏屬性推斷,即自動(dòng)推測(cè)用戶沒有顯式公開的個(gè)人屬性,如:性別、年齡等,具有重要意義并將在個(gè)性化搜索與推薦[3,4]、心理狀況診斷[5]等方面發(fā)揮重要作用.

        微博已成為人們記錄生活,分享與獲取信息和彼此互聯(lián)的最主要平臺(tái),提供了豐富的用戶語(yǔ)言、行為和社會(huì)關(guān)系等方面的公開數(shù)據(jù).為研究用戶隱藏屬性推斷問(wèn)題提供了充分的數(shù)據(jù)準(zhǔn)備.

        用戶隱藏屬性推斷的主流方法是分析用戶文本中體現(xiàn)出的語(yǔ)言特征,如習(xí)慣使用的詞語(yǔ)類別[6,7],用戶使用詞語(yǔ)的頻次統(tǒng)計(jì)[8]等.語(yǔ)言是人類內(nèi)在心理的外在表現(xiàn),語(yǔ)言特征毫無(wú)疑問(wèn)是推斷用戶屬性的重要因素.然而,具有不同屬性的用戶的區(qū)別不僅僅體現(xiàn)在語(yǔ)言使用上的偏好,同時(shí)也體現(xiàn)在其興趣愛好、品味等多個(gè)方面.這些特征很難通過(guò)簡(jiǎn)單的詞類和詞頻統(tǒng)計(jì)精確描述,需要采用更為有效的用戶建模方法.此外,語(yǔ)言使用特征依賴于用戶生成文本的規(guī)模.已有研究主要針對(duì)活躍用戶進(jìn)行實(shí)驗(yàn),但在社交媒體中存在大量的非活躍用戶和新加入用戶.他們未發(fā)布足夠的文本內(nèi)容,但依然獲取信息并且是潛在商業(yè)應(yīng)用的消費(fèi)者.針對(duì)這些非活躍用戶,能否利用文本數(shù)據(jù)之外的社交媒體上的關(guān)系信息作為補(bǔ)充,從新的維度描述用戶特質(zhì)和改進(jìn)用戶屬性推斷性能也是有價(jià)值的研究問(wèn)題.

        本文從用戶興趣偏好建模這一新角度研究用戶屬性推斷問(wèn)題并以性別推斷為例進(jìn)行驗(yàn)證.本文的主要貢獻(xiàn)包括:

        (1)提出利用用戶興趣偏好建模推斷用戶隱藏屬性的新思路.將用戶內(nèi)容與關(guān)注行為相結(jié)合建立用戶的內(nèi)容偏好與關(guān)注偏好,構(gòu)建性別推斷的辨別特征.實(shí)驗(yàn)表明用戶興趣偏好特征比傳統(tǒng)的語(yǔ)用特征更為有效.

        (2)深入分析特征對(duì)不同活躍程度用戶的推斷效果.實(shí)驗(yàn)表明針對(duì)發(fā)布內(nèi)容較少的非活躍用戶,利用不依賴文本內(nèi)容的用戶關(guān)注偏好特征推斷更為有效且健壯.

        2 相關(guān)工作

        2.1 用戶隱藏屬性推斷

        用戶隱藏屬性是指用戶沒有或者無(wú)法顯式提供的屬性,如:性別、年齡、教育層次、消費(fèi)水平和人格特質(zhì)(personal traits)等.有研究表明,社交媒體上的用戶不會(huì)為了隱藏自己的屬性和心理特質(zhì)蓄意地改變自己的信息和表達(dá)方式[9].因此,利用用戶在社交媒體公開發(fā)布的文本和行為數(shù)據(jù)自動(dòng)地推斷用戶的隱藏屬性和特質(zhì)是可行的.

        國(guó)際上利用社交媒體數(shù)據(jù)推斷多種典型的用戶隱藏屬性始于對(duì)博客(blog)用戶的分析[10,11].隨著微博興起,使用微博數(shù)據(jù)預(yù)測(cè)用戶隱藏屬性成為熱點(diǎn)[8,12,13].在Facebook等強(qiáng)關(guān)系社交網(wǎng)絡(luò)上存在類似工作[14~16].研究者利用Facebook用戶的好友、分享和群組等信息進(jìn)行缺失屬性補(bǔ)全[17,18].此外,有學(xué)者從政治立場(chǎng)[14,19]、性取向和宗教信仰[14]、人格[9,20~22]和是否有抑郁癥傾向[5,23]等角度對(duì)用戶進(jìn)行分類.近來(lái),Jiwei Li等將用戶屬性推斷視為信息抽取問(wèn)題,采取弱指導(dǎo)的方法,利用Facebook中的用戶屬性數(shù)據(jù)指導(dǎo)Twitter用戶的屬性抽取[24].

        國(guó)內(nèi)研究者在相關(guān)問(wèn)題上的工作處于起步階段.中科院心理所根據(jù)英文的詞類詞典LIWC(Linguistic Inquiry and Word Count)[25]構(gòu)建了面向中文的詞類詞典SCLIWC(Simplified Chinese LIWC)[26],并以此為基礎(chǔ)進(jìn)行心理診斷[27].部分工作著重挖掘文本中的性別傾向詞識(shí)別[28]以及基于詞匯特征的微博用戶性別識(shí)別[29].

        2.2 用戶性別推斷

        性別是用戶最主要的基本屬性之一.本文主要以性別推斷作為主要研究對(duì)象.用戶性別推斷的典型設(shè)置是將其視為有監(jiān)督的二元分類問(wèn)題.在標(biāo)注好用戶性別的用戶數(shù)據(jù)集上進(jìn)行訓(xùn)練,學(xué)習(xí)得到分類模型用于推斷[8,12,15,30~33].其關(guān)鍵在于有效特征的抽取.下面簡(jiǎn)述用戶性別推斷的已有方法并分析它們的優(yōu)缺點(diǎn).

        2.2.1 基于詞類詞典的方法

        心理學(xué)上認(rèn)為不同屬性的人在用詞、語(yǔ)氣、風(fēng)格等使用語(yǔ)言的方式上具有一定的差異.通過(guò)對(duì)語(yǔ)言中不同類型詞匯的統(tǒng)計(jì)信息推斷用戶屬性是一種比較傳統(tǒng)的方法.在英文上,已有工作主要利用著名的心理語(yǔ)言分析工具LIWC.

        LIWC是美國(guó)德克薩斯大學(xué)奧斯丁分校教授James W Pennebaker主導(dǎo)研究的一套語(yǔ)言分析工具,其核心為一部人工構(gòu)建的詞語(yǔ)詞典[25].詞典將詞語(yǔ)劃分到約80個(gè)詞類中,涵蓋了不同的語(yǔ)言維度.基于LIWC的心理學(xué)研究分析出不同屬性人群具有不同的語(yǔ)言風(fēng)格和習(xí)慣用法.相關(guān)研究發(fā)現(xiàn)男性更多使用冠詞、介詞,以及復(fù)雜、正式、具有專業(yè)性的語(yǔ)言,而女性更偏向于社會(huì)交往相關(guān)的語(yǔ)言,使用更多的代詞等.年齡大的人更多表達(dá)正面情感而較少表現(xiàn)出負(fù)面情感,較少地使用主觀詞以及否定詞等.

        2.2.2 基于詞語(yǔ)統(tǒng)計(jì)特征的方法

        計(jì)算機(jī)科學(xué)領(lǐng)域研究者更愿意采用直接的開放式語(yǔ)言特征,即通過(guò)對(duì)用戶的文本信息進(jìn)行處理,使用詞或詞組作為特征,構(gòu)建統(tǒng)計(jì)分類模型進(jìn)行推斷[8,15].可作為文本信息的內(nèi)容包括用戶的昵稱、自我描述以及發(fā)表的微博.文本特征的選擇通?;趥鹘y(tǒng)的文本分類方法,選擇具有高區(qū)分度的詞和短語(yǔ)等.用戶在社交媒體中用文字表達(dá)思想時(shí)獨(dú)有的、非正式的社會(huì)化口頭表達(dá)方式,典型的如文字表情符、圖形表情符和表示驚異的詞語(yǔ)通常也會(huì)保留作為特征.

        2.2.3 基于局部社交關(guān)系和交互特征的方法

        Zamal[31]等利用社交網(wǎng)絡(luò)具有同質(zhì)性(homophily)的特點(diǎn)利用用戶好友信息輔助屬性預(yù)測(cè).然而類似研究主要使用簡(jiǎn)單的社會(huì)關(guān)系相關(guān)的統(tǒng)計(jì)特征,如:關(guān)注者和被關(guān)注者個(gè)數(shù),以及交互統(tǒng)計(jì)特征,如:轉(zhuǎn)發(fā)頻率和發(fā)布頻率等.但這些特征在性別和年齡等屬性上的分布并不具有明顯的區(qū)分性[12].

        2.2.4 已有方法的局限性

        基于詞典的方法具有以下局限性:(1)詞典具有語(yǔ)言相關(guān)的特點(diǎn),英文之外其他語(yǔ)言資源的建設(shè)相對(duì)落后,此類方法不易于快速擴(kuò)展到其他語(yǔ)言.(2)詞典中詞語(yǔ)覆蓋范圍較小,社交媒體上大量涌現(xiàn)的新詞及社會(huì)化語(yǔ)言用法無(wú)法被有效覆蓋,影響了基于詞典的方法的適用范圍.

        根據(jù)用戶發(fā)表內(nèi)容分析用戶的語(yǔ)言使用特征推斷用戶屬性是目前已有工作中最為有效的方法.然而,此類方法主要面向具有豐富內(nèi)容資源的活躍用戶(如要求評(píng)測(cè)用戶至少發(fā)表千條以上微博[8]).在微博等社會(huì)媒體平臺(tái)中,存在大量非活躍用戶,他們僅具有有限的內(nèi)容數(shù)據(jù),從而面臨數(shù)據(jù)稀疏問(wèn)題.因此,有必要對(duì)用戶的內(nèi)容進(jìn)行進(jìn)一步的抽象,緩解數(shù)據(jù)稀疏.此外,已有工作沒有充分利用社交媒體的交互特征.以關(guān)注行為為例,已有方法僅利用基本的關(guān)注對(duì)象數(shù)目作為特征,而沒有深入分析關(guān)注對(duì)象群體的特點(diǎn)和聯(lián)系.

        3 基于用戶興趣偏好建模的方法

        用戶興趣建模是個(gè)性化搜索與推薦的核心內(nèi)容.個(gè)性化搜索與信息過(guò)濾主要針對(duì)用戶的查詢、文檔以及上下文信息使用關(guān)鍵詞、分類、潛在主題或子空間對(duì)用戶進(jìn)行建模[34~36].心理學(xué)有研究表明心理特質(zhì)影響人們?cè)谂d趣和態(tài)度上的選擇[37].受此啟發(fā),本文嘗試結(jié)合用戶興趣建模技術(shù)構(gòu)建有效特征支持用戶隱藏屬性推斷.

        應(yīng)用概率主題模型Latent Dirichlet Allocation(LDA)[38]于大規(guī)模無(wú)標(biāo)注的微博用戶數(shù)據(jù),分別訓(xùn)練內(nèi)容主題模型(Content Topic Models,CTM)和關(guān)注主題模型(Followee Topic Models,FTM).以此為基礎(chǔ),對(duì)用戶的主題興趣偏好與關(guān)注興趣偏好進(jìn)行建模作為特征,改進(jìn)用戶性別推斷.

        接下來(lái)首先簡(jiǎn)要介紹LDA模型,而后分別介紹使用LDA對(duì)用戶微博內(nèi)容與關(guān)注行為進(jìn)行建模并應(yīng)用于用戶性別推斷.

        3.1 LDA模型

        LDA模型可視為層次貝葉斯模型.假設(shè)一篇文檔是由多個(gè)潛在主題混合組成,每個(gè)主題為詞匯表上的多項(xiàng)式分布.LDA的圖模型表示如圖1所示.每一篇文檔d表示為N個(gè)詞的序列w={w1,w2,…,wN},則包含M篇文檔的集合D表示為D={w1,w2,…,wM},文檔集合D由主題數(shù)為T的LDA模型生成的過(guò)程可描述為:

        (1)對(duì)每個(gè)主題k,根據(jù)狄利柯雷(Dirichlet)分布生成該主題在詞匯表V上多項(xiàng)式分布:φk~Dir(β);

        (2)對(duì)每篇文檔d∈D根據(jù)狄利克雷分布生成其在主題上的多項(xiàng)式分布θd~Dir(α);

        (3) 對(duì)文檔d中的每一個(gè)詞:

        ⅰ.根據(jù)分布θd生成主題z~Multi(θd);

        ⅱ.根據(jù)分布φz生成w~Multi(φz).

        其中α和β為狄利克雷分布的超參數(shù).生成過(guò)程描述了如何由模型生成數(shù)據(jù).模型的參數(shù)學(xué)習(xí)則可視為生成過(guò)程的逆過(guò)程,即根據(jù)真實(shí)數(shù)據(jù)的分布學(xué)習(xí)參數(shù)模型.模型參數(shù)可采用吉布斯抽樣等方法習(xí)得[39].訓(xùn)練好的主題模型可對(duì)新的文檔樣本進(jìn)行推斷,得到文檔的主題概率分布.

        采用LDA對(duì)用戶進(jìn)行建模的原因如下:(1)用戶興趣很難用固定的類別本體進(jìn)行描述.概率主題模型是一種無(wú)監(jiān)督的數(shù)據(jù)挖掘方法可自動(dòng)發(fā)現(xiàn)數(shù)據(jù)中的隱藏結(jié)構(gòu).以往工作證明,LDA是對(duì)社交媒體用戶進(jìn)行興趣建模的有效手段[36].(2)本文利用用戶興趣模型作為特征推斷用戶隱藏屬性,需要將訓(xùn)練樣本與測(cè)試樣本映射到同一特征空間.LDA是一種完全的生成模型,能夠?qū)π挛谋具M(jìn)行有效的推斷有利于對(duì)新增用戶進(jìn)行處理.(3)微博用戶的文本內(nèi)容信息和社交關(guān)系信息均可使用主題模型進(jìn)行建模.

        3.2 訓(xùn)練主題模型

        在微博數(shù)據(jù)上訓(xùn)練內(nèi)容主題模型與關(guān)注主題模型.LDA模型是無(wú)監(jiān)督的數(shù)據(jù)挖掘算法,因此訓(xùn)練LDA模型只需從微博平臺(tái)獲取的一定規(guī)模的用戶的微博及其關(guān)注信息.關(guān)注是微博用戶獨(dú)特的一種行為.用戶可以關(guān)注任何感興趣的其他用戶.用戶A關(guān)注用戶B,稱用戶A為關(guān)注者(follower),稱用戶B為關(guān)注對(duì)象(followee).整個(gè)微博平臺(tái)形成一個(gè)非對(duì)稱社交網(wǎng)絡(luò).顯然,用戶關(guān)注行為也表現(xiàn)出用戶的興趣偏好.然而,這一行為并沒有被充分利用進(jìn)行用戶建模以及性別推斷.

        利用微博文本內(nèi)容和關(guān)注對(duì)象列表數(shù)據(jù)可分別訓(xùn)練內(nèi)容主題模型和關(guān)注主題模型.訓(xùn)練主題模型并不需要知道數(shù)據(jù)中用戶的屬性(如:性別)的取值.同時(shí),訓(xùn)練主題模型的數(shù)據(jù)不必包括待推斷的用戶數(shù)據(jù),新用戶的主題分布可由訓(xùn)練好的主題模型推斷得到.

        3.2.1 訓(xùn)練內(nèi)容主題模型

        內(nèi)容主題模型CTM用于挖掘大規(guī)模微博文本中涵蓋的主題.將所有用戶的微博偽文檔聚合形成偽文檔集合S={S1,...,SU}.假設(shè)每一篇文檔由T個(gè)主題生成,使用LDA模型在S上訓(xùn)練主題模型.訓(xùn)練得到的主題模型包括T個(gè)語(yǔ)言模型,每個(gè)語(yǔ)言模型為詞匯表V上的多項(xiàng)式分布.

        3.2.2 訓(xùn)練關(guān)注主題模型

        期望將微博平臺(tái)上關(guān)注對(duì)象集合E劃分為若干個(gè)不同類型的群體,從而能夠描述不同用戶的關(guān)注對(duì)象在分布上的異同.將所有用戶的關(guān)注對(duì)象列表聚合到一起形成關(guān)注對(duì)象列表集合F={F1,...,FU},將每一個(gè)關(guān)注列表Fi視為一篇文檔,將其中每一個(gè)關(guān)注對(duì)象e∈E類比為一個(gè)詞.假設(shè)每個(gè)用戶的關(guān)注列表由G個(gè)類型的關(guān)注對(duì)象構(gòu)成,則可在F上訓(xùn)練得到包括G個(gè)主題的關(guān)注主題模型FTM.FTM由G個(gè)語(yǔ)言模型構(gòu)成,每個(gè)語(yǔ)言模型是在關(guān)注對(duì)象集合E上的多項(xiàng)式分布.

        3.3 用戶的興趣偏好表示

        基于已訓(xùn)練好的內(nèi)容主題模型CTM和關(guān)注主題模型FTM,可以對(duì)任一用戶u的興趣進(jìn)行表示.設(shè)Su為用戶u發(fā)布的微博拼接而成的偽文檔,則可利用CTM對(duì)Su進(jìn)行推斷,獲得Su在T個(gè)主題上的概率分布向量θu.將θu作為用戶的內(nèi)容興趣偏好表示.類似地,設(shè)Fu為用戶的關(guān)注對(duì)象列表,使用FTM對(duì)其進(jìn)行推斷,可獲得Fu在G個(gè)被關(guān)注對(duì)象主題上的概率分布向量δu,將δu作為用戶的關(guān)注興趣偏好表示.θu和δu分別表達(dá)了用戶對(duì)不同主題的內(nèi)容及不同類型關(guān)注對(duì)象群體的偏好.

        3.4 性別推斷

        將性別推斷視為有監(jiān)督的二元分類問(wèn)題.圖2給出了系統(tǒng)的處理流程.CTM與FTM模型需要預(yù)先在大規(guī)模無(wú)標(biāo)注的微博用戶數(shù)據(jù)上訓(xùn)練完成.在標(biāo)注好用戶性別的訓(xùn)練數(shù)據(jù)集上進(jìn)行訓(xùn)練學(xué)習(xí)到性別推斷的分類模型.

        特征抽取階段為每名用戶建立一個(gè)特征向量.該特征向量包含多種類型的特征.用戶興趣偏好特征的構(gòu)建需要CTM與FTM模型.使用訓(xùn)練好的CTM和FTM模型推斷出用戶的興趣偏好.將用戶內(nèi)容興趣偏好表示向量θu和關(guān)注興趣偏好表示向量δu拼接在一起形成維度為T+G的向量.該向量與其它類型特征的特征向量進(jìn)一步拼接,形成完整的表征用戶的特征向量.

        對(duì)于待推斷性別的測(cè)試用戶,使用相同的CTM和FTM模型推斷其興趣偏好表示構(gòu)建用戶的特征向量.使用在訓(xùn)練數(shù)據(jù)上學(xué)習(xí)得到的分類器將該特征向量作為輸入,輸出性別推斷的結(jié)果.

        4 實(shí)驗(yàn)設(shè)置與結(jié)果分析

        4.1 研究問(wèn)題

        本文希望回答以下研究問(wèn)題:

        (1)通過(guò)用戶興趣建模得到的用戶興趣偏好特征能否提高性別推斷的性能?

        (2)針對(duì)活躍程度不同的用戶,用戶興趣偏好特征與已有特征相比是否具有更好的健壯性?

        4.2 實(shí)驗(yàn)數(shù)據(jù)采集與評(píng)價(jià)

        從中國(guó)最大的微博平臺(tái)新浪微博采集實(shí)驗(yàn)數(shù)據(jù).為避免垃圾用戶對(duì)實(shí)驗(yàn)的影響,以經(jīng)過(guò)官方認(rèn)證的微博賬號(hào)作為種子,按照關(guān)注關(guān)系進(jìn)行了2層擴(kuò)展,即首先獲取種子賬戶的關(guān)注對(duì)象的數(shù)據(jù),并進(jìn)一步獲取新擴(kuò)展的賬戶的關(guān)注對(duì)象.最終采集約5000萬(wàn)微博賬戶,每個(gè)賬戶獲取的信息包括:最近發(fā)布的1000條微博以及其關(guān)注對(duì)象列表.從該數(shù)據(jù)集中隨機(jī)選取了10萬(wàn)名用戶作為實(shí)驗(yàn)數(shù)據(jù),其中9萬(wàn)名用戶用于訓(xùn)練內(nèi)容主題模型CTM和關(guān)注主題模型FTM.對(duì)1萬(wàn)名用戶進(jìn)行性別標(biāo)注,供訓(xùn)練分類器和測(cè)試實(shí)驗(yàn)效果使用.兩名標(biāo)注者根據(jù)用戶名稱、描述、微博內(nèi)容以及關(guān)注對(duì)象列表進(jìn)行性別標(biāo)注.根據(jù)Kappa值[40]度量,標(biāo)注的一致性為92%.

        需要指出的是,新浪微博實(shí)際上要求用戶在注冊(cè)時(shí)添加性別信息,因此獲取的用戶數(shù)據(jù)中已經(jīng)包含性別取值.要求標(biāo)注者對(duì)數(shù)據(jù)進(jìn)一步進(jìn)行標(biāo)注一方面原因在于部分用戶可能為了縮短注冊(cè)花費(fèi)的時(shí)間而隨意填寫信息,另外一方面也考察人類直接觀察進(jìn)行判斷的準(zhǔn)確率,反映這一問(wèn)題的難度.從一致性結(jié)果來(lái)看,微博用戶性別推斷并不是一項(xiàng)容易的工作.對(duì)于有分歧的標(biāo)注,標(biāo)注者討論決定最終的標(biāo)注結(jié)果.無(wú)法達(dá)成共識(shí)的用戶將被移除.最終獲得了9076名具有性別標(biāo)注的用戶.數(shù)據(jù)的基本統(tǒng)計(jì)列在表1中.

        表1 測(cè)試數(shù)據(jù)集的基本統(tǒng)計(jì)

        從表1可見,測(cè)試數(shù)據(jù)中男女比例約為9:10,女性用戶略多.盡管試圖獲取每個(gè)用戶的最近1000條微博,但實(shí)際中大比例用戶發(fā)布的微博數(shù)都未能達(dá)到1000.每個(gè)用戶平均的發(fā)布微博數(shù)大于平均的關(guān)注對(duì)象數(shù)目.

        采取準(zhǔn)確率(Accuracy)來(lái)衡量自動(dòng)性別推斷系統(tǒng)的表現(xiàn),其計(jì)算方法為正確判斷的樣本數(shù)量與全部樣本數(shù)量的比值.測(cè)試過(guò)程中,將9076名用戶組成的數(shù)據(jù)集上采取5折交叉驗(yàn)證的方法進(jìn)行測(cè)試,采用準(zhǔn)確率的平均值來(lái)評(píng)價(jià)系統(tǒng)的性能.

        4.3 對(duì)比系統(tǒng)

        (1)詞類特征(Word Category):詞類特征依賴于詞類詞典.采取簡(jiǎn)體中文LIWC(SCLIWC)詞類詞典[26],該詞典根據(jù)英文版LIWC針對(duì)中文進(jìn)行了翻譯與擴(kuò)充.統(tǒng)計(jì)用戶發(fā)布內(nèi)容中被包含在SCLIWC不同詞類的詞語(yǔ)的比例作為分類特征.

        (2)統(tǒng)計(jì)詞特征(Ngram):根據(jù)已有研究的結(jié)論,N-元詞(Ngram)是最為有效的統(tǒng)計(jì)特征.針對(duì)男性和女性,分別選取前3000個(gè)區(qū)分性最強(qiáng)的一元詞和二元詞,并將它們合并作為NGram特征的維度,每一維度的取值為用戶內(nèi)容中包含該Ngram的頻次.處理過(guò)程中保留了表情符等社會(huì)化詞匯,因?yàn)樗鼈円彩潜磉_(dá)性別的一種信號(hào).度量Ngram的區(qū)分性的方法基于計(jì)算它們的類互信息.實(shí)驗(yàn)結(jié)果顯示選擇區(qū)分性強(qiáng)的Ngram比使用所有Ngram而不考慮其區(qū)分性的效果更好.由于特征更加緊湊,訓(xùn)練的效率更高.

        (3)Rao et al[12].該方法綜合使用了Ngram特征以及簡(jiǎn)單的用戶社交統(tǒng)計(jì)信息,如:好友數(shù)、關(guān)注數(shù)等.因此這種方法可視為利用了局部社交網(wǎng)絡(luò)信息.與其不同,本文對(duì)關(guān)注對(duì)象進(jìn)行分群可視為對(duì)全局的用戶行為進(jìn)行建模.

        4.4 分類器與參數(shù)設(shè)定

        采用LibLinear分類器[40]進(jìn)行推斷.FTM以及CTM的主題數(shù)均設(shè)為200,參數(shù)學(xué)習(xí)使用吉布斯抽樣方法,迭代次數(shù)設(shè)為100.

        對(duì)于所有對(duì)比系統(tǒng),在交叉驗(yàn)證過(guò)程中在訓(xùn)練數(shù)據(jù)上(整個(gè)數(shù)據(jù)的80%)采用4折交叉驗(yàn)證對(duì)參數(shù)進(jìn)行調(diào)整,選擇最佳參數(shù)在整個(gè)訓(xùn)練語(yǔ)料上訓(xùn)練模型,使用該模型在測(cè)試數(shù)據(jù)上(整個(gè)數(shù)據(jù)的20%)進(jìn)行測(cè)試.

        4.5 實(shí)驗(yàn)結(jié)果及分析

        4.5.1 整體表現(xiàn)

        表2給出了不同類型特征以及特征組合的準(zhǔn)確率.從中可以看到,詞類特征(Word Category)表現(xiàn)最弱,獲得了65.60%的準(zhǔn)確率.與之相比,統(tǒng)計(jì)詞特征(Ngram)表現(xiàn)更為優(yōu)異達(dá)到74.09%的準(zhǔn)確率.基于用戶內(nèi)容主題模型(CTM)與用戶關(guān)注主題模型(FTM)分別獲得了75.45%和74.24%的準(zhǔn)確率,其中CTM是最為有效的單一類型特征.實(shí)驗(yàn)結(jié)果說(shuō)明,詞類特征對(duì)于性別預(yù)測(cè)過(guò)于粗略而無(wú)法取得令人滿意的效果.Ngram、CTM與FTM的表現(xiàn)相當(dāng).這一方面印證了前人工作的結(jié)論,Ngram特征是性別推斷的重要特征,不同性別的用戶傾向于使用不同的詞,另一方面也說(shuō)明經(jīng)過(guò)降維處理的用戶偏好特征能夠起到正面作用:CTM比Ngram表現(xiàn)更好.可能的原因是:Ngram面臨的數(shù)據(jù)稀疏問(wèn)題得到緩解,此外主題模型實(shí)質(zhì)上相當(dāng)于進(jìn)行了特征選擇,主題區(qū)分性強(qiáng)的詞語(yǔ)在用戶興趣模型建立過(guò)程中起到了更大的作用.

        表2 采用不同類型特征和特征組合的表現(xiàn)

        將2類用戶興趣特征結(jié)合起來(lái)(CTM+FTM)取得了最好的效果,準(zhǔn)確率達(dá)到了80.16%.Ngram分別與CTM和FTM結(jié)合時(shí),準(zhǔn)確率均有提升.但將三類特征全部結(jié)合起來(lái)時(shí),表現(xiàn)卻弱于CTM+FTM.其原因可能是CTM已經(jīng)能夠較好地替代Ngram特征,而使用Ngram特征可能引入更多的噪聲,導(dǎo)致性能下降.

        本文提出的方法同樣超過(guò)了Rao等[12]的表現(xiàn).這說(shuō)明用戶對(duì)不同關(guān)注對(duì)象群體的關(guān)注偏好能夠更好地表達(dá)用戶關(guān)注興趣.而簡(jiǎn)單的用戶關(guān)注統(tǒng)計(jì)數(shù)字則難以刻畫.

        4.5.2 在不同活躍程度用戶上的表現(xiàn)

        分析不同特征及特征組合針對(duì)活躍程度不同的用戶時(shí)的表現(xiàn).目的在于分析不同類型特征的健壯性,尤其是針對(duì)文本內(nèi)容不夠豐富的非活躍用戶的表現(xiàn).為此,將測(cè)試用戶根據(jù)其發(fā)布微博的數(shù)量分為5組.表3給出了5組測(cè)試用戶所處的不同區(qū)間及其相關(guān)統(tǒng)計(jì).

        表3 按照活躍程度進(jìn)行劃分的5個(gè)用戶組相關(guān)統(tǒng)計(jì)

        從表3中可以看到大致有18%的用戶的發(fā)表微博數(shù)量大于600,而發(fā)表微博數(shù)量在10到200之間的用戶大約占據(jù)用戶總數(shù)的40%.這說(shuō)明社交媒體中有相當(dāng)一部分非活躍用戶,其比例甚至可能遠(yuǎn)超過(guò)活躍用戶.發(fā)表微博數(shù)量越多的用戶關(guān)注的用戶數(shù)也更多,兩者具有一種近似的線性關(guān)系.然而,發(fā)表微博數(shù)目小于50的非活躍用戶仍然保持一定規(guī)模的關(guān)注對(duì)象.

        對(duì)5組測(cè)試用戶,分別將數(shù)據(jù)進(jìn)一步隨機(jī)均分為5個(gè)部分.在訓(xùn)練時(shí),從每一組測(cè)試用戶中隨機(jī)選取4個(gè)部分,并將來(lái)自于5組的數(shù)據(jù)合并用于訓(xùn)練分類模型,學(xué)習(xí)到的模型分別對(duì)每一組余下的1份數(shù)據(jù)進(jìn)行測(cè)試.這樣處理的原因是在實(shí)際應(yīng)用的時(shí)候,僅維持一個(gè)統(tǒng)一的模型更加便于系統(tǒng)進(jìn)行維護(hù),因此模型對(duì)不同特點(diǎn)的用戶(如:活躍用戶與非活躍用戶)進(jìn)行推斷時(shí)的健壯性尤為重要.

        圖3給出了不同的特征和特征組合在具有不同規(guī)模微博數(shù)量的用戶群組上的表現(xiàn).從中可以看到如下趨勢(shì):(1)用戶發(fā)布內(nèi)容越活躍,對(duì)其進(jìn)行性別推斷的準(zhǔn)確率越高.所有的特征和特征組合都體現(xiàn)出這一特點(diǎn).這說(shuō)明豐富的內(nèi)容數(shù)據(jù)更容易構(gòu)建足夠多的特征以避免特征稀疏問(wèn)題.(2)內(nèi)容相關(guān)的特征(WordCategory,Ngram,CTM)高度依賴于用戶內(nèi)容的規(guī)模.最明顯的體現(xiàn)在Ngram特征,當(dāng)用戶發(fā)表內(nèi)容足夠多時(shí)(G5),其準(zhǔn)確率超過(guò)80%,是表現(xiàn)最好的單獨(dú)類型特征.然而當(dāng)用戶內(nèi)容較少時(shí),Ngram性能不如用戶興趣偏好特征.(3)對(duì)于非活躍用戶,用戶興趣偏好特征CTM和FTM表現(xiàn)得更為健壯.例如在發(fā)布微博數(shù)小于50的用戶組上,使用CTM的特征表現(xiàn)優(yōu)于Ngram,證明對(duì)文本內(nèi)容的抽象能夠改善數(shù)據(jù)稀疏問(wèn)題.FTM表現(xiàn)最好,說(shuō)明對(duì)于內(nèi)容較少的用戶,其關(guān)注偏好興趣能夠更準(zhǔn)確地反映其隱藏屬性.(4)將用戶興趣偏好特征與其他特征相融合時(shí),能夠獲得比單獨(dú)使用時(shí)更好的表現(xiàn).通過(guò)分析可見,用戶興趣偏好特征對(duì)于活躍用戶與非活躍用戶的隱藏屬性推斷均是有效的.對(duì)于發(fā)布內(nèi)容較少的非活躍用戶,使用用戶興趣偏好特征進(jìn)行推斷可獲得更高的準(zhǔn)確率,具有更好的健壯性.

        5 結(jié)束語(yǔ)

        本文針對(duì)中文微博用戶的性別推斷問(wèn)題進(jìn)行研究,提出了利用用戶興趣偏好建模改進(jìn)推斷性能的新思路.著重考察了用戶的內(nèi)容興趣與關(guān)注興趣偏好,詳細(xì)比較了這些新特征與傳統(tǒng)特征的表現(xiàn)并分析了針對(duì)不同活躍程度的用戶不同類型特征的健壯性.實(shí)驗(yàn)表明,用戶興趣特征是推斷用戶性別的有效特征,是對(duì)傳統(tǒng)的基于詞語(yǔ)粒度文本分析的有力補(bǔ)充.特別是針對(duì)微博上數(shù)量眾多的非活躍用戶,用戶興趣偏好特征尤其是用戶關(guān)注興趣偏好特征能夠較好地緩解數(shù)據(jù)稀疏問(wèn)題,提高推斷的準(zhǔn)確率.

        在未來(lái),我們?cè)噲D結(jié)合社會(huì)學(xué)與心理學(xué)中的相關(guān)理論,繼續(xù)挖掘有效的用戶行為特征與高級(jí)語(yǔ)言特征以構(gòu)建更為準(zhǔn)確的用戶興趣模型,進(jìn)一步提高推斷性能.

        [1]Lazer David,Alex Sandy Pentland,Lada Adamic,Sinan Aral,Albert Laszlo Barabasi,Devon Brewer,Nicholas Christakis,et al.Life in the network:the coming age of computational social science[J].Science,2009,323(5915):721.

        [2]Sun R.The Cambridge Handbook of Computational Psychology[M].Cambridge University Press,2008.

        [3]Ingmar W,Carlos C.The demographics of web search[A].Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval[C].New York:ACM,2010.523-530.

        [4]Duhigg C.The power of habit:why we do what we do in life and business[J].Random House LLC,2012,34(10).

        [5]De Choudhury M,et al.Predicting depression via social media[A].Proceedings of AAAI Conference on Weblogs and Social Media[C].Palo Alto,California:AAAI Press,2013.128-137.

        [6]Newman ML,et al.Gender differences in language use:An analysis of 14,000 text samples[J].Discourse Processes,2008,45(3):211-236.

        [7]Pennebaker JW,Stone LD.Words of wisdom:language use over the life span[J].Journal of Personality and Social Psychology,2003,85(2):291-301.

        [8]Burger JD,et al.Discriminating gender on Twitter[A].Proceedings of Empirical Methods in Natural Language Processing[C].Stroudsburg,PA,USA :ACL,2011.1301-1309.

        [9]Gosling SD,Gaddis S,Vazire S.Personality impressions based on facebook profiles[A].Proceedings of AAAI Conference on Weblogs and Social Media[C].Palo Alto,California:AAAI Press,2007.1-4.

        [10]Argamon,et al.Mining the Blogosphere:Age,gender and the varieties of self-expression[J].First Monday,2007,12(9).

        [11]Burger JD,Henderson JC.An exploration of observable features related to blogger age[A].Proceedings of AAAI Spring Symposium:Computational Approaches to Analyzing Weblogs[C].Palo Alto,California:AAAI Press,2006.15-20.

        [12]Rao D,et al.Classifying latent user attributes in twitter[A].Proceedings of the 2nd International Workshop on Search and Mining User-generated Contents[C].New York:ACM,2010.37-44.

        [13]Dong N,et al.How old do you think i am?:a study of language and age in twitter[A].Proceedings of the Seventh International AAAI Conference on Weblogs and Social Media[C].Palo Alto,California:AAAI Press,2013.439-448.

        [14]Kosinski M,Stillwell D,Graepe T.Private traits and attributes are predictable from digital records of human behavior[J].The National Academy of Sciences,2013,110:5802-5805.

        [15]Schwartz H A,et al.Personality,gender,and age in the language of social media:the open-vocabulary approach[J].PloS One,2013,8(9).

        [16]Tang C,et al.What’s in a name:a study of names,gender inference,and gender behavior in facebook[J].Database Systems for Advanced Applications,2011,344-356.

        [17]Elena Z,Lise G.To join or not to join:the illusion of privacy in social networks with mixed public and private user profiles[A].Proceedings of the 18th International Conference on World Wide Web[C].New York:ACM,2009.531-540.

        [18]Alan M,et al.You are who you know:inferring user profiles in online social networks[A].Proceedings of the 3rd ACM International Conference on Web Search and Data Mining[C].New York:ACM,2010.251-260.

        [19]Pennacchiotti M,Popescu A-M.Democrats,republicans and starbucks afficionados:user classification in twitter[A].Proceedings of ACM SIGKDD International Conference on Knowledge Discovery in Data Mining[C].New York:ACM,2011.430-438.

        [20]Golbeck,et al.Predicting personality from twitter[A].Proceedings of the IEEE Third International Conference on Social Computing[C].IEEE,2011.149-156.

        [21]Yoram,B,et al.Personality and patterns of Facebook usage[A].Proceedings of the 3rd Annual ACM Web Science Conference[C].New York:ACM,2012.24-32.

        [22]Daniele Q,et al.Our Twitter profiles,our selves:Predicting personality with Twitter[A].Proceedings of the IEEE Third International Conference on Social Computing[C].IEEE,2011.180-185.

        [23]De Choudhury M,et al.Characterizing and predicting postpartum depression from shared facebook data[A].Proceedings of the 17th ACM Conference on Computer Supported Cooperative Work & Social Computing[C].New York:ACM,2014.626-638.

        [24]Li Jiwei,Ritter A,Hovy E.Weakly supervised user profile extraction from Twitter[A].Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics[C].Stroudsburg,PA,USA :ACL,2014.165-174.

        [25]Tausczik,YR,Pennebaker JW.The psychological meaning of words:LIWC and computerized text analysis methods[J].Journal of Language and Social Psychology,2010,29(1):24-54.

        [26]Gao,R,et al.Developing simplified Chinese psychological linguistic analysis dictionary for microblog[J].Brain and Health Informatics,2013,359-368.

        [27]Huijie L,et al.User-level psychological stress detection from social media using deep neural network[A].Proceedings of ACM International Conference on Multimedia[C].New York:ACM,2014.507-516.

        [28]唐琴,林鴻飛.文本中人物性別識(shí)別研究[J].中文信息學(xué)報(bào),2010,2:46-51.

        Tang Qin,Lin H.Research on gender recognition for character in text[J].Journal of Chinese Information Processing,2010,24(2):46-51.(in Chinese)

        [29]王晶晶,李壽山,黃磊.中文微博用戶性別分類方法研究[J].中文信息處理,2014,28(6):150-155.

        Wang Jingjing,Li Shoushan,Huang Lei.User gender classification in Chinese Microblog[J].Journal of Chinese Information Processing,2010,28(6):150-155.(in Chinese)

        [30]Morgane C,Sonderegger M,Ruths D.Gender inference of twitter users in non-English contexts[A].Proceedings of the Conference on Empirical Methods in Natural Language Processing[C].Stroudsburg,PA,USA :ACL,2013.1136-1145.

        [31]Zamal A,et al.Homophily and latent attribute inference:inferring latent attributes of twitter users from neighbors[A].Proceedings of AAAI Conference on Weblogs and Social Media[C].Palo Alto,California:AAAI Press,2012.387-390.

        [32]Mislove A,et al.Understanding the demographics of twitter users[A].Proceedings of AAAI Conference on Weblogs and Social Media[C].Palo Alto,California:AAAI Press,2011.554-557.

        [33]Liu W,Ruths D.What’s in a name? using first names as features for gender inference in Twitter[A].Proceedings of the 2013 AAAI Spring Symposium[C].Palo Alto,California:AAAI Press,2013.10-16.

        [34]Ghorab MR,et al.Personalised information retrieval:survey and classification[J].User Modeling and User-Adapted Interaction,2013,4(23):381-443.

        [35]Bobadilla,et al.Recommender systems survey[J].Knowledge-Based Systems,2013,46:109-132.

        [36]Liangjie Hong,Brian D Davison.Empirical study of topic modeling in twitter[A].Proceedings of the First Workshop on Social Media Analytics[C].New York:ACM,2010.80-88.

        [37]Anderson WT,Golden LL.Lifestyle and psychographics:a critical review and recommendation[J].Advances in Consumer Research,1984,11(1).

        [38]Blei,DM,Ng AY,Jordan MI.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

        [39]Griffiths,TL,Steyvers M.Finding scientific topics[J].National Academy of Sciences of the United States of America,2004,101:5228-5235.

        [40]Jacob Cohen et al.A coef?cient of agreement for nominal scales[J].Educational and Psychological Measurement,1960,20(1):37-46.

        [41]Fan R.-E.,et al.LIBLINEAR:A library for large linear classification[J].Journal of Machine Learning Research,2008,9:1871-1874.

        宋 巍 男,1983年1月出生,黑龍江哈爾濱人.講師、中國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)員、中文信息學(xué)會(huì)會(huì)員.2006年、2008年和2013年在哈爾濱工業(yè)大學(xué)獲得學(xué)士、工學(xué)碩士和工學(xué)博士學(xué)位.現(xiàn)在首都師范大學(xué)信息工程學(xué)院工作,主要從事社會(huì)計(jì)算、自然語(yǔ)言處理和信息檢索有關(guān)研究.

        E-mail:wsong@cnu.edu.cn

        劉麗珍 女.1966年7月出生,山西太原人.教授、中國(guó)人工智能學(xué)會(huì)教育工作委員會(huì)副秘書長(zhǎng),北京市人工智能學(xué)會(huì)理事,中國(guó)計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員.1986年、1994年、2003年分別在山西大學(xué)、西北大學(xué)和北京理工大學(xué)獲工學(xué)學(xué)士、工學(xué)碩士和工學(xué)博士學(xué)位.現(xiàn)在首都師范大學(xué)信息工程學(xué)院工作,主要從事數(shù)據(jù)挖掘、社會(huì)計(jì)算、信息檢索和自然語(yǔ)言處理等方面的研究工作.

        E-mail:liz-liu7480@cnu.edu.cn

        st P

        for Gender Inference on Microblog

        SONG Wei,LIU Li-zhen,WANG Han-shi

        (CollegeofInformationEngineering,CapitalNormalUniversity,Beijing100048,China)

        User demographic attributes,such as gender and age,are the core factors to be considered for research and applications in computational psychology,personalized search and social commerce marketing.Automatic user latent attribute inference based on user generated data becomes an emerging research topic.This paper proposes a methed for user gender inference on Microblog by exploiting user content preferences and following behaviour preferences.The experiments on a dataset collected from Sina Weibo that consists of nearly 10000 users demonstrate the effectiveness of user preferences features.Comparing with the traditional language usage features,combining user content preferences and user following preferences features can improve the inference accuracy largely.The user following preferences features are especially effective for inferring the gender of inactive users.

        user latent attribute;user gender inference;user preference modeling;social media

        2015-06-01;

        2015-10-26;責(zé)任編輯:李勇鋒

        國(guó)家自然科學(xué)基金(No.61402304,No.61303105);北京市自然科學(xué)基金(No.4154065);教育部人文社會(huì)科學(xué)規(guī)劃項(xiàng)目(No.14YJAZH046);北京市教委科研支持項(xiàng)目(No.KM201610028015)

        TP391

        A

        0372-2112 (2016)10-2522-08

        ??學(xué)報(bào)URL:http://www.ejournal.org.cn

        10.3969/j.issn.0372-2112.2016.10.034

        猜你喜歡
        特征內(nèi)容用戶
        內(nèi)容回顧溫故知新
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        主要內(nèi)容
        臺(tái)聲(2016年2期)2016-09-16 01:06:53
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        如何獲取一億海外用戶
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        在线成人爽a毛片免费软件 | 日本肥老妇色xxxxx日本老妇| 狠狠色噜噜狠狠狠狠米奇777| 成人影院在线视频免费观看| 精品偷拍被偷拍在线观看| 曝光无码有码视频专区| 国产精品27页| 亚洲av伊人久久综合性色| 日韩不卡一区二区三区色图| 亚洲大尺度无码无码专区| 久久综合九色综合97欧美| 成人做爰69片免费看网站| 完整在线视频免费黄片| 亚洲六月丁香色婷婷综合久久| 免费国产在线视频自拍白浆| 亚洲国产天堂久久综合网| 久久久久亚洲精品无码网址| 久久99国产亚洲高清观看首页| 在线观看一区二区三区国产| 日本xxxx色视频在线观看免费| 99国产精品人妻噜啊噜| 99热精品国产三级在线观看| 国产三级精品三级在线观看粤语| 手机免费高清在线观看av| 国产精品 无码专区| a级毛片无码免费真人| 国产一区二区三区爆白浆| 一区二区三区成人av| 久久久精品国产亚洲av网深田| 97在线观看播放| 男女边吃奶边做边爱视频| 日本中文字幕av网址| 亚洲综合在线观看一区二区三区| 永久免费人禽av在线观看| a级黑人大硬长爽猛出猛进| 亚洲国产免费公开在线视频| 全亚洲最大的私人影剧院在线看| 国产一区二区黄色的网站| 门卫又粗又大又长好爽| 亚洲日韩∨a无码中文字幕| 国产精品自在在线午夜出白浆|