亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多任務(wù)融合模型的用戶屬性推斷*

        2018-04-13 07:26:58李佳藝
        數(shù)據(jù)采集與處理 2018年2期
        關(guān)鍵詞:分類融合用戶

        趙 宇 李佳藝 王 莉

        (1太原理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,晉中,030600;2 太原理工大學(xué)大數(shù)據(jù)學(xué)院,晉中,030600)

        引  言

        互聯(lián)網(wǎng)及移動(dòng)技術(shù)的快速發(fā)展,不僅改變著人們的生活方式,同時(shí)也產(chǎn)生了海量數(shù)據(jù)資源。如何從繁雜無序的文本中挖掘出有價(jià)值的用戶信息,已成為業(yè)界廣泛關(guān)注的問題,因此用戶屬性推斷應(yīng)運(yùn)而生。用戶屬性推斷,旨在通過一段時(shí)間內(nèi)用戶的已有數(shù)據(jù)(如搜索信息、購物信息、地理位置以及移動(dòng)通信等)推斷用戶屬性,具體屬性包括:性別、年齡和受教育程度等。對于企業(yè)而言,了解自身產(chǎn)品受眾的屬性有助于設(shè)計(jì)營銷方案及廣告宣傳策略、實(shí)現(xiàn)產(chǎn)品定位及線上線下的市場推廣;對刑偵類工作而言,掌握嫌疑人的基本屬性有利于排除干擾因素,進(jìn)一步縮小偵查范圍。因此屬性推斷能力的強(qiáng)弱直接關(guān)系到相關(guān)應(yīng)用的準(zhǔn)確性。在用戶屬性推斷研究方面,雖然近幾年得到了產(chǎn)業(yè)界和學(xué)術(shù)界的關(guān)注,但仍然面臨著巨大的挑戰(zhàn),主要表現(xiàn)在:(1)現(xiàn)有的用戶屬性推斷方法大多是為用戶提取基于經(jīng)驗(yàn)所得的特征,卻忽略了用戶的整體表征對用戶屬性推斷的貢獻(xiàn),這在一定程度上導(dǎo)致用戶屬性間的關(guān)聯(lián)關(guān)系難以發(fā)揮作用,限制了用戶屬性推斷的可參考范圍;(2)大多數(shù)用戶屬性推斷問題多歸為分類問題,即將屬性劃分為不同的閾值,轉(zhuǎn)化成二分類或多分類問題。但使用多分類器融合技術(shù)較單一分類方法而言具有較強(qiáng)的泛化能力。針對以上兩點(diǎn),本文提出基于多任務(wù)融合模型的用戶屬性推斷方法。從語義及語法兩個(gè)維度實(shí)現(xiàn)用戶整體表征;并在單模型訓(xùn)練基礎(chǔ)上建立多個(gè)屬性間的關(guān)聯(lián)關(guān)系,提高單任務(wù)學(xué)習(xí)的區(qū)分度;最后采用模型融合技術(shù),完成屬性間的關(guān)聯(lián)性學(xué)習(xí),進(jìn)一步提高推斷準(zhǔn)確率,增強(qiáng)泛化能力。

        用戶屬性推斷正在由基于特征工程的推斷方法向基于深度學(xué)習(xí)的推斷方法發(fā)展。早期一些工作試圖根據(jù)語言學(xué)中寫作數(shù)據(jù)推斷用戶屬性[1]。隨后,互聯(lián)網(wǎng)發(fā)展為用戶屬性推斷提供了新的契機(jī),基于用戶瀏覽歷史的統(tǒng)計(jì)學(xué)方法應(yīng)運(yùn)而生[2,3]。同時(shí),在線社交網(wǎng)絡(luò)與移動(dòng)平臺(tái)的建立為用戶屬性推斷積累了空前規(guī)模的用戶量,這使得推斷用戶屬性的可能性和迫切性進(jìn)一步提升?;谝苿?dòng)日志[4]、網(wǎng)站訪問流量[5]及地理位置信息[6]的用戶屬性推斷逐漸增多,成為連接用戶離線和在線生活的橋梁,為用戶屬性推斷提供依據(jù)。可見,在傳統(tǒng)的基于特征工程的用戶屬性推斷研究中,用戶屬性推斷的好壞多依賴于經(jīng)驗(yàn)所得,特征的針對性較強(qiáng),而用戶整體的表征能力一定程度上被忽略,這使得用戶屬性間的潛在聯(lián)系難以發(fā)揮作用。

        近幾年興起了深度學(xué)習(xí)方法[7-17]解決用戶屬性推斷問題,在一定程度上降低了對經(jīng)驗(yàn)特征的依賴關(guān)系。此類方法大多通過詞嵌入方式進(jìn)行詞語語義學(xué)習(xí),并使用連接或平均池化作用最終形成用戶內(nèi)容向量,再通過分類器完成屬性分類。在文本分類、命名實(shí)體識(shí)別以及關(guān)系抽取等相關(guān)研究中也取得了顯著的成果。王禮敏[8]等利用單通道長短時(shí)記憶模型(Long-short term memory,LSTM)分別學(xué)習(xí)得到微博文本及社交信息的特征表示,建立雙通道LSTM模型學(xué)習(xí)兩組特征之間的關(guān)系獲得最終分類結(jié)果。戴斌[9]等將LSTM作為分類器,通過迭代將確定性高的視圖文本及其對應(yīng)的其他類型文本自動(dòng)標(biāo)注并加入標(biāo)注樣本中,同樣取得了較好的性別分類結(jié)果。但LSTM通常對于序列任務(wù)有較大的優(yōu)勢,對于短文本及亂序而言,其分類效果并不理想,且上述特征選取只考慮了用戶文本的語義信息,而忽略了其他角度特征提取(如關(guān)鍵詞)對用戶屬性推斷的重要作用,且用戶屬性間的關(guān)聯(lián)關(guān)系并未得到很好的利用。

        1 多任務(wù)融合推斷模型

        本文提出基于多任務(wù)融合模型的用戶屬性推斷方法,如圖1所示。本框架主要分為兩個(gè)階段,第一階段,單模型單特征推斷,根據(jù)用戶數(shù)據(jù)采用基于文本語義(doc2vec_DBOW,doc2vec_DM)及基于文本語法的去冗余關(guān)鍵詞(TF-IDF_MR)學(xué)習(xí)方式實(shí)現(xiàn)用戶級向量表示,然后通過模型訓(xùn)練出每個(gè)用戶的M種特征分布概率;第二階段,基于關(guān)聯(lián)學(xué)習(xí)模型的多任務(wù)融合推斷,即將第一階段每種表示方式所得結(jié)果與用戶表征相結(jié)合,作為用戶整體表征的補(bǔ)充完成模型訓(xùn)練,輸出用戶多個(gè)任務(wù)的屬性矩陣,再將多個(gè)單模型訓(xùn)練結(jié)果的多任務(wù)屬性矩陣作為用戶表征向量的附加條件,進(jìn)行融合學(xué)習(xí),最終得出用戶多個(gè)屬性取值。

        本框架主要突出了用戶的整體表征及屬性關(guān)聯(lián)度表征。通過基于文本語義及去冗余關(guān)鍵詞計(jì)算的單模型單特征訓(xùn)練,完成用戶整體表征;在第二階段基于關(guān)聯(lián)學(xué)習(xí)模型的多任務(wù)融合推斷中充分利用任務(wù)間的關(guān)聯(lián)性(如年齡及受教育程度的關(guān)聯(lián)關(guān)系),為用戶屬性推斷提供參考依據(jù),從而進(jìn)一步增強(qiáng)用戶屬性推斷的準(zhǔn)確性。

        圖1 多任務(wù)融合推斷模型框架Fig.1 Multi-task ensemble inference model framework

        2 單模型單特征推斷

        本文的單模型單特征推斷主要采用兩類模型:基于doc2vec模型的單特征推斷及基于TF-IDF_MR模型的單特征推斷。采用doc2vec中的DM及DBOW從語義層面實(shí)現(xiàn)用戶的整體表征,并使用改進(jìn)后的去冗余關(guān)鍵詞策略TF-IDF_MR算法從詞頻角度實(shí)現(xiàn)用戶文本數(shù)據(jù)的重要性度量。

        2.1 基于doc2vec模型的單特征推斷

        自然語言處理困難之處在于語義復(fù)雜、難以表征,通常需要將語言數(shù)學(xué)化,而向量化便是一種很好的方法。 One-hot representation 是較為常見的詞語表示方法之一,但該方法在受到維數(shù)災(zāi)難困擾的同時(shí)并不能很好地刻劃詞語之間的相似性。

        Google提出了一種開源的可對詞語實(shí)現(xiàn)低維實(shí)數(shù)向量表示的工具包word2vec,其使用的訓(xùn)練方法有兩種:CBOW(Continuous bag-of-words)和Skip-gram。該向量表示基于神經(jīng)語言模型,通過對大規(guī)模數(shù)據(jù)的訓(xùn)練,將詞的上下文信息表示在向量中,實(shí)現(xiàn)文本內(nèi)容向量化,但其只針對詞語語義表征。doc2ve在word2vec詞向量表征思想基礎(chǔ)上,實(shí)現(xiàn)了分布式文檔表征。作為一個(gè)處理可變長度文本的方法,該方法與word2vec的最大區(qū)別在于加入了一個(gè)新的與單詞維度相等的向量作為句子表征、段落表征或者文檔表征。故本文將doc2vec的文檔表示應(yīng)用于用戶級別,依據(jù)用戶文檔,對每個(gè)用戶進(jìn)行很好的語義總結(jié),提取出反映用戶屬性的用戶文檔向量。

        圖2 DM訓(xùn)練過程 Fig.2 DM training process

        在doc2vec中有兩種模型可生成用戶向量:DM(Distributed memory model)和DBOW(Distributed bag of words)。圖2為DM訓(xùn)練過程。其中D為用戶文檔矩陣,W為單詞矩陣。在該模型中,使用具有3個(gè)詞的上下文的池化或連接來預(yù)測第4個(gè)詞,用戶文檔量表示當(dāng)前上下文中缺少的信息,可以作為用戶文檔主題的記憶。在word2vec模型CBOW基礎(chǔ)上新增文檔ID作為訓(xùn)練語料中每個(gè)文檔的唯一標(biāo)識(shí),即本文的用戶文檔ID標(biāo)識(shí),與其他單詞W一樣映射成一個(gè)維度相同的向量,然后在固定窗口內(nèi)將其與詞向量進(jìn)行池化或連接用于下一個(gè)單詞的預(yù)測。在訓(xùn)練過程中使用隨機(jī)梯度下降及反向傳播方式更新用戶文檔向量、單詞向量及其所對應(yīng)的權(quán)值。在每一次的訓(xùn)練中,用戶文檔向量共享,即用戶文檔向量會(huì)作為一個(gè)的固定的向量參與到整個(gè)訓(xùn)練過程,不因窗口滑動(dòng)而忽略。DBOW訓(xùn)練方式與word2vec中的Skip-gram類似,不同之處也在于用戶文檔向量的添加,即每一次單詞概率的訓(xùn)練都有用戶全局文檔語義的參與。訓(xùn)練完成后再通過分類模型進(jìn)一步提升DBOW及DM所得模型在相應(yīng)的單任務(wù)預(yù)測結(jié)果上的準(zhǔn)確率。

        2.2 基于TF-IDF_MR模型的單特征推斷

        最大化特征與分類變量之間的相關(guān)度是特征選擇中較為常見的一種方式。但由于提取的特征之間存在較高相關(guān)性,使得提取出的前N個(gè)較好的特征組合并不一定能提升最終分類效果。因此本文提出TF-IDF(Term frequency-inverse document frequency)_MR聯(lián)合策略進(jìn)行關(guān)鍵詞提取。即在TF-IDF提取的關(guān)鍵詞基礎(chǔ)上,采用互信息概念通過最小冗余(MR)標(biāo)準(zhǔn)消除關(guān)鍵詞之間的冗余。

        TF-IDF算法是一種簡單而高效的關(guān)鍵詞提取方法,用于衡量單詞對文本的重要程度。設(shè)文檔集為D,d為D其中一個(gè)文檔,N表示D中的全部文檔數(shù)目,計(jì)算公式為

        WTF-IDF=TF×IDF

        IDF=log(N/n)

        (1)

        式中:TF計(jì)算單詞t占文檔d所有詞的比重,即在文檔d中的出現(xiàn)頻率;IDF表示文檔的逆文檔頻率,指該詞在其他文檔中分布的稀疏性,n表示在D中包含t的文檔數(shù)。

        對于用戶文檔而言,TF-IDF可以很好地提取用戶關(guān)鍵詞信息,但其選擇過程沒有考慮關(guān)鍵詞之間的相關(guān)性,即選擇的關(guān)鍵詞之間可能存在冗余。MR算法可通過計(jì)算特征間互信息的方式判斷冗余度的大小。對于兩個(gè)高相關(guān)度的單詞來說,去掉其中某個(gè)單詞并不會(huì)影響最終分類結(jié)果。所以對關(guān)鍵詞子集S(S?tfidf,tfidf為通過TF-IDF方式選取得到的關(guān)鍵詞集),使用最小冗余標(biāo)準(zhǔn),如式 (2) 所示。

        (2)

        式中I(wi,wj)表示兩個(gè)單詞之間的互信息。

        結(jié)合上述約束,產(chǎn)生關(guān)鍵詞集為

        maxσ(tfidf,R),σ=tfidf-R

        (3)

        基于此,最后采用相對快速的邏輯回歸方式進(jìn)行用戶分類。

        3 基于關(guān)聯(lián)學(xué)習(xí)的多任務(wù)融合推斷

        因?yàn)閿?shù)據(jù)本身和最終分類屬性間的聯(lián)系復(fù)雜,所以數(shù)據(jù)間的關(guān)聯(lián)性一定程度上有利于提高屬性推斷的準(zhǔn)確率。上述單任務(wù)模型雖然訓(xùn)練有效,但對多分類斷而言效果并不理想。從另一個(gè)角度講,單任務(wù)學(xué)習(xí)會(huì)忽略用戶屬性之間的關(guān)聯(lián)關(guān)系,但這種關(guān)聯(lián)關(guān)系卻可以作為相關(guān)任務(wù)的分類依據(jù),所以在傳統(tǒng)單模型單任務(wù)訓(xùn)練基礎(chǔ)上,加入相關(guān)屬性特征,共同作為單模型、多任務(wù)用戶屬性推斷的輸入。同時(shí),使用不同模型分類的側(cè)重點(diǎn)有所不同,本文采用Stacking融合機(jī)制,借助單模型、多任務(wù)訓(xùn)練結(jié)果并將其組合起來,從而達(dá)到比單模型訓(xùn)練結(jié)果更好的分類效果,降低模型過擬合的可能性。

        基于Stacking的多模型融合框架中,將關(guān)聯(lián)學(xué)習(xí)中單模型、單任務(wù)學(xué)習(xí)結(jié)果組合作為單模型、多任務(wù)學(xué)習(xí)的輸入,通過關(guān)聯(lián)學(xué)習(xí)針對各屬性得到多個(gè)分類模型;在融合階段,將上一階段各單模型、多任務(wù)訓(xùn)練結(jié)果中的各屬性組合形成新的數(shù)據(jù)集,使用支持向量機(jī)方法在新的數(shù)據(jù)集上進(jìn)行訓(xùn)練得到新的分類模型,用于最終用戶屬性的推斷。

        圖3給出了單模型、多任務(wù)關(guān)聯(lián)學(xué)習(xí)過程。即對于單個(gè)模型而言,分別將DBOW,DM及TF-IDF_MR單任務(wù)、單模型分類所得的屬性特征矩陣加入用戶文檔向量,用于用戶的聯(lián)合表征,并通過分類器訓(xùn)練完成用戶屬性推斷。此后,還需與其他單模型多任務(wù)訓(xùn)練結(jié)果融合訓(xùn)練,從而訓(xùn)練出具有較強(qiáng)泛化能力的分類模型。

        圖3 多任務(wù)關(guān)聯(lián)學(xué)習(xí)模型Fig.3 Multitasking association learning model

        4 實(shí)驗(yàn)結(jié)果與分析

        4.1實(shí)驗(yàn)數(shù)據(jù)集及實(shí)驗(yàn)環(huán)境

        數(shù)據(jù)集1本實(shí)驗(yàn)采用2016年由中國計(jì)算機(jī)學(xué)會(huì)舉辦的大數(shù)據(jù)競賽《大數(shù)據(jù)精準(zhǔn)營銷中搜狗用戶畫像挖掘》的比賽數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù)集,其中有10萬條訓(xùn)練數(shù)據(jù),如表1所示。

        表1 數(shù)據(jù)集1格式說明

        數(shù)據(jù)集2采用大型超市的零售數(shù)據(jù)集(2012~2013年)。經(jīng)過前期預(yù)處理后數(shù)據(jù)集中包含7萬個(gè)用戶及其屬性和購買記錄,平均每個(gè)用戶購買商品約225件。其用戶屬性包括:性別、婚姻、所在年齡段、收入以及受教育程度。本文僅選取性別、所在年齡段和受教育程度3個(gè)屬性作為推斷屬性。

        實(shí)驗(yàn)環(huán)境:實(shí)驗(yàn)在服務(wù)器上進(jìn)行,實(shí)驗(yàn)環(huán)境如下:處理器: Intel(R) Xeon(R) 4顆8核;內(nèi)存為128 GB;操作系統(tǒng)為Red Hat Enterprise Linux Server Release 6.5操作系統(tǒng)。

        4.2 評價(jià)指標(biāo)

        評價(jià)指標(biāo)為用戶各屬性推斷結(jié)果的準(zhǔn)確率。其中,性別、所在年齡段和受教育程度分別計(jì)算準(zhǔn)確率,最終以平均準(zhǔn)確率作為評判依據(jù)。

        評價(jià)指標(biāo)準(zhǔn)確率為

        平均準(zhǔn)確率計(jì)算公式為

        圖4 所在年齡段與受教育程度關(guān)聯(lián)關(guān)系Fig.4 Relationship between age and education

        4.3 數(shù)據(jù)預(yù)分析

        本文的假設(shè)基礎(chǔ)是:用戶屬性之間存在關(guān)聯(lián)關(guān)系,故本文針對數(shù)據(jù)集1,進(jìn)行了年齡段與受教育程度關(guān)聯(lián)度分析:實(shí)驗(yàn)數(shù)據(jù)采用數(shù)據(jù)集1中隨機(jī)抽樣的2萬個(gè)用戶數(shù)據(jù),通過weka平臺(tái)建立散點(diǎn)圖,如圖4 所在年齡段與受教育程度關(guān)聯(lián)關(guān)系分布。由圖可知,所在年齡段與受教育程度近似呈線性相關(guān),即年齡較小的用戶其受教育程度較低的可能性較大。

        4.4 基于關(guān)鍵詞策略的屬性推斷結(jié)果對比

        在實(shí)驗(yàn)中發(fā)現(xiàn),本文所提取的用戶關(guān)鍵詞中存在一定的冗余。所以,本文在基于TF-IDF的關(guān)鍵詞策略基礎(chǔ)上,為去除關(guān)鍵詞冗余,采用互信息概念,加入最小冗余機(jī)制,共同作為用戶屬性推斷依據(jù)。實(shí)驗(yàn)結(jié)果如表2所示。

        表2 TF-IDF與TF-IDF_MR結(jié)果對比

        由表2可知,加入最小冗余機(jī)制的TF-IDF_MR分類準(zhǔn)確率略高于傳統(tǒng)的關(guān)鍵詞提取算法。由于傳統(tǒng)的TF-IDF算法所提取的前k個(gè)關(guān)鍵詞可能存在較強(qiáng)的冗余性,導(dǎo)致用戶的片面表征,喪失了整體屬性特質(zhì)。而去除冗余后的前k個(gè)關(guān)鍵詞具有較全面的用戶表征能力,故在實(shí)驗(yàn)中用戶屬性推斷準(zhǔn)確率有所提升。

        4.5 基于關(guān)聯(lián)學(xué)習(xí)的多任務(wù)推斷結(jié)果對比

        本文使用doc2vec中的DBOW模型及DM模型在數(shù)據(jù)集上進(jìn)行多次試驗(yàn),試驗(yàn)結(jié)果表明,由于屬性間的相互聯(lián)系,加入預(yù)測屬性特征的單模型訓(xùn)練可以賦予用戶更豐富的表征,有助于更好地單任務(wù)預(yù)測。實(shí)驗(yàn)結(jié)果如表3,4所示。其中,Multi-DBOW與Multi-DM為多任務(wù)模型。

        表3 單任務(wù)與多任務(wù)DBOW模型結(jié)果對比

        表4 單任務(wù)與多任務(wù)DM模型結(jié)果對比

        實(shí)驗(yàn)結(jié)果表明、在單任務(wù)單模型訓(xùn)練基礎(chǔ)上加入多任務(wù)因素,有利于提高單模型訓(xùn)練結(jié)果的準(zhǔn)確率。同時(shí),由表3及表4可以看出,加入多任務(wù)后,兩個(gè)數(shù)據(jù)集中對于所在年齡段和受教育程度的預(yù)測結(jié)果提升較為明顯。數(shù)據(jù)集1中,所在年齡段分別提升2.0%和3.7%,受教育程度分別提升2.7%和3.3%;數(shù)據(jù)集2中,所在年齡段分別提升1.9%和2.5%,受教育程度分別提升2.3%和2.8%,分析原因在于:所在年齡段和受教育程度在單任務(wù)中的訓(xùn)練本身較為困難,然而受教育程度與所在年齡段存在著較強(qiáng)的關(guān)聯(lián)性,多任務(wù)關(guān)聯(lián)學(xué)習(xí)中二者有明顯提高。

        在兩個(gè)數(shù)據(jù)集中比較表3與表4可以看出,基于DM的多任務(wù)訓(xùn)練平均提升值(3.3%,2.6%)要高于基于DBOW的多任務(wù)訓(xùn)練的平均提升值(1.8%,2.0%),原因可能在于DM的訓(xùn)練方式是從句子中隨機(jī)抽取詞語進(jìn)行訓(xùn)練,一定程度上忽略了詞語之間的次序關(guān)系,所以當(dāng)對用戶向量進(jìn)行非詞語語義向量擴(kuò)充時(shí),其效果更明顯。其所在年齡段的提升同理。

        4.6 多模型融合推斷結(jié)果比較

        本文分別選擇了改進(jìn)后基于Multi-DBOW,Multi-DM和TF-IDF_MR作為3個(gè)單獨(dú)模型,與使用Stacking機(jī)制的融合模型進(jìn)行對比。對比結(jié)果如表5所示。由表5可知,實(shí)驗(yàn)集1與實(shí)驗(yàn)集2經(jīng)過模型融合后準(zhǔn)確率較單模型都有很大程度的提升,可見多模型融合在用戶屬性推斷中起著重要作用。且實(shí)驗(yàn)中發(fā)現(xiàn),隨著模型數(shù)量的不斷增加,訓(xùn)練結(jié)果準(zhǔn)確率會(huì)逐步提高。尤其是當(dāng)加入doc2vec模型后,提升效果較為顯著,說明該模型的加入有助于整體的學(xué)習(xí)和分類。與此同時(shí),較多模型的加入會(huì)直接影響模型融合效率,故選擇合適的且具有針對性的模型對融合而言至關(guān)重要。

        表5 單模型與多模型融合推斷結(jié)果比較

        4.7 與CCF2016測評結(jié)果比較

        表6中給出了在數(shù)據(jù)集1上,利用本文方法在使用較少模型的情況下所得評價(jià)結(jié)果與該參評系統(tǒng)前10名平均水平和最高測評結(jié)果的對比。由表6可見,本文方法較測評結(jié)果準(zhǔn)確率有所提高。

        表6 測評結(jié)果比較

        5 結(jié)束語

        本文討論了使用多任務(wù)融合模型的用戶屬性推斷方法研究。通過考慮用戶屬性之間的關(guān)聯(lián)關(guān)系,在單任務(wù)模型的基礎(chǔ)上增加關(guān)聯(lián)學(xué)習(xí),從而利用屬性間的隱性關(guān)聯(lián),更好地表征用戶,提高單任務(wù)模型分類的準(zhǔn)確率。同時(shí),結(jié)合stacking多模型融合技術(shù),進(jìn)一步提高模型推斷結(jié)果。接下來的工作將進(jìn)一步優(yōu)化分詞效果,將doc2vec中采用到的word2vec訓(xùn)練詞向量與現(xiàn)有訓(xùn)練好的詞向量結(jié)合,豐富語義表征;發(fā)掘更好的預(yù)測模型,嘗試使用多種深度學(xué)習(xí)框架進(jìn)行多任務(wù)間的屬性推斷;將用戶屬性推斷與異構(gòu)數(shù)據(jù)結(jié)合,從而更好地完成屬性推斷任務(wù)。

        參考文獻(xiàn):

        [1]Schler J M,Koppel M, Arfamon S, et al.Effects of age and gender on blogging[J].Frontiers of Information Technology & Electronic Engineering,2006,274(S 1/2):199-205.

        [2]Hu J, Zeng H J, Li H, et al. Demographic prediction based on user′s browsing behavior[C]// International Conference on World Wide Web. Banff, Alberta, Canada: DBLP, 2007:151-160.

        [3]Torres S D, Weber I. What and how children search on the web[C]// ACM International Conference on Information and Knowledge Management. [S.l.] :ACM, 2011:393-402.

        [4]Zhong E, Tan B, Mo K, et al.User demographics prediction based on mobile data[J].Pervasive & Mobile Computing,2013,9(6):823-837.

        [5]Culotta A, Ravi N K, Cutler J. Predicting the demographics of Twitter users from website traffic data[C]// Twenty-Ninth AAAI Conference on Artificial Intelligence. [S.l.] :AAAI Press, 2015:72-78.

        [6]Zhong Y, Yuan N J, Zhong W, et al. You are where you go:Inferring demographic attributes from location check-ins[C]// ACM International Conference on Information and Knowledge Management.[S.l.]:ACM, 2015:295304.

        [7]Evgeniou T, Pontil M. Regularized multi-task learning[C]// Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. [S.l.]:ACM, 2004:109-117.

        [8]王禮敏,嚴(yán)倩,李壽山,等.基于雙通道LSTM模型的用戶性別分類方法研究[J].計(jì)算機(jī)科學(xué),2018,45(2):121-124.

        Wang Limin, Yan Qian, Li Shoushan,et al. User gender clssification with dual-channel LSTM[J]. Computer Science,2018,45(2):121-124.

        [9]戴斌, 李壽山, 貢正仙,等. 基于多類型文本的半監(jiān)督性別分類方法研究[J].山西大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017, 40(1):14-20.

        Dai Bin, Li Shoushan, Gong Zhengxian,et al. Semi-supervied gender classification with multiple types of text[J]. Journal of Shanxi University (Natural Science Edition),2017, 40(1):14-20.

        [10] Wang P, Guo J, Lan Y, et al. Your cart tells you:Inferring demographic attributes from purchase data[J]. Proceedings of the Ninth ACM International Conference on Web Search and Data Mining, 2016, 1:173-182.

        [11] Mesnil G, Mikolov T, Ranzato M A, et al. Ensemble of generative and discriminative techniques for sentiment analysis of movie reviews[J].Lightwave Technology Journal of,2014,32(17):3043-3060.

        [12] Liu Y, Liu Z, Chua T S, et al. Topical word embeddings[C]// Twenty-Ninth AAAI Conference on Artificial Intelligence. [S.l.] :AAAI Press, 2015:2418-2424.

        [13] Wang P, Guo J, Lan Y, et al. Multi-task representation learning for demographic prediction[C]// European Conference on Information Retrieval. [S.l.]:Springer, 2016:88-99.

        [14] Sun F, Guo J, Lan Y, et al. Sparse word embeddings using regularized online learning[C]// International Joint Conference on Artificial Intelligence. [S.l.]:AAAI Press, 2016:2915-2921.

        [15] Xiang L, Sang J, Xu C. Demographic attribute inference from social multimedia behaviors: A cross-OSN approach[C]// International Conference on Multimedia Modeling. [S.l.]:Springer, 2017:515-526.

        [16] 趙軍,王紅,朱華方. 一種改進(jìn)的融合關(guān)聯(lián)詞典的微博傾向性分析方法[J].數(shù)據(jù)采集與處理, 2016,31(6):1220-1227.

        Zhao Jun, Wang Hong, Zhu Huafang. Improved method for analyzing microblog orientation based on association lexicon[J]. Journal of Data Acquisition and Processing,2016,31(6):1220-1227.

        [17] 張文艷,李存華,仲兆滿,等. 結(jié)合規(guī)則與語義的中文人稱代詞指代消解[J]. 數(shù)據(jù)采集與處理,2017,32(1):149-156.

        Zhang Wenyan, Li Cunhua, Zhong Zhaoman, et al. Coreference resolution of Chinese personal pronouns with combination of semantics and rules[J]. Journal of Data Acquisition and Processing,2017,32(1):149-156.

        猜你喜歡
        分類融合用戶
        村企黨建聯(lián)建融合共贏
        融合菜
        分類算一算
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        中文字幕乱码亚洲在线| 亚洲一区二区三区四区五区六| 在线综合亚洲欧洲综合网站| 99国产免费热播视频| 日韩在线精品视频观看| 色婷婷久久精品一区二区| 色欲一区二区三区精品a片| 樱桃视频影视在线观看免费| 午夜三级网| 国产在线看不卡一区二区| 国产一区二区三区男人吃奶| 日本顶级metart裸体全部| 欧美乱妇高清无乱码在线观看| 欧洲熟妇乱xxxxx大屁股7| 亚洲女同系列高清在线观看 | 福利一区二区三区视频在线| 日本一区二区高清视频| 国产亚洲成性色av人片在线观| 国产精品视频露脸| 久久久久亚洲av成人网址| 国产亚洲精品国看不卡| 亚洲精品国产亚洲av| 国产伦人人人人人人性| 人人妻人人澡人人爽精品欧美| av永久天堂一区二区三区蜜桃| 97成人精品视频在线| 久久精品国产久精国产| 亚洲熟妇无码久久精品疯| 91国内偷拍一区二区三区| 色欲色香天天天综合网www| 久久久天堂国产精品女人 | 国产美女高潮流白浆在线观看| 不卡av一区二区在线| 国产精品人人做人人爽| 国产一区二区精品久久| 成人午夜视频一区二区无码| 成人全部免费的a毛片在线看| 又湿又紧又大又爽a视频国产| 色一情一乱一乱一区99av| 人妻无码在线免费| 黄片国产一区二区三区|