亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)詞向量模型的用戶畫(huà)像研究

        2020-01-06 02:15:36陳澤宇
        關(guān)鍵詞:主題詞畫(huà)像向量

        陳澤宇,黃 勃,2

        1.上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海201620

        2.江西省經(jīng)濟(jì)犯罪偵查與防控技術(shù)協(xié)同創(chuàng)新中心,南昌330000

        1 引言

        互聯(lián)網(wǎng)科技的發(fā)展帶來(lái)了互聯(lián)網(wǎng)數(shù)據(jù)爆炸式的增長(zhǎng),用戶在瀏覽網(wǎng)頁(yè)的同時(shí)會(huì)留下大量的行為數(shù)據(jù),分析這些數(shù)據(jù)可以挖掘出用戶基本的屬性信息和潛在的興趣偏好,給企業(yè)的經(jīng)營(yíng)方面提供了重大的幫助。搜索引擎是一個(gè)主流的網(wǎng)絡(luò)平臺(tái),利用搜索引擎來(lái)構(gòu)建用戶畫(huà)像對(duì)于營(yíng)銷的效果具有更加重要的價(jià)值,針對(duì)用戶的查詢?cè)~的短文本,傳統(tǒng)的向量空間模型存在特征稀疏的問(wèn)題,并且缺乏單詞之間的語(yǔ)義聯(lián)系。李雅坤[1]引入詞向量構(gòu)建了基于搜索引擎短文本的用戶畫(huà)像。詞向量模型[2]通常使用一個(gè)向量來(lái)表示一個(gè)單詞,無(wú)法解決一詞多義和一義多詞的情況。為了解決這樣的問(wèn)題,Reisinger 等[3]提出了多原型向量空間模型(multi-prototype vector space models),該模型將一個(gè)單詞的上下文聚類為一組,然后為每一個(gè)類生成一個(gè)不同的詞向量。然而,多原型向量空間模型[4-6]在生成詞向量時(shí)也存在一些問(wèn)題,它將同一個(gè)單詞的不同上下文聚類為沒(méi)有關(guān)聯(lián)的兩簇,但他們的語(yǔ)義可能是相同的。于是,張小川等[7]將文本向量與文本的主題分布相結(jié)合,得到語(yǔ)義表達(dá)更豐富的詞向量,但該模型只是簡(jiǎn)單地將文本向量和文本的主題向量相連接,在主題信息的表達(dá)上還不夠突出。本文提出一種更加強(qiáng)大的多原型向量空間模型,將目標(biāo)單詞和它所分配的主題共同放入神經(jīng)網(wǎng)絡(luò)中訓(xùn)練得到目標(biāo)單詞的主題詞向量。

        2 相關(guān)工作

        2.1 Word2vec模型

        Word2vec 是谷歌公司提出的一種神經(jīng)網(wǎng)絡(luò)模型[8]。該模型利用多維的向量來(lái)表示單詞,且詞向量的每個(gè)維度都代表一個(gè)語(yǔ)義特征。word2vec 采用的模型有兩種:CBOW和Skip-Gram。CBOW模型是通過(guò)目標(biāo)單詞的上下文來(lái)預(yù)測(cè)目標(biāo)單詞[9],而Skip-Gram 則通過(guò)目標(biāo)單詞來(lái)預(yù)測(cè)它的上下文[9]。其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1和圖2所示。

        圖1 CBOW模型

        圖2 Skip-Gram模型

        輸入層是One-Hot編碼,每一個(gè)詞用一個(gè)n 維的向量來(lái)表示,這個(gè)n 維向量只有一個(gè)位置是1,其余位置都是0。給定一個(gè)單詞序列W={w1,w2,…,wN} ,該模型的目標(biāo)是最大化平均對(duì)數(shù)概率[10]:

        其中,c 表示目標(biāo)單詞的上下文,k 為上下文的大小。輸出層是一個(gè)softmax回歸[11],用來(lái)計(jì)算P(wi+c|wi)。

        其中,vc表示目標(biāo)單詞上下文wc的詞向量,vi表示目標(biāo)單詞wi的詞向量。

        通過(guò)訓(xùn)練得到的詞向量可以計(jì)算單詞之間的相似度sim(wi,wj)=vi?vj,將文本中每個(gè)單詞的詞向量進(jìn)行相加再取平均可以得到這篇文本的文本向量。

        2.2 LDA模型

        隱狄列克雷分配(Latent Dirichlet Allocation,LDA)是一種無(wú)監(jiān)督的模型,可用于識(shí)別文本中隱藏的主題信息[12]。該模型可以將文本表示為主題的概率分布,且每個(gè)主題由詞的概率分布來(lái)表示[13],LDA模型如圖3所示。

        圖3 LDA模型圖

        圖3 中M 表示語(yǔ)料庫(kù)中的文本數(shù),T 表示主題數(shù),α 是主題分布的超參數(shù)[14],β 為詞分布的超參數(shù)[14],θ 是文本主題分布θ=Dirichlet(α)[15],φ 是主題詞分布φ=Dirichlet(β)[15],N 是一篇文本中的詞數(shù),t 是詞對(duì)應(yīng)的主題,對(duì)于一篇短文本m,其中每個(gè)詞對(duì)應(yīng)的主題t=multi(θd),w 是詞。

        通過(guò)吉布斯抽樣(Gibbs Sampling)[16]對(duì)主題變量t進(jìn)行抽樣,間接估算中θ 和φ,估算公式如下:

        2.3 隨機(jī)森林

        隨機(jī)森林(Random Forest,RF)是一種集成學(xué)習(xí)算法,由多個(gè)決策樹(shù)組成[17]。RF在決策樹(shù)的構(gòu)建過(guò)程中,從節(jié)點(diǎn)上所有特征中隨機(jī)選取一部分特征,再?gòu)碾S機(jī)選擇的部分特征中選擇最優(yōu)的特征作為決策樹(shù)左右子樹(shù)劃分的標(biāo)準(zhǔn),這使得模型的泛化能力得到了提高。一棵決策樹(shù)代表一個(gè)弱分類器,通過(guò)n 次的迭代,獲得n 個(gè)弱分類器,最終的分類結(jié)果由這n 個(gè)弱分類器的投票決定,票數(shù)多的一類即為這個(gè)樣本的類別。

        RF的算法:

        輸入:樣本集D={d1,d2,…,dm},決策樹(shù)個(gè)數(shù)n。

        輸出:最終的強(qiáng)分類器。

        (1)對(duì)訓(xùn)練集進(jìn)行m 次隨機(jī)采樣(Bootstrap)[16],獲得n 個(gè)包含m 個(gè)訓(xùn)練樣本的采樣集。

        (2)從所有特征中隨機(jī)選取一部分特征,再?gòu)闹羞x擇最優(yōu)特征作為節(jié)點(diǎn)建立決策樹(shù)。

        (3)重復(fù)步驟(1)、(2)n 次,直到建立n 棵決策樹(shù)。

        3 模型描述

        本文針對(duì)用戶的搜索記錄,利用基于主題詞改進(jìn)的詞向量模型來(lái)構(gòu)建用戶畫(huà)像,使用隨機(jī)森林(RF)對(duì)用戶的基本屬性進(jìn)行分類,具體的模型框架如圖4所示。

        圖4 用戶畫(huà)像模型框架圖

        3.1 基于主題詞改進(jìn)的詞向量模型

        為了構(gòu)建能表達(dá)一個(gè)單詞在不同語(yǔ)義下的詞向量,將主題融入到詞向量中,獲得目標(biāo)單詞w 在主題t 下的主題詞向量,基于主題詞改進(jìn)的詞向量模型所使用的神經(jīng)網(wǎng)絡(luò)模型為Skip-Gram 模型。首先通過(guò)LDA 模型獲取文本對(duì)應(yīng)主題的概率矩陣和主題對(duì)應(yīng)詞的概率矩陣,給目標(biāo)單詞w 分配潛在的主題t ∈T ,將目標(biāo)單詞表示為單詞-主題對(duì)<w,t >。然后對(duì)短文本中的每一個(gè)單詞進(jìn)行One-Hot 編碼,再為其對(duì)應(yīng)的主題生成主題編碼[P1,P2,…,PT],其中Pi表示目標(biāo)單詞分配給第i 個(gè)主題的概率,將單詞編碼和主題編碼相連接共同作為skipgram模型的輸入。基于主題詞改進(jìn)的詞向量模型如圖5所示。

        對(duì)于單詞主題對(duì)<w,t >該模型需要最大化平均對(duì)數(shù)概率:

        輸出層也是softmax 回歸[11],用來(lái)計(jì)算P(<wi+c,ti+c>|<wi,ti>)。

        圖5 基于主題詞改進(jìn)的詞向量模型

        3.2 改進(jìn)詞向量模型的用戶畫(huà)像

        根據(jù)主題詞向量vt,可以獲得一些單詞在不同主題下最相近的詞,因此主題詞向量可以更好的表達(dá)單詞在不同上下文中的語(yǔ)義信息。例如“栽培”,在word2vec模型中獲得的相似詞有“種植、造就”等;基于主題詞改進(jìn)的詞向量模型在主題為“農(nóng)業(yè)”時(shí)獲得的相似詞有“栽種、種植”等,在主題為“教育”時(shí)獲得的相似值有“造就、培養(yǎng)”等。

        用戶可以通過(guò)網(wǎng)絡(luò)搜索到自己想要了解的信息,這些信息可以側(cè)面反映出用戶的基本屬性和愛(ài)好,例如:年齡較小的人會(huì)更多的搜索與動(dòng)畫(huà)片和游戲相關(guān)的信息;女性會(huì)更加關(guān)注化妝品和流量明星。所以可以通過(guò)分析這些搜索文本來(lái)對(duì)用戶的屬性標(biāo)簽進(jìn)行刻畫(huà)。

        本文利用基于主題詞改進(jìn)的詞向量模型來(lái)構(gòu)建用戶畫(huà)像,為了提取用戶特征,傳統(tǒng)的詞向量模型通過(guò)對(duì)文本中每個(gè)詞的詞向量直接相加再取平均來(lái)表示用戶特征,這樣不能體現(xiàn)出不同單詞的重要程度。因此,通過(guò)對(duì)文本中每個(gè)詞的主題詞向量進(jìn)行加權(quán)求和表示用戶特征:

        其中,ωk是詞wk∈W 在文本中的權(quán)重,權(quán)重值用單詞w 的TF-IDF[10]值。若文本中某個(gè)單詞的TF-IDF 值越大,經(jīng)過(guò)加權(quán)求和后得到的向量能體現(xiàn)出該單詞的重要程度,在用戶特征的表達(dá)上也會(huì)更加突出。當(dāng)用戶特征提取之后,使用隨機(jī)森林(RF)分別對(duì)三個(gè)屬性標(biāo)簽進(jìn)行分類。

        基于主題詞改進(jìn)的詞向量模型的用戶畫(huà)像算法:

        輸入:用戶查詢?cè)~數(shù)據(jù)集。

        輸出:用戶基本屬性的分類結(jié)果。

        (1)用LDA模型為每個(gè)單詞分配一定數(shù)量的主題。

        (2)用基于主題詞改進(jìn)的詞向量模型為文本中的單詞生成主題詞向量。

        (3)計(jì)算每個(gè)單詞的TF-IDF 值,再將TF-IDF 值歸一化。

        (4)利用公式(7)對(duì)主題詞向量進(jìn)行加權(quán)求和得到用戶特征。

        (5)將用戶特征用隨機(jī)森林算法分別對(duì)三個(gè)屬性標(biāo)簽進(jìn)行分類。

        4 實(shí)驗(yàn)及結(jié)果分析

        4.1 數(shù)據(jù)集

        本文采用Python3.7 進(jìn)行實(shí)驗(yàn),操作系統(tǒng)為Windows 10,CPU 為CoreTMi7。實(shí)驗(yàn)數(shù)據(jù)集來(lái)源于中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)組織的大數(shù)據(jù)競(jìng)賽。實(shí)驗(yàn)數(shù)據(jù)包括10萬(wàn)條,提供用戶的基本屬性標(biāo)簽和一個(gè)月內(nèi)的上網(wǎng)搜索詞。部分?jǐn)?shù)據(jù)集如表1所示。

        表1 實(shí)驗(yàn)數(shù)據(jù)集

        表中ID 為加密后的用戶編號(hào);年齡屬性分為6 類,由1~6 表示,0 表示未知;性別屬性分為2 類,由1~2 表示,0 表示未知;學(xué)歷屬性分為6 類,由1~6 表示,0 表示未知。

        4.2 實(shí)驗(yàn)結(jié)果對(duì)比與分析

        將本文使用的方式與只使用詞向量模型和使用LDA 主題模型與詞向量相結(jié)合的方法相比較,三種模型都使用隨機(jī)森林分類器對(duì)用戶的基本屬性進(jìn)行分類。其中LDA 主題模型與詞向量相結(jié)合的方法,采用向量連接的方式,該模型先使用詞向量模型訓(xùn)練得到單詞的詞向量,將文本中每個(gè)單詞的詞向量進(jìn)行相加再取平均得到這篇文本的文本向量,然后使用LDA 主題模型中的文本主題矩陣得到一篇文本所對(duì)應(yīng)的主題概率,得到這篇文本的主題向量t={t1,t2,…,tT},最后將文本向量與主題向量連接在一起,形成語(yǔ)義表達(dá)更豐富的詞向量。

        其中,⊕為連接運(yùn)算符,w 表示文本對(duì)應(yīng)的詞向量,t表示文本對(duì)應(yīng)的主題向量

        將三種不同模型的查準(zhǔn)率P、查全率R 和F1 值[17]作為模型的評(píng)價(jià),實(shí)驗(yàn)結(jié)果取自五次五折交叉驗(yàn)證后的平均值。分類結(jié)果的混淆矩陣如表2所示,分別計(jì)算性別、年齡、學(xué)歷屬性的分類精確率、召回率和F1 值。實(shí)驗(yàn)結(jié)果如表3及圖6、7所示。

        表2 混淆矩陣

        表3 不同算法的分類性能

        圖6 不同算法的F1 值對(duì)比

        圖7 不同算法的實(shí)驗(yàn)結(jié)果對(duì)比

        從上述實(shí)驗(yàn)結(jié)果中可以看出,本文方法的平均分類準(zhǔn)確率比Word2vec 模型至少提高了2%,比Word2vec+LDA模型至少提高了1%;平均召回率比Word2vec模型至少提高了1.8%,比Word2vec+LDA 模型至少提高了1.1%;F1 值比Word2vec 模型至少提高了1.9%,比Word2vec+LDA模型至少提高了1%。其中在年齡屬性上發(fā)揮的效果最好,比Word2vec模型至少提高了2.9%,比Word2vec+LDA 模型至少提高了1.4%。單獨(dú)使用Word2vec 模型的分類結(jié)果并不是很好,使用Word2vec和LDA相結(jié)合的模型雖然分類的精度要高于單獨(dú)使用word2vec模型,但仍低于本文提出的方法。因?yàn)閭鹘y(tǒng)的word2vec對(duì)于每個(gè)單詞只能生成一個(gè)詞向量,而本文的方法可以針對(duì)單詞不同的主題生成不同的詞向量,使得單詞的表達(dá)更加的靈活。

        5 結(jié)論

        本文研究了關(guān)于構(gòu)建基于搜索引擎的用戶畫(huà)像的相關(guān)問(wèn)題,相比于只利用目標(biāo)單詞的詞向量,基于主題詞改進(jìn)的詞向量模型還使用了目標(biāo)單詞的主題向量,用主題詞向量將代表這個(gè)主題下單詞的整體語(yǔ)義,更好地表達(dá)了用戶的特征。實(shí)驗(yàn)結(jié)果表明,主題詞向量在處理基于用戶搜索詞的用戶畫(huà)像上達(dá)到了更好的效果。但還存在一些不足之處,在網(wǎng)民中,年齡大的人群普遍比年齡小的人群少,學(xué)歷高的人群也普遍比學(xué)歷低的人群少,數(shù)據(jù)存在嚴(yán)重的不平衡,因此,需要尋找一個(gè)數(shù)據(jù)平衡的方法來(lái)進(jìn)一步提高用戶畫(huà)像的分類精度。

        猜你喜歡
        主題詞畫(huà)像向量
        威猛的畫(huà)像
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        “00后”畫(huà)像
        畫(huà)像
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
        我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
        2014年第16卷第1~4期主題詞索引
        亚洲人成无码网www| 天天干天天日夜夜操| 亚欧美日韩香蕉在线播放视频| 66lu国产在线观看| 亚洲成av人无码免费观看| 免费蜜桃视频在线观看| 午夜性刺激免费看视频| 天天鲁一鲁摸一摸爽一爽| 91性视频| 日本一区二三区在线中文| 91九色老熟女免费资源| 亚洲国产日韩欧美一区二区三区| 中文字幕在线久热精品| 92自拍视频爽啪在线观看| 国内永久福利在线视频图片| 青青草97国产精品免费观看| 亚洲三级香港三级久久| 国产一区二区视频在线看| 精品国产偷窥一区二区| 正在播放国产对白孕妇作爱| 亚欧免费无码AⅤ在线观看| 久久精品国产免费一区二区三区| 国产成人喷潮在线观看| 亚洲av无码成人yellow| 污污污污污污WWW网站免费| 亚洲av色香蕉一区二区蜜桃| 精品国产精品三级在线专区| 精品久久久久久无码人妻热| 亚洲另类欧美综合久久图片区| 国产午夜福利av在线麻豆| 无套熟女av呻吟在线观看| 久久精品国产亚洲av高清漫画| 东京热无码人妻中文字幕| 日韩肥臀人妻中文字幕一区| 九一九色国产| 日韩最新在线不卡av| 午夜视频一区二区三区四区| 99久久婷婷国产综合精品青草免费| 提供最新的在線欧美综合一区| 亚洲成生人免费av毛片| 国产一二三四2021精字窝|