亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于LDA特征擴(kuò)展的用戶畫(huà)像

2020-07-24 02:11:37陳澤宇黃勃

軟件導(dǎo)刊 2020年6期

陳澤宇黃勃

摘要：采用用戶歷史查詢?cè)~構(gòu)建用戶畫(huà)像時(shí)，現(xiàn)有向量空間模型存在特征稀疏和2-下文依賴性強(qiáng)的問(wèn)題。針對(duì)該問(wèn)題，通過(guò)引入LDA主題模型，首先提取查詢?cè)~潛在主題，得到查詢?cè)~對(duì)應(yīng)的主題分布;然后將概率最大的主題對(duì)應(yīng)的詞擴(kuò)充到原始特征空間中，豐富用戶特征;最后采用SVM分類算法對(duì)用戶基本屬性進(jìn)行分類，構(gòu)建用戶畫(huà)像。實(shí)驗(yàn)表明，利用LDA模型對(duì)用戶特征進(jìn)行擴(kuò)展比傳統(tǒng)向量空間模型用戶畫(huà)像精度提高了1.6%。

關(guān)鍵詞：用戶畫(huà)像;特征擴(kuò)展;向量空間模型;LDA;SVM

DOI：10.11907/rjdk.192135 開(kāi)放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（OSID）：

中圖分類號(hào)：TP391文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1672-7800（2020）006-0192-04

0 引言

互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展帶來(lái)各種社交大數(shù)據(jù)，這些數(shù)據(jù)潛藏著巨大的商業(yè)價(jià)值。用戶畫(huà)像指通過(guò)分析用戶基本屬性和行為習(xí)慣，給用戶貼上一些標(biāo)簽以描述用戶偏好。例如，通過(guò)對(duì)用戶網(wǎng)絡(luò)行為數(shù)據(jù)的分析，可以獲知其興趣偏好，從而幫助企業(yè)進(jìn)一步了解用戶需求，為用戶提供更好的消費(fèi)體驗(yàn)。

彭秋芳等提出從用戶歷史交易記錄中構(gòu)建用戶畫(huà)像模型，通過(guò)機(jī)器學(xué)習(xí)方法發(fā)現(xiàn)潛在的用戶行為信息;陳志明等利用知乎網(wǎng)站，構(gòu)建了基于用戶的社交網(wǎng)絡(luò)、興趣愛(ài)好和知識(shí)能力等多個(gè)屬性的用戶畫(huà)像模型;王慶福等利用貝葉斯網(wǎng)絡(luò)提取用戶特征，構(gòu)建用戶興趣模型。此外，有學(xué)者發(fā)現(xiàn)基于搜索引擎的用戶畫(huà)像對(duì)制定有效的網(wǎng)絡(luò)營(yíng)銷策略具有重要價(jià)值，如王樂(lè)等針對(duì)用戶上網(wǎng)行為數(shù)據(jù)復(fù)雜性帶來(lái)的特征選擇不穩(wěn)定問(wèn)題，提出融合多種不同類型的特征選擇算法用戶畫(huà)像;李軍政基于用戶搜索記錄，提出利用傳統(tǒng)向量空間模型（Vector Space Model，VSM）提取文本特征詞，對(duì)用戶基本屬性進(jìn)行預(yù)測(cè)。但是由于用戶搜索記錄是短文本，存在數(shù)據(jù)稀疏及上下文依賴性強(qiáng)等問(wèn)題，基于向量空間模型（VSM）的傳統(tǒng)特征提取方法忽略了單詞之間的語(yǔ)義關(guān)系，因此無(wú)法很好地表示用戶特征，從而影響最終分類效果。針對(duì)以上問(wèn)題，本文提出利用隱狄列克雷分配（Latent Dirichlet Allocation，LDA）模型提取短文本主題，并對(duì)原始文本特征進(jìn)行語(yǔ)義擴(kuò)充，豐富用戶特征信息，進(jìn)一步提高用戶畫(huà)像精度。

1 相關(guān)研究

1.1 向量空間模型

向量空間模型（VSM）是經(jīng)典文本表示模型，可將文本表示為一個(gè)數(shù)字特征向量。短文集D={d₁，d₂，…，d_M}，M為短文本總數(shù)，詞Ⅳ：{W₁，W₂，…，W_N}，N為詞總數(shù)。1篇短文本d_i∈D表示為向量的形式V={ω₁，ω₂，…，ω_N}，其中ω_k為詞w_k∈W在d_i中的權(quán)重，其中權(quán)重值用TF-IDF表示。

其中，tf_ki表示詞W_k在d_i中出現(xiàn)的次數(shù)，df_k表示D中含有詞W_k的短文本總數(shù)。

1.2 LDA模型

LDA是一種無(wú)監(jiān)督模型，常被用于識(shí)別隱藏在文本中的主題信息。該模型可將一系列文檔表示為T個(gè)主題的概率分布，且每個(gè)主題表示為一系列詞的概率分布，模型結(jié)構(gòu)如圖l所示，圖中符號(hào)含義如表l所示。

在LDA中文檔主題分布服從Dirichlet分布，即文本主題分布Θ=Dirichlet（a）。其中，a為主題分布的超參數(shù)，一般設(shè)置a=50/T。LDA中主題詞分布也服從Dirichlet分布，即主題詞分布φ=Dirichlet（β），其中，β為詞分布超參數(shù)，一般設(shè)置β=0.01。

大量文獻(xiàn)表明，對(duì)LDA模型中Θ和φ直接進(jìn)行估計(jì)是非常困難的，因此需使用近似的估計(jì)技術(shù)，常用方法有EM算法、Gibbs采樣算法。本文采用Gibbs采樣算法提取文本主題。

Gibbs采樣算法流程為：

輸入：文本集、主題數(shù)T。

輸出：文本主題分布，主題詞分布。

步驟1：主題初始化，給文本中的每個(gè)詞隨機(jī)分配主題。

步驟2：對(duì)于每一個(gè)詞，利用公式（2）重新計(jì)算它的主題概率。

步驟3：重復(fù)第2步的Gibbs采樣，直到Gibbs采樣收斂。

步驟4：統(tǒng)計(jì)文檔中各個(gè)詞的主題得到文本主題分布Θ，主題詞分布φ。

采樣公式為：

1.3 SVM分類模型

支持向量機(jī)（Support Vector Machine，SVM）的作用是在樣本空間中找到一個(gè)超平面，將空間中的樣本區(qū)分開(kāi)。離超平面最近的樣本到超平面的距離影響分類器泛化能力，所以SVM需最大化該距離。

超平面公式為一個(gè)線性方程：ω^Tx+b=0，可看出劃分的超平面受參數(shù)ω和b影響.樣本到超平面的距離為：

2 LDA模型

針對(duì)用戶搜索記錄，本文首先通過(guò)引人LDA模型提取文本主題，然后利用主題詞對(duì)用戶特征進(jìn)行特征擴(kuò)展，最后通過(guò)SVM對(duì)用戶的基本屬性進(jìn)行分類，構(gòu)建用戶畫(huà)像。模型框架如圖2所示。

2.1 數(shù)據(jù)預(yù)處理

首先對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗，去除屬性不全的數(shù)據(jù)記錄。由于需將單個(gè)漢字轉(zhuǎn)化成詞語(yǔ)才可進(jìn)一步挖掘文本信息，所以對(duì)不同用戶的搜索記錄進(jìn)行分詞處理，本文采用jieba分詞，分詞結(jié)果只保留名詞、動(dòng)詞、形容詞3種詞性，這樣可過(guò)濾掉一些沒(méi)有實(shí)際意義的詞，減少特征維度，最后刪除停用詞，分詞結(jié)果如表2所示。

2.2 基于LDA特征擴(kuò)展的用戶畫(huà)像

用戶通過(guò)搜索引擎可從網(wǎng)絡(luò)上獲取信息，滿足自身需求，這些需求往往與用戶興趣愛(ài)好、基本屬性有密切關(guān)系。例如高學(xué)歷的人更偏向于了解與學(xué)術(shù)論文相關(guān)的信息;高齡人群較多搜索養(yǎng)身相關(guān)信息;男性則搜索游戲、體育信息的行為較多，所以可通過(guò)分析搜索文本刻畫(huà)用戶屬性標(biāo)簽。

在文本特征表示方面，由于向量空間模型（VSM）不能有效結(jié)合上下文語(yǔ)義信息，且難以處理特征稀疏的短文本，因此，本文將LDA模型引入到用戶畫(huà)像中。例如，對(duì)于“蘋果電腦”和“蘋果筆記本”，VSM不能體現(xiàn)出兩篇短文本的相似性，但這兩篇短文本主題分布差異很小，LDA模型可以將它們關(guān)聯(lián)起來(lái)以緩解特征稀疏問(wèn)題。再比如“這臺(tái)蘋果電腦是紅色的”和“電腦旁的蘋果是紅色的”，這兩篇短文本分詞結(jié)果相同，VSM會(huì)認(rèn)為這兩篇短文本相似性很高，但這兩篇短文本主題分布差異較大，“蘋果”在前者中被分配的主題是“設(shè)備”，在后者中被分配的主題是“水果”，LDA模型可以將其區(qū)分開(kāi)，從而克服上下文依賴性強(qiáng)的缺陷。

利用LDA得到的文本主題分布，可以將短文本表示成關(guān)于主題的向量，但是用戶查詢?cè)~主題差別很大，每個(gè)用戶查詢?cè)~的主題僅存在于小部分主題中，若用戶查詢?cè)~沒(méi)有共同主題，兩者相似度為0，這樣的結(jié)果是不合理的。因此，本文利用LDA模型對(duì)文本特征進(jìn)行特征擴(kuò)展，主題與文本之間存在潛在的語(yǔ)義關(guān)聯(lián)，擴(kuò)展后的特征使文本特征表達(dá)更加全面。

基于LDA特征擴(kuò)展的用戶畫(huà)像算法流程為：

輸入：用戶查詢?cè)~數(shù)據(jù)集。

輸出：用戶基本屬性的分類結(jié)果。

步驟1：用向量空間模型（VSM）將用戶查詢文本表示為特征向量的形式，并對(duì)特征值（TF-IDF）進(jìn)行歸一化處理。

步驟2：對(duì)提取的特征向量進(jìn)行特征選擇，選取有用的特征詞作為用戶的原始特征詞。

步驟3：對(duì)于每個(gè)用戶，估算出對(duì)應(yīng)的查詢?cè)~的主題分布Θ，以及主題詞分布φ。

步驟4：尋找概率最大的主題s，將該主題對(duì)應(yīng)的主題詞作為該用戶的擴(kuò)展特征，特征值為詞W_k屬于這個(gè)主題的概率。

步驟5：若擴(kuò)展的特征詞已存在于原始特征詞中，則無(wú)需將該詞添加進(jìn)去。

步驟6：用SVM算法將擴(kuò)展后的特征詞的3個(gè)屬性標(biāo)簽分別進(jìn)行分類。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 數(shù)據(jù)集

本文采用Python3.7進(jìn)行實(shí)驗(yàn)，操作系統(tǒng)為Windows10，CPU為Core（TM）i7。實(shí)驗(yàn)數(shù)據(jù)集來(lái)源于中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）組織的大數(shù)據(jù)競(jìng)賽。數(shù)據(jù)集中包含10萬(wàn)條用戶數(shù)據(jù)，提供用戶基本屬性標(biāo)簽和一個(gè)月內(nèi)的上網(wǎng)搜索文本。部分?jǐn)?shù)據(jù)集如表2所示。

其中ID為加密后的用戶編號(hào);年齡屬性分為6類，由1～6表示，0表示未知;性別屬性分為2類，由1～2表示，0表示未知;學(xué)歷屬性分為6類，由1～6表示，0表示未知。

3.2 評(píng)價(jià)標(biāo)準(zhǔn)

本文選用查準(zhǔn)率P、查全率R和Fl值作為模型評(píng)價(jià)指標(biāo)，分類結(jié)果混淆矩陣如表3所示，分別計(jì)算性別、年齡、學(xué)歷屬性的分類精確率、召回率和F1值。

3.3 實(shí)驗(yàn)結(jié)果對(duì)比與分析

將使用LDA模型進(jìn)行特征擴(kuò)展的方法、傳統(tǒng)基于VSM特征表示方法抽取用戶特征信息的方法及使用LDA主題模型抽取查詢?cè)~主題信息的方法作為用戶特征信息提取方法進(jìn)行比較。實(shí)驗(yàn)結(jié)果取5次五折交叉驗(yàn)證后的平均值。

從上述實(shí)驗(yàn)結(jié)果可以看出，本文方法平均分類準(zhǔn)確率比VSM模型至少提高1.6%，比LDA模型至少提高2.9%;平均召回率比VSM模型至少提高2.4%，比LDA模型至少提高3.6%;F1值比VSM模型至少提高1.9%，比LDA模型至少提高3.2%。其中在學(xué)歷屬性上發(fā)揮的效果最好，比VSM模型至少提高了2.2%，比LDA模型至少提高了3.2%。傳統(tǒng)VSM模型分類效果不是很理想，但僅使用LDA模型提取查詢?cè)~的主題信息作為用戶特征的分類效果不如VSM模型，因?yàn)橛脩羲阉髟~主題過(guò)于稀疏，使用戶特征表達(dá)性很差，但是利用LDA模型進(jìn)行特征擴(kuò)展，將原始特征結(jié)合單詞上下文語(yǔ)義信息，使得特征表達(dá)更加全面，在一定程度上可緩解短文本特征稀疏和上下文依賴性強(qiáng)的問(wèn)題。

4 結(jié)語(yǔ)

本文針對(duì)用戶1個(gè)月的歷史查詢記錄，構(gòu)建了一個(gè)基于文本分析的用戶畫(huà)像。針對(duì)年齡、性別和學(xué)歷3個(gè)屬性使用SVM進(jìn)行分類實(shí)驗(yàn)，使用LDA主題模型進(jìn)行特征擴(kuò)展，并將其作為用戶特征信息。實(shí)驗(yàn)表明，LDA模型在處理基于用戶搜索詞的用戶畫(huà)像時(shí)發(fā)揮了較好作用。下一步將與詞向量相結(jié)合，考慮相同單詞在不同上下文語(yǔ)境中的關(guān)聯(lián)性，進(jìn)一步改進(jìn)模型。