亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于大數(shù)據(jù)驅(qū)動的用戶畫像自動生成模型設計

2022-02-09 02:05:00周曉虹

計算機仿真 2022年12期

劉莉，周曉虹

(1. 吉林建筑科技學院，吉林長春 130114；2. 吉林建筑大學，吉林長春 130119)

1 引言

通過用戶真實數(shù)據(jù)獲取用戶的屬性、行為偏好等，以技術(shù)手段使其形成特有標簽，可充分描述用戶整體特征與輪廓的虛擬表達形式稱為用戶畫像。用戶畫像的核心思想是用戶特征的可視化，其廣泛應用在各個領域中[1，2]，尤其是在圖書館書籍管理中，通過用戶畫像可識別精準用戶需求，針對不同用戶為其提供相應書籍推薦服務。用戶畫像生成方法是提升圖書館書籍管理能力的重要途徑之一，為此很多學者致力于研究用戶畫像自動生成方法或模型，如萬家山[3]等人研究的基于KD-Tree聚類的社交用戶畫像建模方法，依托智慧學習平臺獲取用戶信息，通過KNN聚類獲取用戶興趣特征，并依據(jù)用戶興趣特征對其實施分類處理，形成標簽后通過二次建模形成用戶畫像。但該方法在應用過程中由于推薦信息指向性和平臺用戶數(shù)據(jù)轉(zhuǎn)化率較低，導致其無法精準描述用戶特征，因此應用效果不佳。徐海玲[4]等人研究的用戶畫像的構(gòu)建及資源聚合模型，將用戶信息標簽化后，通過研究用戶畫像和資源畫像的映射關系，完成用戶畫像生成。但由于用戶屬性眾多，該模型僅從資源方面對用戶畫像展開描述，具有一定的片面性，因此應用性不強。

大數(shù)據(jù)時代的來臨，為新型生產(chǎn)要素的衍生提供了基礎，以大數(shù)據(jù)為驅(qū)動方式的各行業(yè)數(shù)字化轉(zhuǎn)型已成為其尋求長久發(fā)展的手段之一，尤其是在圖書館管理方面，面對來源和格式不同且呈分布式狀態(tài)的用戶數(shù)據(jù)，圖書館的圖書推薦功能需依據(jù)當前用戶特點為其推薦相應數(shù)據(jù)，而圖書館用戶畫像則是描述該用戶特點與需求的表達形式之一[5]，因此需通過相應技術(shù)使其形成用戶特有的畫像，以便于圖書館更好地服務用戶。在此結(jié)合大數(shù)據(jù)驅(qū)動技術(shù)，設計基于大數(shù)據(jù)驅(qū)動的用戶畫像自動生成模型。

2 大數(shù)據(jù)驅(qū)動的用戶畫像自動生成模型

2.1 建立基于大數(shù)據(jù)驅(qū)動的用戶畫像生成模型

用戶畫像自動生成的實現(xiàn)依托大數(shù)據(jù)分析模塊完成，將用戶畫像自動生成模型分為兩個部分，一部分是依托Hadoop、Spark大數(shù)據(jù)分析模塊實現(xiàn)，在該模塊內(nèi)，將用戶畫像文本標簽分類結(jié)果存儲于數(shù)據(jù)倉庫內(nèi)，利用Spark內(nèi)存計算模型對用戶畫像數(shù)據(jù)進行分析和預測，以Dubbox框架解耦用戶數(shù)據(jù)分析過程，將結(jié)果輸送至用戶畫像展示端服務器進行顯示，另一部分是用戶畫像展示模塊，該模塊以Spring MVC、web頁面等方式實現(xiàn)人機交互，用戶通過查詢姓名可獲取所查詢者的用戶畫像?；诖髷?shù)據(jù)驅(qū)動的用戶畫像生成模型具體結(jié)構(gòu)如圖1所示。

圖1 基于大數(shù)據(jù)驅(qū)動的用戶畫像生成模型示意圖

基于大數(shù)據(jù)驅(qū)動的用戶畫像生成模型共包含5層，信息預處理層將長短期記憶神經(jīng)網(wǎng)絡(LSTM)引入到條件隨機場模型(CRF)內(nèi)，構(gòu)建用戶信息抽取模型，利用該模型從互聯(lián)網(wǎng)中抽取用戶畫像信息，對用戶畫像信息標簽進行分類后將其輸入至數(shù)據(jù)層，畫像計算層從數(shù)據(jù)層調(diào)用文本標簽分類結(jié)果，當用戶發(fā)起畫像查詢時，通過調(diào)取數(shù)據(jù)層用戶畫像信息并融合后輸入至結(jié)果存儲層，該層利用HBase、MySQL、Redis等方式對融合后的用戶畫像信息進行存儲，然后通過Java編程技術(shù)連接畫像展示層，為用戶提供畫像可視化功能，至此實現(xiàn)用戶畫像自動生成功能。

2.2 用戶信息抽取模型建立

提取用戶畫像信息是用戶畫像自動生成的基礎，在此以序列標注形式描述畫像信息抽取過程，將長短期記憶神經(jīng)網(wǎng)絡(LSTM)引入到條件隨機場模型(CRF)內(nèi)，建立LSTM-CRF用戶畫像信息抽取模型，從圖書館主頁獲取用戶基礎信息，該模型依據(jù)信息字段定義啟發(fā)原則，可在一定程度上提升信息抽取的準確性。用戶畫像信息抽取模型如圖2所示。

圖2 LSTM-CRF用戶畫像信息抽取模型示意圖

LSTM-CRF用戶畫像信息抽取模型獲取用戶信息來源于圖書館網(wǎng)站主頁，通過人名匹配、頭像信息提取、郵箱信息提取以及網(wǎng)頁預處理等步驟獲取用戶的性別、頭像等相關信息。

由于各個用戶主頁之間的實體結(jié)構(gòu)較為相似[6]，實體之間聯(lián)系緊密，尤其是網(wǎng)頁內(nèi)的文本信息，各個節(jié)點之間的信息均存在線性關系，即當前節(jié)點信息可通過文本節(jié)點內(nèi)容進行描述。在此利用長短期記憶神經(jīng)網(wǎng)絡進行用戶網(wǎng)頁信息的特征提取與文本分詞處理，其步驟如下。

第一步：網(wǎng)頁預處理

由于用戶主頁存在很多用戶個性化設置或簽名，存在大量信息冗余，因此需要對用戶網(wǎng)頁進行數(shù)據(jù)清洗和實體標注[7]，首先，將網(wǎng)頁內(nèi)無效標簽、樣式以及運行腳本以文本過濾的方式去除其中的空白和注釋字符，獲取相對簡化的用戶網(wǎng)頁文本信息，將得到的信息嵌入HTML格式標簽后，對文本字符高于200個的文本節(jié)點進行分詞處理，其抽取單元為標簽文本節(jié)點。按照用戶屬性設置標注類型，將用戶專業(yè)標注為ORG，郵箱標注為EML，專業(yè)標注為PSN，所屬學校標注為LCN，其余統(tǒng)一標記為0，將所有標注以label屬性標記在相應標簽內(nèi)。

第二步：詞向量表示

利用上一步標記的用戶信息文本節(jié)點建立詞庫表，以n維向量描述標簽的文本節(jié)點，其由o∈Rn表示，該詞向量由Word2Vec算法經(jīng)過迭代得到，并由長短期記憶神經(jīng)網(wǎng)絡依據(jù)詞特征獲取字符詞向量，二者分別由ow2v∈Rd1、ochars∈Rd2表示，二者關系滿足|d1|+|d2|=n。

令o=[c1，c2，…cp]表示用戶信息單詞，其詞向量由ci∈Rd3表示，該詞向量的長度為固定數(shù)值，利用長短期記憶神經(jīng)網(wǎng)絡對其字母級別展開映射。

第三步：節(jié)點序列表示

由于網(wǎng)頁位置對文本節(jié)點標注類型影響較大[8]，需對文本節(jié)點與其相連節(jié)點進行特征提取，利用長短期記憶神經(jīng)網(wǎng)絡的第二個網(wǎng)絡層次訓練文本節(jié)點序列后，可獲取到該節(jié)點前后信息詞向量，由h∈Rd表示，當存在m個文本節(jié)點時，則其詞向量則由h1，h2，…h(huán)m∈Rk表示，從而獲取到用戶信息節(jié)點序列。

第四步：CRF層序列概率獲取

獲取到用戶信息的詞向量與節(jié)點序列后，LSTM-CRF用戶畫像信息抽取模型利用全連接層對詞向量展開解碼，可獲得詞向量的相對目標標簽得分[9，10]。

令b∈R5、W∈R5*k、s∈R5分別表示偏置矩陣、權(quán)重矩陣、分向量，三者之間關系可由s=W*h+b表示，在長短期記憶神經(jīng)網(wǎng)絡結(jié)構(gòu)最后添加條件隨機場層，利用該層獲取文本節(jié)點的標簽概率分布，依據(jù)節(jié)點序列可獲取到文本節(jié)點的分向量s1，s2…sm和其所對應的標簽e1，e2…em，則條件隨機場層的損失表達公式如下

(1)

式中，b、δ、T分別表示初始標簽、結(jié)束標簽和狀態(tài)轉(zhuǎn)移矩陣，通過該公式可獲取用戶信息序列的標簽概率分區(qū)情況，獲取最高標簽序列。

利用動態(tài)規(guī)劃算法計算式(1)，并將結(jié)果輸入到SoftMax函數(shù)內(nèi)，獲取標簽序列的得分概率分布，令Z表示序列概率之和，其表達公式如下

(2)

當et作為標簽初始序列時，經(jīng)過轉(zhuǎn)換后，得到序列概率表達公式如下

(3)

概率分布的優(yōu)化函數(shù)交叉熵表達公式如下

(4)

基于上述運算，LSTM-CRF用戶畫像信息抽取模型建立完成，經(jīng)過訓練模型參數(shù)并對該模型輸出數(shù)值實施解碼處理后，獲取最優(yōu)標簽序列，完成用戶畫像的所屬國家與單位信息提取，用戶郵箱利用正則表達式進行抽取，用戶頭像則通過人臉識別與標簽文本相結(jié)合的形式進行提取，至此用戶畫像信息自動提取完成。若實現(xiàn)用戶畫像自動生成，則需對提取到的用戶畫像信息標簽進行分類處理，更加精準地描述當前用戶[11，12]，便于后續(xù)用戶畫像自動生成。

2.3 用戶興趣標簽分類

基于上述獲取的用戶畫像文本標簽信息，使用多標簽學習算法對其進行分類，其步驟如下：

令X表示用戶畫像文本標簽信息的輸入數(shù)據(jù)，其標簽矩陣由Y表示，則多標簽的訓練數(shù)據(jù)集由S={(xi，yi)|1≤i≤n}表示，其中xi、yi分別表示特征向量和標簽向量。令L( )表示損失函數(shù)，則多標簽算法表達公式如下

(5)

式中，α表示正則化參數(shù)。

令pd|y、py|n分別表示特征標簽條件概率矩陣和標簽實例條件矩陣，則多標簽算法分類表達公式如下

(6)

式中，θ表示拉普拉斯矩陣，Py表示標簽奇異值矩陣，β表示可變參數(shù)。

通過對式(6)求解，得到用戶畫像的文本標簽分類結(jié)果，為用戶畫像自動生成提供數(shù)據(jù)支撐，以此完成用戶畫像自動生成。

3 實驗分析

為驗證本文模型的實際應用效果，以某大學圖書館用戶為實驗對象，使用本文模型生成大學生畫像，分析本文模型的應用性。

3.1 用戶信息抽取測試

以該圖書館用戶的性別信息和頭像信息作為實驗對象，抽取性別信息的精度減去抽取頭像信息的精度數(shù)值作為正偏差數(shù)值，反之則為反偏差數(shù)值，以兩種數(shù)值衡量本文模型信息抽取能力，在抽取文本大小不同時，測試本文模型提取的用戶性別信息與頭像信息正偏差數(shù)值和負偏差數(shù)值，分析其用戶信息抽取能力，結(jié)果如圖3所示。

圖3 用戶信息抽取測試結(jié)果

分析圖3可知，文本大小與信息抽取的正偏差數(shù)值和負偏差數(shù)值均成正比例關系，在文本大小為200kB之前，本文模型抽取的用戶信息正偏差和負偏差數(shù)值均為0，當文本大小超過200kB后正負偏差數(shù)值逐漸拉大，當文本大小為500kB時，模型用戶畫像信息抽取的正偏差數(shù)值和負偏差數(shù)值僅為0.08左右，該結(jié)果表明，本文模型在抽取用戶畫像信息時，受文本大小影響較低，抽取信息的精準度較高。

3.2 用戶興趣標簽分類測試

漢明損失函數(shù)(Hamming Loss)是衡量標簽分類能力的重要指標，統(tǒng)計在不同文本大小情況下，本文模型的漢明損失函數(shù)變化情況，結(jié)果如圖4所示。

圖4 用戶興趣標簽分類測試結(jié)果

分析圖4可知，隨著用戶文本信息大小的增加，本文模型的漢明損失函數(shù)數(shù)值也隨之增加，但增加幅度較小，在文本大小為3000kB之前，模型的漢明損失函數(shù)數(shù)值始終保持在0.15左右，隨著文本大小的增加，漢明損失函數(shù)數(shù)值呈現(xiàn)指數(shù)上升趨勢，當文本大小為9000kB時，本文模型的漢明損失函數(shù)數(shù)值僅為0.23左右，其增長幅度僅為0.08，該結(jié)果表明：本文模型的用戶興趣標簽分類效果較好。

3.3 用戶畫像生成效果

以該圖書館某一用戶借閱書籍以及在圖書館網(wǎng)站注冊信息為實驗對象，利用本文模型獲取到該用戶的部分圖書標簽信息，如表1所示，依據(jù)表1所示的用戶信息生成用戶畫像如圖5所示。

表1 用戶圖書標簽信息(部分)

圖5 圖書館用戶畫像

綜合分析表1和圖5可知，依據(jù)部分用戶標簽信息，本模型所生成的圖書館用戶畫像涵蓋用戶id、郵箱、性別等基礎信息的同時，也包含用戶的個性簽名，對用戶標簽信息整合后，提取到用戶的數(shù)據(jù)興趣標簽共5個，依據(jù)書籍類別也可以呈現(xiàn)該用戶對歷史類和詩詞類書籍的偏好程度，圖書館管理系統(tǒng)可依據(jù)該用戶對書籍的偏好程度為其提供更精準的服務，該結(jié)果表明：本文模型可有效生成圖書館用戶畫像，充分描述用戶興趣特征。

4 結(jié)論

本文設計的基于大數(shù)據(jù)驅(qū)動的用戶畫像自動生成模型由信息預處理層、畫像計算層、數(shù)據(jù)層，結(jié)果存儲層以及畫像展示層構(gòu)成。經(jīng)過實驗驗證：本文模型抽取的用戶畫像信息正偏差數(shù)值和負偏差數(shù)值僅為0.08左右，抽取信息的精準度較高；漢明損失函數(shù)數(shù)值低，隨著文本大小的增加，該數(shù)值上升幅度較??；生成的圖書館用戶畫像涵蓋用戶基本信息的同時，用戶興趣特征描述清晰，且可呈現(xiàn)用戶的書籍類別偏好。