亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)驅(qū)動的用戶畫像自動生成模型設計

        2022-02-09 02:05:00周曉虹
        計算機仿真 2022年12期
        關鍵詞:圖書館文本用戶

        劉 莉,周曉虹

        (1. 吉林建筑科技學院,吉林 長春 130114;2. 吉林建筑大學,吉林 長春 130119)

        1 引言

        通過用戶真實數(shù)據(jù)獲取用戶的屬性、行為偏好等,以技術(shù)手段使其形成特有標簽,可充分描述用戶整體特征與輪廓的虛擬表達形式稱為用戶畫像。用戶畫像的核心思想是用戶特征的可視化,其廣泛應用在各個領域中[1,2],尤其是在圖書館書籍管理中,通過用戶畫像可識別精準用戶需求,針對不同用戶為其提供相應書籍推薦服務。用戶畫像生成方法是提升圖書館書籍管理能力的重要途徑之一,為此很多學者致力于研究用戶畫像自動生成方法或模型,如萬家山[3]等人研究的基于KD-Tree聚類的社交用戶畫像建模方法,依托智慧學習平臺獲取用戶信息,通過KNN聚類獲取用戶興趣特征,并依據(jù)用戶興趣特征對其實施分類處理,形成標簽后通過二次建模形成用戶畫像。但該方法在應用過程中由于推薦信息指向性和平臺用戶數(shù)據(jù)轉(zhuǎn)化率較低,導致其無法精準描述用戶特征,因此應用效果不佳。徐海玲[4]等人研究的用戶畫像的構(gòu)建及資源聚合模型,將用戶信息標簽化后,通過研究用戶畫像和資源畫像的映射關系,完成用戶畫像生成。但由于用戶屬性眾多,該模型僅從資源方面對用戶畫像展開描述,具有一定的片面性,因此應用性不強。

        大數(shù)據(jù)時代的來臨,為新型生產(chǎn)要素的衍生提供了基礎,以大數(shù)據(jù)為驅(qū)動方式的各行業(yè)數(shù)字化轉(zhuǎn)型已成為其尋求長久發(fā)展的手段之一,尤其是在圖書館管理方面,面對來源和格式不同且呈分布式狀態(tài)的用戶數(shù)據(jù),圖書館的圖書推薦功能需依據(jù)當前用戶特點為其推薦相應數(shù)據(jù),而圖書館用戶畫像則是描述該用戶特點與需求的表達形式之一[5],因此需通過相應技術(shù)使其形成用戶特有的畫像,以便于圖書館更好地服務用戶。在此結(jié)合大數(shù)據(jù)驅(qū)動技術(shù),設計基于大數(shù)據(jù)驅(qū)動的用戶畫像自動生成模型。

        2 大數(shù)據(jù)驅(qū)動的用戶畫像自動生成模型

        2.1 建立基于大數(shù)據(jù)驅(qū)動的用戶畫像生成模型

        用戶畫像自動生成的實現(xiàn)依托大數(shù)據(jù)分析模塊完成,將用戶畫像自動生成模型分為兩個部分,一部分是依托Hadoop、Spark大數(shù)據(jù)分析模塊實現(xiàn),在該模塊內(nèi),將用戶畫像文本標簽分類結(jié)果存儲于數(shù)據(jù)倉庫內(nèi),利用Spark內(nèi)存計算模型對用戶畫像數(shù)據(jù)進行分析和預測,以Dubbox框架解耦用戶數(shù)據(jù)分析過程,將結(jié)果輸送至用戶畫像展示端服務器進行顯示,另一部分是用戶畫像展示模塊,該模塊以Spring MVC、web頁面等方式實現(xiàn)人機交互,用戶通過查詢姓名可獲取所查詢者的用戶畫像?;诖髷?shù)據(jù)驅(qū)動的用戶畫像生成模型具體結(jié)構(gòu)如圖1所示。

        圖1 基于大數(shù)據(jù)驅(qū)動的用戶畫像生成模型示意圖

        基于大數(shù)據(jù)驅(qū)動的用戶畫像生成模型共包含5層,信息預處理層將長短期記憶神經(jīng)網(wǎng)絡(LSTM)引入到條件隨機場模型(CRF)內(nèi),構(gòu)建用戶信息抽取模型,利用該模型從互聯(lián)網(wǎng)中抽取用戶畫像信息,對用戶畫像信息標簽進行分類后將其輸入至數(shù)據(jù)層,畫像計算層從數(shù)據(jù)層調(diào)用文本標簽分類結(jié)果,當用戶發(fā)起畫像查詢時,通過調(diào)取數(shù)據(jù)層用戶畫像信息并融合后輸入至結(jié)果存儲層,該層利用HBase、MySQL、Redis等方式對融合后的用戶畫像信息進行存儲,然后通過Java編程技術(shù)連接畫像展示層,為用戶提供畫像可視化功能,至此實現(xiàn)用戶畫像自動生成功能。

        2.2 用戶信息抽取模型建立

        提取用戶畫像信息是用戶畫像自動生成的基礎,在此以序列標注形式描述畫像信息抽取過程,將長短期記憶神經(jīng)網(wǎng)絡(LSTM)引入到條件隨機場模型(CRF)內(nèi),建立LSTM-CRF用戶畫像信息抽取模型,從圖書館主頁獲取用戶基礎信息,該模型依據(jù)信息字段定義啟發(fā)原則,可在一定程度上提升信息抽取的準確性。用戶畫像信息抽取模型如圖2所示。

        圖2 LSTM-CRF用戶畫像信息抽取模型示意圖

        LSTM-CRF用戶畫像信息抽取模型獲取用戶信息來源于圖書館網(wǎng)站主頁,通過人名匹配、頭像信息提取、郵箱信息提取以及網(wǎng)頁預處理等步驟獲取用戶的性別、頭像等相關信息。

        由于各個用戶主頁之間的實體結(jié)構(gòu)較為相似[6],實體之間聯(lián)系緊密,尤其是網(wǎng)頁內(nèi)的文本信息,各個節(jié)點之間的信息均存在線性關系,即當前節(jié)點信息可通過文本節(jié)點內(nèi)容進行描述。在此利用長短期記憶神經(jīng)網(wǎng)絡進行用戶網(wǎng)頁信息的特征提取與文本分詞處理,其步驟如下。

        第一步:網(wǎng)頁預處理

        由于用戶主頁存在很多用戶個性化設置或簽名,存在大量信息冗余,因此需要對用戶網(wǎng)頁進行數(shù)據(jù)清洗和實體標注[7],首先,將網(wǎng)頁內(nèi)無效標簽、樣式以及運行腳本以文本過濾的方式去除其中的空白和注釋字符,獲取相對簡化的用戶網(wǎng)頁文本信息,將得到的信息嵌入HTML格式標簽后,對文本字符高于200個的文本節(jié)點進行分詞處理,其抽取單元為標簽文本節(jié)點。按照用戶屬性設置標注類型,將用戶專業(yè)標注為ORG,郵箱標注為EML,專業(yè)標注為PSN,所屬學校標注為LCN,其余統(tǒng)一標記為0,將所有標注以label屬性標記在相應標簽內(nèi)。

        第二步:詞向量表示

        利用上一步標記的用戶信息文本節(jié)點建立詞庫表,以n維向量描述標簽的文本節(jié)點,其由o∈Rn表示,該詞向量由Word2Vec算法經(jīng)過迭代得到,并由長短期記憶神經(jīng)網(wǎng)絡依據(jù)詞特征獲取字符詞向量,二者分別由ow2v∈Rd1、ochars∈Rd2表示,二者關系滿足|d1|+|d2|=n。

        令o=[c1,c2,…cp]表示用戶信息單詞,其詞向量由ci∈Rd3表示,該詞向量的長度為固定數(shù)值,利用長短期記憶神經(jīng)網(wǎng)絡對其字母級別展開映射。

        第三步:節(jié)點序列表示

        由于網(wǎng)頁位置對文本節(jié)點標注類型影響較大[8],需對文本節(jié)點與其相連節(jié)點進行特征提取,利用長短期記憶神經(jīng)網(wǎng)絡的第二個網(wǎng)絡層次訓練文本節(jié)點序列后,可獲取到該節(jié)點前后信息詞向量,由h∈Rd表示,當存在m個文本節(jié)點時,則其詞向量則由h1,h2,…h(huán)m∈Rk表示,從而獲取到用戶信息節(jié)點序列。

        第四步:CRF層序列概率獲取

        獲取到用戶信息的詞向量與節(jié)點序列后,LSTM-CRF用戶畫像信息抽取模型利用全連接層對詞向量展開解碼,可獲得詞向量的相對目標標簽得分[9,10]。

        令b∈R5、W∈R5*k、s∈R5分別表示偏置矩陣、權(quán)重矩陣、分向量,三者之間關系可由s=W*h+b表示,在長短期記憶神經(jīng)網(wǎng)絡結(jié)構(gòu)最后添加條件隨機場層,利用該層獲取文本節(jié)點的標簽概率分布,依據(jù)節(jié)點序列可獲取到文本節(jié)點的分向量s1,s2…sm和其所對應的標簽e1,e2…em,則條件隨機場層的損失表達公式如下

        (1)

        式中,b、δ、T分別表示初始標簽、結(jié)束標簽和狀態(tài)轉(zhuǎn)移矩陣,通過該公式可獲取用戶信息序列的標簽概率分區(qū)情況,獲取最高標簽序列。

        利用動態(tài)規(guī)劃算法計算式(1),并將結(jié)果輸入到SoftMax函數(shù)內(nèi),獲取標簽序列的得分概率分布,令Z表示序列概率之和,其表達公式如下

        (2)

        當et作為標簽初始序列時,經(jīng)過轉(zhuǎn)換后,得到序列概率表達公式如下

        (3)

        概率分布的優(yōu)化函數(shù)交叉熵表達公式如下

        (4)

        基于上述運算,LSTM-CRF用戶畫像信息抽取模型建立完成,經(jīng)過訓練模型參數(shù)并對該模型輸出數(shù)值實施解碼處理后,獲取最優(yōu)標簽序列,完成用戶畫像的所屬國家與單位信息提取,用戶郵箱利用正則表達式進行抽取,用戶頭像則通過人臉識別與標簽文本相結(jié)合的形式進行提取,至此用戶畫像信息自動提取完成。若實現(xiàn)用戶畫像自動生成,則需對提取到的用戶畫像信息標簽進行分類處理,更加精準地描述當前用戶[11,12],便于后續(xù)用戶畫像自動生成。

        2.3 用戶興趣標簽分類

        基于上述獲取的用戶畫像文本標簽信息,使用多標簽學習算法對其進行分類,其步驟如下:

        令X表示用戶畫像文本標簽信息的輸入數(shù)據(jù),其標簽矩陣由Y表示,則多標簽的訓練數(shù)據(jù)集由S={(xi,yi)|1≤i≤n}表示,其中xi、yi分別表示特征向量和標簽向量。令L( )表示損失函數(shù),則多標簽算法表達公式如下

        (5)

        式中,α表示正則化參數(shù)。

        令pd|y、py|n分別表示特征標簽條件概率矩陣和標簽實例條件矩陣,則多標簽算法分類表達公式如下

        (6)

        式中,θ表示拉普拉斯矩陣,Py表示標簽奇異值矩陣,β表示可變參數(shù)。

        通過對式(6)求解,得到用戶畫像的文本標簽分類結(jié)果,為用戶畫像自動生成提供數(shù)據(jù)支撐,以此完成用戶畫像自動生成。

        3 實驗分析

        為驗證本文模型的實際應用效果,以某大學圖書館用戶為實驗對象,使用本文模型生成大學生畫像,分析本文模型的應用性。

        3.1 用戶信息抽取測試

        以該圖書館用戶的性別信息和頭像信息作為實驗對象,抽取性別信息的精度減去抽取頭像信息的精度數(shù)值作為正偏差數(shù)值,反之則為反偏差數(shù)值,以兩種數(shù)值衡量本文模型信息抽取能力,在抽取文本大小不同時,測試本文模型提取的用戶性別信息與頭像信息正偏差數(shù)值和負偏差數(shù)值,分析其用戶信息抽取能力,結(jié)果如圖3所示。

        圖3 用戶信息抽取測試結(jié)果

        分析圖3可知,文本大小與信息抽取的正偏差數(shù)值和負偏差數(shù)值均成正比例關系,在文本大小為200kB之前,本文模型抽取的用戶信息正偏差和負偏差數(shù)值均為0,當文本大小超過200kB后正負偏差數(shù)值逐漸拉大,當文本大小為500kB時,模型用戶畫像信息抽取的正偏差數(shù)值和負偏差數(shù)值僅為0.08左右,該結(jié)果表明,本文模型在抽取用戶畫像信息時,受文本大小影響較低,抽取信息的精準度較高。

        3.2 用戶興趣標簽分類測試

        漢明損失函數(shù)(Hamming Loss)是衡量標簽分類能力的重要指標,統(tǒng)計在不同文本大小情況下,本文模型的漢明損失函數(shù)變化情況,結(jié)果如圖4所示。

        圖4 用戶興趣標簽分類測試結(jié)果

        分析圖4可知,隨著用戶文本信息大小的增加,本文模型的漢明損失函數(shù)數(shù)值也隨之增加,但增加幅度較小,在文本大小為3000kB之前,模型的漢明損失函數(shù)數(shù)值始終保持在0.15左右,隨著文本大小的增加,漢明損失函數(shù)數(shù)值呈現(xiàn)指數(shù)上升趨勢,當文本大小為9000kB時,本文模型的漢明損失函數(shù)數(shù)值僅為0.23左右,其增長幅度僅為0.08,該結(jié)果表明:本文模型的用戶興趣標簽分類效果較好。

        3.3 用戶畫像生成效果

        以該圖書館某一用戶借閱書籍以及在圖書館網(wǎng)站注冊信息為實驗對象,利用本文模型獲取到該用戶的部分圖書標簽信息,如表1所示,依據(jù)表1所示的用戶信息生成用戶畫像如圖5所示。

        表1 用戶圖書標簽信息(部分)

        圖5 圖書館用戶畫像

        綜合分析表1和圖5可知,依據(jù)部分用戶標簽信息,本模型所生成的圖書館用戶畫像涵蓋用戶id、郵箱、性別等基礎信息的同時,也包含用戶的個性簽名,對用戶標簽信息整合后,提取到用戶的數(shù)據(jù)興趣標簽共5個,依據(jù)書籍類別也可以呈現(xiàn)該用戶對歷史類和詩詞類書籍的偏好程度,圖書館管理系統(tǒng)可依據(jù)該用戶對書籍的偏好程度為其提供更精準的服務,該結(jié)果表明:本文模型可有效生成圖書館用戶畫像,充分描述用戶興趣特征。

        4 結(jié)論

        本文設計的基于大數(shù)據(jù)驅(qū)動的用戶畫像自動生成模型由信息預處理層、畫像計算層、數(shù)據(jù)層,結(jié)果存儲層以及畫像展示層構(gòu)成。經(jīng)過實驗驗證:本文模型抽取的用戶畫像信息正偏差數(shù)值和負偏差數(shù)值僅為0.08左右,抽取信息的精準度較高;漢明損失函數(shù)數(shù)值低,隨著文本大小的增加,該數(shù)值上升幅度較??;生成的圖書館用戶畫像涵蓋用戶基本信息的同時,用戶興趣特征描述清晰,且可呈現(xiàn)用戶的書籍類別偏好。

        猜你喜歡
        圖書館文本用戶
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        圖書館
        小太陽畫報(2018年1期)2018-05-14 17:19:25
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        飛躍圖書館
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        如何獲取一億海外用戶
        去圖書館
        国产精品第一国产精品| 亚洲成熟中老妇女视频| 久久久精品视频网站在线观看| 亚洲精品久久一区二区三区777| 亚洲av无码资源在线观看| 成年视频网站在线观看777 | 超碰Av一区=区三区| 一区二区三区人妻在线| 黄色av一区二区在线观看| 免费人成再在线观看视频| 国产AV无码一区精品天堂 | 日本视频一区二区三区在线| 亚洲精品国产一区二区| 亚洲av区无码字幕中文色| 综合图区亚洲另类偷窥| 国内免费自拍9偷1拍| 免费人成激情视频在线观看冫| 人妻人人澡人人添人人爽人人玩| 亚洲性色ai无码| 美女视频在线观看网址大全| 夫妇交换性三中文字幕| 色吧综合网| 99久久亚洲精品加勒比| 亚洲成人中文字幕在线视频| 蜜桃无码一区二区三区| 无码人妻专区免费视频| 亚洲天堂线上免费av| 少妇久久久久久被弄高潮| 国产va免费精品观看| 无码伊人久久大香线蕉| 亚洲av毛片在线网站| 蜜桃视频无码区在线观看 | 国产无套视频在线观看香蕉| 亚洲蜜臀av一区二区三区漫画| 亚洲国产av无码精品| 成人无码区免费a片www| 国产内射视频在线播放| 蜜桃91精品一区二区三区| 亚洲av成人中文无码专区| 性一交一乱一伦一视频一二三区| 国产精品麻豆一区二区三区|