亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識(shí)互聯(lián)的異常用戶畫像技術(shù)研究

        2020-02-21 08:49:18王晨飛李慧芹李子乾趙偉謝瑞楠
        電子技術(shù)與軟件工程 2020年13期

        王晨飛 李慧芹 李子乾 趙偉 謝瑞楠

        摘要:本文主要研究在知識(shí)互聯(lián)的技術(shù)之下,用戶畫像技術(shù)的相關(guān)知識(shí)。知識(shí)互聯(lián)對(duì)構(gòu)建完整整體具有重要作用,特別是在互聯(lián)網(wǎng)時(shí)代下,通過(guò)知識(shí)互聯(lián)能夠快速完成用戶畫像構(gòu)建。用戶畫像技術(shù)將以知識(shí)互聯(lián)為基礎(chǔ),對(duì)現(xiàn)有的信息實(shí)施整合,利用計(jì)算機(jī)技術(shù)深度學(xué)習(xí),將潛在用戶屬性開(kāi)發(fā)完成,進(jìn)而為用戶打上標(biāo)簽。通過(guò)這種技術(shù),可以為相關(guān)人員提供服務(wù)時(shí)提升精準(zhǔn)度。這項(xiàng)技術(shù)的應(yīng)用,能夠使得相關(guān)研究人員更加透徹的理解數(shù)據(jù)信息,也為后續(xù)工作奠定基礎(chǔ)。

        關(guān)鍵詞:知識(shí)互聯(lián);用戶畫像;Skip-gram模型

        以知識(shí)互聯(lián)為基礎(chǔ)的異常用戶畫像技術(shù)作為一種方式,其主要是通過(guò)對(duì)已有的知識(shí)完成深度學(xué)習(xí),同時(shí)通過(guò)總結(jié)信息完成畫像刻畫,探究用戶的隱藏屬性。在本文的研究中,將基于知識(shí)互聯(lián),利用深度學(xué)習(xí)的方法,實(shí)驗(yàn)計(jì)算不同數(shù)據(jù)集,掌握在用戶畫像技術(shù)應(yīng)用中的相關(guān)要點(diǎn)[1]。在目前生活中,用戶畫像技術(shù)已經(jīng)逐漸深入民眾,成為人們?nèi)粘I钪凶顬槌R?jiàn)的技術(shù)方式之一。例如當(dāng)人們?cè)谒⒍兑舻臅r(shí)候,假以時(shí)日,抖音所推薦的小視頻日漸貼合用戶的喜好,精準(zhǔn)的推薦用戶喜愛(ài)的視頻,抖音在進(jìn)行視頻進(jìn)行推薦的時(shí)候,便是根據(jù)用戶畫像技術(shù)進(jìn)行,根據(jù)用戶的基本特征,提升視頻針對(duì)性,保證為用戶提供更好的服務(wù)[2]。

        1 用戶畫像的詞向量

        在人們的日常生活之中,或者是工作學(xué)習(xí)之中,最為基礎(chǔ)也是最為必要的工具是語(yǔ)言和文字,人們?cè)谌粘=涣骰顒?dòng)中,可以通過(guò)運(yùn)用語(yǔ)言或者是文字獲得想要的結(jié)果,讓他人理解自己所要表達(dá)的意思,讓傾聽(tīng)者可以了解自己的需求,同時(shí)也可以將自己的意思通過(guò)這種方式傳輸給他人。這主要是因?yàn)槿祟愃纬傻恼Z(yǔ)言具有系統(tǒng)性,能夠在運(yùn)用的過(guò)程中有所感知。但是對(duì)于非人類而言,文字所產(chǎn)生的作用微乎其微,它們不能夠感知人類的語(yǔ)言和文字。所以,為了強(qiáng)化這些設(shè)備對(duì)于人類文字的感知能力,必須要對(duì)這些機(jī)械設(shè)備展開(kāi)詞向量訓(xùn)練,將人類的文字轉(zhuǎn)化成為機(jī)器可以理解的數(shù)字方式,進(jìn)而幫助機(jī)械設(shè)備順利的理解與計(jì)算完成文字信息[3]。

        在圖像信息進(jìn)行處理的過(guò)程中,要考慮到圖像的組成特點(diǎn),其本身便是像素點(diǎn)的組合,所以在儲(chǔ)存與處理圖像時(shí),是可以對(duì)像素值進(jìn)行直接存儲(chǔ)的。換言之,存儲(chǔ)圖像就是存儲(chǔ)像素值。在處理圖像的過(guò)程中,輸入可以選擇圖像本身。但是處理自然語(yǔ)言以及處理圖像的時(shí)候,這兩者之間存在的最大不同在于輸入特征之間的差異。在自然語(yǔ)言處理的環(huán)節(jié)之中,要完成文本的處理,但是圖像與文本之間有所不同,文本是不可以在存儲(chǔ)的過(guò)程中以數(shù)字的形式完成的,而是通過(guò)使用字符串的方式完成。引以為重的部分是,若詞語(yǔ)具有相同或者是相近的含義時(shí),利用字符串實(shí)施表達(dá),其形式仍舊存在不同。這種問(wèn)題的出現(xiàn),造成機(jī)器學(xué)追蹤的處理文本工作存在著很大問(wèn)題。為了實(shí)現(xiàn)這個(gè)問(wèn)題,可以選擇使用one-hot方式完成[4]。在對(duì)向量長(zhǎng)度進(jìn)行獲取的時(shí)候,可以選擇使用one-hot完成,并且可以將其視為詞典的長(zhǎng)度,在詞典當(dāng)中,該詞語(yǔ)所對(duì)應(yīng)的向量值位置為1,其余為0,那么此時(shí)才能夠獲得便利性。但是,這種方法的運(yùn)用,也使得維度角度層面出現(xiàn)問(wèn)題,不能夠較好的表達(dá)完成詞語(yǔ)與詞語(yǔ)之間的關(guān)系。

        另外還有一種處理方法是word2vec,其作為一種工具,可以簡(jiǎn)單的理解為神經(jīng)網(wǎng)絡(luò)。word2vec存在兩種不同的模型,分別為Skip-gram模型和CBOW模型。在運(yùn)用CBOW模型展開(kāi)處理時(shí),其輸入的過(guò)程是需要對(duì)詞語(yǔ)的上文和下文相互關(guān)聯(lián)的詞向量展開(kāi)訓(xùn)練。但是在輸出時(shí)候,其所指的就是詞的詞向量。但是在使用Skip-gram模型的時(shí)候,恰恰相反[5]。就相關(guān)研究結(jié)果得知,當(dāng)擁有較小數(shù)據(jù)量的時(shí)候,CBOW模型更為適合,當(dāng)擁有較大數(shù)據(jù)量的時(shí)候,Skip-gram模型更為適合[6]。

        2 以微博為案例分析構(gòu)建用戶畫像的流程

        首先要預(yù)處理在微博中的各項(xiàng)數(shù)據(jù)信息,并且對(duì)內(nèi)容完成分詞處理。在處理環(huán)節(jié),可以利用結(jié)巴分詞的方式完成,另外還可以選擇停頓詞詞典完成無(wú)意義停頓詞的處理工作,將其剔除以保證處理的準(zhǔn)確率。其次,還需要對(duì)其他數(shù)據(jù)集之中的空缺值采取填補(bǔ)措施,以保證該空位中的數(shù)值得當(dāng)。根據(jù)微博用戶的實(shí)際年齡作為基礎(chǔ)進(jìn)行用戶劃分。最后要將處理完成的數(shù)據(jù)結(jié)果輸入文本之中,獲得研究結(jié)果,并將其輸出。

        以數(shù)據(jù)為依據(jù)構(gòu)建用戶畫像的方法流程圖如圖1所示。

        3 用戶畫像構(gòu)建分析

        在本次研究中,是以微博的數(shù)據(jù)信息展開(kāi)分析的,微博作為社交軟件,包含多種數(shù)據(jù)信息。其中,在微博知識(shí)數(shù)據(jù)中,當(dāng)以社交關(guān)系信息為主,其所包含的用戶數(shù)量也最多。社交關(guān)系所擁有的方式無(wú)非兩種,一種是單向好友關(guān)系,一種是雙向好友關(guān)系[7-8]。

        3.1 微博用戶的社交關(guān)系信息分析

        在分析用戶的社交關(guān)系信息的時(shí)候,每一行所代表的是一個(gè)微博用戶所具有的社交關(guān)系,在顯示的時(shí)候,其表現(xiàn)方式將會(huì)以數(shù)字呈現(xiàn)。在結(jié)果中,微博用戶的II)便是第一個(gè)數(shù)字,微博用戶的粉絲ID是通過(guò)后面的數(shù)字進(jìn)行表示的,在不同的數(shù)字之間,通過(guò)使用空格間隔以保證不同Ⅲ之間的獨(dú)立性和可分辨性。詳細(xì)如表1所示。

        3.2用戶微博文本信息

        在用戶的文本信息之中,每一行所代表的含義為一個(gè)用戶信息,其中依次為用戶的ID,用戶文案的轉(zhuǎn)發(fā)次數(shù),文案的評(píng)論數(shù)量,用戶在發(fā)布文案的時(shí)候使用的設(shè)備信息,文案發(fā)布的時(shí)間,文案的具體內(nèi)容。在表示的時(shí)候,均需要使用“,”作出間隔。微博用戶信息文件內(nèi)容表如表2所示。

        3.3 用戶的標(biāo)簽信息

        在微博之中的用戶標(biāo)簽信息,每行所代表的內(nèi)容是一個(gè)用戶的標(biāo)簽信息,其中依次為用戶的ID、用戶的性別、用戶出生的時(shí)間、用戶的地域信息,中間利用||分隔。微博用戶標(biāo)簽信息文本內(nèi)容表如表3所示。

        4 數(shù)據(jù)信息預(yù)處理

        為了在分析中更好的對(duì)知識(shí)互聯(lián)展開(kāi)應(yīng)用,首先要按照一定的原則將數(shù)據(jù)信息輸入。但是在實(shí)際輸入的過(guò)程卻存在著很多不盡人意的地方。若是采取人工錄入數(shù)據(jù)信息,將會(huì)導(dǎo)致數(shù)據(jù)信息出現(xiàn)重復(fù),導(dǎo)致數(shù)據(jù)不完整,甚至是出現(xiàn)輸入錯(cuò)誤的問(wèn)題。這些數(shù)值中所包含的錯(cuò)誤數(shù)據(jù)將會(huì)造成輸出的結(jié)果存在誤差。所以要事先作出預(yù)處理。

        4.1 預(yù)處理用戶社交信息

        首先以微博用戶的ID地址統(tǒng)計(jì)用戶粉絲量,將沒(méi)有粉絲的微博用戶數(shù)值設(shè)置為0。

        4.2 預(yù)處理微博用戶文本

        劃分用戶信息,將多余的數(shù)據(jù)信息刪除,以防止在數(shù)據(jù)處理的過(guò)程中壓力過(guò)大。利用結(jié)巴分詞將微博中的文本內(nèi)容作出處理。將與實(shí)驗(yàn)無(wú)關(guān)的詞語(yǔ)利用停用詞典將其去除。統(tǒng)一化格式處理微博發(fā)布的時(shí)間,將“幾分鐘前”、“今天”等詞語(yǔ)刪除,并且以用戶的ID作為依據(jù),拼接用戶發(fā)布的內(nèi)容。此外,對(duì)用戶的實(shí)際微博發(fā)布數(shù)量、轉(zhuǎn)發(fā)數(shù)量、評(píng)論數(shù)量、原創(chuàng)微博數(shù)量作出統(tǒng)計(jì),計(jì)算出每個(gè)微博用戶的微博轉(zhuǎn)發(fā)量和評(píng)論數(shù)。統(tǒng)計(jì)微博用戶粉絲特征。

        4.3 預(yù)處理用戶標(biāo)簽信息

        根據(jù)劃分的年齡段進(jìn)行微博用戶年齡預(yù)處理。

        5 結(jié)束語(yǔ)

        用戶畫像技術(shù)隨著現(xiàn)代科學(xué)技術(shù)的發(fā)展而獲得快速進(jìn)步,為當(dāng)前人們的生活帶來(lái)了極大便利,可以為用戶提供其所需要的內(nèi)容,實(shí)現(xiàn)前所未有的邊界。通過(guò)以知識(shí)互聯(lián)為基礎(chǔ)實(shí)現(xiàn)用戶畫像技術(shù)應(yīng)用,逐漸實(shí)現(xiàn)了用戶在上網(wǎng)和生活中的精準(zhǔn)營(yíng)銷和定性投放目的。另外,這項(xiàng)技術(shù)的發(fā)展,能夠?yàn)樯碳規(guī)?lái)巨大的經(jīng)濟(jì)效益。目前在用戶畫像技術(shù)影響之下,人們對(duì)于用戶畫像技術(shù)的信賴度逐漸提升,也使得科研人員紛紛投入精力深入探究。本文立足于知識(shí)互聯(lián)分析用戶畫像技術(shù),旨在為研究人員的研究工作提供借鑒。

        參考文獻(xiàn)

        [1]王雨,韋廣林,王題等.基于大數(shù)據(jù)分析的電話手表用戶畫像及應(yīng)用研究[J].郵電設(shè)計(jì)技術(shù),2020 (01):831-8 32.

        [2]余曉峰.基于大數(shù)據(jù)的電力行業(yè)供應(yīng)商用戶畫像模型構(gòu)建與技術(shù)實(shí)現(xiàn)[J].信息周刊,2 018 (11):1-1.

        [3]鄺小潔,馮帆,任儒軒,等.移動(dòng)互聯(lián)網(wǎng)環(huán)境下短視頻受眾中的大學(xué)生群體用戶畫像研究[J].微計(jì)算機(jī)信息,2019 (21):67-69.

        [4]李錦銳,章家寶,彭梅.基于大數(shù)據(jù)技術(shù)的求職用戶畫像系統(tǒng)研究與設(shè)計(jì)[J].產(chǎn)業(yè)與科技論壇,2019 (04):77-78.

        [5]張璐,陳宇,景嘉欣等.基于文本分析的人物畫像技術(shù)研究以知乎大V為例[J].軟件工程與應(yīng)用,2020 (03):15.

        [6]陳瑾,丁雪梅,基于服裝洗護(hù)大數(shù)據(jù)的用戶畫像平臺(tái)構(gòu)建及其應(yīng)用價(jià)值分析[J].家電科技,2018 (09):36-39.

        [7]張海濤,徐海玲,張梟慧,國(guó)內(nèi)外圖書(shū)情報(bào)領(lǐng)域用戶畫像研究現(xiàn)狀及展望[J].圖書(shū)情報(bào)工作,2019 (07):103-104.

        [8]王雨,王題,韋廣林,基于大數(shù)據(jù)分析的極致用戶畫像及應(yīng)用研究[J].郵電設(shè)計(jì)技術(shù),2019 (10):80-83.

        作者簡(jiǎn)介

        王晨飛(1988-),男,河北省滄州市人。研究生,工程師。從事網(wǎng)絡(luò)與信息安全相關(guān)工作。

        李慧芹(1988-),女,安徽省宿州市人。研究生,中級(jí)工程師。從事網(wǎng)絡(luò)安全管理工作。

        李子乾(1984-),男,天津市人。大學(xué)本科學(xué)歷,高級(jí)工程師。從事企業(yè)信息化建設(shè)及運(yùn)維管理。

        趙偉(1984-),男,山西省定襄縣人。碩士研究生,高級(jí)工程師。從事信息運(yùn)維管理工作。

        謝瑞楠(1983一),男,江蘇省南京市人。本碩在讀,國(guó)網(wǎng)客服中心網(wǎng)絡(luò)安全紅隊(duì)管理。研究方向?yàn)榫W(wǎng)絡(luò)安全。

        狠狠躁夜夜躁人人躁婷婷视频| 精品国模人妻视频网站| 青青青免费在线视频亚洲视频| 日本又色又爽又黄又免费网站| 久久久久国产一区二区三区| 国产美女裸身网站免费观看视频| 在线看高清中文字幕一区| 亚洲人成网站18禁止| 日日猛噜噜狠狠扒开双腿小说| 粗大挺进尤物人妻一区二区| 最好的99精品色视频大全在线| 日韩经典午夜福利发布| 欧美gv在线观看| 久久亚洲国产成人精品v| 成人xx免费无码| 亚洲一区二区三区一区| 国产18禁黄网站免费观看| 18分钟处破好疼哭视频在线观看 | 国产网友自拍视频在线观看| 成熟妇女毛茸茸性视频| 亚洲av成人噜噜无码网站| 亚洲精品成人网久久久久久| 中文字幕精品一区二区日本| 青青草视频在线观看色| 国产av永久无码天堂影院| 免费看奶头视频的网站| 四虎在线中文字幕一区| 一边捏奶头一边高潮视频| 人人玩人人添人人澡| 亚洲色AV天天天天天天| 国产一区二区黄色的网站| 精品999日本久久久影院| 亚洲AV毛片无码成人区httP| 一区二区三区日本美女视频 | 最新亚洲人成网站在线观看| 久久久久久亚洲AV成人无码国产 | 中文字幕一区二区人妻出轨 | 精品人妻va一区二区三区| 国产做国产爱免费视频| 东京热久久综合久久88| 99久久免费中文字幕精品|