亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于社交網(wǎng)絡(luò)數(shù)據(jù)的用戶群體畫像構(gòu)建方法研究

        2019-03-17 09:36:34索曉陽王偉
        網(wǎng)絡(luò)空間安全 2019年9期
        關(guān)鍵詞:社交網(wǎng)絡(luò)數(shù)據(jù)挖掘

        索曉陽 王偉

        摘? ?要:隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,社交網(wǎng)絡(luò)成為人們信息獲取、觀點(diǎn)分享的主要平臺(tái),在人們?nèi)粘I钪姓紦?jù)重要地位。對(duì)社交網(wǎng)絡(luò)信息進(jìn)行挖掘,構(gòu)建社交網(wǎng)絡(luò)用戶群體畫像,對(duì)用戶個(gè)性化服務(wù)、商業(yè)精準(zhǔn)營(yíng)銷、網(wǎng)絡(luò)輿情監(jiān)控的引導(dǎo)有重要意義。當(dāng)前,社交網(wǎng)絡(luò)用戶群體畫像全面性、精準(zhǔn)性有所欠缺,對(duì)此文章提出了一種基于社交網(wǎng)絡(luò)數(shù)據(jù)的用戶群體畫像構(gòu)建方法,對(duì)社交網(wǎng)絡(luò)用戶信息進(jìn)行挖掘,從基本特征、內(nèi)容特征、統(tǒng)計(jì)特征、行為特征等方面對(duì)用戶群體進(jìn)行全面精準(zhǔn)刻畫,充分了解用戶群體興趣偏好、行為傾向、價(jià)值訴求。使用機(jī)器學(xué)習(xí)、BP神經(jīng)網(wǎng)絡(luò)、LDA、特征融合等方法提取用戶主題、表情符、發(fā)文習(xí)慣、位置等20類特征,構(gòu)建社交網(wǎng)絡(luò)用戶個(gè)人畫像,聚類分析得到用戶群體,構(gòu)建社交網(wǎng)絡(luò)用戶群體畫像,為智能精準(zhǔn)營(yíng)銷、平臺(tái)個(gè)性化服務(wù)、輿情監(jiān)控提供支撐。

        關(guān)鍵詞:社交網(wǎng)絡(luò);用戶群體畫像;數(shù)據(jù)挖掘

        中圖分類號(hào):391.1? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

        Abstract: With the development of network technology, social networks have become a major platform for people to obtain information and share opinions, which plays an important role in people's daily life. Mining social networks information and constructing social networks user group portraits is of great significance to user personalized services, commercial precision marketing, and online public opinion monitoring. Due to the lack of comprehensiveness and accuracy of current social network user group portrait, this paper proposes a social networks user group portrait method to mine the privacy information of social networks users, comprehensively and accurately depict user groups from basic features, content features, statistical features and behavior features to fully understand interest preferences, behavior tendencies and value demands of the user group. Using machine learning, BP neural network, LDA and feature fusion to extract 20 kinds of features such as user topics, emoticons, posting habits, and locations, to comprehensively characterize social networks users. Then use cluster analysis to obtain the user groups, and construct a complete social networks user group portrait to provide support for intelligent precision marketing, platform personalized service, public opinion monitoring.

        Key words: social network; user group portrait; data mining

        1 引言

        隨著互聯(lián)網(wǎng)的發(fā)展,社交網(wǎng)絡(luò)成為人們信息獲取、觀點(diǎn)分享、互動(dòng)交友的主要平臺(tái),成為網(wǎng)絡(luò)輿情監(jiān)控引導(dǎo)的主要陣地。社交網(wǎng)絡(luò)蘊(yùn)含了豐富的用戶個(gè)人信息,對(duì)用戶信息進(jìn)行挖掘,分析用戶偏好,有助于充分了解用戶群體,為社交平臺(tái)用戶個(gè)性化服務(wù)提供思路[1,2],為商業(yè)智能精準(zhǔn)營(yíng)銷搜索目標(biāo)受眾[3],對(duì)敏感人群進(jìn)行監(jiān)控預(yù)警及疏導(dǎo),為輿情監(jiān)控引導(dǎo)提供決策支持。目前,在用戶群體畫像構(gòu)建方面已有不少研究成果,但是還存在一定的局限性,社交網(wǎng)絡(luò)用戶群體畫像全面性精準(zhǔn)性有所欠缺,一方面當(dāng)前社交網(wǎng)絡(luò)用戶數(shù)據(jù)挖掘分析多集中在某類用戶,選取部分用戶作為研究對(duì)象,沒有對(duì)社交網(wǎng)絡(luò)用戶整體進(jìn)行群體畫像研究。如魏明珠等人[4]對(duì)社交媒體中的高影響力人物進(jìn)行畫像研究;歐陽秀平等人[5]對(duì)游戲用戶構(gòu)建游戲興趣偏好畫像;唐嘉泉[6]構(gòu)建旅游用戶畫像并進(jìn)行游客身份分類。另一方面,用戶群體畫像越全面,對(duì)用戶群體了解越深刻。然而,現(xiàn)有研究多在某類特征[7,8]或某幾個(gè)特征維度構(gòu)建用戶群體畫像,如興趣偏好等。涉及特征種類較少,沒有在多類特征維度對(duì)社交網(wǎng)絡(luò)用戶進(jìn)行全面刻畫。如任金玥[9]提取用戶主題特征構(gòu)建用戶分類畫像;郭光明[10]構(gòu)建社交網(wǎng)絡(luò)用戶信用畫像;劉禹辰等人[11]構(gòu)建社交網(wǎng)絡(luò)用戶情緒智力畫像。為充分了解社交網(wǎng)絡(luò)用戶,對(duì)社交網(wǎng)絡(luò)用戶群體進(jìn)行全面刻畫,本文提出了一種基于社交網(wǎng)絡(luò)數(shù)據(jù)的用戶群體畫像構(gòu)建方法,在用戶主題、位置、軟件使用、發(fā)文習(xí)慣、表情符使用偏好等方面對(duì)用戶群體進(jìn)行分析,對(duì)社交網(wǎng)絡(luò)用戶進(jìn)行多維度全面刻畫,構(gòu)建比較全面、完善的社交網(wǎng)絡(luò)用戶群體畫像,為商業(yè)精準(zhǔn)營(yíng)銷、平臺(tái)個(gè)性化服務(wù)、輿情監(jiān)控提供參考依據(jù)。

        本文的主要貢獻(xiàn)為:

        (1)本文在基本特征、內(nèi)容特征、統(tǒng)計(jì)特征、行為特征四大類20小類特征維度對(duì)用戶進(jìn)行刻畫,構(gòu)建更加全面精準(zhǔn)的用戶群體畫像,充分了解了用戶群體興趣偏好、行為傾向及價(jià)值訴求。

        (2)本文對(duì)社交網(wǎng)絡(luò)用戶整體進(jìn)行群體畫像研究,用戶群體覆蓋面廣,更加完整地揭示社交網(wǎng)絡(luò)中用戶群體的構(gòu)成及特點(diǎn),充分全面地了解社交網(wǎng)絡(luò)用戶。

        2 社交網(wǎng)絡(luò)用戶群體畫像構(gòu)建模型

        2.1 構(gòu)建流程

        社交網(wǎng)絡(luò)用戶群體畫像構(gòu)建模型如圖1所示,包括數(shù)據(jù)收集及預(yù)處理、特征提取、特征融合、用戶畫像構(gòu)建、聚類分析群體畫像構(gòu)建五個(gè)階段。

        在數(shù)據(jù)收集及預(yù)處理階段,采集用戶基本信息、博文內(nèi)容、用戶間關(guān)注關(guān)系、用戶互動(dòng)信息數(shù)據(jù)。篩選用戶,去除冗余數(shù)據(jù),使用Jieba對(duì)博文內(nèi)容數(shù)據(jù)進(jìn)行分詞處理,使用Word2vec訓(xùn)練博文詞向量(300維)。得到分詞后的微博內(nèi)容、用戶基本信息、用戶間的關(guān)注關(guān)系、用戶互動(dòng)信息、單個(gè)詞匯的Word2vec向量表示。

        在特征提取階段,對(duì)用戶基本信息、分詞后的博文內(nèi)容、用戶間關(guān)注關(guān)系、用戶互動(dòng)信息數(shù)據(jù)進(jìn)行處理,提取用戶基本特征、內(nèi)容特征、統(tǒng)計(jì)特征、行為特征四大類21小類特征。從基本信息中提取用戶基本特征。從博文內(nèi)容中提取用戶13小類內(nèi)容特征,使用LDA提取用戶博文主題特征,使用正則表達(dá)式提取用戶博文內(nèi)容數(shù)據(jù)中的話題、位置、表情符、標(biāo)點(diǎn)符號(hào)、電影、音樂、旅游、食物、語氣詞、出行方式、發(fā)文設(shè)備、第三方軟件等特征。對(duì)用戶數(shù)據(jù)統(tǒng)計(jì)分析得到用戶統(tǒng)計(jì)特征,包括用戶發(fā)文習(xí)慣、博文統(tǒng)計(jì)特征、關(guān)注的人統(tǒng)計(jì)特征、粉絲統(tǒng)計(jì)特征、好友統(tǒng)計(jì)特征。從用戶互動(dòng)信息數(shù)據(jù)中得到用戶行為特征。使用博文中詞匯的Word2vec[12]向量累加求平均值得到單條博文的向量表示,將表情符“太開心”“怒”作為正負(fù)情感標(biāo)簽,使用BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練單條微博情感模型,模型準(zhǔn)確率為89.17%。各類特征及其提取方法將在2.2節(jié)中詳細(xì)進(jìn)行介紹。

        特征提取階段得到的用戶特征粒度太細(xì)、維度過高、可解釋性不強(qiáng),如1481維的情感符特征維度過高,不能對(duì)用戶進(jìn)行直觀刻畫。使用特征融合技術(shù)可以將高維度特征聚合為較為抽象的高層次用戶特征。在特征融合階段,對(duì)特征提取階段得到的特征進(jìn)行聚類分析結(jié)合人工標(biāo)注,進(jìn)行特征融合得到高層次用戶特征。如將出行工具融合為18維出行方式特征,從第三方軟件中得到第三方軟件類別特征,將表情符號(hào)進(jìn)行分類得到表情符類別特征,從發(fā)文設(shè)備型號(hào)中得到設(shè)備系統(tǒng)及品牌。將市、縣級(jí)位置融合省級(jí)位置,將話題特征融合為話題主題。

        在用戶畫像構(gòu)建階段,在特征融合階段得到的基本特征、內(nèi)容特征、統(tǒng)計(jì)特征、行為特征四大類20小類用戶特征基礎(chǔ)上構(gòu)建用戶畫像。

        在聚類分析群體畫像階段,使用SVD對(duì)用戶特征數(shù)據(jù)降維,使用Kmeans對(duì)社交網(wǎng)絡(luò)用戶進(jìn)行聚類分析,得到用戶群體,提取用戶群體特征,使用用戶群體特征均值表示用戶群體的基本、內(nèi)容、統(tǒng)計(jì)、行為特征,構(gòu)建社交網(wǎng)絡(luò)用戶群體畫像。全面的用戶群體畫像有助于充分了解用戶群體,為用戶群體個(gè)性化服務(wù)提供決策支持。

        2.2 社交網(wǎng)絡(luò)用戶群體畫像模型

        本文使用用戶群體中用戶畫像得分的平均值表征用戶群體畫像,用戶群體畫像還包括用戶群體級(jí)特征:用戶群體規(guī)模。用戶畫像包括基本特征、內(nèi)容特征、統(tǒng)計(jì)特征、行為特征四大類特征。

        基本特征:利用基本特征刻畫用戶基本屬性,用戶在社交平臺(tái)用戶主頁展示用戶基本信息,這些信息較長(zhǎng)時(shí)間內(nèi)不會(huì)改變,相對(duì)穩(wěn)定。用戶基本特征包括:用戶性別、是否認(rèn)證、所在地、關(guān)注數(shù)、粉絲數(shù)、發(fā)文數(shù)。用戶性別是用戶思維方式、行為習(xí)慣、興趣愛好的主要影響因素。是否認(rèn)證刻畫用戶的平臺(tái)、專業(yè)、興趣影響力,認(rèn)證用戶的平臺(tái)影響力大,在本專業(yè)領(lǐng)域更加權(quán)威,對(duì)某一興趣投入相對(duì)較多,傳遞的消息覆蓋范圍廣、覆蓋面大。用戶所在地揭示了用戶的地域特征,不同地域的用戶風(fēng)俗習(xí)慣不同,保留省級(jí)用戶所在地位置。關(guān)注數(shù)刻畫用戶對(duì)平臺(tái)及其他用戶的感興趣程度。粉絲數(shù)刻畫用戶的平臺(tái)影響力。發(fā)文數(shù)刻畫用戶的平臺(tái)活躍度。

        內(nèi)容特征:使用內(nèi)容特征刻畫用戶偏好。內(nèi)容特征包括:主題、話題、位置、表情符、發(fā)文設(shè)備、第三方軟件、出行方式、語氣詞、標(biāo)點(diǎn)符號(hào)、食物、電影、音樂、旅游13小類特征。主題特征:主題特征刻畫用戶的興趣偏好,使用LDA提取用戶主題特征,將單個(gè)用戶所有博文看作一個(gè)文檔,使用困惑度確定用戶主題數(shù),得到180維用戶主題,根據(jù)主題關(guān)鍵詞人工篩選117維有意義的主題,如金融理財(cái)、歷史、政治等,部分主題關(guān)鍵字如表1所示。話題特征:用戶在某熱點(diǎn)事件下發(fā)文時(shí),需標(biāo)注話題標(biāo)簽,如“#中國”,話題刻畫用戶對(duì)熱門事件的關(guān)注情況,本文提取提及次數(shù)大于50次的微博話題50504個(gè),使用LDA主題模型對(duì)話題特征進(jìn)行融合,最終得到200維用戶話題特征,包括購物、汽車、創(chuàng)意家居等。

        位置特征:位置特征刻畫用戶的地理位置偏好,提取用戶打卡位置特征,保留省級(jí)以上打卡位置,得到134維位置特征。表情符特征:表情符特征刻畫用戶發(fā)文時(shí)的心情,本文提取使用次數(shù)大于1000的表情符1481個(gè),融合表情符特征,最終得到9類表情符類別特征,包括:喜、怒、哀、驚、鼓勵(lì)、尷尬、調(diào)侃、中性、節(jié)日。發(fā)文設(shè)備特征:用戶在發(fā)文來源中展示用戶發(fā)文設(shè)備,用戶發(fā)文設(shè)備特征刻畫用戶的發(fā)文設(shè)備使用偏好,手機(jī)品牌使用偏好,人工標(biāo)注發(fā)文來源信息,得到3維設(shè)備種類特征,包括手機(jī)、電腦、平板,36維手機(jī)品牌特征,如蘋果、華為、三星、小米等。

        第三方軟件特征:用戶在發(fā)文來源中展示第三方軟件特征,第三方軟件特征刻畫用戶軟件使用習(xí)慣,人工標(biāo)注發(fā)文來源信息,得到20維第三方軟件大類特征,如新聞資訊、娛樂、財(cái)經(jīng)等。94維第三方軟件小類特征,如新聞、女性頻道、活動(dòng)咨詢、電影等。出行方式特征刻畫用戶的出行習(xí)慣,人工標(biāo)注出行方式詞匯,得到18維用戶出行方式特征,如地鐵、公共汽車、出租車等。語氣詞特征:語氣詞揭示用戶的發(fā)文風(fēng)格,提取44維語氣詞特征,如啊、呀等。標(biāo)點(diǎn)符號(hào)特征:標(biāo)點(diǎn)符號(hào)特征刻畫用戶標(biāo)點(diǎn)符號(hào)使用傾向,人工標(biāo)注標(biāo)點(diǎn)符號(hào),得到11維標(biāo)點(diǎn)符號(hào)類型特征,4維標(biāo)點(diǎn)符號(hào)長(zhǎng)度特征。

        食物特征:食物特征刻畫用戶的飲食偏好,人工標(biāo)注提取23維食物特征,如火鍋、水果、海鮮等。電影特征:電影特征刻畫用戶電影類別、口碑偏好,包括5維電影評(píng)分特征、11維電影國別特征、29維電影分類特征,如動(dòng)作、劇情、愛情、驚悚等。音樂特征:音樂特征刻畫用戶音樂類別、口碑偏好,包括5維音樂評(píng)分特征、8維音樂類別特征,如流行、搖滾、民謠等。旅游特征:旅游特征刻畫用戶對(duì)旅游地風(fēng)格的偏好,包括4維景點(diǎn)級(jí)別特征、16維景點(diǎn)類別特征,如公園、故居、古建筑等。

        統(tǒng)計(jì)特征:統(tǒng)計(jì)特征包括博文統(tǒng)計(jì)特征、粉絲統(tǒng)計(jì)特征、關(guān)注的人統(tǒng)計(jì)特征、好友統(tǒng)計(jì)特征、發(fā)文習(xí)慣。博文統(tǒng)計(jì)特征包括博文平均長(zhǎng)度、轉(zhuǎn)發(fā)博文平均長(zhǎng)度、評(píng)論博文平均長(zhǎng)度、原創(chuàng)博文平均長(zhǎng)度。粉絲統(tǒng)計(jì)特征包括用戶粉絲性別比例、用戶粉絲認(rèn)證比例、用戶男性粉絲數(shù)、用戶女性粉絲數(shù)、用戶認(rèn)證粉絲數(shù)、用戶未認(rèn)證粉絲數(shù)。關(guān)注的人統(tǒng)計(jì)特征與好友統(tǒng)計(jì)特征與粉絲統(tǒng)計(jì)特征類似。發(fā)文習(xí)慣包括小時(shí)級(jí)發(fā)文量、星期級(jí)發(fā)文量。另外統(tǒng)計(jì)特征中還有關(guān)注的人與粉絲之比、好友與粉絲之比、好友與關(guān)注的人之比3維特征,用來刻畫用戶社交網(wǎng)絡(luò)結(jié)構(gòu)。

        行為特征:用戶參與社交網(wǎng)絡(luò)互動(dòng),評(píng)論他人博文,博文中也會(huì)提到好友,行為特征可以刻畫用戶社交網(wǎng)絡(luò)的參與程度。本文提取3維用戶行為特征,包括轉(zhuǎn)發(fā)博文量、評(píng)論博文量和原創(chuàng)博文量。

        3 社交網(wǎng)絡(luò)群體畫像方法實(shí)現(xiàn)

        數(shù)據(jù)集:實(shí)驗(yàn)使用復(fù)旦大學(xué)微博數(shù)據(jù)集[13],包括用戶基本信息數(shù)據(jù)、用戶間關(guān)注數(shù)據(jù)、用戶博文數(shù)據(jù)。篩選發(fā)文數(shù)大于50,用戶間關(guān)系數(shù)大于10的微博用戶,最終得到481,393個(gè)微博用戶、354,786,647條微博。

        特征提取完成后,對(duì)數(shù)據(jù)進(jìn)行歸一化處理,使用SVD對(duì)數(shù)據(jù)降維,保留95%的信息,之后使用Kmeans對(duì)用戶進(jìn)行聚類。根據(jù)輪廓系數(shù)、CH指標(biāo)確定K值大小,如圖2和3所示,k=40時(shí),輪廓系數(shù)最大、CH指標(biāo)較大,所以將用戶劃分為40個(gè)類。

        對(duì)這些類進(jìn)行分析,得到17個(gè)具有明顯差別的用戶群體,包括:企業(yè)團(tuán)體官方賬號(hào)、機(jī)構(gòu)團(tuán)體官方賬號(hào)、普通營(yíng)銷類個(gè)人用戶、時(shí)政類認(rèn)證男性用戶、情感時(shí)尚類認(rèn)證男性用戶、精英類認(rèn)證女性用戶、普通文藝女性用戶、普通時(shí)政類北京男性用戶、普通情感類廣東男性用戶、普通生活家庭類女性用戶、普通情感宣泄類女性用戶、普通潛水型時(shí)尚類女性用戶、普通情感宣泄類男性用戶、普通時(shí)政情感宣泄類男性用戶、普通樂觀積極養(yǎng)生類女性用戶、普通情感宣泄生活類男性用戶、普通職場(chǎng)男性用戶等。因篇幅有限,對(duì)企業(yè)團(tuán)體官方賬號(hào)、普通營(yíng)銷類個(gè)人用戶、普通文藝女性用戶這三類用戶進(jìn)行重點(diǎn)介紹。

        企業(yè)團(tuán)體官方賬號(hào):群體規(guī)模為7413,群體中大部分用戶為認(rèn)證用戶,用戶群體博文主題如圖4所示,排名前三的主題為養(yǎng)生健康、職場(chǎng)寶典、心靈雞湯。粉絲數(shù)(1283)大于關(guān)注的人數(shù)(306),發(fā)文數(shù)為920,高于整個(gè)數(shù)據(jù)集平均值,原創(chuàng)博文占總博文數(shù)的94%,該類用戶群體的影響力較大。該群體發(fā)文習(xí)慣如圖5所示,上午與下午上班時(shí)間發(fā)文較多,晚上發(fā)文很少,周末發(fā)文少,周內(nèi)發(fā)文多,該類微博賬號(hào)有相關(guān)人員經(jīng)營(yíng)。在感情符的使用方面,多使用喜、鼓勵(lì)類的積極感情符,情緒傾向積極,傳播正能量。在發(fā)文設(shè)備方面,該類群體多使用電腦發(fā)文。微博工具類軟件使用較多,多使用工具類軟件輔助發(fā)文。該類用戶在本行業(yè)領(lǐng)域權(quán)威性較強(qiáng),可以推薦給有行業(yè)興趣的普通用戶關(guān)注,可以作為商業(yè)精準(zhǔn)營(yíng)銷的廣告平臺(tái)、在輿情方面可以作為網(wǎng)絡(luò)正能量的引導(dǎo)者。

        普通營(yíng)銷類個(gè)人用戶:群體規(guī)模為7144,群體中大部分用戶為未認(rèn)證用戶,用戶群體博文主題如圖6所示,排名前三的主題為心靈雞湯、笑話、養(yǎng)生健康。粉絲數(shù)(1542)大于關(guān)注的人數(shù)(342),發(fā)文數(shù)1032,原創(chuàng)博文占比98%,該群體發(fā)文習(xí)慣如圖7所示,上午、下午與晚上發(fā)文都比較多,且該群體多使用電腦發(fā)文、頻繁使用微博工具類軟件輔助發(fā)文,使用情感符積極。該類用戶未認(rèn)證,可以多推送行業(yè)內(nèi)權(quán)威知識(shí),提高自身平臺(tái)影響力。

        普通文藝女性用戶:群體規(guī)模為10400,群體中為未認(rèn)證女性用戶,所在地為北京,用戶群體博文主題如圖8所示,排名前三的主題為生活、情感受挫、情感美文。關(guān)注的人數(shù)(248)大于粉絲數(shù)(178),發(fā)文數(shù)為807,原創(chuàng)博文占比72%,該群體的發(fā)文習(xí)慣如圖9所示,晚上22點(diǎn)發(fā)文最多,該用戶群體喜歡深夜發(fā)文。在感情符的使用方面,多使用喜、哀類情感符,情感表達(dá)豐富。該類用戶關(guān)注文藝,是藝術(shù)類商品的營(yíng)銷受眾。

        與現(xiàn)有的社交網(wǎng)絡(luò)用戶群體畫像方法對(duì)比,本文在20小類特征維度對(duì)用戶進(jìn)行刻畫,群體畫像更加全面精準(zhǔn)。與其他社交網(wǎng)絡(luò)用戶群體畫像方法對(duì)比結(jié)果如表2所示,文獻(xiàn)[9]使用微博用戶活躍度指數(shù)將用戶分為“大V”用戶、“網(wǎng)紅”用戶、活躍用戶、“潛水”用戶四大類,之后使用興趣主題特征對(duì)每類用戶進(jìn)行細(xì)分。文獻(xiàn)[8]使用粉絲數(shù)、關(guān)注數(shù)、微博數(shù)、收藏?cái)?shù)以及博齡對(duì)用戶進(jìn)行聚類分析,得到微博閱讀型用戶,普通用戶,微博活躍用戶,名人微博、微博運(yùn)營(yíng)用戶五類用戶群體,形成用戶類型標(biāo)簽,最終在單個(gè)用戶畫像(用戶類型標(biāo)簽、安全標(biāo)簽、統(tǒng)計(jì)標(biāo)簽),用戶行為和用戶關(guān)系鏈方面對(duì)用戶進(jìn)行批量畫像。文獻(xiàn)[4]對(duì)微博高影響力人物進(jìn)行畫像研究,提取用戶基本屬性、用戶行為屬性、用戶價(jià)值屬性三類18個(gè)用戶標(biāo)簽,將高影響力用戶分為優(yōu)質(zhì)內(nèi)容生成主力軍、高流量頭部用戶、高頻互動(dòng)分享型用戶三類。本文使用基本特征、內(nèi)容特征、統(tǒng)計(jì)特征、行為特征四大類特征對(duì)用戶群體進(jìn)行刻畫,涉及用戶主題、話題、位置、表情符、發(fā)文習(xí)慣等20小類特征,特征涉及范圍廣,群體畫像更加全面精準(zhǔn),充分揭示了用戶群體興趣偏好、行為傾向及價(jià)值訴求。聚類分析得到17類群體,用戶群體覆蓋面廣,更加完整地揭示微博用戶群體的構(gòu)成及特征。

        4 結(jié)束語

        本文提出了一種基于社交網(wǎng)絡(luò)數(shù)據(jù)的用戶群體畫像方法。使用新浪微博數(shù)據(jù)進(jìn)行實(shí)驗(yàn),挖掘利用社交網(wǎng)絡(luò)用戶信息,提取用戶基本特征、內(nèi)容特征、統(tǒng)計(jì)特征、行為特征四大類20小類用戶特征,特征融合得到高層次的用戶特征,構(gòu)建更加全面的社交網(wǎng)絡(luò)用戶畫像,對(duì)用戶群體進(jìn)行聚類分析,得到用戶群體,構(gòu)建社交網(wǎng)絡(luò)用戶群體畫像。后續(xù)研究中,將進(jìn)一步提取如用戶影響力之類的高層次特征,構(gòu)建更加完備精準(zhǔn)的用戶群體畫像。

        參考文獻(xiàn)

        [1] 蘭冰.基于群組用戶畫像的圖書館信息智能推送服務(wù)[J].圖書館學(xué)刊,2019, 41(07):109-112.

        [2] 孫守強(qiáng).基于用戶畫像的智慧圖書館個(gè)性化服務(wù)研究[J].圖書館工作與研究,2019(07):60-65.

        [3] 韓張俊杰. 基于數(shù)據(jù)分析的資訊類App用戶畫像設(shè)計(jì)與應(yīng)用[D].中國科學(xué)院大學(xué)(中國科學(xué)院工程管理與信息技術(shù)學(xué)院), 2017.

        [4] 魏明珠,張海濤,劉雅姝,徐海玲.多維屬性融合的社交媒體高影響力人物畫像研究[J].圖書情報(bào)知識(shí),2019(05):73-79+100.

        [5] 歐陽秀平,廖娟,馮燁,劉卉芳.基于運(yùn)營(yíng)商大數(shù)據(jù)的游戲用戶畫像構(gòu)建研究[J].郵電設(shè)計(jì)技術(shù),2019(09):40-44.

        [6] 唐嘉泉. 面向DPI數(shù)據(jù)的旅游畫像系統(tǒng)的研究與實(shí)現(xiàn)[D].北京郵電大學(xué),2019.

        [7] 衛(wèi)學(xué)淵. 基于神經(jīng)網(wǎng)絡(luò)的智能電視用戶分類研究[D].北京郵電大學(xué),2019.

        [8] 張哲. 基于微博數(shù)據(jù)的用戶畫像系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].華中科技大學(xué),2015.

        [9] 任金玥.基于動(dòng)態(tài)主題模型的微博用戶分類畫像應(yīng)用研究[D].華東師范大學(xué),2019.

        [10] 郭光明. 基于社交大數(shù)據(jù)的用戶信用畫像方法研究[D].中國科學(xué)技術(shù)大學(xué),2017.

        [11] 劉禹辰,王偉.基于社交網(wǎng)絡(luò)隱私信息挖掘的情緒智力畫像方法研究[J].網(wǎng)絡(luò)空間安全,2019,10(02):24-31.

        [12] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.

        [13] 復(fù)旦大學(xué)自然語言與信息檢索實(shí)驗(yàn)室.微博數(shù)據(jù)集[DB/OL].http://sma.fudan.edu.cn/datainfo/weibo.html,2015.

        作者簡(jiǎn)介:

        索曉陽(1996-),女,漢族,山西忻州人,北京交通大學(xué),碩士;主要研究方向和關(guān)注領(lǐng)域:網(wǎng)絡(luò)空間安全。

        王偉(1976-),男,漢族,湖北英山人,西安交通大學(xué),博士,北京交通大學(xué),博士生導(dǎo)師,教授;主要研究方向和關(guān)注領(lǐng)域:網(wǎng)絡(luò)空間安全。

        猜你喜歡
        社交網(wǎng)絡(luò)數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        大數(shù)據(jù)時(shí)代社交網(wǎng)絡(luò)個(gè)人信息安全問題研究
        社交網(wǎng)絡(luò)中的隱私關(guān)注及隱私保護(hù)研究綜述
        基于圖片分享為核心的社交網(wǎng)絡(luò)應(yīng)用分析
        戲劇之家(2016年19期)2016-10-31 19:44:28
        社交網(wǎng)絡(luò)自拍文化的心理解讀
        新聞前哨(2016年10期)2016-10-31 17:46:44
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        亚洲精品久久久久久久不卡四虎| 国产成人久久综合第一区| 国产精品日本中文在线| 国产自拍偷拍视频免费在线观看 | 一本久道高清视频在线观看| 少妇伦子伦精品无吗| 无码人妻丰满熟妇区五十路百度| 亚洲综合五月天欧美| 国产精品污一区二区三区在线观看| 中文字幕亚洲在线第一页| 亚洲av午夜精品无码专区| 天码人妻一区二区三区| 亚洲国产成人手机在线观看| 久久亚洲精品国产精品婷婷| 国产精品老熟女乱一区二区| 丰满人妻被两个按摩师| 极品美女aⅴ在线观看| 亚洲精品亚洲人成在线下载 | 日韩精品午夜视频在线| 亚洲综合av一区二区三区蜜桃| 亚洲综合在线一区二区三区| 麻豆乱码国产一区二区三区| 五码人妻少妇久久五码| 99久久婷婷国产精品网| 77777_亚洲午夜久久多人| 无码国产精品一区二区高潮| 精品免费一区二区三区在| 视频一区视频二区亚洲| av剧情演绎福利对白| 色欲av蜜桃一区二区三| 精品乱码一区二区三区四区| 亚洲视频在线观看青青草| 久久丝袜熟女av一区二区| 鲁丝片一区二区三区免费| 护士奶头又白又大又好摸视频| 日本一区二区在线资源| 免费国产一区二区视频| 无码孕妇孕交在线观看| 国产成人www免费人成看片| 一区二区av日韩免费| 极品尤物在线精品一区二区三区|