亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        UGC網(wǎng)站用戶畫像研究①

        2017-02-20 07:45:34陳志明胡震云
        計算機系統(tǒng)應(yīng)用 2017年1期
        關(guān)鍵詞:用戶能力模型

        陳志明, 胡震云

        ?

        UGC網(wǎng)站用戶畫像研究①

        陳志明, 胡震云

        (河海大學(xué)商學(xué)院, 南京 211100)

        近幾年, 社交網(wǎng)絡(luò)的高速發(fā)展使人們的工作、生活、學(xué)習(xí)方式發(fā)生了重大改變, 人們獲取知識的方式呈現(xiàn)明顯的網(wǎng)絡(luò)化趨勢. 人們通過網(wǎng)絡(luò)獲取信息的同時, 也在其上留下了個人的痕跡, 考慮到現(xiàn)實中獲取個人信息成本高昂, 捕捉其在網(wǎng)絡(luò)中留下的痕跡, 研究其在網(wǎng)絡(luò)社會中的“映射”, 不失為一種可行的方法. 用戶畫像作為真實用戶的虛擬代表, 是建立在一系列真實數(shù)據(jù)之上的用戶模型. 通過對“知乎”網(wǎng)站的深入挖掘, 構(gòu)建了基于用戶基本屬性、社交屬性、興趣屬性和能力屬性四個維度的動態(tài)用戶畫像模型, 并對“知乎”網(wǎng)站PM 2.5話題下1303位用戶進行實證分析.

        知乎網(wǎng); 用戶畫像; 社交影響力; h指數(shù)

        近十年, 隨著Web2.0概念的成熟應(yīng)用, 社交網(wǎng)絡(luò)獲得了“井噴式”發(fā)展, 影響著人們的學(xué)習(xí)、生活、工作等方式, 每一個“觸網(wǎng)”的人都在發(fā)生著潛移默化的改變. 人們縱情遨游網(wǎng)絡(luò)的同時, 也在網(wǎng)絡(luò)中留下的大量的個人“痕跡”. 隨著社交網(wǎng)絡(luò)規(guī)模的不斷擴大, 個人的“痕跡”也在不斷增多. 在學(xué)術(shù)界與產(chǎn)業(yè)界, 如何獲取這些“痕跡”, 如何利用這些“痕跡”的討論不絕于耳. 社會學(xué)家需要這些“痕跡”來剖析網(wǎng)絡(luò)結(jié)構(gòu)的演變、網(wǎng)絡(luò)傳播學(xué)等; 網(wǎng)站的擁有者希望利用“痕跡”為用戶提供更好的網(wǎng)絡(luò)體驗; 社交網(wǎng)絡(luò)上的商家希望利用“痕跡”進行精準(zhǔn)的廣告投放; 政府部門需要對社交網(wǎng)絡(luò)上的用戶言論進行監(jiān)管, 尤其是對輿情的控制和非法言論的處理. 用戶畫像模型為解決這些問題提供了可能的方法.

        隨著技術(shù)的發(fā)展和數(shù)據(jù)資源的累積, 碎片化的“痕跡”才慢慢組合為用戶畫像. 用戶畫像作為真實用戶的虛擬代表, 是建立在一系列真實數(shù)據(jù)之上的用戶模型. 目前有許多關(guān)于用戶畫像的實際應(yīng)用, 比如趙曙光[1]基于對高轉(zhuǎn)化率的社交媒體用戶研究重要性的認(rèn)識, 通過一對一的深度訪談的方式對用戶的社交媒體使用動機和行為進行總結(jié)概括, 對社交用戶進行分類. 劉海[2]等基于4C理論構(gòu)建了“用戶畫像”數(shù)據(jù)庫, 通過對數(shù)據(jù)庫的挖掘來進行消費者群體細(xì)分. 在此基礎(chǔ)上, 從營銷的角度構(gòu)建了精準(zhǔn)營銷細(xì)分模型. 此外,在個性化推薦系統(tǒng)[3]、產(chǎn)品研發(fā)[4]、廣告投放[5]等領(lǐng)域也有用戶畫像的應(yīng)用. 對用戶畫像的分析不僅可以更好的認(rèn)識網(wǎng)絡(luò)中的用戶, 從而低成本、高效率的完成公眾參與社會活動, 還可以對現(xiàn)有網(wǎng)絡(luò)進行更好的完善, 推動社交網(wǎng)絡(luò)的進一步發(fā)展. 因此, 用戶畫像的構(gòu)建, 在學(xué)術(shù)界與產(chǎn)業(yè)界都具有重大意義.

        1 用戶畫像模型

        用戶畫像又稱用戶角色, 在模型的構(gòu)建過程中往往會以最為淺顯和貼近生活的話語將用戶的屬性、行為和偏好聯(lián)結(jié)起來, 作為實際用戶的虛擬代表, 用戶畫像所形成的角色模型并不能脫離實際場景之外被構(gòu)建出來. 一個用戶可以從多個方面去刻畫, 即用戶模型可以從多個維度去考慮. “知乎”作為社交化問答網(wǎng)站, 用戶在平臺上通過某些行為(如回答問題、點擊圖片、瀏覽信息流、關(guān)注等)生產(chǎn)或獲取信息, 也通過其它一些行為(如轉(zhuǎn)發(fā)、點贊、評論等)將信息傳播出去. 由此, 我們依據(jù)社交網(wǎng)絡(luò)的特性, 結(jié)合“知乎”網(wǎng)用戶的特點, 將用戶畫像模型進行四個維度的劃分, 即用戶的自然屬性、社交屬性、興趣屬性和能力屬性. 同時, 用戶在網(wǎng)絡(luò)社會中的“痕跡”越多, 用戶畫像模型越能準(zhǔn)確反映現(xiàn)實社會中該用戶的特征. 但是, 考慮到成本及隱私, 構(gòu)建“完整”的用戶模型幾乎不可能, 要結(jié)合實際的應(yīng)用場景, 構(gòu)建滿足條件的用戶畫像模型即可.

        1.1 自然屬性

        自然屬性是指人的肉體存在及其特性, 是人存在的基礎(chǔ). 自然屬性指相對穩(wěn)定和靜態(tài)的人口屬性, 例如: 性別、地域、受教育程度、職業(yè)經(jīng)歷等, 由于用戶對個人隱私的有意保護, 這些信息的收集主要依靠網(wǎng)站自身的引導(dǎo)、調(diào)查、第三方提供等, 并在此基礎(chǔ)上進行補充和交叉驗證.

        以“知乎”為例的自然屬性指標(biāo)如表1所示.

        表1 自然屬性指標(biāo)

        用戶的自然屬性指標(biāo)在不同的應(yīng)用場景下對用戶畫像的描述具有一定程度影響力, 但出于隱私保護的考慮, 往往獲取成本較高, 多用于對樣本整體進行評價. 其中, 如性別、居住地、行業(yè)和簡介等指標(biāo)不具備等級差別, 如果用戶的以上指標(biāo)與用戶畫像的應(yīng)用場景相關(guān), 則定義一個函數(shù)表示用戶的這些屬性對構(gòu)建用戶畫像的影響:

        (2)

        對于用戶自然屬性中的教育經(jīng)歷, 不僅影響著用戶畫像的構(gòu)建, 還具有等級之分. 本節(jié)選用三角模糊數(shù)兩級比例法對定性指標(biāo)進行量化.

        雖然由于各種原因, 獲取完整的用戶的自然屬性信息困難重重, 但用戶的自然屬性反映著用戶的基本情況, 是連接線上社交網(wǎng)絡(luò)和線下真實社會的紐帶, 其重要性不言而喻. 通過以上幾個方面的分析, 定義函數(shù)表示用戶的自然屬性, 則:

        1.2 社交屬性

        本文所探討的用戶的社交屬性, 主要通過用戶的社交影響力進行衡量, 即用戶由于和其他人或團體之間的交互而改變自身觀點、情感、態(tài)度和行為的現(xiàn)象[6]. 本節(jié)基于社交影響力的定義, 綜合考慮網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)及社交節(jié)點的相互影響程度, 對社交影響力進行如下因素分析:

        1) 用戶的活躍度. 反映了用戶的活躍程度, 用戶越活躍, 影響其他用戶的機會就越大. 包括用戶關(guān)注的人數(shù)、關(guān)注的話題數(shù)、關(guān)注的專欄數(shù)、提問及回答的數(shù)量等. 這些都是UGC網(wǎng)站中用戶活躍度的直接體現(xiàn). 考慮到這五個指標(biāo)有可能不在一個數(shù)量級上, 給用戶活躍程度的對比帶來困難, 因此, 需將它們進行歸一化.

        ;;;;

        2) 用戶“鄰居”的影響力. 定義“鄰居”為用戶的關(guān)注者, 等同于“粉絲”. 社交網(wǎng)絡(luò)中信息的流動離不開“鄰居”, 鄰居節(jié)點作為傳播的載體, 本身的影響力同樣重要. 對于“鄰居”的影響力, 我們使用“鄰居”的關(guān)注者數(shù)量及“鄰居”與用戶的親密度進行度量.

        (6)

        (8)

        借鑒PageRank的核心思想, 本節(jié)關(guān)于用戶“鄰居”影響力的定義如下:

        (10)

        綜合考慮用戶本身的活躍度與用戶“鄰居”的影響力, 且這兩者均與社交影響力成正比, 則可得用戶在網(wǎng)絡(luò)中的全局社交影響力, 即用戶的社交屬性為:

        1.3 興趣屬性

        網(wǎng)站會在用戶注冊時要求其選擇自己感興趣的話題, 并依此進行相關(guān)內(nèi)容的推薦, 因此用戶所關(guān)注的話題可以看作是其顯性興趣; 用戶在瀏覽網(wǎng)站的過程中, 會對自己感興趣的話題進行提問、回答與收藏, 因此用戶的這些行為也能反映其興趣, 稱之為隱性興趣. 下面我們對興趣屬性進行建模:

        1) 顯性興趣建模

        用戶會對自己感興趣的話題進行關(guān)注, 以方便獲取這方面的相關(guān)內(nèi)容, 所以我們可以將用戶的關(guān)注話題看作顯性興趣的反映. 對于興趣標(biāo)簽的權(quán)重計算, 我們使用TF-IDF方法, TF-IDF是一種經(jīng)典的信息加權(quán)技術(shù), 其值常用來度量一個詞語在文件中的地位[7]. 通過用戶的話題標(biāo)簽表示用戶的興趣模型, 標(biāo)簽映射的回答數(shù)即為標(biāo)簽被使用的次數(shù), 利用TF-IDF方法計算用戶的興趣標(biāo)簽的權(quán)重:

        2) 隱性興趣建模

        用戶的關(guān)注話題, 直觀體現(xiàn)了用戶的顯性興趣. 然而話題標(biāo)簽是用戶注冊時人為設(shè)定的, 很多用戶為了節(jié)省注冊時間, 會任意勾選話題, 又或者選擇很多話題, 這就造成了用戶興趣度量的準(zhǔn)確性不高. 隱性興趣不同于顯性興趣, 興趣標(biāo)簽無法根據(jù)用戶的關(guān)注話題直接獲得, 而是通過用戶的交互行為獲取. 我們通過分析用戶的提問、回答和收藏來構(gòu)建用戶的隱性興趣. 關(guān)于它們的定義如表2所示.

        表2 用戶行為定義

        則用戶的隱性興趣標(biāo)簽權(quán)重為:

        用戶的隱性興趣權(quán)重通過提問、回答和收藏來度量, 通過對三個行為所涉及的內(nèi)容進行標(biāo)簽提取, 用戶的隱性興趣模型表示為:

        (15)

        3) 用戶興趣建模

        (17)

        1.4 能力屬性

        本文中的能力屬性特指用戶輸出優(yōu)質(zhì)內(nèi)容的水平. 用戶生產(chǎn)內(nèi)容(user generated content, UGC)是在Web2.0環(huán)境下出現(xiàn)的一種新興的網(wǎng)絡(luò)信息資源創(chuàng)作與組織模式, 泛指以任何形式在網(wǎng)絡(luò)上存在的由用戶發(fā)表的文字、圖片、視頻等內(nèi)容, 也就是說, 用戶既是網(wǎng)絡(luò)內(nèi)容的瀏覽者, 也是網(wǎng)絡(luò)內(nèi)容的生產(chǎn)者與傳播者[8]. “知乎”作為典型的UGC網(wǎng)站, 用戶優(yōu)質(zhì)內(nèi)容的產(chǎn)出能力極其重要, 它是網(wǎng)站的核心競爭力. 本節(jié)綜合考慮內(nèi)容的質(zhì)與量, 借鑒Hirsch教授設(shè)計的科學(xué)計量評價指標(biāo)h指數(shù)(highly cited index)[9]與金碧輝等人提出的R指數(shù)[10], 進行用戶能力屬性的度量. 其中, Hirsch將h指數(shù)定義為: 一位作者的h指數(shù)等于其發(fā)表了h篇至少被引h次的論文, 即一個作者的h指數(shù)表明其至多有h篇論文被引用了至少h次.

        H指數(shù)具備簡潔新穎的特點, 但也有自己的不足. 首先, h指數(shù)對高被引論文的影響力反映不足; 其次, h指數(shù)對普通研究者缺乏區(qū)分度, 對于大量普通研究者來說, 他們擁有相同的h指數(shù), 且h指數(shù)的值都比較低; 最后, h指數(shù)受自引和合作發(fā)文的影響, 大量自引可以顯著改變h指數(shù). 針對h指數(shù)的缺陷, 金碧輝提出了R指數(shù). R指數(shù)表示的是h核內(nèi)論文的總被引頻次的平方根. R指數(shù)的數(shù)學(xué)公式如下:

        本節(jié)通過分析h指數(shù)與R指數(shù)各自的特點后, 將兩種指數(shù)配對使用, 將會有效彌補h指數(shù)的不足, 對用戶的能力屬性進行度量如下所示:

        贊同的h指數(shù)和R指數(shù)理論上就是:

        (19)

        同理: 討論的h指數(shù)和R指數(shù)理論上就是:

        同理: 關(guān)注人數(shù)的h指數(shù)與R指數(shù)為:

        提問能力與回答能力在UGC網(wǎng)站中同等重要, 故本節(jié)關(guān)于用戶的能力屬性定義如下:

        1.5 用戶畫像模型構(gòu)建

        以上四節(jié)分別從用戶的自然屬性、社交屬性、興趣屬性及能力屬性四個方面對用戶畫像模型進行構(gòu)建, 該模型可以較為全面的對用戶進行模型抽象, 但是眾所周知, 用戶畫像模型的應(yīng)用離不開實際的應(yīng)用場景, 在面對不同的場景時, 用戶畫像所側(cè)重的屬性是不同的. 這就要求模型具有動態(tài)特征, 定義函數(shù)表示用戶的畫像模型, 則:

        2 用戶畫像實證分析

        眾所周知, 用戶畫像的應(yīng)用離不開使用場景的設(shè)置, 沒有使用場景, 空談用戶畫像是沒有實際意義的. 我們對用戶畫像模型的構(gòu)建過程有了深刻的理解, 接下來我們將結(jié)合實際的場景設(shè)置, 對用戶畫像模型的實際應(yīng)用進行研究. 本文所用數(shù)據(jù)集為“知乎”網(wǎng)站關(guān)注PM2.5話題的用戶的數(shù)據(jù)信息. 截止到2015年12月, 共有1318人關(guān)注該子話題, 數(shù)據(jù)由Gooseeker爬蟲抓取, 其中成功抓取1303位用戶數(shù)據(jù), 成功率為98.9%. 本文的實證即對這1303位用戶進行分析.

        場景一: 網(wǎng)站核心用戶甄別

        對于UGC網(wǎng)站而言, 其核心用戶應(yīng)具備輸出優(yōu)質(zhì)內(nèi)容的能力, 即用戶的能力屬性值排名靠前. 由1.4節(jié)可知, 用戶的能力屬性包括用戶的提問能力及回答能力, 分別通過提問能力指數(shù)和回答能力指數(shù)進行度量. 令,, 可得用戶能力屬性的散點圖如圖1所示.

        圖1 用戶能力屬性散點圖

        分析上圖可知, 數(shù)據(jù)集中絕大部分用戶的能力屬性值比較小, 主要原因是其提問與回答數(shù)都比較小, 或者其少量的提問與回答中, 質(zhì)量并不高, 所以并沒有得到網(wǎng)絡(luò)中用戶的認(rèn)同; 在圖中, 有一位用戶的能力屬性h值高達268.4, 該用戶在網(wǎng)絡(luò)中的回答數(shù)量為1417, 提問數(shù)量為106, 而其得到的總贊數(shù)為653528; 同樣, 用戶AreYouKiddingMe的h值為61.8, 可其回答數(shù)量為2031, 提問數(shù)量為505; 可見h值可以更好的反映用戶的能力, 它不僅考慮了用戶輸出內(nèi)容的量, 還考慮了內(nèi)容的質(zhì).

        場景二: 公眾參與環(huán)保政策的制定

        公眾參與環(huán)保政策的制定, 需要考慮兩個方面的問題, 一方面是公眾的選擇問題, 另一方面是公眾的高效參與問題.

        關(guān)于公眾的選擇, 可以應(yīng)用用戶畫像模型得到結(jié)果. 首先, 評估用戶的教育經(jīng)歷, 選取學(xué)歷為本科及以上的用戶; 其次, 分析用戶能力屬性, 能力屬性值越大, 表示其輸出的內(nèi)容質(zhì)量越高; 然后, 結(jié)合用戶的興趣屬性, 判斷其輸出內(nèi)容是否與環(huán)保相關(guān); 最后即可確定該用戶是否適合參與環(huán)保政策的制定. 根據(jù)以上分析, 式(24)轉(zhuǎn)變?yōu)?

        分析數(shù)據(jù)集可得到部分結(jié)果, 如表3所示. 需要注意的是, 表格中的能力值是結(jié)合興趣屬性后在環(huán)境保護相關(guān)話題下的能力, 是對環(huán)保相關(guān)的提問、回答的度量.

        表3 場景二分析結(jié)果

        由上表可以看出, 教育經(jīng)歷在一定程度上影響著用戶的興趣. 在確定了哪些公眾適合參與政策制定的情況下, 需要考慮公眾的高效參與問題. 本文以目前我國公民的主要參與方式為出發(fā)點進行論述.

        1) 關(guān)鍵公眾參與法. 即尋找與政策制定相關(guān)的公民進行咨詢, 上表中選取的關(guān)鍵公眾, 有效彌補了傳統(tǒng)選擇方法中只關(guān)注精英分子的缺陷, 真正做到讓普通大眾參與到環(huán)保相關(guān)政策的制定中.

        2) 公民調(diào)查法. 即運用問卷調(diào)查或現(xiàn)場訪談的形式, 了解公眾對于相關(guān)政策的態(tài)度和看法. 在新媒體時代, 利用用戶畫像模型將網(wǎng)絡(luò)問卷發(fā)放給特定的公眾, 既提高了調(diào)查的有效性, 又降低了相關(guān)工作人員的時間成本.

        3) 民眾論壇. 即將網(wǎng)絡(luò)中適合參與環(huán)保政策制定的民眾組織起來, 構(gòu)建專業(yè)的民眾論壇. 首先, 為公眾參與提供通道; 其次, 引導(dǎo)輿論走向, 構(gòu)建官方與民間的溝通渠道; 然后, 搭建專業(yè)型平臺, 為普通公眾的環(huán)保問題提供解決方案; 最后, “取之于民”的政策更利于推行.

        1 趙曙光.高轉(zhuǎn)化率的社交媒體用戶畫像:基于500用戶的深訪研究.現(xiàn)代傳播:中國傳媒大學(xué)學(xué)報,2014,(6):115–120.

        2 劉海,盧慧,阮金花,田丙強,胡守忠.基于“用戶畫像”挖掘的精準(zhǔn)營銷細(xì)分模型研究.絲綢,2015,52(12):37–42.

        3 邢星.社交網(wǎng)絡(luò)個性化推薦方法研究[博士學(xué)位論文].大連:大連海事大學(xué),2013.

        4 余孟杰.產(chǎn)品研發(fā)中用戶畫像的數(shù)據(jù)模建——從具象到抽象.設(shè)計藝術(shù)研究,2014,(6):60–64.

        5 Bakshy E, Eckles D, Yan R, Rosenn I. Social influence in social advertising: Evidence from field experiments. Proc. of the 13th ACM Conference on Electronic Commerce.ACM. 2012. 146–161.

        6 Rashotte L. Social influence. The blackwell encyclopedia of social psychology, 2007, 9: 562–563.

        7 宗成慶.統(tǒng)計自然語言處理.北京:清華大學(xué)出版社,2008.

        8 朱慶華.新一代互聯(lián)網(wǎng)環(huán)境下用戶生成內(nèi)容的研究與應(yīng)用.北京:科學(xué)出版社,2014.

        9 Hirsch JE. An index to quantify an individual’s scientific research output. Proc. of the National academy of Sciences of the United States of America, 2005, 102(46): 16569–16572.

        10 金碧輝.R指數(shù),AR指數(shù):H指數(shù)功能擴展的補充指標(biāo).科學(xué)觀察,2007,2(3):1–8.

        User Portrait Study on UGC Website

        CHEN Zhi-Ming, HU Zhen-Yun

        (Business School, Hohai University, Nanjing 211100, China)

        In recent years, the rapid development of social networks has significantly changed the styles of people’s work and life. The way people acquiring knowledge shows a clear trend of the network. When people acquire information through the Internet, it also leaves personal traces. Taking the high cost of obtaining personal information in reality into account, it’s a good idea to catch people’s leaving traces in the network and study its “mapping” in the network society. User portrait as a virtual representative of real users is based on a series of real data on the user model. Based on dynamic modeling of user portrait, the user is defined as the basic attributes, social attributes, interests, and abilities by digging the “ZhiHu” site. Then we make an empirical analysis of the 1303 users who follow the topic of PM 2.5.

        “ZhiHu” site; user portrait; social impact; h-index

        2016-04-21;收到修改稿時間:2016-05-26

        [10.15888/j.cnki.csa.005543]

        猜你喜歡
        用戶能力模型
        一半模型
        消防安全四個能力
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        大興學(xué)習(xí)之風(fēng) 提升履職能力
        你的換位思考能力如何
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        国产最新地址| 毛片av在线尤物一区二区| 亚洲中文字幕高清在线视频一区| 国内自拍愉拍免费观看| 欧美日韩国产精品自在自线| 日韩一线无码av毛片免费| 久久dvd| 国产精品亚洲av网站| 久久精品中文字幕免费| 亚洲av无一区二区三区| 中文字幕人妻熟在线影院| 欧美末成年videos在线观看| 久久精品无码一区二区三区不| 在线视频一区二区三区中文字幕| av在线免费观看网站免费| 亚洲看片lutube在线观看| 日本国产视频| 日本久久精品国产精品| 男女裸体做爰视频高清| 日日摸天天摸人人看| 亚洲精品黄网在线观看| 国产性感主播一区二区| 午夜性刺激免费看视频| 亚洲av日韩av综合| 亚洲欧美日韩精品久久亚洲区色播| 日韩一区二区中文天堂| 国产欧美va欧美va香蕉在| 亚洲av无码一区二区乱子伦as| 天堂网av在线| 偷拍一区二区三区四区视频| 丰满人妻一区二区三区视频53| 日韩AV无码一区二区三区不卡毛片| 国产麻豆一区二区三区在线播放 | 日本一区二区国产高清在线播放| 中文字幕精品一区二区的区别| 少妇被粗大的猛烈进出免费视频 | 亚洲欧美精品aaaaaa片| 操出白浆在线观看| 久久精品国产福利亚洲av | 久久综合丝袜日本网| 中文字幕乱码人妻无码久久麻豆|