梁嘉欣 何安迪 彭梓航
關鍵詞 知識圖譜 用戶畫像
1引言
近年來,已有大量對用戶畫像的相關研究,而這些研究幾乎是定性分析文獻獲得的成果。面對浩瀚的文獻海洋,定性分析會導致分析結果過于主觀和片面。本文以CNKI 中國學術文獻庫有關用戶畫像的文獻為研究對象,運用CiteSpace 可視化軟件,對2015~2020 年的用戶畫像研究成果進行分析,旨在總結出用戶畫像領域的研究熱點和不足,以及未來用戶畫像領域的發(fā)展趨勢和發(fā)展空間,為后續(xù)的研究工作提供參考。
2數據來源與研究方法
(1)數據來源
本文選取中國知網CNKI 中的學術文獻網絡出版總庫作為數據來源,以“用戶畫像”為主題詞進行檢索(檢索時間為2020 年8 月4 日),以2015 年1 月1 日為時間起點至檢索時間共得到檢索結果1557 條。經過查重、勘誤、篩選等數據處理后,保留1500 條文獻,導出純文本格式文件作為本文統(tǒng)計分析的最終數據。
(2)研究方法
本文應用CiteSpace5.7.R1 軟件對2015~2020 年用戶畫像的時間分布、學科領域、研究機構、研究熱點和主題演變等進行分析,根據所選統(tǒng)計樣本將分析時間設置為2015~2020 年,年代切分為1,選擇標準為TOP N 和g?index,閾值設置分別為50、25。
3結果分析
3.1總體情況
(1)時間分布
用戶畫像領域發(fā)文量自2015 年呈現迅速上升趨勢,2018~2019 年發(fā)文量呈現較大幅度的提升趨勢。在精準營銷領域,與用戶畫像相關的研究已經于2015年開始,直到2017 年發(fā)文量呈現大量增長態(tài)勢,此現象說明精準營銷研究者對用戶畫像的研究開展略遲,隨社會各界和企業(yè)組織對用戶畫像研究開始重視,施行精準營銷策略的企業(yè)也開始積極參與用戶畫像的理論實踐。
(2)學科領域
基于CNKI 數據庫的學科分類分布功能,及本文所選對應領域的部分文獻進行統(tǒng)計分析,結果顯示:用戶畫像研究成果共來自53 個學科領域,具備很強的跨學科特征。計算機、圖書情報檔案、工商管理和新聞傳播是用戶畫像研究中最為集中的學科領域,商業(yè)經濟、通信經濟、工業(yè)經濟、金融和控制工程等學科領域的研究成果也頗為豐碩,教育、信息通信、通信技術和法學等學科領域也有一定的研究成果。統(tǒng)計還顯示,計算機、新聞傳播、金融、教育、法學和電器工程等學科領域均有研究成果,具有較強的跨學科特性。
3.2研究機構及論文作者的類別
通過研究論文作者及研究機構的構成和關系,可以大概探尋某研究主題研究力量的構成以及研究基地和研究團隊的組成情況。
(1)研究機構選擇機構作為節(jié)點類型,使用聚類視角進行布局,經適當的節(jié)點調整后繪制出研究機構知識圖譜。通過對研究機構合作網絡圖譜和其他相關后臺數據的分析發(fā)現,用戶畫像的研究機構主要有高等院校和公司組織(集團)兩大類。從研究機構知識圖譜反映的信息發(fā)現,主要研究機構有吉林大學、燕山大學、江蘇理工學院、華中師范大學、武漢大學,部分機構間還建立了合作關系。
(2)論文作者通過對CiteSpace 繪制的論文作者圖譜和其他相關后臺數據的分析后發(fā)現,教授、高校教師、公司組織(集團)研究者、碩士與博士研究生等是用戶畫像的主要研究者。其中,教授和高校教師組成的研究團隊是用戶畫像研究的核心力量。各高校教師和教授主要以大數據為基礎,對用戶畫像進行探索和研究,研究者的研究層次和規(guī)范性處于高水平,但研究的持續(xù)性仍有待進一步提升。
總體上,用戶畫像研究以高等院校和公司組織為主要研究基地,由高校教師、教授、碩士與博士研究生和公司組織的研究者構成研究群體,在高校核心作者的引領下,形成了深層次且有代表性的研究成果。
3.3研究的關鍵詞
通過對關鍵詞進行統(tǒng)計分析,得出“用戶畫像”“大數據”“精準營銷”“數據挖掘”“推薦系統(tǒng)”“用戶體驗”“圖書館”“個性化推薦”“機器學習”和“深度學習”等是研究文獻突出的關鍵詞,反映用戶畫像研究主要應用和服務于大數據、精準營銷、數據挖掘和推薦系統(tǒng)等工程。
3.4特征
用戶畫像研究文獻共被引聚類圖譜共包含400個節(jié)點,933 條連線,網絡密度為0.0117,并形成了10個聚類,依次為聚類#0 大數據(big data)、聚類#1 推薦系統(tǒng)( recommended)、聚類# 2 用戶畫像( useportrait)、聚類#3 用戶體驗(user experience)、聚類#4數據挖掘(data mining)、聚類#5 圖書館(library)、聚類#6 隨機森林( random forest)、聚類# 7 人工智能(artificial intelligence)、聚類#8K?means 聚類(K?meansclustering)、聚類#9 今日頭條(Toutiao)、聚類#10 內容運營(content operation)。將2015~2020 年的1500 篇有關用戶畫像的文獻進行文獻共被引的時間線視角圖譜分析,得到這10個聚類的具體研究內容和時間跨度。聚類#0 大數據(big data)的時間跨度為2015~2020 年,其主要關注的是在大數據環(huán)境下,基于大數據技術和大數據分析的用戶畫像研究,如劉穎針對數字圖書館用戶畫像模型建構工作中的用戶數據分類效果較差的問題,提出了基于大數據技術的數字圖書館用戶畫像模型建構策略,并通過實驗結果說明了該大數據技術能夠有效解決分類效果差的問題[1] ; 聚類# 1 推薦系統(tǒng)(recommended)的時間跨度為2015~2020 年,其關注的主要是精準營銷、精準推薦等問題,如在趙巖所做的基于用戶畫像的精準營銷研究中,發(fā)現將用戶畫像運用于數字圖書館,可以更為精確地為客戶推薦閱讀資源,以提高用戶的閱讀體驗,從而讓閱讀推廣工作朝著更好的方向發(fā)展[2] ; 聚類#3 用戶體驗( userexperience)的時間跨度為2015~2020 年,此聚類主要研究的是提升服務質量的問題,用戶體驗是在大數據時代的各行業(yè)之間的一大競爭優(yōu)勢,也是最不可控的一個“變量”,但是用戶畫像技術的應用能很好地控制這個“變量”,提升用戶體驗,帶領行業(yè)走向更高質量的發(fā)展;聚類#4 數據挖掘(data mining)的時間跨度為2015~2020 年,此聚類主要關注的是應用數據挖掘技術在龐大的數據庫中挖掘出具有價值的數據信息,從而勾勒出用戶的數據面貌,構建一個更為精準的用戶畫像系統(tǒng)。比如,唐慧祥等人基于海量淘寶用戶行為特征數據利用Weka、R 數據挖掘軟件,使用K?Means聚類算法為解決淘寶平臺存在的用戶定位不精確等營銷問題提出了合理化的建議[3] ;聚類#5 圖書館(library)的時間跨度為2015~2020 年;聚類#6 隨機森林(random forest)的時間跨度為2016~2020 年,和其他算法相比,隨機森林在大量數據中的表現是較為良好的,但是其在噪聲大的分類或回歸問題上會過擬的問題已經得到了證實,因此將其運用到用戶畫像系統(tǒng)的構建上會因為干擾的存在而使系統(tǒng)的性能大大下降;聚類#7 人工智能(artificial intelligence)的時間跨度為2015~2020 年,面對龐大的用戶數據,用戶畫像的出現無疑是人工智能時代的一大熱點,相對于之前的語音識別技術和圖片識別技術,用戶畫像的出現能幫助企業(yè)和商家在龐大的數據庫中篩選出有用的數據,最終做到精準推薦和精準營銷;聚類#8K?means 聚類(K?means clustering)的時間跨度為2016~2020 年,K?means 算法因其能夠遵循一定的準則將需要找到一定關聯(lián)性的事物進行分類的功能,現許多領域都會運用到K?means 聚類算法。將此算法與用戶畫像技術結合起來研究的文獻數量同樣不少。但是,經典k?means 算法存在在多視角聚類中容易陷入局部最優(yōu)的缺陷[3] ;聚類#9 今日頭條(Toutiao) 的時間跨度為2015~2020,“今日頭條” 是一款成功的推薦引擎產品,也是在國內互聯(lián)網中成長最快的產品,有關數據顯示,截至2019 年12 月,頭條號賬號總數超過了180萬,平均每天發(fā)布60 萬條內容。由于實時更新的用戶數據,使得其基于用戶畫像的個性化推薦系統(tǒng)具備很強的時效性特點[4] ;聚類#10 內容運營(contentoperation)的研究跨度為2017~2019 年?;诋斚碌男旅襟w環(huán)境,重要的不僅僅是內容質量本身,內容營銷的渠道也一樣需要受到重視。
4結論與展望
(1)結論
第一,近五年用戶畫像領域發(fā)文量呈現迅速上升趨勢,學科背景豐富,具有跨學科特性。研究文獻涉及學科寬泛,多出現學科交叉的情況,其中計算機學科領域較常見。
第二,國內用戶畫像研究力量主要有高等院校和公司組織兩大類,院校之間、院校與公司之間存在合作研究的情況。以燕山大學和吉林大學等高校的研究者為核心研究力量,引領國內公司組織,發(fā)表了深層次且有代表性的研究成果。
第三,用戶畫像研究主要圍繞“用戶畫像”“大數據”“精準營銷”“數據挖掘”和“推薦系統(tǒng)”等主題展開。研究基于用戶畫像研究中數據基礎層面、核心技術層面和實際應用層面,主要應用和服務于大數據、精準營銷、數據挖掘和推薦系統(tǒng)等工程。
(2)展望
第一,用戶畫像研究領域以及應用領域的拓展。用戶畫像具有較強的跨學科性和學科交叉性的特征,所以在未來可以拓展出更多的研究領域。
第二,構建維度向多元化發(fā)展。如今,用戶畫像對于大量的非顯性信息存在難以獲取、研究不夠深入的問題。此外,對于用戶一天中隨著時間動態(tài)變化的數據信息存在難以區(qū)別分析的問題。由此可以看出,用戶畫像的構建維度不夠多元化,如何通過相關技術挖掘分析出實時變化的用戶數據的規(guī)律,構建起更具真實性的用戶畫像是往后用戶畫像研究的一大趨勢。
第三,更注重對用戶隱私的保護。在如今這個互聯(lián)網時代,數據量相較于以往多得多,所以隱私保護顯得更加困難。因此,在用戶畫像研究領域,我們更應該注重隱私保護問題。
第四,創(chuàng)建出更精準的用戶畫像系統(tǒng)。人工智能的發(fā)展預示著相關技術的升級和突破,而更加先進的技術將構建出一個更能滿足企業(yè)需求的用戶畫像系統(tǒng)。