陳浩昕 謝雅丹
摘 要:隨著互聯(lián)網(wǎng)技術的發(fā)展,在線旅游已擁有最大的旅游市場,如何為龐大的用戶群描繪用戶畫像,從而推薦與之匹配的旅游服務,是在線旅游企業(yè)進行精準營銷的重要技術手段。本文將構建基于大數(shù)據(jù)的旅游用戶畫像,為在線旅游行程攻略推薦提供行之有效的可操作方法。
關鍵詞:大數(shù)據(jù);用戶畫像;在線旅游
引言
“大數(shù)據(jù)”一詞最早于2008年9月在《Nature》出版的專刊“Big Date”[1]提出,一面世便受到了學術界、各國政府與各企業(yè)的廣泛關注。Google、Facebook等企業(yè)最先在大數(shù)據(jù)分析領域進行了研究,根據(jù)用戶基礎行為數(shù)據(jù),提出了一系列算法與模型,使大數(shù)據(jù)分析可以在多個領域的廣泛應用變?yōu)榭赡堋?/p>
隨著社會的發(fā)展,旅游業(yè)已成為全球經(jīng)濟中發(fā)展勢頭最強勁和規(guī)模最大的產(chǎn)業(yè)之一。如何將大數(shù)據(jù)與旅游發(fā)展相結合,是在線旅游企業(yè)的研究重點。本文將基于大數(shù)據(jù)下用戶畫像,給予在線旅游行程攻略推薦的幾種方法。
1基于在線旅游軟件的獨特用戶畫像構建
用戶畫像一詞,最早由Alan Cooper在《軟件創(chuàng)新之路》(1988)一書中提出。他認為,用戶畫像是根據(jù)用戶人口統(tǒng)計信息、社交關系、偏好習慣和消費行為等信息而抽象出來的標簽化畫像,是真實用戶的綜合原型[2]。傳統(tǒng)的基于用戶畫像的旅游情景化推薦,將基層用戶數(shù)據(jù)輸出為用戶畫像標簽,采取協(xié)同過濾方法,結合用戶情景信息建立了不同景點的推薦模型。
但旅游行程攻略不同于簡單的景點,需要對用戶(推薦主體)與行程(被推薦對象)進行標簽化,再進行標簽間的相關性分析。由于用戶畫像是基于大數(shù)據(jù)技術的實際應用,在構建用戶畫像前,就必須建立相關的基層數(shù)據(jù)庫。
1.1建立用戶畫像的數(shù)據(jù)庫:DMP
DMP(Data Management Platform),即數(shù)據(jù)管理平臺,是一個全面的數(shù)據(jù)收集、加工、整合的平臺,是對大數(shù)據(jù)的一個分析工具。其核心是通過平臺層的相關性算法,通過分析用戶的個體數(shù)據(jù)、行為數(shù)據(jù)等基層數(shù)據(jù),將用戶的信息、偏好等轉換成數(shù)據(jù)標簽,再將數(shù)據(jù)標簽進行劃分和整合,形成一個個的用戶群特征,最終輸出為可視化的分析結果。
利用建立的DMP平臺,互聯(lián)網(wǎng)企業(yè)便可建立自己的數(shù)據(jù)庫與標簽庫,根據(jù)構建的算法與邏輯來計算出一系列用戶標簽,建立自己的用戶畫像與用戶群。因此標簽庫的整理與建立工作是構建用戶畫像模型的基礎。
1.2在線旅游用戶畫像標簽庫的構建
這里我們初步以構建靜態(tài)標簽庫和動態(tài)標簽庫的方式構建在線旅游用戶的用戶畫像。
1.2.1靜態(tài)標簽庫
靜態(tài)標簽能夠通過用戶提供的信息、能夠獲取的基本信息和通過外部渠道獲取的信息,如用戶實名制信息、地理位置信息等。靜態(tài)標簽庫精確性較高但表征性不明顯,只能給用戶興趣做一個初步判斷,比如年輕的都市女性,往往有較高的消費能力,在推薦策略上可以推薦高規(guī)格的一些內容。
①默認采集的設備信息 =(用戶手機型號,聯(lián)網(wǎng)方式,用戶IP地址與MAC地址,語言,地理位置)
②用戶的基本信息=(用戶的虛擬ID,姓名,性別,電話,生日,身份證號,所屬單位,郵箱,職業(yè))
值得一提的是,用戶關聯(lián)的網(wǎng)絡信息,如微信、QQ、微博、支付寶等相關賬號,應作為關聯(lián)信息而不是靜態(tài)標簽進入數(shù)據(jù)信息系統(tǒng)之中。
1.2.2動態(tài)標簽
與靜態(tài)標簽相對的動態(tài)標簽可以分為兩類:一級標簽是支配用戶行為的淺層特征,二級標簽是決定用戶行為背后的深層邏輯,即具有向量特征的結構化和半結構化數(shù)據(jù)集[3]。
1.2.2.1動態(tài)標簽庫一級標簽
一級標簽是根據(jù)淺層用戶行為信息簡單總結得出的標簽,取決于用戶點擊、搜索某關鍵詞的頻率。關鍵詞的標簽庫在添加被推薦對象時往往可以通過上傳者、編輯、審查手動添加。因此,只需給出評估旅游行程攻略的幾個維度,就可作為關鍵詞庫,與一級標簽一一對應。
旅游行程攻略關鍵詞庫=(旅游目的地,交通方式,時間因素,點擊量,酒店品質,價格水平,目標群體,休閑程度,旅途風格,特征)
在構建旅游行程關鍵詞庫之后,便可根據(jù)用戶點擊、瀏覽的關鍵詞頻率來建立動態(tài)標簽庫一級標簽:
一級標簽=(自我評定信息,會員屬性,瀏覽與點擊,喜愛與收藏,喜歡與討厭,主動搜索或多次點擊的內容,關注的內容)
1.2.2.2動態(tài)標簽庫二級標簽
建立二級標簽的目的,是根據(jù)標簽將用戶歸納、總結到某個理想化的“虛擬人格”中,最終建立用戶畫像模型。在建立二級標簽庫之前,需要根據(jù)人格理論建立理想化的虛擬人格,再利用基于相關性分析的一級標簽所屬關鍵詞來評定虛擬人格幾個方面的相關特質,建立用戶的二級標簽。
人格特質模型中運用較為廣泛的是“大五人格”理論模型,在多次實驗中體現(xiàn)了穩(wěn)定性(Goldberg,1981[4];Peabody,1987[5]),可以作為衡量人格特質的基礎依據(jù)。國內學者張雨青、林微等證明“大五模型”在中國同樣具有適用性[6]。
在參考五大人格量表之后,本文分別在神經(jīng)質(Neuroticism)、外向性(Extraversion)、開放性(Openness)、宜人性(Agreeableness)、責任感(Conscientiousness)五個維度分別選取了六個下屬特質,作為旅游者虛擬人格構建的30個特質,并在此基礎上建立旅游者虛擬人格的測量模型。
神經(jīng)質:N1平靜——焦慮、N2隨和——易怒、N3心態(tài)開朗——易受打擊、N4健談自信——敏感害羞、N5自制力強——沖動、N6勇敢——脆弱
外向性:E1消極疏遠——積極熱情、E2孤僻獨處——熱鬧合群、E3靦腆被動——自信果決、E4緩慢——急迫、E5謹慎傳統(tǒng)——冒險刺激、E6嚴肅——活潑樂觀
宜人性:A1猜忌悲觀——信任他人、A2精明虛偽——坦誠率真、A3自私勢利——熱心慷慨、A4攻擊性強——恭順克己、A5傲慢自負——謙遜謙卑、A6理性冷靜——友好熱心
開放性:O1理性現(xiàn)實——充滿幻想、O2審美疲乏——藝術敏感、O3情感遲鈍——情緒敏感、O4守舊傳統(tǒng)——求新求異、O5思辨力弱——思路開闊、O6尊崇權威——挑戰(zhàn)傳統(tǒng)
責任感:C1自卑——自信、C2雜亂無序——高效條例、C3不負責的——可信賴的、C4沒有目標——有抱負的、C5容易放棄——高度自律、C6沖動草率——深思熟慮
由于數(shù)據(jù)計算基于定量關系,在構建用戶虛擬人格時,以上列舉的30個特質都必須轉化成數(shù)值進行分析。每位用戶的初始特質分數(shù)為0,不同的一級標簽為該指數(shù)加分或減分,數(shù)值大小由基于相關性分析得到的相關性系數(shù)的大小來確定。最終形成一個位于(-100,100)區(qū)間內的分數(shù)。當分數(shù)位于(-100,-50)或(50,100)的區(qū)間內時,系統(tǒng)將會將此特質決定的二級標簽打在用戶身上,成為構建用戶畫像的一個特質標簽。
當一級標簽的數(shù)量足夠多時,就可以精準地描繪用戶的某個特征;當各特征值足夠多的時候,就會將用戶歸納到一個“虛擬人格”中,系統(tǒng)就可以為此一類用戶精準推送內容或廣告。
1.3構建用戶畫像與標簽庫算法的計算核心——相關性分析
利用Python計算兩數(shù)組間相關性是其中的一個方法:當用戶點擊了一個帶有多個關鍵詞的詞條,以各個關鍵詞的點擊量與其他點擊了該詞條用戶帶有的各標簽頻率關系做相關性分析,就可以選出相應的標簽為此用戶添加:
①建立數(shù)組:首先,根據(jù)各關鍵詞的點擊量與其他點擊了該詞條用戶帶有的各標簽頻率建立兩個數(shù)組
print(a)>> [A1,B1,C1……]
print(b)>> [A2,B2,C2……]
②期望
由于兩數(shù)組中數(shù)據(jù)一般為離散型隨機變量,因此采用離散型隨機變量公式:
③離散度:即標準差與方差,同樣采用離散型隨機變量公式。
④協(xié)方差與相關系數(shù)
接下來開始計算兩組數(shù)據(jù)的相關性,一般采用相關系數(shù)來描述兩組數(shù)據(jù)的相關性。
協(xié)方差:
相關系數(shù):
同樣,除了利用Python計算相關性關系外,也可使用NumPy計算協(xié)方差矩陣相關系數(shù)、使用pandas計算協(xié)方差與相關系數(shù)、利用SPSS軟件分析變量間的相關性關系[7]等方法來實現(xiàn)算法構建。
2基于用戶畫像的旅游行程攻略推薦方法
2.1針對單個攻略的推薦方法
由于被推薦對象是單個的文本內容,對于分析其關鍵詞與目標群體特質相對簡單,因此采用基于內容的推薦方法?;趦热莸耐扑]算法是一種擴展的信息過濾技術[8]:
傳統(tǒng)的基于內容的推薦方法只能根據(jù)用戶畫像標簽進行文本相似度計算給出敏感程度高的資源。由于沒有將用戶的虛擬人格融入到推薦方法中,不能預測用戶的興趣趨向。因此在本文研究中,將加入目標群體與虛擬人格之間的特質標簽,以減少該方法的缺陷。
假設參與推薦的推薦主體為用戶群U,每位用戶已被賦予的標簽集合為T。被推薦對象為內容C,被推薦對象已被賦予的關鍵詞為集合K,目標群體為u1(u1∈U)。
通過相關性分析計算K與T中各標簽的相關性系數(shù)P、u1的人格特質數(shù)值與T數(shù)值的相關性系數(shù)Q,將計算得出的兩數(shù)值P、Q通過權重計算得出最終指數(shù)I,指數(shù)I即為每位用戶對該被推薦對象的敏感指數(shù)。然后設立一闕值It,將此內容推送給敏感指數(shù)I≥It的用戶。最后比較目標群體的平均指數(shù)Ii與It之間的大小關系,反復調整闕值It,最終確立It的大小。
2.2針對單個用戶的推薦方法
在建立了用戶畫像與虛擬人格之后,用戶帶有大量的標簽與信息可供計算分析,面對資源庫中海量的資源,傳統(tǒng)的基于內容的推薦法不能適應用戶多變的性格特質,也不能挖掘用戶的未知領域。因此,當針對單個用戶的推薦方法時,目前使用范圍最廣泛、使用次數(shù)最多的協(xié)同過濾推薦法是一種優(yōu)先選擇。也就是,我們可以運用基于用戶的協(xié)同過濾推薦算法和基于資源的協(xié)同過濾的推薦算法。
2.2.1基于用戶的協(xié)同過濾算法
假設用戶A的一級標簽為集合T1,包含n1個一級標簽,二級標簽為集合K1;用戶B的一級標簽為集合T2,包含n2個一級標簽,二級標簽為集合K2。
T1∩T2=T∩,T∩中包含的標簽數(shù)量記為n∩,α= n∩/n1,β=n∩/n2。
根據(jù)構建虛擬人格時所構建的30個特質,集合K1、K2各包含30個數(shù)值。因此數(shù)集K1、K2可以根據(jù)1.3中給出的相關性分析進行計算,得到的相關性系數(shù)記為η。
若α≥β≥75%,則稱用戶A與用戶B為興趣相似用戶,且用戶A為用戶B的興趣類型用戶;若η≥75%,則稱用戶A與用戶B為人格相似用戶。
在為用戶A推薦項目資源時,可以推薦其興趣相似用戶B喜愛的項目;在預測A喜愛的項目資源時,可以推薦其人格相似用戶B喜愛的項目。
2.2.2基于項目的協(xié)同過濾算法
假設用戶A喜歡的項目為C1,C1包含的關鍵詞集合為K1,包含m1個關鍵詞,關鍵詞能夠決定的特質數(shù)值的集合為U1;存在項目C2,C2包含的關鍵詞集合為K2,包含m2個關鍵詞,關鍵詞能夠決定的特質數(shù)值集合為U?2。
K1∩K2=K∩,K∩中包含的標簽數(shù)量記為m∩,α= m∩/m1,β=m∩/m2。
根據(jù)構建虛擬人格時所構建的30個特質,集合U1、U?2共包含30個數(shù)值。因此數(shù)集U1、U?2可以根據(jù)1.3中給出的相關性分析進行計算,得到的相關性系數(shù)記為η。
若α≥β≥75%,則稱項目C1與項目C2為內容相似項目,且項目C1為項目C2的內容類型項目;若η≥75%,則稱項目C1與項目C2為目標群體相似項目。
在為用戶A推薦項目資源時,可以將與項目C1內容相似的項目C2推薦給用戶;在預測A喜愛的項目資源時,可以將與項目C1人格相似的項目C2推薦給用戶。
3結束語
本文基于大數(shù)據(jù)下的用戶畫像,構建了在線旅游虛擬人格模型,為個性化旅游行程攻略推薦提供了方法。首先,根據(jù)用戶行為數(shù)據(jù)、用戶基本屬性構建用戶靜態(tài)標簽、動態(tài)標簽與虛擬人格,然后結合推薦內容的關鍵詞,利用多種算法進行相關性分析,最后根據(jù)基于內容、用戶、項目等被推薦對象給出了不同的推薦方法。在一定程度上為解決在線旅游企業(yè)旅游行程攻略解決了實際性問題,對于其他領域構建網(wǎng)絡虛擬人格也提供了思路。
參考文獻:
[1]Bigdata.Nature,2008,455(7209):1-136
[2]Alan Copper,劉瑞挺. 軟件創(chuàng)新之路[M].北京: 電子工業(yè)出版社,2001.
[3]謝康,吳記,肖靜華:基于大數(shù)據(jù)平臺的用戶畫像與用戶行為分析. 中國信息化 2018-03-10
[4]Goldberg,L. R. Developing taxonomy of trait-descriptive terms[J] Problems with languageimprecision;New directions for methodology of social and behavioral seienee,1981,9:43-65.
[5]Peabody,D. Selectingrepresentative trait adjectives[J]. Journal of personality and SocialPsychology,1987,52:59-1
[6]張雨青,林微,陳仲庚:家長對子女人格特點的自由描述明[J].心理學報,1995,3:281-286.
[7]孫逸敏:利用 SPSS 軟件分析變量間的相關性1008—3588(2007)02 -0120 -04
[8]Di Jiaqi, Wang Nihong. Incremental collaborative filtering algorithm based on GridGIS [J]. Computer Science,2013,40(12):219-222.
[9]陶俊, 張寧. 基于用戶興趣分類的協(xié)同過濾推薦算法[J]. 計算機系統(tǒng)應用, 2011, 20(5):55-59.
作者簡介:
陳浩昕,男(2000,4——),山西太原人,成都信息工程大學,2017級旅游管理本科生在校學生,研究方向:旅游管理。
謝雅丹(指導教師)女,(1979,8——),四川自貢人,成都信息工程大學,博士,講師,研究方向:文化遺產(chǎn)與旅游開發(fā);智慧旅游;會展旅游。