◎黃 丹
(廣州航海學(xué)院,廣東 廣州 510725)
借助于互聯(lián)網(wǎng),人們的社交圈越來(lái)越大。本文以小紅書(shū)為例,闡述互聯(lián)網(wǎng)媒體給用戶帶來(lái)的與傳統(tǒng)社交媒體平臺(tái)的不同體驗(yàn)。另外,小紅書(shū)雖然給用戶提供了豐富的內(nèi)容資源,但是每個(gè)用戶都有著自己的喜好。當(dāng)用戶進(jìn)行搜索查找內(nèi)容時(shí),往往會(huì)出現(xiàn)許多無(wú)關(guān)的信息甚至是干擾的信息。這不僅僅給用戶造成時(shí)間上的浪費(fèi),而且也讓用戶耗費(fèi)了更多的精力篩選出符合自己的信息。這些將給用戶帶來(lái)不愉快的體驗(yàn),同時(shí)也讓用戶抱怨該軟件的效率。長(zhǎng)此以往,勢(shì)必導(dǎo)致軟件平臺(tái)用戶的流失甚至是被邊緣化。
如何根據(jù)用戶使用中的行為模式,對(duì)用戶進(jìn)行精準(zhǔn)的肖像刻畫(huà),從而把每個(gè)用戶定位出一個(gè)合適的標(biāo)簽,根據(jù)這個(gè)標(biāo)簽對(duì)用戶進(jìn)行相關(guān)的內(nèi)容和信息推薦,這將是現(xiàn)階段以及未來(lái)一段時(shí)間內(nèi)的主流研究方向之一,也是未來(lái)互聯(lián)網(wǎng)傳媒以及數(shù)據(jù)分析和挖掘的一個(gè)熱門(mén)方向。同時(shí),精準(zhǔn)的肖像刻畫(huà),也能讓互聯(lián)網(wǎng)傳媒進(jìn)行精準(zhǔn)的廣告投放,從而取得更加有效的收益,也可以避免傳統(tǒng)廣告粗獷式投放的資源浪費(fèi)。當(dāng)用戶用互聯(lián)網(wǎng)進(jìn)行瀏覽搜索時(shí),會(huì)留下許多搜索痕跡和數(shù)據(jù)。這些數(shù)據(jù)常見(jiàn)的有圖片、文字,甚至是語(yǔ)音?;ヂ?lián)網(wǎng)會(huì)記錄用戶的搜索痕跡,以便于下次用戶登陸平臺(tái)時(shí),為其推薦更多相關(guān)的內(nèi)容。
近年來(lái),由于計(jì)算機(jī)技術(shù)的高速發(fā)展,人們能更快地處理信息,這使得人們能夠?qū)π〖t書(shū)等社交媒體進(jìn)行有別于傳統(tǒng)的手機(jī)日志分析,從而更近一步對(duì)圖片、語(yǔ)音等大數(shù)據(jù)進(jìn)行分析。這也是近年來(lái)傳媒分析的主流趨勢(shì)之一。
本文以機(jī)器學(xué)習(xí)的一些算法為依據(jù),利用機(jī)器學(xué)習(xí)對(duì)小紅書(shū)進(jìn)行一些分析、解釋和預(yù)測(cè)。一般應(yīng)用較為廣泛的機(jī)器學(xué)習(xí)算法有分類算法、貝葉斯分析、聚類算法、主成分分析、決策樹(shù)等。當(dāng)用戶瀏覽搜索時(shí),互聯(lián)網(wǎng)會(huì)相應(yīng)地記錄下用戶的信息。比如用戶甲,我們可以通過(guò)觀察其每個(gè)月瀏覽小紅書(shū)的次數(shù),記錄下該用戶這個(gè)月內(nèi)的瀏覽的各種行為,以此來(lái)對(duì)該用戶進(jìn)行分析和推薦。下面我們通過(guò)一些例子進(jìn)行說(shuō)明。例如,用戶甲一個(gè)月內(nèi)瀏覽了3 000次小紅書(shū),則平臺(tái)會(huì)記住該用戶的瀏覽習(xí)慣。我們不妨假設(shè)這個(gè)用戶在3 000次瀏覽記錄中,有1 000次涉及到了美食、800次涉及時(shí)尚博主明星藝人、600次涉及搞笑視頻圖片、400次涉及服飾穿搭、200次涉及玩樂(lè)及其他。
主成分分析法是一種挑重點(diǎn)分析的方法,也是一種基于數(shù)學(xué)變換的方法,它通過(guò)對(duì)原變量進(jìn)行一系列數(shù)學(xué)變換,然后得到新的變量。新變量的主成分將是原變量的線性組合(因?yàn)榫€性組合是比較容易計(jì)算的,計(jì)算機(jī)能快速處理,這也是線性變換的優(yōu)勢(shì)),而后通過(guò)在新變量中選擇那些在變差信息量中占比較大的主成分,以此進(jìn)行分析建模,從而達(dá)到數(shù)據(jù)分析和挖掘的目的。主成分在變差信息量中的比例越大,它對(duì)數(shù)據(jù)分析和評(píng)估的用處就越大。
假設(shè)我們拿到了一份數(shù)據(jù)集,有m個(gè)樣本,每個(gè)樣本由n個(gè)特征(變量)來(lái)描述,那么我們可以按照以下的步驟進(jìn)行降維。
1.將數(shù)據(jù)集中的每個(gè)樣本作為列向量,按列排列構(gòu)成一個(gè)n行m列的矩陣。
2.將矩陣的每一個(gè)行向量(每個(gè)變量)都減去該行向量的均值,從而使得新行向量的均值為0,得到新的數(shù)據(jù)集矩陣X。
3.求X的協(xié)方差矩陣,并求出協(xié)方差矩陣的特征值λ和單位特征向量e。
4.按照由大至小的特征值順序,將單位特征向量排列成矩陣,得到轉(zhuǎn)換矩陣P,并按PX得出主成分矩陣。
5.用特征值得到方差貢獻(xiàn)率和方差累計(jì)貢獻(xiàn)率,利用方差累計(jì)貢獻(xiàn)率超過(guò)85%的前k個(gè)主成分,或者想降至特定的k維,直接取前k個(gè)主成分。
我們依然用上例來(lái)做解釋,在上例中用戶1 000次美食記錄的數(shù)據(jù)肯定是有很多種類,不會(huì)是單一的美食。其他幾種瀏覽記錄的數(shù)據(jù)構(gòu)成也是有很多細(xì)小的分類。那我們?cè)撊绾未_定該用戶對(duì)哪些美食有特殊的鐘愛(ài),或者對(duì)哪些時(shí)尚博主有特殊鐘愛(ài),這里就需要采用主成分分析算法進(jìn)行分析。
根據(jù)主成分分析的原理,我們把用戶每種瀏覽數(shù)據(jù)做成一個(gè)矩陣。矩陣的第一列是美食數(shù)據(jù),第二列是時(shí)尚博主明星,等等。然后根據(jù)算法中的2、3、4、5進(jìn)行相應(yīng)的計(jì)算分析得出每一種喜好偏愛(ài)的那些類別。比如,用戶鐘愛(ài)粵菜、江浙菜或者西點(diǎn)等。如此小紅書(shū)將對(duì)用戶進(jìn)行相關(guān)的推薦,給用戶推出更多的相關(guān)內(nèi)容,減少用戶自己搜索的麻煩。與貝葉斯分析相比,主成分分析在算法上是更細(xì)致的。我們可以看到,貝葉斯算法是告訴我們用戶行為喜好的類別,然后根據(jù)最大概率出現(xiàn)進(jìn)行推薦。但是用戶喜愛(ài)的食物內(nèi)部的喜愛(ài)度如何,貝葉斯并未進(jìn)行分析。當(dāng)然我們可以在將喜愛(ài)的食物進(jìn)行再一次貝葉斯分析,這就可以得到喜愛(ài)事物內(nèi)部的喜愛(ài)度。然而主成分分析卻可以直接告訴你用戶喜愛(ài)哪些事情和喜愛(ài)度。利用這個(gè)算法進(jìn)行用戶行為刻畫(huà)和偏好推薦,有著非常大的優(yōu)勢(shì)。
接下來(lái)我們分析另外兩種算法,即分類算法和聚類算法。我們將這兩種算法放在一起講,是為了更好地讓讀者加以理解區(qū)別。
分類算法的目標(biāo)是通過(guò)對(duì)數(shù)據(jù)進(jìn)行分析,把未知的數(shù)據(jù)對(duì)應(yīng)數(shù)據(jù)庫(kù)中已有數(shù)據(jù)的類別。從這里可以看出,分類算法的一個(gè)前提是,我們必須要知道目標(biāo)數(shù)據(jù)庫(kù)中的數(shù)據(jù)類別,然后將不同的數(shù)據(jù)精準(zhǔn)地分類到已有類別之中,我們稱分類算法有監(jiān)督的學(xué)習(xí)過(guò)程。
由于分類算法要求事先知道數(shù)據(jù)庫(kù)中信息的全部類別,并且所有待分類的信息最后都將要被分類為已有對(duì)應(yīng)的類別,因此分類算法也有其局限性,當(dāng)上述條件無(wú)法滿足時(shí),我們就需要嘗試聚類分析。
比如,某個(gè)用戶瀏覽記錄只有10 000條數(shù)據(jù),我們知道這些數(shù)據(jù)來(lái)自于幾個(gè)大的類別。比如屬于小紅書(shū)中常見(jiàn)的幾個(gè)類別之中,但是具體位于哪些類別,這是需要我們盡心分析的。這個(gè)時(shí)候我們可以用分類算法,去判斷某個(gè)樣本數(shù)據(jù)的類別歸屬。簡(jiǎn)單來(lái)說(shuō),如果我們能確定已經(jīng)有1 000條數(shù)據(jù)屬于美食,則對(duì)下一個(gè)數(shù)據(jù),我們通過(guò)判斷它與這1 000條數(shù)據(jù)的相似度確來(lái)認(rèn)定它是否屬于這一類別。如果該數(shù)據(jù)與這1 000條數(shù)據(jù)的距離度不超過(guò)某一個(gè)事先確定的值,我們就可以判斷出該數(shù)據(jù)屬于這一類別。否則該數(shù)據(jù)就要與其他組別的數(shù)據(jù)進(jìn)行再次計(jì)算,進(jìn)行相應(yīng)的判斷即可,直到每個(gè)數(shù)據(jù)都有其所屬的類別。
分類算法從直觀上看,它更多的是在已經(jīng)知道總體的一些分類,設(shè)置一個(gè)相似度后,將每個(gè)數(shù)據(jù)進(jìn)行類別劃分,從而得到數(shù)據(jù)的分類。這也為我們對(duì)用戶的行為刻畫(huà)提供了理論支撐。因?yàn)槲覀冎挥兄烙脩魹g覽數(shù)據(jù)的類別后,才能進(jìn)一步對(duì)用戶喜好進(jìn)行分析,比如用貝葉斯算法、主成分分析進(jìn)行喜好推薦。如果沒(méi)有分類,我們就無(wú)法準(zhǔn)確地刻畫(huà)用戶的行為,也就無(wú)法達(dá)到精準(zhǔn)的投放和推廣。
由于分類算法是事先知道總體類別后,對(duì)新的數(shù)據(jù)進(jìn)行類別歸屬的分析,所以我們稱分類算法是有監(jiān)督的學(xué)習(xí)算法。如果我們未知總體類別,只有數(shù)據(jù),那該如何確定總體的類別,這就要用到我們說(shuō)的聚類算法了。
對(duì)于分類和聚類的區(qū)別,我們給出如下三點(diǎn)分析。
第一,不論是分類還是聚類算法,它們都是通過(guò)建立數(shù)學(xué)模型,特別是統(tǒng)計(jì)學(xué)模型,從而對(duì)數(shù)據(jù)進(jìn)行分析和挖掘。現(xiàn)有常見(jiàn)的分類算法包括貝葉斯分類算法、決策樹(shù)、主成分分析、羅輯回歸、支持向量機(jī)等。而常見(jiàn)的聚類算法有k-均值、k-中心點(diǎn)、bi-kmeas等算法。同時(shí),許多統(tǒng)計(jì)學(xué)軟件也在聚類分析中發(fā)揮了巨大作用,例如SPSS、SAS等。這是二者在算法和數(shù)學(xué)模型上的區(qū)別,也是一種統(tǒng)計(jì)學(xué)上的區(qū)別。
第二,雖然二者同屬于機(jī)器學(xué)習(xí)的算法類別,但是根據(jù)前文的內(nèi)容,我們知道分類算法是一種有監(jiān)督的學(xué)習(xí),類似我們已經(jīng)知道總體或者數(shù)據(jù)庫(kù)的類別情況,然后想要確定新數(shù)據(jù)屬于總體或者數(shù)據(jù)庫(kù)中的哪個(gè)類別。而聚類算法它的特點(diǎn)是,我們事先不知道總體或者數(shù)據(jù)庫(kù)的類型或者類別,甚至是不是同一種類型的數(shù)據(jù)也不一定知道。而聚類算法的過(guò)程是給出數(shù)據(jù)庫(kù)中全體數(shù)據(jù)所屬的類型,告訴我們數(shù)據(jù)庫(kù)的數(shù)據(jù)是什么類型的。這是一種無(wú)監(jiān)督學(xué)習(xí),因?yàn)槲覀兪孪炔⒉磺宄?shù)據(jù)庫(kù)類型,也不知道最終會(huì)有什么類型反饋給我們。
分類算法通過(guò)有監(jiān)督的學(xué)習(xí),將每一條未知數(shù)據(jù)歸結(jié)到總體數(shù)據(jù)的對(duì)應(yīng)類別之中,它需要事先有數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練分析,確定數(shù)據(jù)庫(kù)的類別之后,才可以進(jìn)行未知數(shù)據(jù)的分類,這是一種監(jiān)督訓(xùn)練算法模型。
聚類算法是一種嘗試性、探索性的分析,在分析開(kāi)始之前我們并不知數(shù)據(jù)的類型,也并沒(méi)有數(shù)據(jù)分類的標(biāo)準(zhǔn)。聚類分析的過(guò)程是將總體中的數(shù)據(jù)按照算法的要求,進(jìn)行自動(dòng)的分類,在聚類分析結(jié)果未出之前,我們是不知道數(shù)據(jù)類型的。正是由于此,采用不同的聚類算法往往可能會(huì)得出不同的結(jié)果,不同的數(shù)據(jù)分析人員即使對(duì)同一組數(shù)據(jù)使用不同的聚類算法,也不一定會(huì)得到相同的結(jié)果,這是聚類算法的一大特點(diǎn),也是其魅力所在,因?yàn)槲闯鼋Y(jié)果之前,很難知道是什么類別。
第三,二者在實(shí)際中的應(yīng)用也是不一樣的。分類算法的主要目的更多地集中于對(duì)已有數(shù)據(jù)進(jìn)行分類,可以認(rèn)為是重點(diǎn)在于數(shù)據(jù)分析。畢竟我們已經(jīng)知道新數(shù)據(jù)是屬于總體的某一個(gè)類別之中,目的是分析它屬于哪個(gè)類別,并將得到的結(jié)果作為下一步分析應(yīng)用的依據(jù)和基礎(chǔ)。而聚類算法的目的在于探索未知數(shù)據(jù)類型,更像是在進(jìn)行數(shù)據(jù)挖掘。通過(guò)對(duì)未知總體的聚類分析,挖掘出總體數(shù)據(jù)類型,從而得到那些對(duì)我們有用的信息。這就相當(dāng)于在一群未知的數(shù)據(jù)庫(kù)中,篩選挖掘出有價(jià)值的信息。正是如此,聚類分析成為數(shù)據(jù)挖掘的主要目的之一。過(guò)去和現(xiàn)在數(shù)據(jù)分析是互聯(lián)網(wǎng)傳媒的一大熱點(diǎn),但是現(xiàn)在和未來(lái),數(shù)據(jù)挖掘越來(lái)越重要,不僅在理論研究、信息安全,而且在商業(yè)應(yīng)用上也已經(jīng)越來(lái)越重要,將成為互聯(lián)網(wǎng)傳媒的重要研究?jī)?nèi)容之一。
我們通過(guò)舉例進(jìn)行解釋聚類算法的應(yīng)用。小到個(gè)人大到群體,每年都會(huì)在小紅書(shū)留下許許多多的痕跡。這些數(shù)據(jù)會(huì)被小紅書(shū)記錄下來(lái),用作分析和計(jì)算。如何確定這些數(shù)據(jù)是什么類型至關(guān)重要。比如,有些數(shù)據(jù)是美食、有些數(shù)據(jù)是旅行、有些數(shù)據(jù)是服飾等。我們把這些數(shù)據(jù)收集在一起,使用聚類算法對(duì)其進(jìn)行分析,最后會(huì)得到許多的類別,這些類別是小紅書(shū)平臺(tái)進(jìn)行推廣應(yīng)用的基礎(chǔ)。比如,平臺(tái)每年的數(shù)據(jù)分析發(fā)現(xiàn)在結(jié)果組別中,美食占據(jù)了很高的比例,而且在進(jìn)行多次聚類分析時(shí)發(fā)現(xiàn)這個(gè)比例都是非常高的。如此小紅書(shū)就會(huì)對(duì)美食這一主題進(jìn)行大量的投放和推廣,并且能據(jù)此獲得很大的廣告收益。這也是如今互聯(lián)網(wǎng)媒體收入的一種渠道,通過(guò)對(duì)用戶的行為刻畫(huà)分析,進(jìn)行商業(yè)合作,對(duì)事物進(jìn)行定點(diǎn)精準(zhǔn)推廣,從而取得收益,節(jié)約成本并留住以及吸引更多的客戶。
本文通過(guò)介紹幾種機(jī)器學(xué)習(xí)的算法,解釋了小紅書(shū)如何根據(jù)用戶瀏覽的行為和喜好,為他們推薦更多的內(nèi)容,以此節(jié)省用戶搜索尋找的時(shí)間。同時(shí),也介紹了如何精準(zhǔn)地推送用戶感興趣的內(nèi)容,而非單一模式的粗獷的信息轟炸。小紅書(shū)的精準(zhǔn)推送讓用戶擁有了更多更好的體驗(yàn),使得越來(lái)越多的用戶加入使用小紅書(shū)的隊(duì)列中。同時(shí)更多用戶的加入,也讓小紅書(shū)成為傳媒廣告投放的優(yōu)選平臺(tái)。許許多多的廣告商正是看重了小紅書(shū)精準(zhǔn)投放運(yùn)營(yíng)模式,以及大量的用戶群體而紛紛選擇在小紅書(shū)平臺(tái)上投放廣告。這也是互聯(lián)網(wǎng)時(shí)代的一種多贏局面。
隨著計(jì)算機(jī)軟件和硬件的快速發(fā)展,如今的互聯(lián)網(wǎng)時(shí)代已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)互聯(lián)網(wǎng)時(shí)代。當(dāng)今的計(jì)算機(jī)已擁有更強(qiáng)大的計(jì)算能力、更智能的工作模式?;诖耍F(xiàn)在的計(jì)算機(jī)能處理更多的數(shù)據(jù),并能得到更精準(zhǔn)的結(jié)果。這為現(xiàn)代傳媒提供了強(qiáng)有力的技術(shù)支撐,如今的傳媒工作再也不是滿大街的奔跑采訪,而是可以借助計(jì)算機(jī)和互聯(lián)網(wǎng)分析用戶的行為,刻畫(huà)用戶的心理,從而達(dá)到所需要的目的。
本文研究了基于機(jī)器學(xué)習(xí)算法進(jìn)行大數(shù)據(jù)分析,進(jìn)行用戶個(gè)性化推送的方法,使用大數(shù)據(jù)分析算法內(nèi)的相似度方法分析用戶偏好、廣告投放推廣之間的互惠相關(guān)性等,以此向平臺(tái)用戶推送符合個(gè)人偏好的廣告信息。將本文的方法應(yīng)用于平臺(tái)內(nèi),實(shí)驗(yàn)結(jié)果表明該方法具備較強(qiáng)的信息抽取能力,且為用戶推送的信息有效性強(qiáng),應(yīng)用后相關(guān)產(chǎn)品廣告收益與宣傳效果明顯增強(qiáng),取得了較好的實(shí)際應(yīng)用效果。
最后,在借助計(jì)算機(jī)和互聯(lián)網(wǎng)的強(qiáng)大工具的同時(shí),新傳媒時(shí)代也要注重用戶的信息安全和網(wǎng)絡(luò)安全。如何保護(hù)用戶的信息安全,對(duì)于傳媒來(lái)說(shuō)是重要的,也是首要的問(wèn)題。依賴于計(jì)算機(jī)技術(shù)的革新,新時(shí)代的傳媒面臨著巨大的變革機(jī)遇,誰(shuí)能精準(zhǔn)地把握用戶行為和心理,進(jìn)行精準(zhǔn)的用戶刻畫(huà)從而做出精準(zhǔn)的推送內(nèi)容,誰(shuí)就能獲得成功。但同時(shí)也面臨風(fēng)險(xiǎn),如何維護(hù)用戶的信息安全,這也將是一個(gè)不可避免的問(wèn)題。只有兼顧二者,新時(shí)代的傳媒才有可能取得成功,立于不敗之地。