亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

小紅書(shū)對(duì)于人們?nèi)粘g覽行為的影響分析

2022-02-13 17:38:39◎黃丹

傳播力研究 2022年32期

◎黃丹

(廣州航海學(xué)院，廣東廣州 510725)

一、引言

借助于互聯(lián)網(wǎng)，人們的社交圈越來(lái)越大。本文以小紅書(shū)為例，闡述互聯(lián)網(wǎng)媒體給用戶帶來(lái)的與傳統(tǒng)社交媒體平臺(tái)的不同體驗(yàn)。另外，小紅書(shū)雖然給用戶提供了豐富的內(nèi)容資源，但是每個(gè)用戶都有著自己的喜好。當(dāng)用戶進(jìn)行搜索查找內(nèi)容時(shí)，往往會(huì)出現(xiàn)許多無(wú)關(guān)的信息甚至是干擾的信息。這不僅僅給用戶造成時(shí)間上的浪費(fèi)，而且也讓用戶耗費(fèi)了更多的精力篩選出符合自己的信息。這些將給用戶帶來(lái)不愉快的體驗(yàn)，同時(shí)也讓用戶抱怨該軟件的效率。長(zhǎng)此以往，勢(shì)必導(dǎo)致軟件平臺(tái)用戶的流失甚至是被邊緣化。

如何根據(jù)用戶使用中的行為模式，對(duì)用戶進(jìn)行精準(zhǔn)的肖像刻畫(huà)，從而把每個(gè)用戶定位出一個(gè)合適的標(biāo)簽，根據(jù)這個(gè)標(biāo)簽對(duì)用戶進(jìn)行相關(guān)的內(nèi)容和信息推薦，這將是現(xiàn)階段以及未來(lái)一段時(shí)間內(nèi)的主流研究方向之一，也是未來(lái)互聯(lián)網(wǎng)傳媒以及數(shù)據(jù)分析和挖掘的一個(gè)熱門(mén)方向。同時(shí)，精準(zhǔn)的肖像刻畫(huà)，也能讓互聯(lián)網(wǎng)傳媒進(jìn)行精準(zhǔn)的廣告投放，從而取得更加有效的收益，也可以避免傳統(tǒng)廣告粗獷式投放的資源浪費(fèi)。當(dāng)用戶用互聯(lián)網(wǎng)進(jìn)行瀏覽搜索時(shí)，會(huì)留下許多搜索痕跡和數(shù)據(jù)。這些數(shù)據(jù)常見(jiàn)的有圖片、文字，甚至是語(yǔ)音?；ヂ?lián)網(wǎng)會(huì)記錄用戶的搜索痕跡，以便于下次用戶登陸平臺(tái)時(shí)，為其推薦更多相關(guān)的內(nèi)容。

二、機(jī)器學(xué)習(xí)算法介紹

近年來(lái)，由于計(jì)算機(jī)技術(shù)的高速發(fā)展，人們能更快地處理信息，這使得人們能夠?qū)π〖t書(shū)等社交媒體進(jìn)行有別于傳統(tǒng)的手機(jī)日志分析，從而更近一步對(duì)圖片、語(yǔ)音等大數(shù)據(jù)進(jìn)行分析。這也是近年來(lái)傳媒分析的主流趨勢(shì)之一。

本文以機(jī)器學(xué)習(xí)的一些算法為依據(jù)，利用機(jī)器學(xué)習(xí)對(duì)小紅書(shū)進(jìn)行一些分析、解釋和預(yù)測(cè)。一般應(yīng)用較為廣泛的機(jī)器學(xué)習(xí)算法有分類算法、貝葉斯分析、聚類算法、主成分分析、決策樹(shù)等。當(dāng)用戶瀏覽搜索時(shí)，互聯(lián)網(wǎng)會(huì)相應(yīng)地記錄下用戶的信息。比如用戶甲，我們可以通過(guò)觀察其每個(gè)月瀏覽小紅書(shū)的次數(shù)，記錄下該用戶這個(gè)月內(nèi)的瀏覽的各種行為，以此來(lái)對(duì)該用戶進(jìn)行分析和推薦。下面我們通過(guò)一些例子進(jìn)行說(shuō)明。例如，用戶甲一個(gè)月內(nèi)瀏覽了3 000次小紅書(shū)，則平臺(tái)會(huì)記住該用戶的瀏覽習(xí)慣。我們不妨假設(shè)這個(gè)用戶在3 000次瀏覽記錄中，有1 000次涉及到了美食、800次涉及時(shí)尚博主明星藝人、600次涉及搞笑視頻圖片、400次涉及服飾穿搭、200次涉及玩樂(lè)及其他。

三、主成分分析

主成分分析法是一種挑重點(diǎn)分析的方法，也是一種基于數(shù)學(xué)變換的方法，它通過(guò)對(duì)原變量進(jìn)行一系列數(shù)學(xué)變換，然后得到新的變量。新變量的主成分將是原變量的線性組合(因?yàn)榫€性組合是比較容易計(jì)算的，計(jì)算機(jī)能快速處理，這也是線性變換的優(yōu)勢(shì))，而后通過(guò)在新變量中選擇那些在變差信息量中占比較大的主成分，以此進(jìn)行分析建模，從而達(dá)到數(shù)據(jù)分析和挖掘的目的。主成分在變差信息量中的比例越大，它對(duì)數(shù)據(jù)分析和評(píng)估的用處就越大。

假設(shè)我們拿到了一份數(shù)據(jù)集，有m個(gè)樣本，每個(gè)樣本由n個(gè)特征(變量)來(lái)描述，那么我們可以按照以下的步驟進(jìn)行降維。

1.將數(shù)據(jù)集中的每個(gè)樣本作為列向量，按列排列構(gòu)成一個(gè)n行m列的矩陣。

2.將矩陣的每一個(gè)行向量(每個(gè)變量)都減去該行向量的均值，從而使得新行向量的均值為0，得到新的數(shù)據(jù)集矩陣X。

3.求X的協(xié)方差矩陣，并求出協(xié)方差矩陣的特征值λ和單位特征向量e。

4.按照由大至小的特征值順序，將單位特征向量排列成矩陣，得到轉(zhuǎn)換矩陣P，并按PX得出主成分矩陣。

5.用特征值得到方差貢獻(xiàn)率和方差累計(jì)貢獻(xiàn)率，利用方差累計(jì)貢獻(xiàn)率超過(guò)85%的前k個(gè)主成分，或者想降至特定的k維，直接取前k個(gè)主成分。

我們依然用上例來(lái)做解釋，在上例中用戶1 000次美食記錄的數(shù)據(jù)肯定是有很多種類，不會(huì)是單一的美食。其他幾種瀏覽記錄的數(shù)據(jù)構(gòu)成也是有很多細(xì)小的分類。那我們?cè)撊绾未_定該用戶對(duì)哪些美食有特殊的鐘愛(ài)，或者對(duì)哪些時(shí)尚博主有特殊鐘愛(ài)，這里就需要采用主成分分析算法進(jìn)行分析。

根據(jù)主成分分析的原理，我們把用戶每種瀏覽數(shù)據(jù)做成一個(gè)矩陣。矩陣的第一列是美食數(shù)據(jù)，第二列是時(shí)尚博主明星，等等。然后根據(jù)算法中的2、3、4、5進(jìn)行相應(yīng)的計(jì)算分析得出每一種喜好偏愛(ài)的那些類別。比如，用戶鐘愛(ài)粵菜、江浙菜或者西點(diǎn)等。如此小紅書(shū)將對(duì)用戶進(jìn)行相關(guān)的推薦，給用戶推出更多的相關(guān)內(nèi)容，減少用戶自己搜索的麻煩。與貝葉斯分析相比，主成分分析在算法上是更細(xì)致的。我們可以看到，貝葉斯算法是告訴我們用戶行為喜好的類別，然后根據(jù)最大概率出現(xiàn)進(jìn)行推薦。但是用戶喜愛(ài)的食物內(nèi)部的喜愛(ài)度如何，貝葉斯并未進(jìn)行分析。當(dāng)然我們可以在將喜愛(ài)的食物進(jìn)行再一次貝葉斯分析，這就可以得到喜愛(ài)事物內(nèi)部的喜愛(ài)度。然而主成分分析卻可以直接告訴你用戶喜愛(ài)哪些事情和喜愛(ài)度。利用這個(gè)算法進(jìn)行用戶行為刻畫(huà)和偏好推薦，有著非常大的優(yōu)勢(shì)。

四、分類算法和聚類算法分析

接下來(lái)我們分析另外兩種算法，即分類算法和聚類算法。我們將這兩種算法放在一起講，是為了更好地讓讀者加以理解區(qū)別。

分類算法的目標(biāo)是通過(guò)對(duì)數(shù)據(jù)進(jìn)行分析，把未知的數(shù)據(jù)對(duì)應(yīng)數(shù)據(jù)庫(kù)中已有數(shù)據(jù)的類別。從這里可以看出，分類算法的一個(gè)前提是，我們必須要知道目標(biāo)數(shù)據(jù)庫(kù)中的數(shù)據(jù)類別，然后將不同的數(shù)據(jù)精準(zhǔn)地分類到已有類別之中，我們稱分類算法有監(jiān)督的學(xué)習(xí)過(guò)程。

由于分類算法要求事先知道數(shù)據(jù)庫(kù)中信息的全部類別，并且所有待分類的信息最后都將要被分類為已有對(duì)應(yīng)的類別，因此分類算法也有其局限性，當(dāng)上述條件無(wú)法滿足時(shí)，我們就需要嘗試聚類分析。

(一)當(dāng)用戶瀏覽小紅書(shū)后，他們會(huì)留下各種數(shù)據(jù)信息，在收集這些信息然后如何進(jìn)行處理，這是一個(gè)非常重要的問(wèn)題

比如，某個(gè)用戶瀏覽記錄只有10 000條數(shù)據(jù)，我們知道這些數(shù)據(jù)來(lái)自于幾個(gè)大的類別。比如屬于小紅書(shū)中常見(jiàn)的幾個(gè)類別之中，但是具體位于哪些類別，這是需要我們盡心分析的。這個(gè)時(shí)候我們可以用分類算法，去判斷某個(gè)樣本數(shù)據(jù)的類別歸屬。簡(jiǎn)單來(lái)說(shuō)，如果我們能確定已經(jīng)有1 000條數(shù)據(jù)屬于美食，則對(duì)下一個(gè)數(shù)據(jù)，我們通過(guò)判斷它與這1 000條數(shù)據(jù)的相似度確來(lái)認(rèn)定它是否屬于這一類別。如果該數(shù)據(jù)與這1 000條數(shù)據(jù)的距離度不超過(guò)某一個(gè)事先確定的值，我們就可以判斷出該數(shù)據(jù)屬于這一類別。否則該數(shù)據(jù)就要與其他組別的數(shù)據(jù)進(jìn)行再次計(jì)算，進(jìn)行相應(yīng)的判斷即可，直到每個(gè)數(shù)據(jù)都有其所屬的類別。

分類算法從直觀上看，它更多的是在已經(jīng)知道總體的一些分類，設(shè)置一個(gè)相似度后，將每個(gè)數(shù)據(jù)進(jìn)行類別劃分，從而得到數(shù)據(jù)的分類。這也為我們對(duì)用戶的行為刻畫(huà)提供了理論支撐。因?yàn)槲覀冎挥兄烙脩魹g覽數(shù)據(jù)的類別后，才能進(jìn)一步對(duì)用戶喜好進(jìn)行分析，比如用貝葉斯算法、主成分分析進(jìn)行喜好推薦。如果沒(méi)有分類，我們就無(wú)法準(zhǔn)確地刻畫(huà)用戶的行為，也就無(wú)法達(dá)到精準(zhǔn)的投放和推廣。

由于分類算法是事先知道總體類別后，對(duì)新的數(shù)據(jù)進(jìn)行類別歸屬的分析，所以我們稱分類算法是有監(jiān)督的學(xué)習(xí)算法。如果我們未知總體類別，只有數(shù)據(jù)，那該如何確定總體的類別，這就要用到我們說(shuō)的聚類算法了。

(二)聚類與分類的區(qū)別

對(duì)于分類和聚類的區(qū)別，我們給出如下三點(diǎn)分析。

第一，不論是分類還是聚類算法，它們都是通過(guò)建立數(shù)學(xué)模型，特別是統(tǒng)計(jì)學(xué)模型，從而對(duì)數(shù)據(jù)進(jìn)行分析和挖掘。現(xiàn)有常見(jiàn)的分類算法包括貝葉斯分類算法、決策樹(shù)、主成分分析、羅輯回歸、支持向量機(jī)等。而常見(jiàn)的聚類算法有k-均值、k-中心點(diǎn)、bi-kmeas等算法。同時(shí)，許多統(tǒng)計(jì)學(xué)軟件也在聚類分析中發(fā)揮了巨大作用，例如SPSS、SAS等。這是二者在算法和數(shù)學(xué)模型上的區(qū)別，也是一種統(tǒng)計(jì)學(xué)上的區(qū)別。

第二，雖然二者同屬于機(jī)器學(xué)習(xí)的算法類別，但是根據(jù)前文的內(nèi)容，我們知道分類算法是一種有監(jiān)督的學(xué)習(xí)，類似我們已經(jīng)知道總體或者數(shù)據(jù)庫(kù)的類別情況，然后想要確定新數(shù)據(jù)屬于總體或者數(shù)據(jù)庫(kù)中的哪個(gè)類別。而聚類算法它的特點(diǎn)是，我們事先不知道總體或者數(shù)據(jù)庫(kù)的類型或者類別，甚至是不是同一種類型的數(shù)據(jù)也不一定知道。而聚類算法的過(guò)程是給出數(shù)據(jù)庫(kù)中全體數(shù)據(jù)所屬的類型，告訴我們數(shù)據(jù)庫(kù)的數(shù)據(jù)是什么類型的。這是一種無(wú)監(jiān)督學(xué)習(xí)，因?yàn)槲覀兪孪炔⒉磺宄?shù)據(jù)庫(kù)類型，也不知道最終會(huì)有什么類型反饋給我們。

分類算法通過(guò)有監(jiān)督的學(xué)習(xí)，將每一條未知數(shù)據(jù)歸結(jié)到總體數(shù)據(jù)的對(duì)應(yīng)類別之中，它需要事先有數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練分析，確定數(shù)據(jù)庫(kù)的類別之后，才可以進(jìn)行未知數(shù)據(jù)的分類，這是一種監(jiān)督訓(xùn)練算法模型。

聚類算法是一種嘗試性、探索性的分析，在分析開(kāi)始之前我們并不知數(shù)據(jù)的類型，也并沒(méi)有數(shù)據(jù)分類的標(biāo)準(zhǔn)。聚類分析的過(guò)程是將總體中的數(shù)據(jù)按照算法的要求，進(jìn)行自動(dòng)的分類，在聚類分析結(jié)果未出之前，我們是不知道數(shù)據(jù)類型的。正是由于此，采用不同的聚類算法往往可能會(huì)得出不同的結(jié)果，不同的數(shù)據(jù)分析人員即使對(duì)同一組數(shù)據(jù)使用不同的聚類算法，也不一定會(huì)得到相同的結(jié)果，這是聚類算法的一大特點(diǎn)，也是其魅力所在，因?yàn)槲闯鼋Y(jié)果之前，很難知道是什么類別。

第三，二者在實(shí)際中的應(yīng)用也是不一樣的。分類算法的主要目的更多地集中于對(duì)已有數(shù)據(jù)進(jìn)行分類，可以認(rèn)為是重點(diǎn)在于數(shù)據(jù)分析。畢竟我們已經(jīng)知道新數(shù)據(jù)是屬于總體的某一個(gè)類別之中，目的是分析它屬于哪個(gè)類別，并將得到的結(jié)果作為下一步分析應(yīng)用的依據(jù)和基礎(chǔ)。而聚類算法的目的在于探索未知數(shù)據(jù)類型，更像是在進(jìn)行數(shù)據(jù)挖掘。通過(guò)對(duì)未知總體的聚類分析，挖掘出總體數(shù)據(jù)類型，從而得到那些對(duì)我們有用的信息。這就相當(dāng)于在一群未知的數(shù)據(jù)庫(kù)中，篩選挖掘出有價(jià)值的信息。正是如此，聚類分析成為數(shù)據(jù)挖掘的主要目的之一。過(guò)去和現(xiàn)在數(shù)據(jù)分析是互聯(lián)網(wǎng)傳媒的一大熱點(diǎn)，但是現(xiàn)在和未來(lái)，數(shù)據(jù)挖掘越來(lái)越重要，不僅在理論研究、信息安全，而且在商業(yè)應(yīng)用上也已經(jīng)越來(lái)越重要，將成為互聯(lián)網(wǎng)傳媒的重要研究?jī)?nèi)容之一。

我們通過(guò)舉例進(jìn)行解釋聚類算法的應(yīng)用。小到個(gè)人大到群體，每年都會(huì)在小紅書(shū)留下許許多多的痕跡。這些數(shù)據(jù)會(huì)被小紅書(shū)記錄下來(lái)，用作分析和計(jì)算。如何確定這些數(shù)據(jù)是什么類型至關(guān)重要。比如，有些數(shù)據(jù)是美食、有些數(shù)據(jù)是旅行、有些數(shù)據(jù)是服飾等。我們把這些數(shù)據(jù)收集在一起，使用聚類算法對(duì)其進(jìn)行分析，最后會(huì)得到許多的類別，這些類別是小紅書(shū)平臺(tái)進(jìn)行推廣應(yīng)用的基礎(chǔ)。比如，平臺(tái)每年的數(shù)據(jù)分析發(fā)現(xiàn)在結(jié)果組別中，美食占據(jù)了很高的比例，而且在進(jìn)行多次聚類分析時(shí)發(fā)現(xiàn)這個(gè)比例都是非常高的。如此小紅書(shū)就會(huì)對(duì)美食這一主題進(jìn)行大量的投放和推廣，并且能據(jù)此獲得很大的廣告收益。這也是如今互聯(lián)網(wǎng)媒體收入的一種渠道，通過(guò)對(duì)用戶的行為刻畫(huà)分析，進(jìn)行商業(yè)合作，對(duì)事物進(jìn)行定點(diǎn)精準(zhǔn)推廣，從而取得收益，節(jié)約成本并留住以及吸引更多的客戶。

五、結(jié)語(yǔ)

本文通過(guò)介紹幾種機(jī)器學(xué)習(xí)的算法，解釋了小紅書(shū)如何根據(jù)用戶瀏覽的行為和喜好，為他們推薦更多的內(nèi)容，以此節(jié)省用戶搜索尋找的時(shí)間。同時(shí)，也介紹了如何精準(zhǔn)地推送用戶感興趣的內(nèi)容，而非單一模式的粗獷的信息轟炸。小紅書(shū)的精準(zhǔn)推送讓用戶擁有了更多更好的體驗(yàn)，使得越來(lái)越多的用戶加入使用小紅書(shū)的隊(duì)列中。同時(shí)更多用戶的加入，也讓小紅書(shū)成為傳媒廣告投放的優(yōu)選平臺(tái)。許許多多的廣告商正是看重了小紅書(shū)精準(zhǔn)投放運(yùn)營(yíng)模式，以及大量的用戶群體而紛紛選擇在小紅書(shū)平臺(tái)上投放廣告。這也是互聯(lián)網(wǎng)時(shí)代的一種多贏局面。

隨著計(jì)算機(jī)軟件和硬件的快速發(fā)展，如今的互聯(lián)網(wǎng)時(shí)代已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)互聯(lián)網(wǎng)時(shí)代。當(dāng)今的計(jì)算機(jī)已擁有更強(qiáng)大的計(jì)算能力、更智能的工作模式?；诖耍F(xiàn)在的計(jì)算機(jī)能處理更多的數(shù)據(jù)，并能得到更精準(zhǔn)的結(jié)果。這為現(xiàn)代傳媒提供了強(qiáng)有力的技術(shù)支撐，如今的傳媒工作再也不是滿大街的奔跑采訪，而是可以借助計(jì)算機(jī)和互聯(lián)網(wǎng)分析用戶的行為，刻畫(huà)用戶的心理，從而達(dá)到所需要的目的。

本文研究了基于機(jī)器學(xué)習(xí)算法進(jìn)行大數(shù)據(jù)分析，進(jìn)行用戶個(gè)性化推送的方法，使用大數(shù)據(jù)分析算法內(nèi)的相似度方法分析用戶偏好、廣告投放推廣之間的互惠相關(guān)性等，以此向平臺(tái)用戶推送符合個(gè)人偏好的廣告信息。將本文的方法應(yīng)用于平臺(tái)內(nèi)，實(shí)驗(yàn)結(jié)果表明該方法具備較強(qiáng)的信息抽取能力，且為用戶推送的信息有效性強(qiáng)，應(yīng)用后相關(guān)產(chǎn)品廣告收益與宣傳效果明顯增強(qiáng)，取得了較好的實(shí)際應(yīng)用效果。

最后，在借助計(jì)算機(jī)和互聯(lián)網(wǎng)的強(qiáng)大工具的同時(shí)，新傳媒時(shí)代也要注重用戶的信息安全和網(wǎng)絡(luò)安全。如何保護(hù)用戶的信息安全，對(duì)于傳媒來(lái)說(shuō)是重要的，也是首要的問(wèn)題。依賴于計(jì)算機(jī)技術(shù)的革新，新時(shí)代的傳媒面臨著巨大的變革機(jī)遇，誰(shuí)能精準(zhǔn)地把握用戶行為和心理，進(jìn)行精準(zhǔn)的用戶刻畫(huà)從而做出精準(zhǔn)的推送內(nèi)容，誰(shuí)就能獲得成功。但同時(shí)也面臨風(fēng)險(xiǎn)，如何維護(hù)用戶的信息安全，這也將是一個(gè)不可避免的問(wèn)題。只有兼顧二者，新時(shí)代的傳媒才有可能取得成功，立于不敗之地。