汪 欣 張銘毅 劉亞萍
隨著信息化步伐的加快,海量化的信息內(nèi)容和便捷的獲取方式正在逐漸改變?nèi)藗兊膬?nèi)容閱讀習(xí)慣。但是在如此龐大的信息量背后,信息過(guò)載帶來(lái)的信息龐雜和無(wú)序經(jīng)常使得用戶無(wú)法快速、準(zhǔn)確地獲取個(gè)人最關(guān)心的內(nèi)容, 以至于陷入信息焦慮之中。因此如何精準(zhǔn)地將內(nèi)容和用戶匹配起來(lái),建立個(gè)性化的內(nèi)容推薦系統(tǒng),幫助用戶快速地找到最關(guān)心內(nèi)容,成為媒體行業(yè)亟待解決的問(wèn)題。個(gè)性化的內(nèi)容推薦越來(lái)越成為內(nèi)容行業(yè)的共識(shí)。
將內(nèi)容和用戶精準(zhǔn)匹配的過(guò)程主要是將用戶和內(nèi)容看作推薦系統(tǒng)的兩端,通過(guò)精確的推薦方法,將內(nèi)容精準(zhǔn)匹配用戶,獲得用戶反饋后再進(jìn)一步完善推薦方法[1]。整個(gè)精準(zhǔn)推薦的工作邏輯共包含四個(gè)步驟(見圖1):
圖1 精準(zhǔn)推薦技術(shù)的工作邏輯圖
首先是內(nèi)容分類和結(jié)構(gòu)化處理。內(nèi)容文本通常包含著豐富的信息,但它們并非結(jié)構(gòu)化的文本,因此要進(jìn)行結(jié)構(gòu)化處理并做好分類,確定好備選的推薦內(nèi)容。其次是用戶分類和畫像建模。用戶是精準(zhǔn)匹配的目標(biāo),根據(jù)用戶的反饋和興趣進(jìn)行分類和建模, 形成全面真實(shí)的用戶畫像。用戶的反饋包括主動(dòng)表現(xiàn)的顯性反饋和依據(jù)網(wǎng)絡(luò)痕跡建立的隱性反饋,用戶興趣則包括用戶真實(shí)的長(zhǎng)期興趣以及隨著熱點(diǎn)內(nèi)容不斷變化的短期興趣。 再次是推薦引擎選擇。如果將內(nèi)容和用戶看作精準(zhǔn)匹配的兩個(gè)端點(diǎn),推薦引擎就是連接二者的橋梁。它的目標(biāo)在于將所有備選的內(nèi)容進(jìn)行符合用戶興趣的排序,進(jìn)而依次推薦給用戶主體。不同的推薦方式會(huì)生成不同的推薦列表,從而直接影響推薦效果。最后是用戶終端設(shè)計(jì)。在完成內(nèi)容推薦后,還需在用戶終端進(jìn)行設(shè)計(jì)以全面完成個(gè)性匹配過(guò)程。用戶的終端接口承擔(dān)著兩個(gè)方面的工作,一方面,用戶的接口需要承載推薦的內(nèi)容;另一方面,需要收集用戶的反饋以進(jìn)一步精進(jìn)推薦引擎,促進(jìn)用戶和內(nèi)容更好地精準(zhǔn)匹配。
如何對(duì)內(nèi)容進(jìn)行分類處理是推薦技術(shù)的第一步,目前對(duì)內(nèi)容的處理包括對(duì)純文本內(nèi)容的處理和對(duì)圖片、視頻內(nèi)容的處理。
對(duì)純文本的處理主要使用的方法是自然語(yǔ)言處理,其本質(zhì)在于試圖讓計(jì)算機(jī)來(lái)分析人類的語(yǔ)言,而這一過(guò)程需要輸入與存儲(chǔ)、統(tǒng)計(jì)計(jì)算、機(jī)器學(xué)習(xí)等技術(shù),實(shí)現(xiàn)文本分析、處理等操作。以自然語(yǔ)言處理在文本情感分析領(lǐng)域內(nèi)的應(yīng)用為例,自然語(yǔ)言處理的流程可以分為以下幾個(gè)步驟[2]:
第一步,文本預(yù)處理,由分詞和命名體識(shí)別組成。在實(shí)際應(yīng)用中很多語(yǔ)氣助詞和人稱代詞是不需要關(guān)心的,需要建立一個(gè)停用詞詞典,在最終結(jié)果中將其過(guò)濾以降低對(duì)內(nèi)容提取的影響。命名體識(shí)別是一種信息抽取技術(shù),指在從原始的文本信息當(dāng)中提煉出結(jié)構(gòu)化信息。
第二步,文本情感分析。通過(guò)建立情感詞典,獲取文檔中特定詞匯的情感值,加以公式計(jì)算的方式來(lái)核定內(nèi)容的情感態(tài)度[3]。這種方式的優(yōu)點(diǎn)非常突出,計(jì)算簡(jiǎn)單,結(jié)果明確直白。如果詞典足夠豐富,理論上能獲得非常好的分析效果,同時(shí)情感詞典本身在不斷更新和進(jìn)步,除了文本內(nèi)容外,網(wǎng)絡(luò)熱詞、顏文字、表情包等等都加入了情感詞典的分析之中,推動(dòng)了情感詞典分析法的進(jìn)步。
隨著媒體傳播形式的日漸豐富,除了文本內(nèi)容之外,更為關(guān)鍵的是對(duì)視頻和圖片內(nèi)容的處理,主要運(yùn)用的方法是視頻目標(biāo)檢測(cè)方法。該方法是為了解決在每一個(gè)視頻幀中出現(xiàn)的目標(biāo)定位和識(shí)別問(wèn)題[4]。對(duì)于特殊視頻內(nèi)容的識(shí)別是視頻目標(biāo)檢測(cè)的重要應(yīng)用領(lǐng)域。隨著網(wǎng)絡(luò)流量的視頻化,網(wǎng)絡(luò)視頻內(nèi)容變得魚龍混雜,而想要在源頭控制視頻內(nèi)容難度較大,通過(guò)視頻檢測(cè)的方式建立內(nèi)容分類過(guò)濾系統(tǒng)可能更加有效。盡管針對(duì)不同視頻所使用的算法有差異,但是工作邏輯大體相同,主要由視頻內(nèi)容描述模型、算法測(cè)試庫(kù)、算法評(píng)判標(biāo)準(zhǔn)等組成。
繪制用戶畫像指根據(jù)使用者的諸多信息抽象出用戶模型,關(guān)鍵在于給用戶貼上象征不同特征標(biāo)識(shí)的標(biāo)簽[5]。這是推薦技術(shù)中的關(guān)鍵一步,為精準(zhǔn)匹配技術(shù)找到目標(biāo)用戶奠定基礎(chǔ)。
在給用戶貼標(biāo)簽之前首先要搜集大量的用戶行為數(shù)據(jù)。目前最重要的三種數(shù)據(jù)來(lái)源分別是用戶的顯性數(shù)據(jù)、隱性數(shù)據(jù)和混合數(shù)據(jù)。[6]
最常見的顯性數(shù)據(jù)為用戶注冊(cè)賬號(hào)時(shí)輸入的本人信息。例如當(dāng)使用者要注冊(cè)某APP賬號(hào)時(shí),常被問(wèn)及自己的身份(如職務(wù)、工作等)、居住地址和感興趣的內(nèi)容等。但此類信息并不完全準(zhǔn)確。導(dǎo)致不準(zhǔn)確的原因可能包括用戶出于自我保護(hù)的心理而故意填寫錯(cuò)誤的信息。也可能由于部分軟件設(shè)置問(wèn)題過(guò)多,導(dǎo)致用戶隨意作答或直接放棄填寫。這些因素都會(huì)導(dǎo)致顯性的用戶數(shù)據(jù)充滿噪音,從而影響用戶畫像的建構(gòu)。
隱性的用戶數(shù)據(jù)恰恰彌補(bǔ)了這一缺憾。完全不同于顯性的數(shù)據(jù),隱性數(shù)據(jù)不需要受眾自己專門填寫,它重視的是用戶的使用行為如信息的搜索、對(duì)內(nèi)容的點(diǎn)贊、評(píng)論、拉黑,以及在內(nèi)容上的停留時(shí)間等。在這些數(shù)據(jù)中隱藏著用戶的使用習(xí)慣和興趣愛好。通過(guò)對(duì)用戶一段時(shí)間的隱性數(shù)據(jù)的分析,能夠更加全面真實(shí)地了解用戶。目前,獲取用戶隱性數(shù)據(jù)的方式逐步進(jìn)化到機(jī)器學(xué)習(xí)的階段,獲取到的信息也相對(duì)更加客觀準(zhǔn)確,能夠有效降低其他干擾因素的影響。
混合型數(shù)據(jù)吸納了顯性數(shù)據(jù)和隱性數(shù)據(jù)的優(yōu)點(diǎn)。它能夠高效地獲得用戶的顯性信息,再通過(guò)用戶的隱性數(shù)據(jù)得到客觀準(zhǔn)確的用戶信息,并不斷地進(jìn)行更新迭代。避免了單純依賴用戶顯性數(shù)據(jù)導(dǎo)致的偏差,同時(shí)大幅度提高搜集用戶數(shù)據(jù)的效率。目前主流的精準(zhǔn)推薦的方式基本都會(huì)采用用戶的混合型數(shù)據(jù)。
完成用戶數(shù)據(jù)搜集的目的是為了繪制用戶畫像?,F(xiàn)實(shí)生活里每一個(gè)用戶的信息都是復(fù)雜多樣的,用戶畫像就是要把這些復(fù)雜的信息簡(jiǎn)單化、抽象化。用戶畫像的本質(zhì)就是貼標(biāo)簽,其目的就是為了將用戶的標(biāo)簽和現(xiàn)實(shí)的場(chǎng)景結(jié)合起來(lái),因此刻畫用戶畫像一定要有現(xiàn)實(shí)意義。用戶畫像的構(gòu)建方法有三種,分別是基于統(tǒng)計(jì)學(xué)習(xí)的用戶畫像構(gòu)建方法、基于加權(quán)關(guān)鍵字的向量空間用戶畫像構(gòu)建方法以及基于神經(jīng)網(wǎng)絡(luò)的用戶畫像構(gòu)建方法。[5]
基于統(tǒng)計(jì)學(xué)習(xí)的方法構(gòu)建用戶畫像表示依據(jù)用戶數(shù)據(jù)的分布情況、數(shù)字特點(diǎn)和相關(guān)變量之間的聯(lián)系性,使用數(shù)字統(tǒng)計(jì)和數(shù)據(jù)分析來(lái)評(píng)估并且解釋使用者相關(guān)的行為。例如針對(duì)短視頻APP的使用者,統(tǒng)計(jì)他的點(diǎn)擊記錄、瀏覽時(shí)長(zhǎng)、轉(zhuǎn)發(fā)、拉黑、點(diǎn)贊、評(píng)論等行為數(shù)據(jù)特點(diǎn)進(jìn)行分析。統(tǒng)計(jì)學(xué)習(xí)的方式主要是用來(lái)調(diào)查用戶的行為軌跡,但并不具備預(yù)測(cè)用戶未來(lái)行為趨勢(shì)的能力,僅僅能夠調(diào)查使用者過(guò)去的行為。
基于加權(quán)關(guān)鍵字的向量空間用戶畫像構(gòu)建方法是基于二十世紀(jì)四五十年代提出的向量空間模型生成的,其核心是根據(jù)文章內(nèi)容中的每個(gè)關(guān)鍵詞匯出現(xiàn)的頻率,計(jì)算對(duì)應(yīng)的權(quán)重來(lái)產(chǎn)生關(guān)于文字內(nèi)容的特征表達(dá)公式。這一方法在許多領(lǐng)域中已經(jīng)得到了應(yīng)用,例如,從某軟件的用戶評(píng)論中提取關(guān)鍵詞匯和關(guān)鍵信息,利用這些關(guān)鍵詞匯加權(quán)綜合計(jì)算得到該用戶的特征信息,而在這些關(guān)鍵詞匯中通常會(huì)隱藏著用戶對(duì)軟件的使用興趣,以此來(lái)建立軟件內(nèi)容和用戶之間的聯(lián)系,從而繪制用戶畫像。這種方式的優(yōu)點(diǎn)是計(jì)算結(jié)果相對(duì)準(zhǔn)確,可信程度也較高。但是它的缺點(diǎn)也非常明顯,如果建立的模型或者運(yùn)算所使用的公式過(guò)于簡(jiǎn)單,則很難充分地利用好關(guān)鍵詞匯中所包含的隱性用戶信息。所以對(duì)于加權(quán)關(guān)鍵字來(lái)建立用戶模型的方式而言,最重要的是處理好文本特征工程,建立最合適的表達(dá)公式。
在大數(shù)據(jù)時(shí)代,面對(duì)日益增多且復(fù)雜的用戶數(shù)據(jù)如何更好地繪制用戶畫像是個(gè)難題。使用基于神經(jīng)網(wǎng)絡(luò)的用戶畫像構(gòu)建方法優(yōu)勢(shì)在于神經(jīng)網(wǎng)絡(luò)的記憶功能特別強(qiáng)大,它可以用來(lái)表示用戶與內(nèi)容之間復(fù)雜的多變關(guān)系。神經(jīng)網(wǎng)絡(luò)方法能夠模擬人類生理的神經(jīng)元系統(tǒng),因此具有了一些獨(dú)有的特質(zhì),包括分布式存儲(chǔ)、高容錯(cuò)、并行計(jì)算等。由于具備了上述諸多特質(zhì),神經(jīng)網(wǎng)絡(luò)的用戶畫像繪制方法在很多領(lǐng)域內(nèi)得到了廣泛的應(yīng)用。
將處理好的信息和它最適應(yīng)的受眾連接起來(lái)的橋梁就是推薦引擎,因此推薦引擎成了精準(zhǔn)匹配流程中的核心部分。傳統(tǒng)的方式有基于內(nèi)容的推薦和協(xié)同過(guò)濾推薦,但是在大數(shù)據(jù)時(shí)代,為了更好地處理混雜且量大的內(nèi)容信息,基于深度學(xué)習(xí)的方法開始流行[1]。
基于內(nèi)容的推薦是最常見也是用戶感知度最高的推薦方式,它主要是根據(jù)軟件使用者平常的使用習(xí)慣以及瀏覽內(nèi)容的過(guò)往行為進(jìn)行推薦,計(jì)算備選的推薦內(nèi)容和使用者瀏覽歷史記錄內(nèi)容兩者之間的關(guān)系和相似程度,進(jìn)行相似程度的排名,進(jìn)而得到推薦列表。這種方法通常可以分為兩類,一類是計(jì)算問(wèn)題,一類是分類問(wèn)題。計(jì)算問(wèn)題是指分別抽取使用者的用戶行為和預(yù)備推薦內(nèi)容的特征向量,計(jì)算二者之間的相似程度。向每一位使用者推薦相似程度最高的內(nèi)容或大于閾值的內(nèi)容。分類問(wèn)題是指以該用戶瀏覽內(nèi)容的歷史記錄作為基礎(chǔ)數(shù)據(jù),將精準(zhǔn)匹配的推薦轉(zhuǎn)化為二分法:即喜歡或不喜歡?;趦?nèi)容的推薦方法的優(yōu)點(diǎn)是不需要其他人的使用數(shù)據(jù)而且推薦效率和可信度都比較高。缺點(diǎn)包括分析淺顯,無(wú)法考慮內(nèi)容的豐富性對(duì)結(jié)果的影響;推薦結(jié)果缺乏創(chuàng)新,只能根據(jù)過(guò)去的內(nèi)容進(jìn)行推薦,而無(wú)法關(guān)注到用戶可能有興趣的新內(nèi)容。
為了彌補(bǔ)上述方法不足,協(xié)同過(guò)濾推薦應(yīng)運(yùn)而生。協(xié)同過(guò)濾推薦的關(guān)鍵在于用戶的評(píng)分?jǐn)?shù)據(jù),和被推薦的內(nèi)容之間沒有關(guān)系。[7]例如在瀏覽歷史中對(duì)所閱讀的內(nèi)容評(píng)分相似的軟件用戶,被默認(rèn)為在將來(lái)的打分中也會(huì)高度相似。這樣一來(lái)就把精準(zhǔn)匹配的推薦問(wèn)題轉(zhuǎn)換為了評(píng)分計(jì)算的問(wèn)題。協(xié)同過(guò)濾推薦也包括多種實(shí)現(xiàn)形式,比如基于記憶的推薦方式或者基于模型的推薦方式。
總體而言,協(xié)同過(guò)濾推薦最重要的優(yōu)點(diǎn)在于能夠使用其他人的經(jīng)驗(yàn),能夠盡量避免內(nèi)容分析的不完全性,推薦的個(gè)性化、自動(dòng)化程度也更高,更重要的是能夠?qū)崿F(xiàn)對(duì)新用戶的推薦。當(dāng)然,它的缺點(diǎn)也很明顯,存在著內(nèi)容初始推薦效果不好、內(nèi)容和用戶匹配不佳的問(wèn)題,而且沒有考慮用戶自身的特點(diǎn),容易推薦熱門內(nèi)容。
隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)越來(lái)越復(fù)雜多樣,傳統(tǒng)的推薦方法所使用的淺層模型的預(yù)測(cè)方式開始逐漸落伍,因?yàn)榇祟惙绞教^(guò)依賴人工特征的提取。這樣一來(lái)很難高效、有價(jià)值地學(xué)習(xí)到深層次的用戶和內(nèi)容的表示。在這種情況下,基于深度學(xué)習(xí)的推薦方法逐漸被大家所認(rèn)同。基于深層神經(jīng)網(wǎng)絡(luò)所構(gòu)建起來(lái)的內(nèi)容預(yù)測(cè)模型能夠非常好地表現(xiàn)出新聞內(nèi)容和讀者用戶之間的關(guān)系,特別是不能用數(shù)學(xué)方法描述的結(jié)構(gòu)特征。使用深度學(xué)習(xí)模型進(jìn)行推薦的范圍更廣泛,推薦精度也更高。
目前精準(zhǔn)匹配的個(gè)性化推薦已經(jīng)廣泛應(yīng)用于移動(dòng)端的新聞推薦和精準(zhǔn)廣告投放等領(lǐng)域之中,在幫助用戶節(jié)省搜索時(shí)間的同時(shí),也為內(nèi)容生產(chǎn)端尋求用戶提供了便利。
新聞傳播是互聯(lián)網(wǎng)的經(jīng)典應(yīng)用,無(wú)論在互聯(lián)網(wǎng)時(shí)代還是現(xiàn)在的移動(dòng)互聯(lián)網(wǎng)時(shí)代,獲取新聞資訊都是網(wǎng)民的主要需求?;ヂ?lián)網(wǎng)時(shí)代下的新聞傳播早已經(jīng)超越了傳統(tǒng)媒體的傳播速度,與此同時(shí)海量的新聞來(lái)源也將用戶帶入新聞焦慮的泥潭之中。在移動(dòng)互聯(lián)網(wǎng)時(shí)代,隨著移動(dòng)智能終端的普及,隨時(shí)隨地地獲取新聞已經(jīng)成為人們進(jìn)行新聞閱讀的常態(tài)。因此新聞推薦系統(tǒng)也正式進(jìn)入了移動(dòng)新聞推薦時(shí)代。相較于傳統(tǒng)PC端的新聞推薦,移動(dòng)端的新聞推薦限制更多,情況更復(fù)雜。移動(dòng)端的新聞推薦必須考慮不同型號(hào)、不同尺寸、不同系統(tǒng)下內(nèi)容呈現(xiàn)的效果,相應(yīng)的移動(dòng)新聞推薦也要符合移動(dòng)性、實(shí)時(shí)性、個(gè)性化的內(nèi)容獲取特點(diǎn)。
總體而言,移動(dòng)端的新聞推薦和傳統(tǒng)的內(nèi)容推薦算法底層邏輯相似,但是由于移動(dòng)新聞推薦受到網(wǎng)絡(luò)環(huán)境和移動(dòng)設(shè)備自身限制的影響,移動(dòng)端的新聞推薦思路又有著其自身的特征。目前移動(dòng)端的新聞推薦方法有基于上下文感知的移動(dòng)新聞推薦、基于社會(huì)化網(wǎng)絡(luò)的移動(dòng)新聞推薦等。盡管目前新聞推薦方法已經(jīng)有了扎實(shí)的研究和較為成熟的成果,但目前移動(dòng)端的新聞推薦作為新聞推薦的前沿應(yīng)用還存在著眾多亟須解決的難題,如用戶的隱私安全保護(hù)、數(shù)據(jù)收集困難、計(jì)算難度大等。
推薦系統(tǒng)的算法工作邏輯并不復(fù)雜,但是達(dá)到的效果是驚人的。隨著算法系統(tǒng)的日益精進(jìn),推薦系統(tǒng)日趨完善,人們已經(jīng)越來(lái)越習(xí)慣依據(jù)算法的推薦做出內(nèi)容的選擇。在新聞推薦、廣告投放等諸多領(lǐng)域之中,算法推薦系統(tǒng)已經(jīng)成為中流砥柱。