汪 欣 張銘毅 劉亞萍
隨著信息化步伐的加快,海量化的信息內(nèi)容和便捷的獲取方式正在逐漸改變?nèi)藗兊膬?nèi)容閱讀習(xí)慣。但是在如此龐大的信息量背后,信息過載帶來的信息龐雜和無序經(jīng)常使得用戶無法快速、準(zhǔn)確地獲取個人最關(guān)心的內(nèi)容, 以至于陷入信息焦慮之中。因此如何精準(zhǔn)地將內(nèi)容和用戶匹配起來,建立個性化的內(nèi)容推薦系統(tǒng),幫助用戶快速地找到最關(guān)心內(nèi)容,成為媒體行業(yè)亟待解決的問題。個性化的內(nèi)容推薦越來越成為內(nèi)容行業(yè)的共識。
將內(nèi)容和用戶精準(zhǔn)匹配的過程主要是將用戶和內(nèi)容看作推薦系統(tǒng)的兩端,通過精確的推薦方法,將內(nèi)容精準(zhǔn)匹配用戶,獲得用戶反饋后再進(jìn)一步完善推薦方法[1]。整個精準(zhǔn)推薦的工作邏輯共包含四個步驟(見圖1):
圖1 精準(zhǔn)推薦技術(shù)的工作邏輯圖
首先是內(nèi)容分類和結(jié)構(gòu)化處理。內(nèi)容文本通常包含著豐富的信息,但它們并非結(jié)構(gòu)化的文本,因此要進(jìn)行結(jié)構(gòu)化處理并做好分類,確定好備選的推薦內(nèi)容。其次是用戶分類和畫像建模。用戶是精準(zhǔn)匹配的目標(biāo),根據(jù)用戶的反饋和興趣進(jìn)行分類和建模, 形成全面真實(shí)的用戶畫像。用戶的反饋包括主動表現(xiàn)的顯性反饋和依據(jù)網(wǎng)絡(luò)痕跡建立的隱性反饋,用戶興趣則包括用戶真實(shí)的長期興趣以及隨著熱點(diǎn)內(nèi)容不斷變化的短期興趣。 再次是推薦引擎選擇。如果將內(nèi)容和用戶看作精準(zhǔn)匹配的兩個端點(diǎn),推薦引擎就是連接二者的橋梁。它的目標(biāo)在于將所有備選的內(nèi)容進(jìn)行符合用戶興趣的排序,進(jìn)而依次推薦給用戶主體。不同的推薦方式會生成不同的推薦列表,從而直接影響推薦效果。最后是用戶終端設(shè)計。在完成內(nèi)容推薦后,還需在用戶終端進(jìn)行設(shè)計以全面完成個性匹配過程。用戶的終端接口承擔(dān)著兩個方面的工作,一方面,用戶的接口需要承載推薦的內(nèi)容;另一方面,需要收集用戶的反饋以進(jìn)一步精進(jìn)推薦引擎,促進(jìn)用戶和內(nèi)容更好地精準(zhǔn)匹配。
如何對內(nèi)容進(jìn)行分類處理是推薦技術(shù)的第一步,目前對內(nèi)容的處理包括對純文本內(nèi)容的處理和對圖片、視頻內(nèi)容的處理。
對純文本的處理主要使用的方法是自然語言處理,其本質(zhì)在于試圖讓計算機(jī)來分析人類的語言,而這一過程需要輸入與存儲、統(tǒng)計計算、機(jī)器學(xué)習(xí)等技術(shù),實(shí)現(xiàn)文本分析、處理等操作。以自然語言處理在文本情感分析領(lǐng)域內(nèi)的應(yīng)用為例,自然語言處理的流程可以分為以下幾個步驟[2]:
第一步,文本預(yù)處理,由分詞和命名體識別組成。在實(shí)際應(yīng)用中很多語氣助詞和人稱代詞是不需要關(guān)心的,需要建立一個停用詞詞典,在最終結(jié)果中將其過濾以降低對內(nèi)容提取的影響。命名體識別是一種信息抽取技術(shù),指在從原始的文本信息當(dāng)中提煉出結(jié)構(gòu)化信息。
第二步,文本情感分析。通過建立情感詞典,獲取文檔中特定詞匯的情感值,加以公式計算的方式來核定內(nèi)容的情感態(tài)度[3]。這種方式的優(yōu)點(diǎn)非常突出,計算簡單,結(jié)果明確直白。如果詞典足夠豐富,理論上能獲得非常好的分析效果,同時情感詞典本身在不斷更新和進(jìn)步,除了文本內(nèi)容外,網(wǎng)絡(luò)熱詞、顏文字、表情包等等都加入了情感詞典的分析之中,推動了情感詞典分析法的進(jìn)步。
隨著媒體傳播形式的日漸豐富,除了文本內(nèi)容之外,更為關(guān)鍵的是對視頻和圖片內(nèi)容的處理,主要運(yùn)用的方法是視頻目標(biāo)檢測方法。該方法是為了解決在每一個視頻幀中出現(xiàn)的目標(biāo)定位和識別問題[4]。對于特殊視頻內(nèi)容的識別是視頻目標(biāo)檢測的重要應(yīng)用領(lǐng)域。隨著網(wǎng)絡(luò)流量的視頻化,網(wǎng)絡(luò)視頻內(nèi)容變得魚龍混雜,而想要在源頭控制視頻內(nèi)容難度較大,通過視頻檢測的方式建立內(nèi)容分類過濾系統(tǒng)可能更加有效。盡管針對不同視頻所使用的算法有差異,但是工作邏輯大體相同,主要由視頻內(nèi)容描述模型、算法測試庫、算法評判標(biāo)準(zhǔn)等組成。
繪制用戶畫像指根據(jù)使用者的諸多信息抽象出用戶模型,關(guān)鍵在于給用戶貼上象征不同特征標(biāo)識的標(biāo)簽[5]。這是推薦技術(shù)中的關(guān)鍵一步,為精準(zhǔn)匹配技術(shù)找到目標(biāo)用戶奠定基礎(chǔ)。
在給用戶貼標(biāo)簽之前首先要搜集大量的用戶行為數(shù)據(jù)。目前最重要的三種數(shù)據(jù)來源分別是用戶的顯性數(shù)據(jù)、隱性數(shù)據(jù)和混合數(shù)據(jù)。[6]
最常見的顯性數(shù)據(jù)為用戶注冊賬號時輸入的本人信息。例如當(dāng)使用者要注冊某APP賬號時,常被問及自己的身份(如職務(wù)、工作等)、居住地址和感興趣的內(nèi)容等。但此類信息并不完全準(zhǔn)確。導(dǎo)致不準(zhǔn)確的原因可能包括用戶出于自我保護(hù)的心理而故意填寫錯誤的信息。也可能由于部分軟件設(shè)置問題過多,導(dǎo)致用戶隨意作答或直接放棄填寫。這些因素都會導(dǎo)致顯性的用戶數(shù)據(jù)充滿噪音,從而影響用戶畫像的建構(gòu)。
隱性的用戶數(shù)據(jù)恰恰彌補(bǔ)了這一缺憾。完全不同于顯性的數(shù)據(jù),隱性數(shù)據(jù)不需要受眾自己專門填寫,它重視的是用戶的使用行為如信息的搜索、對內(nèi)容的點(diǎn)贊、評論、拉黑,以及在內(nèi)容上的停留時間等。在這些數(shù)據(jù)中隱藏著用戶的使用習(xí)慣和興趣愛好。通過對用戶一段時間的隱性數(shù)據(jù)的分析,能夠更加全面真實(shí)地了解用戶。目前,獲取用戶隱性數(shù)據(jù)的方式逐步進(jìn)化到機(jī)器學(xué)習(xí)的階段,獲取到的信息也相對更加客觀準(zhǔn)確,能夠有效降低其他干擾因素的影響。
混合型數(shù)據(jù)吸納了顯性數(shù)據(jù)和隱性數(shù)據(jù)的優(yōu)點(diǎn)。它能夠高效地獲得用戶的顯性信息,再通過用戶的隱性數(shù)據(jù)得到客觀準(zhǔn)確的用戶信息,并不斷地進(jìn)行更新迭代。避免了單純依賴用戶顯性數(shù)據(jù)導(dǎo)致的偏差,同時大幅度提高搜集用戶數(shù)據(jù)的效率。目前主流的精準(zhǔn)推薦的方式基本都會采用用戶的混合型數(shù)據(jù)。
完成用戶數(shù)據(jù)搜集的目的是為了繪制用戶畫像?,F(xiàn)實(shí)生活里每一個用戶的信息都是復(fù)雜多樣的,用戶畫像就是要把這些復(fù)雜的信息簡單化、抽象化。用戶畫像的本質(zhì)就是貼標(biāo)簽,其目的就是為了將用戶的標(biāo)簽和現(xiàn)實(shí)的場景結(jié)合起來,因此刻畫用戶畫像一定要有現(xiàn)實(shí)意義。用戶畫像的構(gòu)建方法有三種,分別是基于統(tǒng)計學(xué)習(xí)的用戶畫像構(gòu)建方法、基于加權(quán)關(guān)鍵字的向量空間用戶畫像構(gòu)建方法以及基于神經(jīng)網(wǎng)絡(luò)的用戶畫像構(gòu)建方法。[5]
基于統(tǒng)計學(xué)習(xí)的方法構(gòu)建用戶畫像表示依據(jù)用戶數(shù)據(jù)的分布情況、數(shù)字特點(diǎn)和相關(guān)變量之間的聯(lián)系性,使用數(shù)字統(tǒng)計和數(shù)據(jù)分析來評估并且解釋使用者相關(guān)的行為。例如針對短視頻APP的使用者,統(tǒng)計他的點(diǎn)擊記錄、瀏覽時長、轉(zhuǎn)發(fā)、拉黑、點(diǎn)贊、評論等行為數(shù)據(jù)特點(diǎn)進(jìn)行分析。統(tǒng)計學(xué)習(xí)的方式主要是用來調(diào)查用戶的行為軌跡,但并不具備預(yù)測用戶未來行為趨勢的能力,僅僅能夠調(diào)查使用者過去的行為。
基于加權(quán)關(guān)鍵字的向量空間用戶畫像構(gòu)建方法是基于二十世紀(jì)四五十年代提出的向量空間模型生成的,其核心是根據(jù)文章內(nèi)容中的每個關(guān)鍵詞匯出現(xiàn)的頻率,計算對應(yīng)的權(quán)重來產(chǎn)生關(guān)于文字內(nèi)容的特征表達(dá)公式。這一方法在許多領(lǐng)域中已經(jīng)得到了應(yīng)用,例如,從某軟件的用戶評論中提取關(guān)鍵詞匯和關(guān)鍵信息,利用這些關(guān)鍵詞匯加權(quán)綜合計算得到該用戶的特征信息,而在這些關(guān)鍵詞匯中通常會隱藏著用戶對軟件的使用興趣,以此來建立軟件內(nèi)容和用戶之間的聯(lián)系,從而繪制用戶畫像。這種方式的優(yōu)點(diǎn)是計算結(jié)果相對準(zhǔn)確,可信程度也較高。但是它的缺點(diǎn)也非常明顯,如果建立的模型或者運(yùn)算所使用的公式過于簡單,則很難充分地利用好關(guān)鍵詞匯中所包含的隱性用戶信息。所以對于加權(quán)關(guān)鍵字來建立用戶模型的方式而言,最重要的是處理好文本特征工程,建立最合適的表達(dá)公式。
在大數(shù)據(jù)時代,面對日益增多且復(fù)雜的用戶數(shù)據(jù)如何更好地繪制用戶畫像是個難題。使用基于神經(jīng)網(wǎng)絡(luò)的用戶畫像構(gòu)建方法優(yōu)勢在于神經(jīng)網(wǎng)絡(luò)的記憶功能特別強(qiáng)大,它可以用來表示用戶與內(nèi)容之間復(fù)雜的多變關(guān)系。神經(jīng)網(wǎng)絡(luò)方法能夠模擬人類生理的神經(jīng)元系統(tǒng),因此具有了一些獨(dú)有的特質(zhì),包括分布式存儲、高容錯、并行計算等。由于具備了上述諸多特質(zhì),神經(jīng)網(wǎng)絡(luò)的用戶畫像繪制方法在很多領(lǐng)域內(nèi)得到了廣泛的應(yīng)用。
將處理好的信息和它最適應(yīng)的受眾連接起來的橋梁就是推薦引擎,因此推薦引擎成了精準(zhǔn)匹配流程中的核心部分。傳統(tǒng)的方式有基于內(nèi)容的推薦和協(xié)同過濾推薦,但是在大數(shù)據(jù)時代,為了更好地處理混雜且量大的內(nèi)容信息,基于深度學(xué)習(xí)的方法開始流行[1]。
基于內(nèi)容的推薦是最常見也是用戶感知度最高的推薦方式,它主要是根據(jù)軟件使用者平常的使用習(xí)慣以及瀏覽內(nèi)容的過往行為進(jìn)行推薦,計算備選的推薦內(nèi)容和使用者瀏覽歷史記錄內(nèi)容兩者之間的關(guān)系和相似程度,進(jìn)行相似程度的排名,進(jìn)而得到推薦列表。這種方法通常可以分為兩類,一類是計算問題,一類是分類問題。計算問題是指分別抽取使用者的用戶行為和預(yù)備推薦內(nèi)容的特征向量,計算二者之間的相似程度。向每一位使用者推薦相似程度最高的內(nèi)容或大于閾值的內(nèi)容。分類問題是指以該用戶瀏覽內(nèi)容的歷史記錄作為基礎(chǔ)數(shù)據(jù),將精準(zhǔn)匹配的推薦轉(zhuǎn)化為二分法:即喜歡或不喜歡?;趦?nèi)容的推薦方法的優(yōu)點(diǎn)是不需要其他人的使用數(shù)據(jù)而且推薦效率和可信度都比較高。缺點(diǎn)包括分析淺顯,無法考慮內(nèi)容的豐富性對結(jié)果的影響;推薦結(jié)果缺乏創(chuàng)新,只能根據(jù)過去的內(nèi)容進(jìn)行推薦,而無法關(guān)注到用戶可能有興趣的新內(nèi)容。
為了彌補(bǔ)上述方法不足,協(xié)同過濾推薦應(yīng)運(yùn)而生。協(xié)同過濾推薦的關(guān)鍵在于用戶的評分?jǐn)?shù)據(jù),和被推薦的內(nèi)容之間沒有關(guān)系。[7]例如在瀏覽歷史中對所閱讀的內(nèi)容評分相似的軟件用戶,被默認(rèn)為在將來的打分中也會高度相似。這樣一來就把精準(zhǔn)匹配的推薦問題轉(zhuǎn)換為了評分計算的問題。協(xié)同過濾推薦也包括多種實(shí)現(xiàn)形式,比如基于記憶的推薦方式或者基于模型的推薦方式。
總體而言,協(xié)同過濾推薦最重要的優(yōu)點(diǎn)在于能夠使用其他人的經(jīng)驗(yàn),能夠盡量避免內(nèi)容分析的不完全性,推薦的個性化、自動化程度也更高,更重要的是能夠?qū)崿F(xiàn)對新用戶的推薦。當(dāng)然,它的缺點(diǎn)也很明顯,存在著內(nèi)容初始推薦效果不好、內(nèi)容和用戶匹配不佳的問題,而且沒有考慮用戶自身的特點(diǎn),容易推薦熱門內(nèi)容。
隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)越來越復(fù)雜多樣,傳統(tǒng)的推薦方法所使用的淺層模型的預(yù)測方式開始逐漸落伍,因?yàn)榇祟惙绞教^依賴人工特征的提取。這樣一來很難高效、有價值地學(xué)習(xí)到深層次的用戶和內(nèi)容的表示。在這種情況下,基于深度學(xué)習(xí)的推薦方法逐漸被大家所認(rèn)同?;谏顚由窠?jīng)網(wǎng)絡(luò)所構(gòu)建起來的內(nèi)容預(yù)測模型能夠非常好地表現(xiàn)出新聞內(nèi)容和讀者用戶之間的關(guān)系,特別是不能用數(shù)學(xué)方法描述的結(jié)構(gòu)特征。使用深度學(xué)習(xí)模型進(jìn)行推薦的范圍更廣泛,推薦精度也更高。
目前精準(zhǔn)匹配的個性化推薦已經(jīng)廣泛應(yīng)用于移動端的新聞推薦和精準(zhǔn)廣告投放等領(lǐng)域之中,在幫助用戶節(jié)省搜索時間的同時,也為內(nèi)容生產(chǎn)端尋求用戶提供了便利。
新聞傳播是互聯(lián)網(wǎng)的經(jīng)典應(yīng)用,無論在互聯(lián)網(wǎng)時代還是現(xiàn)在的移動互聯(lián)網(wǎng)時代,獲取新聞資訊都是網(wǎng)民的主要需求?;ヂ?lián)網(wǎng)時代下的新聞傳播早已經(jīng)超越了傳統(tǒng)媒體的傳播速度,與此同時海量的新聞來源也將用戶帶入新聞焦慮的泥潭之中。在移動互聯(lián)網(wǎng)時代,隨著移動智能終端的普及,隨時隨地地獲取新聞已經(jīng)成為人們進(jìn)行新聞閱讀的常態(tài)。因此新聞推薦系統(tǒng)也正式進(jìn)入了移動新聞推薦時代。相較于傳統(tǒng)PC端的新聞推薦,移動端的新聞推薦限制更多,情況更復(fù)雜。移動端的新聞推薦必須考慮不同型號、不同尺寸、不同系統(tǒng)下內(nèi)容呈現(xiàn)的效果,相應(yīng)的移動新聞推薦也要符合移動性、實(shí)時性、個性化的內(nèi)容獲取特點(diǎn)。
總體而言,移動端的新聞推薦和傳統(tǒng)的內(nèi)容推薦算法底層邏輯相似,但是由于移動新聞推薦受到網(wǎng)絡(luò)環(huán)境和移動設(shè)備自身限制的影響,移動端的新聞推薦思路又有著其自身的特征。目前移動端的新聞推薦方法有基于上下文感知的移動新聞推薦、基于社會化網(wǎng)絡(luò)的移動新聞推薦等。盡管目前新聞推薦方法已經(jīng)有了扎實(shí)的研究和較為成熟的成果,但目前移動端的新聞推薦作為新聞推薦的前沿應(yīng)用還存在著眾多亟須解決的難題,如用戶的隱私安全保護(hù)、數(shù)據(jù)收集困難、計算難度大等。
推薦系統(tǒng)的算法工作邏輯并不復(fù)雜,但是達(dá)到的效果是驚人的。隨著算法系統(tǒng)的日益精進(jìn),推薦系統(tǒng)日趨完善,人們已經(jīng)越來越習(xí)慣依據(jù)算法的推薦做出內(nèi)容的選擇。在新聞推薦、廣告投放等諸多領(lǐng)域之中,算法推薦系統(tǒng)已經(jīng)成為中流砥柱。