亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

精準(zhǔn)推薦技術(shù)的工作邏輯和前沿應(yīng)用

2022-10-22 03:14:20張銘毅劉亞萍

傳媒論壇 2022年16期

汪欣張銘毅劉亞萍

隨著信息化步伐的加快，海量化的信息內(nèi)容和便捷的獲取方式正在逐漸改變?nèi)藗兊膬?nèi)容閱讀習(xí)慣。但是在如此龐大的信息量背后，信息過載帶來的信息龐雜和無序經(jīng)常使得用戶無法快速、準(zhǔn)確地獲取個人最關(guān)心的內(nèi)容，以至于陷入信息焦慮之中。因此如何精準(zhǔn)地將內(nèi)容和用戶匹配起來，建立個性化的內(nèi)容推薦系統(tǒng)，幫助用戶快速地找到最關(guān)心內(nèi)容，成為媒體行業(yè)亟待解決的問題。個性化的內(nèi)容推薦越來越成為內(nèi)容行業(yè)的共識。

一、精準(zhǔn)推薦工作邏輯

將內(nèi)容和用戶精準(zhǔn)匹配的過程主要是將用戶和內(nèi)容看作推薦系統(tǒng)的兩端，通過精確的推薦方法，將內(nèi)容精準(zhǔn)匹配用戶，獲得用戶反饋后再進一步完善推薦方法［1］。整個精準(zhǔn)推薦的工作邏輯共包含四個步驟（見圖1）：

圖1 精準(zhǔn)推薦技術(shù)的工作邏輯圖

首先是內(nèi)容分類和結(jié)構(gòu)化處理。內(nèi)容文本通常包含著豐富的信息，但它們并非結(jié)構(gòu)化的文本，因此要進行結(jié)構(gòu)化處理并做好分類，確定好備選的推薦內(nèi)容。其次是用戶分類和畫像建模。用戶是精準(zhǔn)匹配的目標(biāo)，根據(jù)用戶的反饋和興趣進行分類和建模，形成全面真實的用戶畫像。用戶的反饋包括主動表現(xiàn)的顯性反饋和依據(jù)網(wǎng)絡(luò)痕跡建立的隱性反饋，用戶興趣則包括用戶真實的長期興趣以及隨著熱點內(nèi)容不斷變化的短期興趣。再次是推薦引擎選擇。如果將內(nèi)容和用戶看作精準(zhǔn)匹配的兩個端點，推薦引擎就是連接二者的橋梁。它的目標(biāo)在于將所有備選的內(nèi)容進行符合用戶興趣的排序，進而依次推薦給用戶主體。不同的推薦方式會生成不同的推薦列表，從而直接影響推薦效果。最后是用戶終端設(shè)計。在完成內(nèi)容推薦后，還需在用戶終端進行設(shè)計以全面完成個性匹配過程。用戶的終端接口承擔(dān)著兩個方面的工作，一方面，用戶的接口需要承載推薦的內(nèi)容；另一方面，需要收集用戶的反饋以進一步精進推薦引擎，促進用戶和內(nèi)容更好地精準(zhǔn)匹配。

二、精準(zhǔn)推薦技術(shù)實現(xiàn)

（一）內(nèi)容分類處理——推薦技術(shù)起點

如何對內(nèi)容進行分類處理是推薦技術(shù)的第一步，目前對內(nèi)容的處理包括對純文本內(nèi)容的處理和對圖片、視頻內(nèi)容的處理。

對純文本的處理主要使用的方法是自然語言處理，其本質(zhì)在于試圖讓計算機來分析人類的語言，而這一過程需要輸入與存儲、統(tǒng)計計算、機器學(xué)習(xí)等技術(shù)，實現(xiàn)文本分析、處理等操作。以自然語言處理在文本情感分析領(lǐng)域內(nèi)的應(yīng)用為例，自然語言處理的流程可以分為以下幾個步驟［2］：

第一步，文本預(yù)處理，由分詞和命名體識別組成。在實際應(yīng)用中很多語氣助詞和人稱代詞是不需要關(guān)心的，需要建立一個停用詞詞典，在最終結(jié)果中將其過濾以降低對內(nèi)容提取的影響。命名體識別是一種信息抽取技術(shù)，指在從原始的文本信息當(dāng)中提煉出結(jié)構(gòu)化信息。

第二步，文本情感分析。通過建立情感詞典，獲取文檔中特定詞匯的情感值，加以公式計算的方式來核定內(nèi)容的情感態(tài)度［3］。這種方式的優(yōu)點非常突出，計算簡單，結(jié)果明確直白。如果詞典足夠豐富，理論上能獲得非常好的分析效果，同時情感詞典本身在不斷更新和進步，除了文本內(nèi)容外，網(wǎng)絡(luò)熱詞、顏文字、表情包等等都加入了情感詞典的分析之中，推動了情感詞典分析法的進步。

隨著媒體傳播形式的日漸豐富，除了文本內(nèi)容之外，更為關(guān)鍵的是對視頻和圖片內(nèi)容的處理，主要運用的方法是視頻目標(biāo)檢測方法。該方法是為了解決在每一個視頻幀中出現(xiàn)的目標(biāo)定位和識別問題［4］。對于特殊視頻內(nèi)容的識別是視頻目標(biāo)檢測的重要應(yīng)用領(lǐng)域。隨著網(wǎng)絡(luò)流量的視頻化，網(wǎng)絡(luò)視頻內(nèi)容變得魚龍混雜，而想要在源頭控制視頻內(nèi)容難度較大，通過視頻檢測的方式建立內(nèi)容分類過濾系統(tǒng)可能更加有效。盡管針對不同視頻所使用的算法有差異，但是工作邏輯大體相同，主要由視頻內(nèi)容描述模型、算法測試庫、算法評判標(biāo)準(zhǔn)等組成。

（二）繪制用戶畫像——推薦技術(shù)終點

繪制用戶畫像指根據(jù)使用者的諸多信息抽象出用戶模型，關(guān)鍵在于給用戶貼上象征不同特征標(biāo)識的標(biāo)簽［5］。這是推薦技術(shù)中的關(guān)鍵一步，為精準(zhǔn)匹配技術(shù)找到目標(biāo)用戶奠定基礎(chǔ)。

在給用戶貼標(biāo)簽之前首先要搜集大量的用戶行為數(shù)據(jù)。目前最重要的三種數(shù)據(jù)來源分別是用戶的顯性數(shù)據(jù)、隱性數(shù)據(jù)和混合數(shù)據(jù)。［6］

最常見的顯性數(shù)據(jù)為用戶注冊賬號時輸入的本人信息。例如當(dāng)使用者要注冊某APP賬號時，常被問及自己的身份（如職務(wù)、工作等）、居住地址和感興趣的內(nèi)容等。但此類信息并不完全準(zhǔn)確。導(dǎo)致不準(zhǔn)確的原因可能包括用戶出于自我保護的心理而故意填寫錯誤的信息。也可能由于部分軟件設(shè)置問題過多，導(dǎo)致用戶隨意作答或直接放棄填寫。這些因素都會導(dǎo)致顯性的用戶數(shù)據(jù)充滿噪音，從而影響用戶畫像的建構(gòu)。

隱性的用戶數(shù)據(jù)恰恰彌補了這一缺憾。完全不同于顯性的數(shù)據(jù)，隱性數(shù)據(jù)不需要受眾自己專門填寫，它重視的是用戶的使用行為如信息的搜索、對內(nèi)容的點贊、評論、拉黑，以及在內(nèi)容上的停留時間等。在這些數(shù)據(jù)中隱藏著用戶的使用習(xí)慣和興趣愛好。通過對用戶一段時間的隱性數(shù)據(jù)的分析，能夠更加全面真實地了解用戶。目前，獲取用戶隱性數(shù)據(jù)的方式逐步進化到機器學(xué)習(xí)的階段，獲取到的信息也相對更加客觀準(zhǔn)確，能夠有效降低其他干擾因素的影響。

混合型數(shù)據(jù)吸納了顯性數(shù)據(jù)和隱性數(shù)據(jù)的優(yōu)點。它能夠高效地獲得用戶的顯性信息，再通過用戶的隱性數(shù)據(jù)得到客觀準(zhǔn)確的用戶信息，并不斷地進行更新迭代。避免了單純依賴用戶顯性數(shù)據(jù)導(dǎo)致的偏差，同時大幅度提高搜集用戶數(shù)據(jù)的效率。目前主流的精準(zhǔn)推薦的方式基本都會采用用戶的混合型數(shù)據(jù)。

完成用戶數(shù)據(jù)搜集的目的是為了繪制用戶畫像?，F(xiàn)實生活里每一個用戶的信息都是復(fù)雜多樣的，用戶畫像就是要把這些復(fù)雜的信息簡單化、抽象化。用戶畫像的本質(zhì)就是貼標(biāo)簽，其目的就是為了將用戶的標(biāo)簽和現(xiàn)實的場景結(jié)合起來，因此刻畫用戶畫像一定要有現(xiàn)實意義。用戶畫像的構(gòu)建方法有三種,分別是基于統(tǒng)計學(xué)習(xí)的用戶畫像構(gòu)建方法、基于加權(quán)關(guān)鍵字的向量空間用戶畫像構(gòu)建方法以及基于神經(jīng)網(wǎng)絡(luò)的用戶畫像構(gòu)建方法。［5］

基于統(tǒng)計學(xué)習(xí)的方法構(gòu)建用戶畫像表示依據(jù)用戶數(shù)據(jù)的分布情況、數(shù)字特點和相關(guān)變量之間的聯(lián)系性，使用數(shù)字統(tǒng)計和數(shù)據(jù)分析來評估并且解釋使用者相關(guān)的行為。例如針對短視頻APP的使用者，統(tǒng)計他的點擊記錄、瀏覽時長、轉(zhuǎn)發(fā)、拉黑、點贊、評論等行為數(shù)據(jù)特點進行分析。統(tǒng)計學(xué)習(xí)的方式主要是用來調(diào)查用戶的行為軌跡，但并不具備預(yù)測用戶未來行為趨勢的能力，僅僅能夠調(diào)查使用者過去的行為。

基于加權(quán)關(guān)鍵字的向量空間用戶畫像構(gòu)建方法是基于二十世紀(jì)四五十年代提出的向量空間模型生成的，其核心是根據(jù)文章內(nèi)容中的每個關(guān)鍵詞匯出現(xiàn)的頻率，計算對應(yīng)的權(quán)重來產(chǎn)生關(guān)于文字內(nèi)容的特征表達公式。這一方法在許多領(lǐng)域中已經(jīng)得到了應(yīng)用，例如，從某軟件的用戶評論中提取關(guān)鍵詞匯和關(guān)鍵信息，利用這些關(guān)鍵詞匯加權(quán)綜合計算得到該用戶的特征信息，而在這些關(guān)鍵詞匯中通常會隱藏著用戶對軟件的使用興趣，以此來建立軟件內(nèi)容和用戶之間的聯(lián)系，從而繪制用戶畫像。這種方式的優(yōu)點是計算結(jié)果相對準(zhǔn)確，可信程度也較高。但是它的缺點也非常明顯，如果建立的模型或者運算所使用的公式過于簡單，則很難充分地利用好關(guān)鍵詞匯中所包含的隱性用戶信息。所以對于加權(quán)關(guān)鍵字來建立用戶模型的方式而言，最重要的是處理好文本特征工程，建立最合適的表達公式。

在大數(shù)據(jù)時代，面對日益增多且復(fù)雜的用戶數(shù)據(jù)如何更好地繪制用戶畫像是個難題。使用基于神經(jīng)網(wǎng)絡(luò)的用戶畫像構(gòu)建方法優(yōu)勢在于神經(jīng)網(wǎng)絡(luò)的記憶功能特別強大，它可以用來表示用戶與內(nèi)容之間復(fù)雜的多變關(guān)系。神經(jīng)網(wǎng)絡(luò)方法能夠模擬人類生理的神經(jīng)元系統(tǒng)，因此具有了一些獨有的特質(zhì)，包括分布式存儲、高容錯、并行計算等。由于具備了上述諸多特質(zhì)，神經(jīng)網(wǎng)絡(luò)的用戶畫像繪制方法在很多領(lǐng)域內(nèi)得到了廣泛的應(yīng)用。

（三）選擇推薦引擎——連接橋梁

將處理好的信息和它最適應(yīng)的受眾連接起來的橋梁就是推薦引擎，因此推薦引擎成了精準(zhǔn)匹配流程中的核心部分。傳統(tǒng)的方式有基于內(nèi)容的推薦和協(xié)同過濾推薦，但是在大數(shù)據(jù)時代，為了更好地處理混雜且量大的內(nèi)容信息，基于深度學(xué)習(xí)的方法開始流行［1］。

基于內(nèi)容的推薦是最常見也是用戶感知度最高的推薦方式，它主要是根據(jù)軟件使用者平常的使用習(xí)慣以及瀏覽內(nèi)容的過往行為進行推薦，計算備選的推薦內(nèi)容和使用者瀏覽歷史記錄內(nèi)容兩者之間的關(guān)系和相似程度，進行相似程度的排名，進而得到推薦列表。這種方法通常可以分為兩類，一類是計算問題，一類是分類問題。計算問題是指分別抽取使用者的用戶行為和預(yù)備推薦內(nèi)容的特征向量，計算二者之間的相似程度。向每一位使用者推薦相似程度最高的內(nèi)容或大于閾值的內(nèi)容。分類問題是指以該用戶瀏覽內(nèi)容的歷史記錄作為基礎(chǔ)數(shù)據(jù)，將精準(zhǔn)匹配的推薦轉(zhuǎn)化為二分法：即喜歡或不喜歡?；趦?nèi)容的推薦方法的優(yōu)點是不需要其他人的使用數(shù)據(jù)而且推薦效率和可信度都比較高。缺點包括分析淺顯，無法考慮內(nèi)容的豐富性對結(jié)果的影響；推薦結(jié)果缺乏創(chuàng)新，只能根據(jù)過去的內(nèi)容進行推薦，而無法關(guān)注到用戶可能有興趣的新內(nèi)容。

為了彌補上述方法不足，協(xié)同過濾推薦應(yīng)運而生。協(xié)同過濾推薦的關(guān)鍵在于用戶的評分?jǐn)?shù)據(jù)，和被推薦的內(nèi)容之間沒有關(guān)系。［7］例如在瀏覽歷史中對所閱讀的內(nèi)容評分相似的軟件用戶，被默認(rèn)為在將來的打分中也會高度相似。這樣一來就把精準(zhǔn)匹配的推薦問題轉(zhuǎn)換為了評分計算的問題。協(xié)同過濾推薦也包括多種實現(xiàn)形式，比如基于記憶的推薦方式或者基于模型的推薦方式。

總體而言，協(xié)同過濾推薦最重要的優(yōu)點在于能夠使用其他人的經(jīng)驗，能夠盡量避免內(nèi)容分析的不完全性，推薦的個性化、自動化程度也更高，更重要的是能夠?qū)崿F(xiàn)對新用戶的推薦。當(dāng)然，它的缺點也很明顯，存在著內(nèi)容初始推薦效果不好、內(nèi)容和用戶匹配不佳的問題，而且沒有考慮用戶自身的特點，容易推薦熱門內(nèi)容。

隨著大數(shù)據(jù)時代的到來，數(shù)據(jù)越來越復(fù)雜多樣，傳統(tǒng)的推薦方法所使用的淺層模型的預(yù)測方式開始逐漸落伍，因為此類方式太過依賴人工特征的提取。這樣一來很難高效、有價值地學(xué)習(xí)到深層次的用戶和內(nèi)容的表示。在這種情況下，基于深度學(xué)習(xí)的推薦方法逐漸被大家所認(rèn)同。基于深層神經(jīng)網(wǎng)絡(luò)所構(gòu)建起來的內(nèi)容預(yù)測模型能夠非常好地表現(xiàn)出新聞內(nèi)容和讀者用戶之間的關(guān)系，特別是不能用數(shù)學(xué)方法描述的結(jié)構(gòu)特征。使用深度學(xué)習(xí)模型進行推薦的范圍更廣泛，推薦精度也更高。

三、精準(zhǔn)推薦技術(shù)在新聞推薦領(lǐng)域內(nèi)的應(yīng)用

目前精準(zhǔn)匹配的個性化推薦已經(jīng)廣泛應(yīng)用于移動端的新聞推薦和精準(zhǔn)廣告投放等領(lǐng)域之中，在幫助用戶節(jié)省搜索時間的同時，也為內(nèi)容生產(chǎn)端尋求用戶提供了便利。

新聞傳播是互聯(lián)網(wǎng)的經(jīng)典應(yīng)用，無論在互聯(lián)網(wǎng)時代還是現(xiàn)在的移動互聯(lián)網(wǎng)時代，獲取新聞資訊都是網(wǎng)民的主要需求。互聯(lián)網(wǎng)時代下的新聞傳播早已經(jīng)超越了傳統(tǒng)媒體的傳播速度，與此同時海量的新聞來源也將用戶帶入新聞焦慮的泥潭之中。在移動互聯(lián)網(wǎng)時代，隨著移動智能終端的普及，隨時隨地地獲取新聞已經(jīng)成為人們進行新聞閱讀的常態(tài)。因此新聞推薦系統(tǒng)也正式進入了移動新聞推薦時代。相較于傳統(tǒng)PC端的新聞推薦，移動端的新聞推薦限制更多，情況更復(fù)雜。移動端的新聞推薦必須考慮不同型號、不同尺寸、不同系統(tǒng)下內(nèi)容呈現(xiàn)的效果，相應(yīng)的移動新聞推薦也要符合移動性、實時性、個性化的內(nèi)容獲取特點。

總體而言，移動端的新聞推薦和傳統(tǒng)的內(nèi)容推薦算法底層邏輯相似，但是由于移動新聞推薦受到網(wǎng)絡(luò)環(huán)境和移動設(shè)備自身限制的影響，移動端的新聞推薦思路又有著其自身的特征。目前移動端的新聞推薦方法有基于上下文感知的移動新聞推薦、基于社會化網(wǎng)絡(luò)的移動新聞推薦等。盡管目前新聞推薦方法已經(jīng)有了扎實的研究和較為成熟的成果，但目前移動端的新聞推薦作為新聞推薦的前沿應(yīng)用還存在著眾多亟須解決的難題，如用戶的隱私安全保護、數(shù)據(jù)收集困難、計算難度大等。

四、結(jié)語

推薦系統(tǒng)的算法工作邏輯并不復(fù)雜，但是達到的效果是驚人的。隨著算法系統(tǒng)的日益精進，推薦系統(tǒng)日趨完善，人們已經(jīng)越來越習(xí)慣依據(jù)算法的推薦做出內(nèi)容的選擇。在新聞推薦、廣告投放等諸多領(lǐng)域之中，算法推薦系統(tǒng)已經(jīng)成為中流砥柱。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

精準(zhǔn)推薦技術(shù)的工作邏輯和前沿應(yīng)用

一、精準(zhǔn)推薦工作邏輯

二、精準(zhǔn)推薦技術(shù)實現(xiàn)