亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

信息繭房與準確率：基于復合型算法的個性化模擬推薦系統(tǒng)

2020-01-18 05:52:02嚴宇橋張蔚坪

電子技術(shù)與軟件工程 2019年24期

文/嚴宇橋張蔚坪

隨著智媒時代的到來，以算法型信息分發(fā)技術(shù)滲透到了各個媒體當中。算法推送帶來的收益和效果正在影響各行各業(yè)，也引起了媒介研究的興趣。算法與傳媒業(yè)的深度融合，不斷形塑著傳媒業(yè)的實踐，同時也給傳播倫理造成了相當大的影響。本文在分析算法型信息分發(fā)的主要推薦機制基礎上，指出了在實際的研究中，算法推薦的準確率如何衡量的一種方法，并結(jié)合了協(xié)同過濾和文本分析兩種主流推薦機制設計了基于復合型推薦算法的模擬個性化信息推薦系統(tǒng)。

1 算法信息分發(fā)的推薦機制綜述

對于推薦系統(tǒng)，最重要的任務是連接信息和用戶之間的關(guān)系。該系統(tǒng)應幫助用戶找到對他們有價值的信息，同時讓該信息在感興趣的用戶面前顯示和推薦，從而達到信息消費與生產(chǎn)雙贏的局面。當前，推薦系統(tǒng)主要有三種推薦模式：基于協(xié)同過濾的推薦，基于關(guān)聯(lián)規(guī)則的推薦和基于文本的推薦。

對于協(xié)同過濾推薦來說，最基本的策略是計算用戶之間的相似度，例如余弦相似度。根據(jù)相似度排序，設置相似度閾值或設置最近鄰閾值，選擇一定數(shù)量的用戶，并讓這些用戶評估的產(chǎn)品形成候選集，對這些項目進行加權(quán)以計算分數(shù)，最后排序，向用戶推薦評分最高的項目。

公式（1）余弦相似度計算方法

但是，基于內(nèi)存的協(xié)同過濾推薦的問題在于它們過于依賴歷史數(shù)據(jù)庫。歷史數(shù)據(jù)庫是系統(tǒng)中整個推薦功能的原始資料。當缺乏數(shù)據(jù)資料時，將出現(xiàn)一系列的問題，諸如冷啟動結(jié)果不令人滿意，以及推薦的準確性降低等。

基于內(nèi)容的推薦是基于用戶歷史項提取，過濾和生成文本信息特征模型，并最終向用戶推薦類似于歷史瀏覽文本內(nèi)容的信息。該算法在提取和分析文本信息的特征方面比較擅長，但是在非結(jié)構(gòu)化數(shù)據(jù)的分析能力方面存在缺陷?；陉P(guān)聯(lián)規(guī)則的推薦基于用戶的歷史資料，以挖掘用戶數(shù)據(jù)背后的相關(guān)關(guān)聯(lián)，從而為用戶的潛在需求分析提供推薦。

綜上所述，這三種方法都有一定程度的局限性，每種方法都有一些難以解決的問題。目前，商業(yè)算法處理方法使用復合推薦方法進行推薦。

2 信息繭房的爭論與自變量缺失：如何從量化上評估算法推薦效果？

伴隨信息量的激增和網(wǎng)絡技術(shù)的日益普及，每個人對于關(guān)注的話題都可以自主選擇。桑斯坦認為，這種技術(shù)趨勢將導致“信息繭房”的問題，導致觀念封閉甚至兩極分化，這將造成非理性的極端主義。在傳統(tǒng)媒體時代，媒體組織向大眾傳播新聞，受眾意識不強?；谒惴ㄍ扑]的內(nèi)容分發(fā)以用戶的個人特征為標準在技術(shù)層面上篩選信息，并向用戶推薦與其價值觀，偏好和個人興趣相匹配的信息，形成了``一千個人就有一千個哈姆雷特的''內(nèi)容消費形式。近年來相關(guān)專家學者對于“信息繭房”的討論越來越激烈。傳統(tǒng)媒介倫理和媒介道德的鼓吹者認為，算法推送導致的用戶接受信息的窄化是導致近年來群體極化的罪魁禍首，而愈演愈烈的輿論極端化事件和輿論反轉(zhuǎn)現(xiàn)象就是他們的佐證。然而以喻國明為主要代表的技術(shù)樂觀主義者則堅持稱，信息偏食現(xiàn)象從傳播現(xiàn)象開始時就有，并非算法推送帶來的問題。

如果需要從研究方面解決目前關(guān)于“信息繭房”的爭論，就需要研究“算法推薦的進步”這個變量會對用戶產(chǎn)生何種效果。對于因果關(guān)系的證明，最有效的方法是通過實驗室控制變量的實驗來解決。從目前的研究中相關(guān)性研究居多而缺乏因果關(guān)系的討論來看，這個問題還缺乏一個切實有效的研究工具。二戰(zhàn)以來，效果研究都是心理學、傳播學等主流社會科學研究的議題，因此并不缺少該問題的因變量操作工具。但是，因此人們無法將“算法推薦”這個自變量進行量化，由此來看，如何將算法推薦作出有效的量化計算，是研究該問題的關(guān)鍵。因此，本研究就圍繞著這一問題設計了能夠有效將該變量操作化的工具。

3 推薦水平評測：程序設計的理論依據(jù)及程序用途

信息推薦水平如何去測量和評價，是評測工具上的技術(shù)難點。比如，在用戶數(shù)量遠大于產(chǎn)品數(shù)量的系統(tǒng)上，基于協(xié)同過濾算法的用戶反饋很高；否則，它很低。相關(guān)的影響因素還包括評分量表和稀疏性，以及評估數(shù)據(jù)集其他特征的目的。但是，大多數(shù)推薦系統(tǒng)可以使用準確性來評估推薦算法的級別。假設用戶可以檢查所有產(chǎn)品的信息，并可以根據(jù)其對產(chǎn)品的偏好對產(chǎn)品分類，則準確度可以定義為推薦算法的預測排名與用戶的實際排名的接近程度。包含準確率和召回率的分類準確度指標在計算機領域應用最為廣泛。其具體計算方法采用Billsusd的邏輯，Billsusd也是率先準確度與召回率引入到推薦系統(tǒng)的評價中的學者。

例如，整個平臺中所有的產(chǎn)品數(shù)量為N，被推薦給用戶產(chǎn)品的總數(shù)為Ns，其中Ns=Nrs+Nis，Nrs和Nis分別為在被推薦產(chǎn)品中，用戶喜歡的產(chǎn)品數(shù)量與不喜歡的產(chǎn)品數(shù)量。相應地，Nrn和Nin分別為未被推薦產(chǎn)品中用戶喜歡和不喜歡的產(chǎn)品數(shù)。

綜上所述，準確率的計算就應當是：P=N（用戶喜歡的產(chǎn)品數(shù)量）/N（所有向用戶呈現(xiàn)的產(chǎn)品的數(shù)量）。

也就是說，對于一個算法推送式的平臺，可以將個性化水平也就是準確率分解成：（準確率=用戶喜好的信息條數(shù)/用戶看到的信息總條數(shù)）

因此，本研究的自變量和因變量分解就是：

自變量：個性化推送的準確率

因變量：點贊數(shù)、轉(zhuǎn)發(fā)數(shù)、轉(zhuǎn)發(fā)情況（數(shù)量、關(guān)系等）

4 本程序的設計邏輯及用戶界面

因此，本程序使用java環(huán)境進行開發(fā)，設置出可調(diào)節(jié)準確率的用戶文本庫?？傮w來說程序設計思路是：輸入用戶興趣的關(guān)鍵詞語，進行文本匹配以及協(xié)同過濾生成偏好關(guān)鍵詞，根據(jù)關(guān)鍵詞在微博進行搜索并爬取文本或圖片信息，制作成信息庫。最終用戶瀏覽信息庫文本、并利用虛擬按鍵統(tǒng)計用戶的行為。在本系統(tǒng)中，操作信息推薦水平只需要操作：相關(guān)信息與無關(guān)信息的比例即可。

如圖1，首先以python為開發(fā)語言，在以Google Crome瀏覽器中進行的微博搜索中嵌套了一個用戶頭部信息的儲存機制，實現(xiàn)用戶信息的“冷啟動”。第二步是整個程序設計的關(guān)鍵一步，也就是基于用戶個人偏好數(shù)據(jù)的挖掘和主體實驗材料的生成。主體流程就是：根據(jù)興趣標簽、搜索歷史、點開的鏈接等進行個性化特征采集，形成基于協(xié)同過濾和文本匹配的用戶特征，再在全網(wǎng)文本上采集與該特征相符合的信息。在此之后，隨機在網(wǎng)上采集排除掉相關(guān)特征的信息，然后二者按比例混合，生成不同準確率下根據(jù)個人興趣愛好的可操作實驗資料庫。第三步是總體的實驗界面。第一步測過的用戶依次再次進入實驗室，這次就讓他們查看已經(jīng)根據(jù)他們之前的用戶習慣編好的資料庫，然后不計時，只統(tǒng)計下不同比例的資料庫中，被試的傳播行為和傳播偏向。

最后將這三個步驟統(tǒng)一起來，展示的界面能夠查看視頻和圖片，并且可以實時進行關(guān)鍵詞聯(lián)想，最終整合成為一個在線測試系統(tǒng)呈現(xiàn)給被試，如圖2。

經(jīng)過與《被試情感傾向量表》、《批判性思維量表》等因變量研究工具結(jié)合，本系統(tǒng)已經(jīng)得到驗證可以平穩(wěn)進行并準確記錄行為數(shù)據(jù)。該系統(tǒng)可以通過控制推薦信息的準確率，來將算法推薦水平做出量化操作，可以以此為自變量觀測用戶的行為數(shù)據(jù)、認知數(shù)據(jù)和用戶態(tài)度的改變等。同時該系統(tǒng)可以對接大多數(shù)心理學和用戶體驗量表，使得研究者能夠在實驗室環(huán)境測量算法推薦的準確率造成的用戶效果上的影響，從而為解決技術(shù)倫理層面爭論多年的“信息繭房”命題提供了一種可用的研究工具。

圖1：程序設計邏輯示意圖

圖2：用戶界面與操作設計