馬佳寧
(嘉興南湖學(xué)院,浙江 嘉興314001)
計(jì)算機(jī)網(wǎng)絡(luò)搜索引擎的出現(xiàn)令信息搜索更加方便、快捷、準(zhǔn)確、全面,其可幫助用戶獲取各種產(chǎn)品、新聞、娛樂(lè)信息。目前,推薦算法存在信息過(guò)多、推薦不準(zhǔn)確的問(wèn)題。應(yīng)將用戶圖像分析與內(nèi)容功能相結(jié)合,結(jié)合用戶的歷史行為、訪問(wèn)信息及興趣度等,更好地預(yù)測(cè)用戶的搜索行為及需求,有效提高推薦的有效性及用戶體驗(yàn),滿足用戶需求。近年來(lái),隨著互聯(lián)網(wǎng)用戶數(shù)量的穩(wěn)步增長(zhǎng),互聯(lián)網(wǎng)信息量呈爆炸式增長(zhǎng)[1]。谷歌、百度及搜狗等搜索引擎對(duì)推薦算法進(jìn)行了深入研究,根據(jù)用戶的點(diǎn)擊行為、搜索歷史及其他信息,推薦更符合其需求的搜索結(jié)果。應(yīng)進(jìn)一步研究計(jì)算機(jī)網(wǎng)絡(luò)搜索引擎的個(gè)性化智能推薦算法,將不同用戶的需求及偏好結(jié)合起來(lái),提高搜索效率及用戶滿意度,推動(dòng)互聯(lián)網(wǎng)的發(fā)展進(jìn)步。
深度學(xué)習(xí)技術(shù)的廣泛應(yīng)用進(jìn)一步推動(dòng)了搜索引擎及個(gè)性化推薦技術(shù)的創(chuàng)新發(fā)展,該技術(shù)具有自動(dòng)分離功能,能夠分析用戶的搜索行為及興趣,為用戶提供更準(zhǔn)確的搜索結(jié)果。
計(jì)算機(jī)網(wǎng)絡(luò)搜索引擎及個(gè)性化推薦技術(shù)已在各個(gè)行業(yè)中得到了廣泛應(yīng)用。如,根據(jù)用戶興趣及操作在社交媒體平臺(tái)上向其推薦最合適的內(nèi)容;在電子商務(wù)平臺(tái)上根據(jù)用戶的購(gòu)買歷史、瀏覽行為及其他信息向其推薦最合適的產(chǎn)品[2]。
人們對(duì)個(gè)性化推薦算法進(jìn)行了諸多研究,其中基于用戶行為的推薦算法是比較經(jīng)典的。用戶行為包括搜索歷史、頁(yè)面停留時(shí)長(zhǎng)、購(gòu)買歷史記錄等,通過(guò)分析這些行為創(chuàng)建用戶簡(jiǎn)檔,為其提供個(gè)性化的推薦結(jié)果?;谟脩粜袨榈耐扑]算法包括基于過(guò)濾的協(xié)同推薦算法、基于內(nèi)容的推薦算法及深度推薦算法。協(xié)同過(guò)濾算法基于用戶先前的評(píng)級(jí)數(shù)據(jù),使用用戶相似性來(lái)計(jì)算用戶之間的比率,向其推薦對(duì)相似用戶的評(píng)級(jí)結(jié)果[3]。內(nèi)容推薦算法基于項(xiàng)目描述信息,建議其計(jì)算項(xiàng)目相似度,以推薦具有明顯屬性的元素。
網(wǎng)絡(luò)上存在著大量的信息資源,要從其中獲取所需的信息并不容易。信息搜索是網(wǎng)絡(luò)的最基本功能之一。計(jì)算機(jī)網(wǎng)絡(luò)搜索引擎以快速、準(zhǔn)確、全面的檢索方式為用戶提供豐富的信息資源,但要在巨大的信息海洋中想找到最有用的信息并不簡(jiǎn)單,故需開(kāi)發(fā)高效、精準(zhǔn)、個(gè)性化的搜索引擎,通過(guò)推薦算法進(jìn)行個(gè)性化推薦,滿足用戶不同的需求及興趣,提高用戶體驗(yàn)及搜索效果。
用戶畫(huà)像與內(nèi)容特征是個(gè)性化推薦算法的兩個(gè)重要因素(如圖1)。用戶畫(huà)像可以提供用戶的詳細(xì)描述,包括其年齡、性別、地區(qū)、職業(yè)、愛(ài)好及其他信息。通過(guò)分析用戶檔案,可以更好地了解其需求,提供更有針對(duì)性的推薦,提高用戶的上網(wǎng)體驗(yàn)滿意度。內(nèi)容特征基于搜索詞分析文本內(nèi)容,包括關(guān)鍵字、主題及其他信息,有助于人們更好地理解文本內(nèi)容,通過(guò)收集相關(guān)信息,如用戶的歷史搜索信息、瀏覽信息及行為數(shù)據(jù),創(chuàng)建用戶檔案,通過(guò)主題提取、情感分析及關(guān)鍵詞提取等獲取文本內(nèi)容特征。在推薦過(guò)程中,對(duì)用戶檔案及內(nèi)容特征進(jìn)行全面分析,獲得用戶需求及文本內(nèi)容特征,選擇符合用戶需求及文本內(nèi)容特征的高質(zhì)量?jī)?nèi)容提出建議。
圖1 個(gè)性化推薦算法關(guān)系圖
用戶畫(huà)像是對(duì)特定用戶或用戶組進(jìn)綜合分析,包括行為數(shù)據(jù)、興趣偏好及其他數(shù)據(jù)[4]。用戶畫(huà)像是個(gè)性化推薦算法的基礎(chǔ),構(gòu)建算法需考慮以下幾個(gè)方面:用戶基本信息采集,這是用戶最基本的屬性,對(duì)推薦算法來(lái)說(shuō)非常重要。收集用戶行為數(shù)據(jù),以反映消費(fèi)者興趣、偏好、行為習(xí)慣及其他方面的特征。消費(fèi)者興趣偏好分析,通過(guò)分析、提取消費(fèi)者行為數(shù)據(jù),確定其興趣偏好,如對(duì)哪些內(nèi)容具有更高的評(píng)級(jí)(如圖2)?;谏鲜鍪占胺治鼋⒂脩舢?huà)像,提供計(jì)算機(jī)個(gè)性化推薦。這是一個(gè)迭代過(guò)程,需要不斷更新改進(jìn),以適應(yīng)用戶不斷變化的興趣及需求[5]。
圖2 用戶畫(huà)像構(gòu)建過(guò)程
內(nèi)容特征提取是在計(jì)算機(jī)網(wǎng)絡(luò)搜索引擎中分析提取與內(nèi)容相關(guān)聯(lián)的特征信息,采用基于TF-IDF算法的文本分類方法提取特征信息,具體步驟見(jiàn)圖3,具體模塊解釋如下:
圖3 內(nèi)容特征的提取過(guò)程
語(yǔ)言處理:在搜索引擎中對(duì)每篇文章或網(wǎng)站進(jìn)行分段,刪除停止語(yǔ)及特殊字符,將每個(gè)單詞視為一個(gè)特征。
特征選擇:根據(jù)文本的分類要求選擇有意義、有特色的特征詞。
計(jì)算TF-IDF值:對(duì)每個(gè)特征詞計(jì)算文本中的頻率TF及其反向文檔頻率IDF值,將頻率TF和反向文檔頻率IDF值相乘,得到該特征詞的TF-IDF權(quán)重值。
歸一化處理:對(duì)所有特征詞的TF-IDF權(quán)重值進(jìn)行歸一化,以避免出現(xiàn)極值對(duì)特征權(quán)重產(chǎn)生影響。
通過(guò)以上步驟獲取每篇文章或網(wǎng)站的TF-IDF向量,進(jìn)一步描述其特征信息,將用戶瀏覽及搜索歷史與內(nèi)容特征相結(jié)合,計(jì)算其興趣度,根據(jù)其興趣水平向用戶推薦相關(guān)信息。實(shí)驗(yàn)結(jié)果表明,該算法可有效提高搜索引擎的推薦性能及用戶滿意度。
為了計(jì)算用戶興趣,需要將瀏覽及搜索歷史記錄與內(nèi)容功能相結(jié)合,對(duì)用戶進(jìn)行分類,分析用戶的個(gè)人信息、行為偏好及興趣愛(ài)好等,建立用戶畫(huà)像。將用戶分為多組,了解每個(gè)用戶的利益及需求,使用協(xié)作過(guò)濾算法查找與目標(biāo)用戶有類似興趣的用戶,提取其搜索及點(diǎn)擊行為數(shù)據(jù),計(jì)算相似度,得到項(xiàng)目列表與目標(biāo)用戶的興趣相似。在具體過(guò)程中,采用基于余弦相似度的協(xié)作過(guò)濾算法,將用戶活動(dòng)、賬戶中受歡迎的項(xiàng)目納入相似度計(jì)算中,增加推薦結(jié)果的準(zhǔn)確性及實(shí)用性,通過(guò)改進(jìn)算法,引入基于時(shí)間衰減的權(quán)重計(jì)算方式,避免歷史數(shù)據(jù)對(duì)推薦結(jié)果的影響,提高推薦算法的易用性。
計(jì)算機(jī)搜索引擎?zhèn)€性化推薦算法需要考慮諸多因素,如搜索用戶意圖及偏好、相關(guān)搜索結(jié)果及可信度、計(jì)算速度、準(zhǔn)確性等。還要與其他搜索引擎功能及服務(wù)相協(xié)調(diào)集成,以提高性能及用戶體驗(yàn)。
指出了計(jì)算機(jī)網(wǎng)絡(luò)搜索引擎在獲取信息方面存在的問(wèn)題,提出進(jìn)一步研究個(gè)性化推薦算法。這其是一種更準(zhǔn)確、快速、有效的算法,將用戶圖像與內(nèi)容功能相結(jié)合,對(duì)用戶興趣度及內(nèi)容特征進(jìn)行綜合分析,提高個(gè)性化推薦效果及用戶體驗(yàn)。通過(guò)提供準(zhǔn)確的推薦服務(wù),大大提高搜索效率及用戶滿意度。與傳統(tǒng)的搜索引擎相比,在一定程度上解決了大量信息造成的搜索困難,可為用戶提供個(gè)性化的搜索結(jié)果。該算法具有一定的實(shí)用價(jià)值,可應(yīng)用于廣告推薦、商品推薦中。個(gè)性化推薦算法已在不同類型的網(wǎng)站中得到了廣泛使用[4]。如百度、知乎、豆瓣等網(wǎng)站,其通過(guò)搜索歷史記錄及關(guān)鍵字、分析用戶行為及社會(huì)關(guān)系與分析情感及建立主題模型進(jìn)行推薦,是現(xiàn)代計(jì)算機(jī)科學(xué)領(lǐng)域的研究熱點(diǎn)之一。
隨著互聯(lián)網(wǎng)信息的不斷擴(kuò)展及用戶需求的不斷變化,應(yīng)繼續(xù)優(yōu)化計(jì)算機(jī)網(wǎng)絡(luò)搜索引擎?zhèn)€性化智能推薦算法,深入研究用戶數(shù)據(jù)收集及處理技術(shù),提高推薦算法的準(zhǔn)確性,使推薦結(jié)果滿足用戶的真實(shí)需求。進(jìn)一步研究算法模型,深化算法理論,提高算法的可解釋性及可擴(kuò)展性,使推薦系統(tǒng)更加穩(wěn)定可靠。隨著物聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,需探索基于物聯(lián)網(wǎng)數(shù)據(jù)及用戶行為數(shù)據(jù)的常見(jiàn)推薦算法,以提高推薦效率及用戶體驗(yàn)。嘗試在電子商務(wù)、新聞信息、社交網(wǎng)絡(luò)等領(lǐng)域應(yīng)用個(gè)性化推薦算法,加強(qiáng)深度學(xué)習(xí)、群體智能、推薦系統(tǒng)等新技術(shù)及方法的應(yīng)用,提高搜索引擎的智能推薦水平。