天津工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與軟件學(xué)院 梁 宇
移動(dòng)互聯(lián)網(wǎng)用戶的增加,將給移動(dòng)互聯(lián)網(wǎng)企業(yè)帶來(lái)更大的利潤(rùn)空間,隨之而來(lái)的是更多的移動(dòng)互聯(lián)網(wǎng)企業(yè)的出現(xiàn),更多移動(dòng)互聯(lián)網(wǎng)信息載體的出現(xiàn)。Internet上的個(gè)性化信息推薦已經(jīng)得到了很好的應(yīng)用,國(guó)內(nèi)外都有一些應(yīng)用中的個(gè)性化推薦系統(tǒng),而在移動(dòng)網(wǎng)絡(luò)上進(jìn)行個(gè)性化推薦還處于起步階段,還沒(méi)有成熟的產(chǎn)品投入使用。
個(gè)性化推薦系統(tǒng)是應(yīng)用知識(shí)發(fā)現(xiàn)技術(shù),在與用戶互動(dòng)的過(guò)程中為用戶提供個(gè)性化的信息,產(chǎn)品與服務(wù)。個(gè)性化推薦系統(tǒng)主要融合了用戶建模技術(shù),數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),Web挖掘技術(shù)等。個(gè)性化推薦技術(shù)主要分為三類(lèi):基于規(guī)則的推薦,基于內(nèi)容分類(lèi)的推薦和基于協(xié)同過(guò)濾技術(shù)的推薦。
基于規(guī)則的推薦主要根據(jù)用戶歷史瀏覽記錄,采取一定的方法,分析出信息之間的潛在的關(guān)聯(lián)關(guān)系,根據(jù)這種關(guān)聯(lián)關(guān)系建立規(guī)則庫(kù),在其他用戶再次訪問(wèn)某信息條目I時(shí),在規(guī)則庫(kù)中查找與條目I對(duì)應(yīng)規(guī)則,根據(jù)這些規(guī)則決定向用戶推薦的信息集。于規(guī)則的推薦結(jié)構(gòu)簡(jiǎn)單,易于應(yīng)用。主要缺點(diǎn)是:規(guī)則的數(shù)量隨著數(shù)據(jù)量的增大急劇增加;規(guī)則集的確定依賴(lài)于支持度-可信度模型,而支持度、可信度的確定并沒(méi)有確定的標(biāo)準(zhǔn),支持度或可信度的改變對(duì)規(guī)則集的大小影響較大;對(duì)用戶的推薦是根據(jù)當(dāng)前已有的規(guī)則,并不能發(fā)現(xiàn)新的用戶偏好
基于內(nèi)容分類(lèi)的推薦(Content-based Recommendation)是建立在信息內(nèi)容的基礎(chǔ)上,而不需要依據(jù)用戶對(duì)信息的評(píng)價(jià),主要采用機(jī)器學(xué)習(xí)的方法將信息進(jìn)行分類(lèi)。并且根據(jù)用戶提供的定制信息類(lèi)型或者用戶的興趣模型,將同類(lèi)信息或者與用戶模型最為相似的信息條目推薦給用戶?;趦?nèi)容的推薦是建立在信息內(nèi)容的基礎(chǔ)之上的,因此基于內(nèi)容的推薦技術(shù)比較適用于機(jī)器容易識(shí)別的信息載體,如文本,而不適用與音頻,視頻等信息內(nèi)容不容易獲取的信息載體?;趦?nèi)容的推薦系統(tǒng)的另外一個(gè)關(guān)鍵技術(shù)是文本特征的提取,基于內(nèi)容的推薦技術(shù)是根據(jù)文本的特征與用戶的興趣模型進(jìn)行匹配的程度來(lái)決定是否向用戶推薦該文本信息。因此文本的特征選擇在基于內(nèi)容的推薦算法中尤為重要,特征選取的優(yōu)劣決定了個(gè)性化推薦的質(zhì)量。
協(xié)同過(guò)濾推薦建立在群體性和多數(shù)原則的基礎(chǔ)之上,由于人具有社會(huì)屬性,因此個(gè)人的行為一定是包含了某類(lèi)群體行為的表現(xiàn),在此假設(shè)基礎(chǔ)之上協(xié)同過(guò)濾推薦才會(huì)有意義。協(xié)同過(guò)濾推薦主要分為基于用戶的推薦(Userbased),基于項(xiàng)目的推薦(Item-based),基于模型的推薦(Model-based)三類(lèi)。當(dāng)前協(xié)同過(guò)濾推薦已經(jīng)廣泛的應(yīng)用到電子商務(wù)網(wǎng)站,某些社會(huì)化網(wǎng)絡(luò)中。比較成功的應(yīng)用主要有亞馬遜,當(dāng)用戶購(gòu)買(mǎi)某本書(shū)籍時(shí)系統(tǒng)會(huì)向用戶推薦可能喜歡的書(shū)籍列表。還有一些如豆瓣,一些視頻音樂(lè)網(wǎng)站等也都應(yīng)用了協(xié)同過(guò)濾推薦技術(shù),基于協(xié)同過(guò)濾的個(gè)性化推薦也應(yīng)用到了博客、微博等網(wǎng)絡(luò)產(chǎn)品上。
協(xié)同過(guò)濾技術(shù)較基于規(guī)則與基于內(nèi)容的推薦優(yōu)點(diǎn):(1)能夠過(guò)濾機(jī)器難以進(jìn)行自動(dòng)內(nèi)容分析的信息類(lèi)型,如音樂(lè),視頻等;(2)應(yīng)用統(tǒng)計(jì)學(xué)原理,對(duì)大量的歷史記錄進(jìn)行分析,推薦的精確度更高;(3)可以發(fā)現(xiàn)用戶興趣的變化,并且獲得用戶的新興趣;(4)利用了用戶的反饋信息,可以即時(shí)修正推薦集。但是,協(xié)同過(guò)濾也不是完美無(wú)缺的,比如它存在冷啟動(dòng),歷史記錄稀疏性,新項(xiàng)目推薦失效等問(wèn)題,這需要在具體的推薦算法實(shí)現(xiàn)中去解決。
移動(dòng)網(wǎng)絡(luò)較傳統(tǒng)Internet具有更多的特殊性,因此移動(dòng)網(wǎng)絡(luò)上的個(gè)性化信息推薦質(zhì)量不但受到推薦算法本身的影響,也會(huì)受到移動(dòng)網(wǎng)絡(luò)資源的影響,本節(jié)將介紹影響移動(dòng)網(wǎng)絡(luò)個(gè)性化信息推薦質(zhì)量的關(guān)鍵因素。
個(gè)性化推薦技術(shù)需要一定的歷史信息作為依據(jù)來(lái)對(duì)用戶進(jìn)行推薦,個(gè)性化推薦技術(shù)是建立在歷史信息記錄的基礎(chǔ)之上的,或是用戶顯性輸入的信息,或是通過(guò)機(jī)器學(xué)習(xí)分析出來(lái)的信息。而信息具有時(shí)效性和時(shí)滯性,信息在一定時(shí)間內(nèi)是有效的信息,一旦超過(guò)了一定的期限它就沒(méi)有意義,此時(shí)就是無(wú)效信息。信息本身從信息源產(chǎn)生到需要該信息的宿主都需要一定的時(shí)間,因此信息又具有時(shí)滯性。因此時(shí)間的價(jià)值隨時(shí)間的流逝而變得越來(lái)越小,因此歷史信息在產(chǎn)生用戶推薦集的過(guò)程中發(fā)揮的作用是不盡相同的,如何使各個(gè)歷史階段的信息發(fā)揮不同的作用是移動(dòng)網(wǎng)絡(luò)個(gè)性化推薦系統(tǒng)要考慮的問(wèn)題之一。
系統(tǒng)初始化時(shí)由于系統(tǒng)積累的用戶信息或者瀏覽記錄信息不足,造成不能產(chǎn)生用戶推薦集,或者推薦集不準(zhǔn)確,這個(gè)問(wèn)題被稱(chēng)為推薦系統(tǒng)的冷啟動(dòng)問(wèn)題。冷啟動(dòng)在大多數(shù)軟件系統(tǒng)都存在,由于信息的積累需要一定的時(shí)間,因此在系統(tǒng)剛剛發(fā)布運(yùn)行時(shí)不能產(chǎn)生正確的結(jié)果集。個(gè)性化推薦系統(tǒng)是建立在大量事實(shí)信息基礎(chǔ)之上的,因此要產(chǎn)生比較滿意的推薦結(jié)果需要積累大量的事實(shí)信息。因此如何解決推薦系統(tǒng)的冷啟動(dòng)問(wèn)題是改進(jìn)推薦質(zhì)量的又一關(guān)鍵問(wèn)題。
移動(dòng)終端的私有性可以保證用戶獲取到有效的用戶信息需求。但是移動(dòng)終端設(shè)備在內(nèi)存,處理能力方面比較有限,決定了移動(dòng)終端設(shè)備不能處理復(fù)雜的人機(jī)交互功能,因此移動(dòng)網(wǎng)絡(luò)信息推薦系統(tǒng)不能像傳統(tǒng)的Internet信息推薦系統(tǒng)那樣在客戶端運(yùn)行監(jiān)控用戶行為特征的程序。移動(dòng)終端屏幕大小的限制,以及操控能力的限制決定了移動(dòng)終端在顯示能力方面的不足,它不可能像PC上以圖文并茂的方式進(jìn)行信息顯示以及動(dòng)態(tài)的輸入客戶端請(qǐng)求。移動(dòng)設(shè)備的電源以及數(shù)據(jù)存儲(chǔ)能力方面的限制,決定了移動(dòng)推薦系統(tǒng)不能不間斷的向終端用戶推薦信息。因此,針對(duì)移動(dòng)終端設(shè)備的種種不足,對(duì)移動(dòng)個(gè)性化推薦系統(tǒng)的推薦準(zhǔn)確性,推薦信息類(lèi)型,推薦方式以及終端的顯示與信息反饋形式都提出了新的要求。
移動(dòng)網(wǎng)絡(luò)具有移動(dòng)性,靈活性,使得人們獲取網(wǎng)絡(luò)信息不再約束在固定的位置上。移動(dòng)網(wǎng)絡(luò)質(zhì)量受到自身帶寬,地理位置等因素的限制,傳輸能力不能與傳統(tǒng)的有線網(wǎng)絡(luò)相比。因此移動(dòng)網(wǎng)絡(luò)上進(jìn)行信息傳遞需要考慮更多的問(wèn)題,比如傳遞信息的格式,信息文件的大小,降低網(wǎng)絡(luò)延時(shí)等。移動(dòng)網(wǎng)絡(luò)的個(gè)性化信息推薦對(duì)推薦的準(zhǔn)確度,系統(tǒng)響應(yīng)速度,獲取用戶信息反饋等方面都提出了新的要求。因此一個(gè)高效的移動(dòng)個(gè)性化推薦系統(tǒng)應(yīng)該具有運(yùn)行簡(jiǎn)單,響應(yīng)速度快,推薦準(zhǔn)確及時(shí)的特點(diǎn)。當(dāng)前移動(dòng)終端的計(jì)算能力相對(duì)有限,為了提高用戶的使用體驗(yàn),移動(dòng)客戶端程序應(yīng)該盡量減少計(jì)算數(shù)據(jù)量。
移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展,勢(shì)必會(huì)使移動(dòng)互聯(lián)網(wǎng)獲取有價(jià)值信息變得越困難,移動(dòng)個(gè)性化推薦成為今后解決移動(dòng)互聯(lián)網(wǎng)信息膨脹的主要方式。文章主要論述了與移動(dòng)網(wǎng)絡(luò)中應(yīng)用個(gè)性化信息推薦技術(shù)相關(guān)的技術(shù),以及影響移動(dòng)網(wǎng)絡(luò)個(gè)性化信息推薦的主要因素分析。
[1]劉枚蓮,叢曉琪,楊懷珍.改進(jìn)鄰居集合的個(gè)性化推薦算法[J].計(jì)算機(jī)工程,2009(11).
[2]張瑞華,周延年,王樅,李蕾.移動(dòng)終端離線瀏覽系統(tǒng)的新聞推薦研究[J].北京郵電大學(xué)學(xué)報(bào),2006,12(6).