劉春英,吳德華,宋 燁
(長沙航空職業(yè)技術(shù)學(xué)院,湖南 長沙 410124)
隨著數(shù)字電視和通信技術(shù)的不斷發(fā)展,用戶除了能看到越來越多的電視節(jié)目,更能享受到個性化信息服務(wù)等數(shù)字電視增值業(yè)務(wù)。但是,用戶在享受電視資訊服務(wù)的同時,同樣受到“信息迷向”和“信息過載”問題的困擾[1]。
雖然數(shù)字電視的基本工作方式是廣播式的,但其發(fā)送數(shù)字信息的顆粒度仍然較高,流量仍然很大。如何從用戶終端的大量信息中篩選出用戶真正需要的信息,已成為這項增值業(yè)務(wù)能否讓用戶滿意的瓶頸。面對信息流量大而機頂盒存儲能力有限的矛盾,信息過濾技術(shù)在數(shù)字電視的個性化信息服務(wù)[2-3]中的應(yīng)用是推動數(shù)字電視增值業(yè)務(wù)更好、更快發(fā)展的必然趨勢。因此,迫切需要一個信息過濾系統(tǒng)來滿足電視觀眾日益俱增的個性化需求,實現(xiàn)數(shù)字電視平臺上的個性化信息服務(wù)。
信息過濾的主要任務(wù)是將信息源與用戶興趣模型進(jìn)行比較,根據(jù)比較結(jié)果過濾掉不相關(guān)的信息,選出用戶關(guān)注的信息。網(wǎng)絡(luò)信息過濾系統(tǒng)一般包括信息源、過濾部分、用戶和用戶興趣模型4個基本組成部分[4]。為了提高過濾的效率與精度,系統(tǒng)還可根據(jù)過濾結(jié)果提供相應(yīng)的反饋機制來不斷更新用戶興趣模型[5],使用戶的信息需求越來越明確,其工作過程見圖1。
數(shù)字電視信息過濾系統(tǒng)在技術(shù)上與網(wǎng)絡(luò)上的信息過濾類似,所不同的是它以廣播式信道為基礎(chǔ),具有單向性的特點。而網(wǎng)絡(luò)上的商業(yè)化搜索引擎的搜索對象是半結(jié)構(gòu)化的,工作環(huán)境是強大的服務(wù)器集群,檢索結(jié)果也不盡理想。例如,谷歌(Google)的查準(zhǔn)率很高,但冗余率也很高,一般只有搜索結(jié)果的前幾項是用戶感興趣的內(nèi)容。而數(shù)字電視信息過濾系統(tǒng)的處理對象是非結(jié)構(gòu)化的TS碼流,工作平臺是數(shù)字電視終端(目前主要是機頂盒),可利用的軟硬件資源都十分有限,不適于使用網(wǎng)絡(luò)信息過濾技術(shù)。另一方面,機頂盒是一個小平臺,無法完成信息過濾的所有工作,如中文分詞、特征抽取等工作只能在廣播網(wǎng)絡(luò)前端完成。因此,怎樣結(jié)合數(shù)字電視的特點,尋求一種行之有效的用戶興趣模型、精簡的信息過濾算法和學(xué)習(xí)算法是在數(shù)字電視中實現(xiàn)信息過濾技術(shù)的關(guān)鍵所在。
數(shù)字電視信息過濾系統(tǒng)的用戶興趣模型是對用戶興趣的描述,常用的模型主要以文本描述模型為基礎(chǔ),輔以對用戶興趣的描述,構(gòu)成用戶興趣模型。信息過濾算法在用戶興趣模型與信息源之間進(jìn)行匹配。用戶興趣學(xué)習(xí)算法的作用是對用戶興趣模型進(jìn)行修正。數(shù)字電視信息過濾系統(tǒng)的處理對象的特殊性及數(shù)字電視終端的軟硬件資源的有限性,決定了數(shù)字電視信息過濾系統(tǒng)中的信息過濾算法、用戶興趣模型和學(xué)習(xí)算法不能太復(fù)雜。
根據(jù)數(shù)字電視的精簡性要求及其工作的軟硬環(huán)境,筆者提出了一種適用于數(shù)字電視的信息過濾算法,如圖2所示。該過濾算法以向量空間模型為基礎(chǔ),重點是特征向量集的建立和修正以及特征向量匹配算法。索引及索引點擊率順序表則體現(xiàn)了用戶興趣。
該算法的特點在于信息過濾系統(tǒng)不是簡單地從用戶詞典中取出幾個表示用戶興趣的關(guān)鍵詞去匹配*.txt文本,而是用這些關(guān)鍵詞及其概念范疇的合集組成特征向量集去匹配*.txt文本。由此得到的特征向量集更能體現(xiàn)用戶興趣。這樣可以挖掘文本的潛在語義,避免某些包含同義詞或多義詞的文檔被過濾系統(tǒng)遺漏,提高過濾效果。例如,用戶詞典中的關(guān)鍵詞“足球”,它的概念范疇有“射門”、“門將”、“鏟球”、“點球”、“進(jìn)球”等若干詞,則(門將,射門,鏟球,點球,進(jìn)球)就是匹配“足球”信息時用的初始特征向量,并且特征向量中每個關(guān)鍵詞都帶有權(quán)重。在用戶動作之后,信息過濾系統(tǒng)要能根據(jù)用戶的動作指令判斷初始特征向量中的哪些分量的權(quán)重較高,要繼續(xù)留下;哪些特征向量分量權(quán)重低于事先設(shè)定的閾值,要從特征向量中剔除掉。
本設(shè)計采用的是一種基于統(tǒng)計的方法,即通過統(tǒng)計各關(guān)鍵詞的出現(xiàn)頻率,來確定特征向量和特征向量分量的權(quán)重。此算法基于如下假設(shè):1)用戶輸入的關(guān)鍵詞是有限的;2)預(yù)先設(shè)計的索引結(jié)構(gòu)和用戶詞典是合理的;3)用戶瀏覽的點擊率能比較可靠地體現(xiàn)用戶興趣。
在本算法的研究過程中,采取了查全率和查準(zhǔn)率[6]作為評價指標(biāo),對該信息過濾算法的效果進(jìn)行模擬評價。在實驗中,首先人為設(shè)置初始特征向量,然后選擇了50篇文檔進(jìn)行測試,實驗結(jié)果如表1所示。
表1 實驗結(jié)果
開始實驗時,初始特征向量由系統(tǒng)預(yù)置,用該特征向量匹配出來的信息用戶不一定感興趣。例如,首先設(shè)置初始特征向量為(球迷,門將,射門,鏟球,點球,進(jìn)球),實驗結(jié)果顯示查準(zhǔn)率很低。隨著實驗的進(jìn)行,在用戶動作指令的影響下,系統(tǒng)通過計算發(fā)現(xiàn)“球迷”的權(quán)重最低,將它從特征向量中剔除。依此類推,在特征向量的不斷修正中,查全率與查準(zhǔn)率逐步好轉(zhuǎn),最后達(dá)到比較理想的效果。
表1表示的只是將特征向量中權(quán)重較低的關(guān)鍵詞逐一剔除后的情況。實際中,也可通過分析用戶的瀏覽歷史,將一些權(quán)重很高但并沒有出現(xiàn)在初始特征向量的關(guān)鍵詞添加進(jìn)特征向量。當(dāng)然,用查全率和查準(zhǔn)率來評價數(shù)字電視中的信息過濾算法的效果存在一定的誤差。原因在于:首先,該信息過濾算法設(shè)定只返回關(guān)聯(lián)度大于某個固定閾值的信息,閾值的取值不同,返回的信息數(shù)量也會不同,因此采用查準(zhǔn)率、查全率來衡量過濾效果就會造成誤差。再者,數(shù)字電視中信息源(TS碼流)不斷動態(tài)變化,會導(dǎo)致計算查全率時無法特別準(zhǔn)確地確定信息源中符合用戶興趣的全部信息量,從而無法很精確地計算查全率。
為了提高信息過濾的效率和精度,讓個性化信息過濾技術(shù)真正應(yīng)用于數(shù)字電視,結(jié)合數(shù)字電視廣播的特點,設(shè)計了一種適用于數(shù)字電視的個性化信息過濾算法,并通過一系列實驗證明了該算法的可行性。不過,實驗中也存在一些不足,一是用查全率和查準(zhǔn)率指標(biāo)評價該信息過濾算法的過濾效果不是很精確;二是目前沒有將該算法加入機頂盒解碼芯片進(jìn)行實際驗證,這都需要在今后的研究中繼續(xù)努力。
[1]延霞.基于信息過濾技術(shù)的搜索引擎研究[J].深圳信息職業(yè)技術(shù)學(xué)院學(xué)報,2005(3):20-24.
[2]龐雅麗,王彩芬.個性化信息過濾技術(shù)[J].甘肅科技,2007(3):124-126.
[3]吳學(xué)輝,張敏.個性化信息過濾系統(tǒng)研究[J].重慶科技學(xué)院學(xué)報,2008(3):96-98.
[4]張園園.基于用戶興趣的個性化搜索引擎的分析與研究[D].秦皇島:燕山大學(xué),2006.
[5]王翠平.基于用戶興趣度的網(wǎng)絡(luò)信息過濾模型研究[D].濟(jì)南:山東師范大學(xué),2007.
[6]牛洪波,丁華福.基于文本分類技術(shù)的信息過濾方法的研究[J].信息技術(shù),2007(12):100-102.