亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于統(tǒng)計的數(shù)字電視信息過濾算法*

2010-06-25 09:38:48劉春英吳德華

電視技術(shù) 2010年7期

劉春英，吳德華，宋燁

（長沙航空職業(yè)技術(shù)學(xué)院，湖南長沙 410124）

1 引言

隨著數(shù)字電視和通信技術(shù)的不斷發(fā)展，用戶除了能看到越來越多的電視節(jié)目，更能享受到個性化信息服務(wù)等數(shù)字電視增值業(yè)務(wù)。但是，用戶在享受電視資訊服務(wù)的同時，同樣受到“信息迷向”和“信息過載”問題的困擾[1]。

雖然數(shù)字電視的基本工作方式是廣播式的，但其發(fā)送數(shù)字信息的顆粒度仍然較高，流量仍然很大。如何從用戶終端的大量信息中篩選出用戶真正需要的信息，已成為這項增值業(yè)務(wù)能否讓用戶滿意的瓶頸。面對信息流量大而機頂盒存儲能力有限的矛盾，信息過濾技術(shù)在數(shù)字電視的個性化信息服務(wù)[2-3]中的應(yīng)用是推動數(shù)字電視增值業(yè)務(wù)更好、更快發(fā)展的必然趨勢。因此，迫切需要一個信息過濾系統(tǒng)來滿足電視觀眾日益俱增的個性化需求，實現(xiàn)數(shù)字電視平臺上的個性化信息服務(wù)。

2 數(shù)字電視信息過濾與網(wǎng)絡(luò)信息過濾技術(shù)對比

信息過濾的主要任務(wù)是將信息源與用戶興趣模型進(jìn)行比較，根據(jù)比較結(jié)果過濾掉不相關(guān)的信息，選出用戶關(guān)注的信息。網(wǎng)絡(luò)信息過濾系統(tǒng)一般包括信息源、過濾部分、用戶和用戶興趣模型4個基本組成部分[4]。為了提高過濾的效率與精度，系統(tǒng)還可根據(jù)過濾結(jié)果提供相應(yīng)的反饋機制來不斷更新用戶興趣模型[5]，使用戶的信息需求越來越明確，其工作過程見圖1。

數(shù)字電視信息過濾系統(tǒng)在技術(shù)上與網(wǎng)絡(luò)上的信息過濾類似，所不同的是它以廣播式信道為基礎(chǔ)，具有單向性的特點。而網(wǎng)絡(luò)上的商業(yè)化搜索引擎的搜索對象是半結(jié)構(gòu)化的，工作環(huán)境是強大的服務(wù)器集群，檢索結(jié)果也不盡理想。例如，谷歌（Google）的查準(zhǔn)率很高，但冗余率也很高，一般只有搜索結(jié)果的前幾項是用戶感興趣的內(nèi)容。而數(shù)字電視信息過濾系統(tǒng)的處理對象是非結(jié)構(gòu)化的TS碼流，工作平臺是數(shù)字電視終端（目前主要是機頂盒），可利用的軟硬件資源都十分有限，不適于使用網(wǎng)絡(luò)信息過濾技術(shù)。另一方面，機頂盒是一個小平臺，無法完成信息過濾的所有工作，如中文分詞、特征抽取等工作只能在廣播網(wǎng)絡(luò)前端完成。因此，怎樣結(jié)合數(shù)字電視的特點，尋求一種行之有效的用戶興趣模型、精簡的信息過濾算法和學(xué)習(xí)算法是在數(shù)字電視中實現(xiàn)信息過濾技術(shù)的關(guān)鍵所在。

數(shù)字電視信息過濾系統(tǒng)的用戶興趣模型是對用戶興趣的描述，常用的模型主要以文本描述模型為基礎(chǔ)，輔以對用戶興趣的描述，構(gòu)成用戶興趣模型。信息過濾算法在用戶興趣模型與信息源之間進(jìn)行匹配。用戶興趣學(xué)習(xí)算法的作用是對用戶興趣模型進(jìn)行修正。數(shù)字電視信息過濾系統(tǒng)的處理對象的特殊性及數(shù)字電視終端的軟硬件資源的有限性，決定了數(shù)字電視信息過濾系統(tǒng)中的信息過濾算法、用戶興趣模型和學(xué)習(xí)算法不能太復(fù)雜。

3 基于統(tǒng)計的數(shù)字電視信息過濾算法

根據(jù)數(shù)字電視的精簡性要求及其工作的軟硬環(huán)境，筆者提出了一種適用于數(shù)字電視的信息過濾算法，如圖2所示。該過濾算法以向量空間模型為基礎(chǔ)，重點是特征向量集的建立和修正以及特征向量匹配算法。索引及索引點擊率順序表則體現(xiàn)了用戶興趣。

該算法的特點在于信息過濾系統(tǒng)不是簡單地從用戶詞典中取出幾個表示用戶興趣的關(guān)鍵詞去匹配*.txt文本，而是用這些關(guān)鍵詞及其概念范疇的合集組成特征向量集去匹配*.txt文本。由此得到的特征向量集更能體現(xiàn)用戶興趣。這樣可以挖掘文本的潛在語義，避免某些包含同義詞或多義詞的文檔被過濾系統(tǒng)遺漏，提高過濾效果。例如，用戶詞典中的關(guān)鍵詞“足球”，它的概念范疇有“射門”、“門將”、“鏟球”、“點球”、“進(jìn)球”等若干詞，則（門將，射門，鏟球，點球，進(jìn)球）就是匹配“足球”信息時用的初始特征向量，并且特征向量中每個關(guān)鍵詞都帶有權(quán)重。在用戶動作之后，信息過濾系統(tǒng)要能根據(jù)用戶的動作指令判斷初始特征向量中的哪些分量的權(quán)重較高，要繼續(xù)留下；哪些特征向量分量權(quán)重低于事先設(shè)定的閾值，要從特征向量中剔除掉。

本設(shè)計采用的是一種基于統(tǒng)計的方法，即通過統(tǒng)計各關(guān)鍵詞的出現(xiàn)頻率，來確定特征向量和特征向量分量的權(quán)重。此算法基于如下假設(shè)：1）用戶輸入的關(guān)鍵詞是有限的；2）預(yù)先設(shè)計的索引結(jié)構(gòu)和用戶詞典是合理的；3）用戶瀏覽的點擊率能比較可靠地體現(xiàn)用戶興趣。

4 實驗結(jié)果分析

在本算法的研究過程中，采取了查全率和查準(zhǔn)率[6]作為評價指標(biāo)，對該信息過濾算法的效果進(jìn)行模擬評價。在實驗中，首先人為設(shè)置初始特征向量，然后選擇了50篇文檔進(jìn)行測試，實驗結(jié)果如表1所示。

表1 實驗結(jié)果

開始實驗時，初始特征向量由系統(tǒng)預(yù)置，用該特征向量匹配出來的信息用戶不一定感興趣。例如，首先設(shè)置初始特征向量為（球迷，門將，射門，鏟球，點球，進(jìn)球），實驗結(jié)果顯示查準(zhǔn)率很低。隨著實驗的進(jìn)行，在用戶動作指令的影響下，系統(tǒng)通過計算發(fā)現(xiàn)“球迷”的權(quán)重最低，將它從特征向量中剔除。依此類推，在特征向量的不斷修正中，查全率與查準(zhǔn)率逐步好轉(zhuǎn)，最后達(dá)到比較理想的效果。

表1表示的只是將特征向量中權(quán)重較低的關(guān)鍵詞逐一剔除后的情況。實際中，也可通過分析用戶的瀏覽歷史，將一些權(quán)重很高但并沒有出現(xiàn)在初始特征向量的關(guān)鍵詞添加進(jìn)特征向量。當(dāng)然，用查全率和查準(zhǔn)率來評價數(shù)字電視中的信息過濾算法的效果存在一定的誤差。原因在于：首先，該信息過濾算法設(shè)定只返回關(guān)聯(lián)度大于某個固定閾值的信息，閾值的取值不同，返回的信息數(shù)量也會不同，因此采用查準(zhǔn)率、查全率來衡量過濾效果就會造成誤差。再者，數(shù)字電視中信息源（TS碼流）不斷動態(tài)變化，會導(dǎo)致計算查全率時無法特別準(zhǔn)確地確定信息源中符合用戶興趣的全部信息量，從而無法很精確地計算查全率。

5 小結(jié)

為了提高信息過濾的效率和精度，讓個性化信息過濾技術(shù)真正應(yīng)用于數(shù)字電視，結(jié)合數(shù)字電視廣播的特點，設(shè)計了一種適用于數(shù)字電視的個性化信息過濾算法，并通過一系列實驗證明了該算法的可行性。不過，實驗中也存在一些不足，一是用查全率和查準(zhǔn)率指標(biāo)評價該信息過濾算法的過濾效果不是很精確；二是目前沒有將該算法加入機頂盒解碼芯片進(jìn)行實際驗證，這都需要在今后的研究中繼續(xù)努力。

[1]延霞.基于信息過濾技術(shù)的搜索引擎研究[J].深圳信息職業(yè)技術(shù)學(xué)院學(xué)報，2005（3）：20-24.

[2]龐雅麗，王彩芬.個性化信息過濾技術(shù)[J].甘肅科技，2007（3）：124-126.

[3]吳學(xué)輝，張敏.個性化信息過濾系統(tǒng)研究[J].重慶科技學(xué)院學(xué)報，2008（3）：96-98.

[4]張園園.基于用戶興趣的個性化搜索引擎的分析與研究[D].秦皇島：燕山大學(xué)，2006.

[5]王翠平.基于用戶興趣度的網(wǎng)絡(luò)信息過濾模型研究[D].濟(jì)南：山東師范大學(xué)，2007.

[6]牛洪波，丁華福.基于文本分類技術(shù)的信息過濾方法的研究[J].信息技術(shù)，2007（12）：100-102.