亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于統(tǒng)計的數(shù)字電視信息過濾算法*

        2010-06-25 09:38:48劉春英吳德華
        電視技術(shù) 2010年7期
        關(guān)鍵詞:查全率查準(zhǔn)率特征向量

        劉春英,吳德華,宋 燁

        (長沙航空職業(yè)技術(shù)學(xué)院,湖南 長沙 410124)

        1 引言

        隨著數(shù)字電視和通信技術(shù)的不斷發(fā)展,用戶除了能看到越來越多的電視節(jié)目,更能享受到個性化信息服務(wù)等數(shù)字電視增值業(yè)務(wù)。但是,用戶在享受電視資訊服務(wù)的同時,同樣受到“信息迷向”和“信息過載”問題的困擾[1]。

        雖然數(shù)字電視的基本工作方式是廣播式的,但其發(fā)送數(shù)字信息的顆粒度仍然較高,流量仍然很大。如何從用戶終端的大量信息中篩選出用戶真正需要的信息,已成為這項增值業(yè)務(wù)能否讓用戶滿意的瓶頸。面對信息流量大而機頂盒存儲能力有限的矛盾,信息過濾技術(shù)在數(shù)字電視的個性化信息服務(wù)[2-3]中的應(yīng)用是推動數(shù)字電視增值業(yè)務(wù)更好、更快發(fā)展的必然趨勢。因此,迫切需要一個信息過濾系統(tǒng)來滿足電視觀眾日益俱增的個性化需求,實現(xiàn)數(shù)字電視平臺上的個性化信息服務(wù)。

        2 數(shù)字電視信息過濾與網(wǎng)絡(luò)信息過濾技術(shù)對比

        信息過濾的主要任務(wù)是將信息源與用戶興趣模型進(jìn)行比較,根據(jù)比較結(jié)果過濾掉不相關(guān)的信息,選出用戶關(guān)注的信息。網(wǎng)絡(luò)信息過濾系統(tǒng)一般包括信息源、過濾部分、用戶和用戶興趣模型4個基本組成部分[4]。為了提高過濾的效率與精度,系統(tǒng)還可根據(jù)過濾結(jié)果提供相應(yīng)的反饋機制來不斷更新用戶興趣模型[5],使用戶的信息需求越來越明確,其工作過程見圖1。

        數(shù)字電視信息過濾系統(tǒng)在技術(shù)上與網(wǎng)絡(luò)上的信息過濾類似,所不同的是它以廣播式信道為基礎(chǔ),具有單向性的特點。而網(wǎng)絡(luò)上的商業(yè)化搜索引擎的搜索對象是半結(jié)構(gòu)化的,工作環(huán)境是強大的服務(wù)器集群,檢索結(jié)果也不盡理想。例如,谷歌(Google)的查準(zhǔn)率很高,但冗余率也很高,一般只有搜索結(jié)果的前幾項是用戶感興趣的內(nèi)容。而數(shù)字電視信息過濾系統(tǒng)的處理對象是非結(jié)構(gòu)化的TS碼流,工作平臺是數(shù)字電視終端(目前主要是機頂盒),可利用的軟硬件資源都十分有限,不適于使用網(wǎng)絡(luò)信息過濾技術(shù)。另一方面,機頂盒是一個小平臺,無法完成信息過濾的所有工作,如中文分詞、特征抽取等工作只能在廣播網(wǎng)絡(luò)前端完成。因此,怎樣結(jié)合數(shù)字電視的特點,尋求一種行之有效的用戶興趣模型、精簡的信息過濾算法和學(xué)習(xí)算法是在數(shù)字電視中實現(xiàn)信息過濾技術(shù)的關(guān)鍵所在。

        數(shù)字電視信息過濾系統(tǒng)的用戶興趣模型是對用戶興趣的描述,常用的模型主要以文本描述模型為基礎(chǔ),輔以對用戶興趣的描述,構(gòu)成用戶興趣模型。信息過濾算法在用戶興趣模型與信息源之間進(jìn)行匹配。用戶興趣學(xué)習(xí)算法的作用是對用戶興趣模型進(jìn)行修正。數(shù)字電視信息過濾系統(tǒng)的處理對象的特殊性及數(shù)字電視終端的軟硬件資源的有限性,決定了數(shù)字電視信息過濾系統(tǒng)中的信息過濾算法、用戶興趣模型和學(xué)習(xí)算法不能太復(fù)雜。

        3 基于統(tǒng)計的數(shù)字電視信息過濾算法

        根據(jù)數(shù)字電視的精簡性要求及其工作的軟硬環(huán)境,筆者提出了一種適用于數(shù)字電視的信息過濾算法,如圖2所示。該過濾算法以向量空間模型為基礎(chǔ),重點是特征向量集的建立和修正以及特征向量匹配算法。索引及索引點擊率順序表則體現(xiàn)了用戶興趣。

        該算法的特點在于信息過濾系統(tǒng)不是簡單地從用戶詞典中取出幾個表示用戶興趣的關(guān)鍵詞去匹配*.txt文本,而是用這些關(guān)鍵詞及其概念范疇的合集組成特征向量集去匹配*.txt文本。由此得到的特征向量集更能體現(xiàn)用戶興趣。這樣可以挖掘文本的潛在語義,避免某些包含同義詞或多義詞的文檔被過濾系統(tǒng)遺漏,提高過濾效果。例如,用戶詞典中的關(guān)鍵詞“足球”,它的概念范疇有“射門”、“門將”、“鏟球”、“點球”、“進(jìn)球”等若干詞,則(門將,射門,鏟球,點球,進(jìn)球)就是匹配“足球”信息時用的初始特征向量,并且特征向量中每個關(guān)鍵詞都帶有權(quán)重。在用戶動作之后,信息過濾系統(tǒng)要能根據(jù)用戶的動作指令判斷初始特征向量中的哪些分量的權(quán)重較高,要繼續(xù)留下;哪些特征向量分量權(quán)重低于事先設(shè)定的閾值,要從特征向量中剔除掉。

        本設(shè)計采用的是一種基于統(tǒng)計的方法,即通過統(tǒng)計各關(guān)鍵詞的出現(xiàn)頻率,來確定特征向量和特征向量分量的權(quán)重。此算法基于如下假設(shè):1)用戶輸入的關(guān)鍵詞是有限的;2)預(yù)先設(shè)計的索引結(jié)構(gòu)和用戶詞典是合理的;3)用戶瀏覽的點擊率能比較可靠地體現(xiàn)用戶興趣。

        4 實驗結(jié)果分析

        在本算法的研究過程中,采取了查全率和查準(zhǔn)率[6]作為評價指標(biāo),對該信息過濾算法的效果進(jìn)行模擬評價。在實驗中,首先人為設(shè)置初始特征向量,然后選擇了50篇文檔進(jìn)行測試,實驗結(jié)果如表1所示。

        表1 實驗結(jié)果

        開始實驗時,初始特征向量由系統(tǒng)預(yù)置,用該特征向量匹配出來的信息用戶不一定感興趣。例如,首先設(shè)置初始特征向量為(球迷,門將,射門,鏟球,點球,進(jìn)球),實驗結(jié)果顯示查準(zhǔn)率很低。隨著實驗的進(jìn)行,在用戶動作指令的影響下,系統(tǒng)通過計算發(fā)現(xiàn)“球迷”的權(quán)重最低,將它從特征向量中剔除。依此類推,在特征向量的不斷修正中,查全率與查準(zhǔn)率逐步好轉(zhuǎn),最后達(dá)到比較理想的效果。

        表1表示的只是將特征向量中權(quán)重較低的關(guān)鍵詞逐一剔除后的情況。實際中,也可通過分析用戶的瀏覽歷史,將一些權(quán)重很高但并沒有出現(xiàn)在初始特征向量的關(guān)鍵詞添加進(jìn)特征向量。當(dāng)然,用查全率和查準(zhǔn)率來評價數(shù)字電視中的信息過濾算法的效果存在一定的誤差。原因在于:首先,該信息過濾算法設(shè)定只返回關(guān)聯(lián)度大于某個固定閾值的信息,閾值的取值不同,返回的信息數(shù)量也會不同,因此采用查準(zhǔn)率、查全率來衡量過濾效果就會造成誤差。再者,數(shù)字電視中信息源(TS碼流)不斷動態(tài)變化,會導(dǎo)致計算查全率時無法特別準(zhǔn)確地確定信息源中符合用戶興趣的全部信息量,從而無法很精確地計算查全率。

        5 小結(jié)

        為了提高信息過濾的效率和精度,讓個性化信息過濾技術(shù)真正應(yīng)用于數(shù)字電視,結(jié)合數(shù)字電視廣播的特點,設(shè)計了一種適用于數(shù)字電視的個性化信息過濾算法,并通過一系列實驗證明了該算法的可行性。不過,實驗中也存在一些不足,一是用查全率和查準(zhǔn)率指標(biāo)評價該信息過濾算法的過濾效果不是很精確;二是目前沒有將該算法加入機頂盒解碼芯片進(jìn)行實際驗證,這都需要在今后的研究中繼續(xù)努力。

        [1]延霞.基于信息過濾技術(shù)的搜索引擎研究[J].深圳信息職業(yè)技術(shù)學(xué)院學(xué)報,2005(3):20-24.

        [2]龐雅麗,王彩芬.個性化信息過濾技術(shù)[J].甘肅科技,2007(3):124-126.

        [3]吳學(xué)輝,張敏.個性化信息過濾系統(tǒng)研究[J].重慶科技學(xué)院學(xué)報,2008(3):96-98.

        [4]張園園.基于用戶興趣的個性化搜索引擎的分析與研究[D].秦皇島:燕山大學(xué),2006.

        [5]王翠平.基于用戶興趣度的網(wǎng)絡(luò)信息過濾模型研究[D].濟(jì)南:山東師范大學(xué),2007.

        [6]牛洪波,丁華福.基于文本分類技術(shù)的信息過濾方法的研究[J].信息技術(shù),2007(12):100-102.

        猜你喜歡
        查全率查準(zhǔn)率特征向量
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        海量圖書館檔案信息的快速檢索方法
        基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計
        一類特殊矩陣特征向量的求法
        基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
        大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
        基于深度特征分析的雙線性圖像相似度匹配算法
        中文分詞技術(shù)對中文搜索引擎的查準(zhǔn)率及查全率的影響
        国产成+人欧美+综合在线观看 | 男人和女人做爽爽免费视频| 狠狠色噜噜狠狠狠狠7777米奇| 男女超爽视频免费播放| 毛片一级精油按摩无码| 国产成人自拍视频视频| h视频在线播放观看视频| 亚洲va韩国va欧美va| 熟女人妇交换俱乐部| 久久午夜无码鲁丝片午夜精品| 国产高颜值大学生情侣酒店| 亚洲VA中文字幕欧美VA丝袜| 中文字幕一区二区三区.| 国产91极品身材白皙| 久久久久亚洲精品男人的天堂| 开心五月激情综合婷婷色| 国产香蕉尹人综合在线观| 99RE6在线观看国产精品| 亚洲最大不卡av网站| 男女啪啪在线视频网站| 羞羞色院99精品全部免| 一本久久综合亚洲鲁鲁五月天| a级毛片成人网站免费看| 91久久福利国产成人精品| 丰满人妻无套内射视频| 国产熟女一区二区三区不卡| 真人做爰试看120秒| 中文字幕被公侵犯的漂亮人妻| 精品国产免费Av无码久久久| 亚洲国产综合性感三级自拍| 一区二区三区午夜视频在线 | 国产黑色丝袜在线观看下| 亚洲精品国产av一区二区| 国产免费人成视频在线| 在线播放真实国产乱子伦| 亚洲国产精品嫩草影院久久| 中文字幕人妻丝袜成熟乱| 五月激情四射开心久久久| 三级做a全过程在线观看| 亚洲碰碰人人av熟女天堂| 无码国产精品一区二区免费网曝|