亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web挖掘優(yōu)化VOD點播系統(tǒng)

        2012-11-09 13:42:26錢丹
        中國教育網(wǎng)絡 2012年3期
        關鍵詞:日志頁面數(shù)據(jù)挖掘

        文/錢丹

        Web挖掘優(yōu)化VOD點播系統(tǒng)

        文/錢丹

        VOD (Video On Demand,視頻點播技術),也稱為交互式媒體視頻點播系統(tǒng),是計算機技術、網(wǎng)絡技術、多媒體技術發(fā)展的產(chǎn)物,是一項全新的信息服務。如今各大高校校園網(wǎng)建設日趨完善,網(wǎng)絡輔助的重要性日益凸顯,VOD系統(tǒng)在高校輔助教學領域得到充分應用,由此展開一系列針對VOD系統(tǒng)服務性能的研究,其中優(yōu)化站點服務、提供個性化選擇成為研究的熱點。

        VOD系統(tǒng)在應用過程中遇到的問題是,隨著VOD系統(tǒng)中影片資源集的不斷增大,點播人數(shù)的眾多,服務器的負荷日益加重。VOD服務器系統(tǒng)、網(wǎng)絡傳輸系統(tǒng)和終端系統(tǒng)的性能是視頻點播系統(tǒng)能否提供高質(zhì)量服務的三個方面。因此希望通過對不同時間段、不同用戶群點播數(shù)據(jù)的挖掘提出優(yōu)化服務器負載的解決辦法,也就是針對VOD服務器系統(tǒng),利用Web挖掘技術優(yōu)化其性能,以免成為整個系統(tǒng)的瓶頸。校園網(wǎng)絡因其使用群體層次高、頻度大、范圍廣,因而更加需要高質(zhì)量的網(wǎng)絡。如何通過分析用戶行為,合理分配流量,提高用戶使用網(wǎng)絡的效率已成為校園網(wǎng)絡管理的一個重要課題。

        我們以南通大學校園網(wǎng)教學VOD點播系統(tǒng)為基礎,運用Web挖掘技術,以校園網(wǎng)用戶的行為特征為對象進行關聯(lián)性分析,在對點播系統(tǒng)優(yōu)化后,通過有針對性的引導,對不同用戶進行個性化推薦,以提高頁面訪問的效率和視頻資源的利用率,從而減輕服務器負載,使點播更加流暢,并提出一個新思路:根據(jù)各大高校的網(wǎng)絡部署,不僅可以針對整個群體進行推薦,還可以將用戶進一步劃分,區(qū)分為學生組和教師組,甚至細分至各學院不同專業(yè),就可以根據(jù)同一IP地址段用戶的點擊習慣來生成該區(qū)域用戶的關聯(lián)模型,從而有針對性、更精確、更人性化地提供VOD的推薦服務。

        Web挖掘向用戶智能化推薦資源

        數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識。這些知識是隱含的、事先未知的潛在有用信息,提取的知識表示為概念(Concepts)、規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)等形式[1]。數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程的一個基本步驟,也是最重要的步驟,它是用來評估的隱藏模式。

        圖1 VOD推薦系統(tǒng)模型

        圖2 未經(jīng)篩選的VOD用戶點播日志

        Web包含豐富、動態(tài)的超鏈接信息,以及Web頁面的訪問和使用信息,這為數(shù)據(jù)挖掘提供豐富的資源。Web挖掘發(fā)展成為數(shù)據(jù)挖掘中的一個重要分支。Web挖掘的過程可粗略地分為:問題定義、數(shù)據(jù)準備、數(shù)據(jù)挖掘算法執(zhí)行和模型建立、對結果的分析和模型的評估。Web挖掘的任務很多,有分類、聚類、關聯(lián)、預測等。根據(jù)挖掘目的,采用不同的任務和技術對結果的影響非常重要,也是能否得到有意義結果的關鍵因素。

        根據(jù)VOD系統(tǒng)用戶點播影片的詳細訪問記錄,我們可以從中發(fā)現(xiàn)用戶的行為模式,建立訪問模型,有針對性地為用戶做出智能化推薦,減少用戶盲目搜索的時間,提高VOD系統(tǒng)的服務效率。根據(jù)這一目標,我們采用Microsoft關聯(lián)性規(guī)則算法[2],該算法的兩個關鍵參數(shù)是MINIMUM_SUPPORT(項要成為頻繁項集所必須滿足的最小支持度)和MINIMUM_PROBABILITY(關聯(lián)規(guī)則的最小概率)來說明項集以及該算法生成的規(guī)則。在我們進行Web數(shù)據(jù)挖掘過程中,需要多次設置參數(shù)組合來比較挖掘結果,并通過模擬測試以得到最佳參數(shù)設置[3][4]。

        建立動態(tài)變化的VOD前臺系統(tǒng)

        為保障研究課題的順利進行,我們對實驗環(huán)境進行精心部署,在服務器上安裝SQL 2005來進行數(shù)據(jù)挖掘。因為數(shù)據(jù)挖掘不是實時的數(shù)據(jù)處理,所以我們進一步將VOD的前臺點播頁面也同時部署在這臺服務器上,以便更好地實施后續(xù)工作。在研究過程中,我們采用Visual Studio.Net為開發(fā)平臺,使用C#語言來進行編程。由于VOD用戶對每個頁面的瀏覽和每部影片的點播都會存入日志數(shù)據(jù)庫,我們通過對該數(shù)據(jù)庫的挖掘來獲取詳細數(shù)據(jù),并構建模型,創(chuàng)建一個獨立的影片推薦模塊。根據(jù)不同用戶組的歷史點擊情況,定制個性化的點播頁面,形成動態(tài)變化的VOD前臺系統(tǒng),并嵌入到當前的點播系統(tǒng)中,從而優(yōu)化服務器負載,改善網(wǎng)站系統(tǒng)運行情況。

        具體實施步驟如下:

        第一步:對分組用戶進行匯總,將數(shù)據(jù)庫中的信息作為數(shù)據(jù)源,考察用戶各項行為數(shù)據(jù)。對Web挖掘的數(shù)據(jù)特征項進行分析,并進行數(shù)據(jù)預處理,挖掘出有效數(shù)據(jù)。

        第二步:根據(jù)Web挖掘的具體目標,制定挖掘任務,并構建模型。

        第三步:利用Web挖掘所得到的數(shù)據(jù),結合終端用戶的實際點播情況,動態(tài)生成點播系統(tǒng)的前臺頁面。

        VOD個性化點播推薦系統(tǒng)的設計方案由離線部分和在線部分兩部分組成,如圖1所示。其中,離線部分實現(xiàn)數(shù)據(jù)的采集、預處理以及推薦模型的生成等功能,在線部分接受推薦請求、運行推薦策略并實時產(chǎn)生推薦結果。

        數(shù)據(jù)處理及模型建立

        數(shù)據(jù)采集

        根據(jù)所需要得到的結果和不同的挖掘任務,Web數(shù)據(jù)挖掘[5]可以分為三種類型:針對內(nèi)容的Web挖掘,針對結構的Web挖掘,針對使用記錄的Web挖掘。[6]在本文中,我們所重點研究的是:針對使用記錄的Web挖掘。當用戶訪問VOD視頻點播系統(tǒng)時,其所點擊的頁面等一系列操作都會記錄在日志服務器中。我們對各類用戶訪問的頁面進行分析,通過有序的數(shù)據(jù)來預測訪問者對VOD站點的下一步訪問行為,從而獲得用戶瀏覽站點時的點擊流。我們可以用于挖掘的參考數(shù)據(jù)包括:Web用戶的IP地址、參考頁面、訪問日期和時間及配置信息。一個用戶會話描述了用戶在登錄Web后一段時間內(nèi)瀏覽的網(wǎng)頁序列,通常將這組網(wǎng)頁稱為一個訪問[7]。

        數(shù)據(jù)預處理

        我們對VOD視頻點播系統(tǒng)進行優(yōu)化,歸根結底是通過挖掘Web日志來實現(xiàn)的。用戶訪問模式的發(fā)現(xiàn)也必然依賴于VOD服務器產(chǎn)生的日志文件,因此,如何將日志中的有效信息進行合理篩選,是我們優(yōu)化的關鍵。Web日志將各類用戶的訪問行為記錄在冊,其中涵蓋大量有效與無效信息。這使得我們對Web訪問日志的分析和挖掘必須經(jīng)過一系列的數(shù)據(jù)準備工作和建模工作,其中一個重要步驟就是數(shù)據(jù)預處理,目的是將原始的日志文件和VOD頁面的結構及內(nèi)容結合起來,經(jīng)過一系列的數(shù)據(jù)處理,轉化為挖掘算法所需要的特定形式的數(shù)據(jù)格式。根據(jù)Web挖掘的要求,我們對Web訪問日志進行過濾和轉換,從中抽取有價值的數(shù)據(jù)。[8]未經(jīng)篩選的用戶點播日志如圖2所示。數(shù)據(jù)預處理是Web挖掘的重要步驟之一,直接影響著挖掘的質(zhì)量和正確性。凡是點播記錄中字段為空的記錄、重復無關的記錄,都必須進行清理和刪除。當用戶點擊影片時,由于網(wǎng)絡延遲或者系統(tǒng)響應速度的問題,用戶可能存在重復點擊的情況,這樣數(shù)據(jù)庫中所記錄下的多條重復記錄并不能反映用戶的實際點播情況。對于這樣的記錄,只需保留其中的一條,以確保構造正確的模型。

        數(shù)據(jù)預處理的相關程序節(jié)選如下:

        圖3 挖掘模型

        經(jīng)過此步驟,我們從120多萬條記錄中篩選出記錄約40萬條。

        數(shù)據(jù)模型建立及關聯(lián)規(guī)則表的生成

        在Visual Studio 2005中創(chuàng)建Analysis Services項目,首先要建立數(shù)據(jù)源和數(shù)據(jù)源視圖。我們將整個VOD點播系統(tǒng)數(shù)據(jù)庫作為數(shù)據(jù)源,但用于前臺推薦的數(shù)據(jù)僅僅是其中一部分。本次研究根據(jù)日志數(shù)據(jù)表生成兩個視圖,一個是Customer表,用于表征用戶,另一個是PlayLog表,用于表征用戶的瀏覽記錄。在創(chuàng)建挖掘結構中將Customer作為事例表,PlayLog表作為嵌套表,通過LogIp關聯(lián),在挖掘模型中選擇合適的數(shù)據(jù)挖掘算法并設置合理的參數(shù),如圖3所示。

        設置挖掘模型后,就可以通過挖掘模型瀏覽器來查看挖掘的結果,圖4為推薦模型生成項之間的網(wǎng)絡圖。

        在圖4中,我們可以看到,點播的影片之間存在著關聯(lián)。例如:對某用戶來說,中間綠色圈內(nèi)為首點播影片,周圍橙色圈的影片表示與該片存在很大關聯(lián)的影片序列;紫色圈內(nèi)的影片表示,它們與示例影片存在相互引用的關系,而呈灰白色的影片則表示,它與示例影片之間暫時達不到關聯(lián)規(guī)則的要求,排除在推薦列表之外。

        一般,我們可以采用DMX來查詢數(shù)據(jù),但是由于點播系統(tǒng)的訪問量非常大,點播日志呈指數(shù)級增長。每次都通過實時查詢挖掘模型來獲取數(shù)據(jù)庫的推薦信息,將會大大增加服務器的壓力。因此,我們進一步優(yōu)化推薦方案,通過數(shù)據(jù)挖掘?qū)㈥P聯(lián)規(guī)則一次性生成,并存入數(shù)據(jù)表中,與影片數(shù)據(jù)庫分別部署。前臺點擊時,通過SQL查詢語句查詢數(shù)據(jù)表中對應的項即可作出影片推薦。根據(jù)影片更新情況和訪問情況,按周期執(zhí)行數(shù)據(jù)挖掘模型,將用戶點播的最新情況更新到關聯(lián)規(guī)則表中,確保影片推薦的質(zhì)量。通過對原本無序的訪問進行有序地引導來減少點播流量,從根本上減輕服務器負載,使得點播更加流暢。

        如表1所示,關聯(lián)性規(guī)則推薦表的后兩個字段是項集,P1作為前臺推薦程序的輸入?yún)?shù),P2是與之關聯(lián)的項,是可能的輸出結果,根據(jù)概率和重要性兩個指標選擇滿足條件的記錄,推薦程序部分節(jié)選如下:

        表1 關聯(lián)性規(guī)則

        圖4 由推薦模型生成項之間的網(wǎng)絡關系

        前臺點播頁面

        我們的研究目的是為了將歷史數(shù)據(jù)用于系統(tǒng)優(yōu)化,將上一步生成的關聯(lián)規(guī)則表應用于點播系統(tǒng),為用戶提供更好的點播體驗。主頁面設置新聞公告、最近資源、熱門排行等主要模塊,按模塊化設計思路,每個模塊都是一個用戶自定義控件,能夠在不同頁面重復使用。比如創(chuàng)建一個hotfilm.ascx用戶自定義控件,實現(xiàn)熱門電影排行,程序如下:

        點播程序中最核心的頁面為filminfo.aspx,在查看某個影片的詳細信息時,通過關聯(lián)規(guī)則表查詢出推薦影片,推薦模塊的程序如下:

        挖掘效益分析

        目前全國各高校校園網(wǎng)建設日趨完善,網(wǎng)絡輔助教學呈直線上升趨勢,我們根據(jù)實際教學工作的需要,將Web挖掘技術運用于VOD視頻點播系統(tǒng)中,對該視頻點播系統(tǒng)的功能進行改進和優(yōu)化,特別是對于該系統(tǒng)的影片個性化推薦技術進行研究和探索,從而提高該系統(tǒng)用戶的訪問效率和服務質(zhì)量。在研究中,我們還細分用戶,根據(jù)同一IP地址段用戶的點播習慣來來生成該特定用戶組的關聯(lián)模型。

        我們主要完成以下任務:

        1. 生成關聯(lián)模型:根據(jù)歷史的訪問點播記錄,發(fā)現(xiàn)用戶的模式,建立訪問模型。

        2. 形成關聯(lián)模型表:通過數(shù)據(jù)挖掘?qū)㈥P聯(lián)規(guī)則一次性生成,并存入數(shù)據(jù)表中。例如:一次性生成幾個月以來的關聯(lián)規(guī)則。同時,為了適應用戶的動態(tài)更新,在一定周期內(nèi),根據(jù)服務器負載情況,在負載最低的時間段,執(zhí)行一次數(shù)據(jù)挖掘模型,將關聯(lián)規(guī)則更新到規(guī)則表中,以確保影片推薦的精確性。前臺點擊時,只要使用SQL查詢該數(shù)據(jù)表中對應的項即可作出影片推薦,從根本上減輕服務器的點播壓力。

        3. 前臺推薦程序:該程序通過獲取用戶當前點擊的影片名稱,查詢關聯(lián)規(guī)則表中滿足推薦的影片,如果查詢到滿足條件的記錄,則輸出地址鏈接,將推薦的結果鏈接到影片播放界面。通過智能化地引導和推薦影片,提高VOD點播系統(tǒng)的服務效率。

        由于各站點的數(shù)據(jù)本身具有自述性和動態(tài)可變性,半結構化的Web數(shù)據(jù)模型是研究Web挖掘、信息檢索、智能引擎及Web用戶訪問模式挖掘的前提和重點。[9]面向Web的數(shù)據(jù)挖掘必須以半結構化模型和半結構化數(shù)據(jù)模型抽取技術為前提。針對Web數(shù)據(jù)半結構化的特點,尋找一個半結構化的數(shù)據(jù)模型是解決問題的關鍵所在。我們將不斷探索,使Web挖掘更好地服務于網(wǎng)絡教學。

        擴展閱讀:

        [1] Jiawei Han,Micheline Kam ber.Data Mining Concepts and Techniques [M].Beijing:Higher Education Press,2007,240-243.

        [2]Pereira Jr,Baeza-Yates A R.Applications of an web information mining model to data mining and information retrieval tasks[J].Proceedings International Workshop on Database and Expert Systems Applications.2006:1031-1035.

        [3]Lisheng Ma,Huiwen Deng.Fast algorithm for mining maximal frequent itemsets[C]// Proceedings of international Conference on Data Engineering,2007:86-91.

        [4]Zhao Hui Tang,Jamie Mac Lennan.Data Mining with SQL Server 2005[M].Beijing:Tsinghua University Press,2007:199-200,322-323.

        [5]Pannar J,Garg S.Modifiedweb aecess pattern approachfor sequential pattern mining.Computer Science[M].2007,(6):46-54.

        [6]R Gruber. Towards Principles for the Design of Anthologies Used for Knowledge Sharing[J].International Journal of Human-Computer Studies,2009(43).907-928.

        [7]L.Zhen,G.Q. Huang,Z. Jiang,Recommender system based on workflow,Decision Support Systems2009 (48) 237-245.

        [8]翁小蘭,孫蕾.基于WEB日志挖掘優(yōu)化VOD系統(tǒng)中影片的歸類[J].Computer Applications and Softwar,2007,(10):125-127.

        [9]Bunchner A G,Mulvenna M D.Discovering Internet Marketing Intelligence Through Online nalytical Web Using Mining[J].Sigmod Record,2006,27 (4):145-156[J].

        (作者單位為南通大學現(xiàn)代教育技術中心)

        本文獲江蘇省現(xiàn)代教育技術研究2010年度課題資助,課題名稱:《基于校園網(wǎng)VOD視頻點播系統(tǒng)的視頻教學資源整合與個性化研究》,課題編號:2010-R-16632。

        德州儀器:3D投影機將創(chuàng)建沉浸式學習環(huán)境

        本刊訊 德州儀器于2月8日在北京召開記者會,聲稱DLP在2011年全球投影顯示市場擁有近55%的市場份額,到目前為止,DLP芯片的出貨量已經(jīng)超過了3千萬,未來將投入到新興的嵌入式投影市場,并將在教育市場發(fā)力。

        德州儀器致力于教育的創(chuàng)新,希望通過提供各種創(chuàng)新技術,包括DLP的3D-Ready投影、互動投影、超短焦、無燈泡投影技術等,幫助學校提升學生學習的主動性、積極性。

        德州儀器高級副總裁兼DLP產(chǎn)品事業(yè)部總經(jīng)理Kent Novak表示,在現(xiàn)今全球教育創(chuàng)新的改革中,3D教學已成為一個不容忽視的發(fā)展趨勢。DLP憑借其創(chuàng)新技術,創(chuàng)造性地使學校可以通過平價單機3D投影機實現(xiàn)沉浸式教學,從而為學生帶來更真實而動態(tài)的學習環(huán)境,進而大大地調(diào)動學生的學習熱情,并大幅提升他們的學習成績。

        德州儀器除了在教育領域創(chuàng)新技術之外,還在數(shù)字影院、微型投影、嵌入式投影等方面帶動更多極具創(chuàng)意應用的發(fā)展。

        猜你喜歡
        日志頁面數(shù)據(jù)挖掘
        大狗熊在睡覺
        刷新生活的頁面
        一名老黨員的工作日志
        華人時刊(2021年13期)2021-11-27 09:19:02
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        游學日志
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        一種基于粗集和SVM的Web日志挖掘模型
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        免费观看交性大片| 日韩熟女精品一区二区三区视频| 国产精品久久婷婷免费观看| 国产精品天干天干| 四川老熟女下面又黑又肥| 国产精品女同一区二区久久| 日本黄色特级一区二区三区| 亚洲av无码乱码国产麻豆| 国产suv精品一区二区6| 国产偷国产偷亚洲欧美高清 | 亚洲av熟女天堂久久天堂| 亚洲精品在线国产精品| 亚洲精品一区久久久久久| 亚洲无码a∨在线视频| 久久91精品国产91久久跳舞| 国产成人精品无码片区在线观看| 67194熟妇在线永久免费观看| 麻豆密入视频在线观看| 国产三级av在线精品| 国产成人a∨激情视频厨房| 亚洲av色无码乱码在线观看 | 精品蜜桃av免费观看| 国产精品高清一区二区三区不卡| 中文字幕日韩一区二区三区不卡| 国产一级淫片a免费播放口 | 成人国产乱对白在线观看| 日本一级二级三级不卡| 天堂√在线中文官网在线| 国产成人亚洲综合一区| 人妻精品久久久一区二区| 人与人性恔配视频免费| 亚洲学生妹高清av| 久久久久亚洲AV无码专区一区| 国产一区二区黄色网页| 人妻丰满熟妇av无码区不卡| 免费无码中文字幕A级毛片| 视频一区精品中文字幕| 国产激情艳情在线看视频| 成人免费ā片在线观看| 亚洲av有码精品天堂| 国产激情久久久久久熟女老人|