亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺析互聯(lián)網(wǎng)視聽節(jié)目監(jiān)測(cè)系統(tǒng)的數(shù)據(jù)采集過(guò)程

        2022-04-11 11:25:46何麗媛
        數(shù)字傳媒研究 2022年1期
        關(guān)鍵詞:音視頻網(wǎng)頁(yè)頁(yè)面

        何麗媛

        內(nèi)蒙古自治區(qū)廣播電視監(jiān)測(cè)與發(fā)展中心 內(nèi)蒙古 呼和浩特市 010050

        引 言

        內(nèi)蒙古互聯(lián)網(wǎng)視聽節(jié)目監(jiān)測(cè)系統(tǒng)可分為幾大塊,其中數(shù)據(jù)采集是監(jiān)測(cè)的第一步也是及其重要的一步。數(shù)據(jù)采集過(guò)程需要利用多臺(tái)搜索機(jī)構(gòu)成的機(jī)群共同運(yùn)行,并行合作,對(duì)內(nèi)蒙古自治區(qū)整個(gè)監(jiān)測(cè)范圍內(nèi)的所有音視頻節(jié)目網(wǎng)站進(jìn)行全網(wǎng)搜索,抓取信息。對(duì)于其中一些重點(diǎn)網(wǎng)站,要進(jìn)行增量抓取。在抓取的過(guò)程中,還需要將音視頻節(jié)目中的文本信息抓取出來(lái),以供后續(xù)使用。整個(gè)數(shù)據(jù)采集過(guò)程如圖1所示。

        圖1 數(shù)據(jù)采集系統(tǒng)結(jié)構(gòu)圖

        1 采集控制與調(diào)度

        采集子系統(tǒng)的作用是為搜索機(jī)機(jī)群中的每一個(gè)搜索機(jī)進(jìn)行任務(wù)調(diào)度,同時(shí)監(jiān)控每一個(gè)搜索機(jī)的工作狀態(tài)是否正常。

        在數(shù)據(jù)采集的過(guò)程中,調(diào)度機(jī)的地址管理模塊會(huì)給各個(gè)搜索機(jī)發(fā)出指令,搜索機(jī)會(huì)根據(jù)這些指令選擇待抓取的視聽網(wǎng)站列表。然后根據(jù)調(diào)度機(jī)所發(fā)出的時(shí)間控制指令,決定搜索機(jī)當(dāng)前處在啟動(dòng)、運(yùn)行或是保存的狀態(tài)。搜索機(jī)處在運(yùn)行狀態(tài)時(shí),會(huì)自動(dòng)下載網(wǎng)頁(yè)并對(duì)已下載網(wǎng)頁(yè)進(jìn)行解析,將網(wǎng)頁(yè)中的鏈接信息提取出來(lái)提交給IP范圍判斷模塊進(jìn)行判別。

        如果鏈接信息符合搜索機(jī)當(dāng)前的處理任務(wù),會(huì)在進(jìn)行鏈接地址排重后將該鏈接加入到下載隊(duì)列中。

        下載完成的網(wǎng)頁(yè)還需經(jīng)過(guò)內(nèi)容排重模塊的過(guò)濾篩選之后才能最終保存到數(shù)據(jù)集合中去。當(dāng)搜索機(jī)處在保存狀態(tài)時(shí),會(huì)在當(dāng)前網(wǎng)頁(yè)下載完畢后,保存其相關(guān)的狀態(tài)和日志信息,并自動(dòng)退出和結(jié)束工作。每個(gè)搜索機(jī)都設(shè)有狀態(tài)查詢模塊,當(dāng)狀態(tài)查詢模塊接收到來(lái)自調(diào)度機(jī)的查詢指令之后,會(huì)從下載等待隊(duì)列和自動(dòng)下載模塊中讀取當(dāng)前的狀態(tài)信息返回給調(diào)度機(jī),并在用戶界面顯示相關(guān)信息。

        2 節(jié)目地址提取

        節(jié)目地址提取指從音視頻節(jié)目網(wǎng)頁(yè)中提取出音視頻節(jié)目真實(shí)地址。對(duì)于互聯(lián)網(wǎng)視聽網(wǎng)站中的靜態(tài)頁(yè)面和普通動(dòng)態(tài)網(wǎng)頁(yè)來(lái)說(shuō),其網(wǎng)頁(yè)中一般都含有Javascript的動(dòng)態(tài)頁(yè)面或應(yīng)用了Web2.0技術(shù)的頁(yè)面。針對(duì)此類網(wǎng)頁(yè),系統(tǒng)會(huì)采用網(wǎng)頁(yè)解析和信息抽取技術(shù),將頁(yè)面中的相關(guān)鏈接地址抽取出來(lái)。同時(shí)保存節(jié)目與保存在系統(tǒng)中的網(wǎng)頁(yè)快照的關(guān)聯(lián)關(guān)系。但是,部分網(wǎng)站會(huì)采用動(dòng)態(tài)網(wǎng)址等地址隱藏技術(shù)。針對(duì)此類網(wǎng)頁(yè),系統(tǒng)則采用Script解析等技術(shù),從包含視音頻節(jié)目的網(wǎng)頁(yè)中解析出視音頻節(jié)目的真實(shí)地址。這些抽取出來(lái)的節(jié)目地址信息包括:各種格式的音視頻文件的直接鏈接以及播放列表m3u文件中的鏈接還有流媒體視聽節(jié)目鏈接等等。

        3 音視頻采集

        音視頻采集是指對(duì)指定URL的音視頻節(jié)目數(shù)據(jù)進(jìn)行下載,添加到節(jié)目數(shù)據(jù)庫(kù)中,并能對(duì)已有保存內(nèi)容進(jìn)行保護(hù),避免新錄制的同屬性內(nèi)容覆蓋原有內(nèi)容。

        對(duì)于音視頻節(jié)目真實(shí)地址,系統(tǒng)會(huì)將音視頻數(shù)據(jù)下載下來(lái);對(duì)于文件鏈接,系統(tǒng)會(huì)將相關(guān)文件下載并保存;對(duì)于流媒體鏈接,系統(tǒng)會(huì)采用流媒體分析和下載錄制技術(shù)保存節(jié)目。最后,這些不同途徑得到的各種類型的節(jié)目和節(jié)目信息會(huì)進(jìn)行信息重排,最終加入到信息庫(kù),方便用戶的查詢。

        對(duì)于這些下載的節(jié)目,系統(tǒng)會(huì)根據(jù)其真實(shí)地址的格式、傳輸協(xié)議、節(jié)目傳播方式給每個(gè)下載節(jié)目都分配一個(gè)唯一的標(biāo)志。系統(tǒng)會(huì)根據(jù)此標(biāo)志對(duì)已經(jīng)保存好的內(nèi)容進(jìn)行保護(hù),避免新錄制的同屬性內(nèi)容覆蓋原有內(nèi)容。

        4 網(wǎng)頁(yè)采集

        4.1 網(wǎng)頁(yè)采集實(shí)現(xiàn)

        網(wǎng)頁(yè)采集需要利用網(wǎng)頁(yè)抓取技術(shù)來(lái)實(shí)現(xiàn),主要是通過(guò)Web頁(yè)面之間的鏈接關(guān)系,從Web上自動(dòng)地獲取頁(yè)面信息。這一過(guò)程主要是由Web網(wǎng)頁(yè)抓取器也稱網(wǎng)絡(luò)爬蟲來(lái)實(shí)現(xiàn)的。它從一個(gè)初始的URL集合出發(fā),將集合中的URL全部放入到一個(gè)有序的待抓取隊(duì)列里。而抓取器從該隊(duì)列中按順序取出URL,通過(guò)相應(yīng)的協(xié)議,獲取URL所指向的頁(yè)面,并保存到本地。再?gòu)倪@些己獲取到的頁(yè)面中提取出新的URL,并將它們繼續(xù)放入到待抓取隊(duì)列里。待抓取隊(duì)列中的URL信息來(lái)源可以是新解析出的鏈接地址,也可以是預(yù)先定義好的網(wǎng)站域名列表。上述過(guò)程不斷重復(fù),直到抓取器根據(jù)自己的策略終止抓取。

        4.2 網(wǎng)頁(yè)采集系統(tǒng)

        Web網(wǎng)頁(yè)采集系統(tǒng)主要由網(wǎng)頁(yè)抓取器、解析器、分派器、URL數(shù)據(jù)庫(kù)、選擇器、IP控制器、域名服務(wù)器、cookie服務(wù)器等組成,如圖2所示。

        圖2 Web網(wǎng)頁(yè)采集系統(tǒng)結(jié)構(gòu)圖

        通過(guò)網(wǎng)頁(yè)抓取技術(shù)對(duì)互聯(lián)網(wǎng)音視頻網(wǎng)站進(jìn)行全面搜索,可以保證較高的效率。尤其是使用了冗余內(nèi)容排重、分布式多機(jī)并行/協(xié)作及連接地址排重等技術(shù)可以使搜索速度更快,搜索結(jié)果準(zhǔn)確率更高。此外,互聯(lián)網(wǎng)上的頁(yè)面鏈接并不是統(tǒng)一格式的,一些網(wǎng)頁(yè)連接是完整的,也可能是省略了部分內(nèi)容的,或者只是一個(gè)相對(duì)路徑。為了能夠高效便捷的處理這些URL,就需要將頁(yè)面鏈接中給出的各種格式的URL歸一化成統(tǒng)一的格式,進(jìn)行URL歸一化操作,便于處理。

        此外,出于安全角度考慮,在網(wǎng)頁(yè)數(shù)據(jù)采集的過(guò)程中,網(wǎng)頁(yè)采集系統(tǒng)的搜索機(jī)與外部互聯(lián)網(wǎng)之間采用了地址隱藏技術(shù)。利用代理、網(wǎng)絡(luò)地址翻譯等IP地址隱藏技術(shù),將所有訪問(wèn)互聯(lián)網(wǎng)的搜索機(jī)地址加以隱藏,防止被搜索對(duì)象進(jìn)行反向定位,確保了系統(tǒng)安全。

        結(jié)束語(yǔ)

        內(nèi)蒙古互聯(lián)網(wǎng)視聽節(jié)目監(jiān)測(cè)系統(tǒng)是自治區(qū)監(jiān)測(cè)與發(fā)展中心監(jiān)測(cè)范圍內(nèi)的重要組成部分。其中,數(shù)據(jù)采集過(guò)程更是互聯(lián)網(wǎng)視聽節(jié)目監(jiān)測(cè)的基礎(chǔ),是非常重要的一環(huán)。數(shù)據(jù)采集系統(tǒng)的安全高效運(yùn)行,對(duì)于互聯(lián)視聽節(jié)目監(jiān)測(cè)的安全和效率具有極大意義和影響。

        猜你喜歡
        音視頻網(wǎng)頁(yè)頁(yè)面
        大狗熊在睡覺
        刷新生活的頁(yè)面
        3KB深圳市一禾音視頻科技有限公司
        基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        WIFI音視頻信號(hào)傳輸?shù)年P(guān)鍵問(wèn)題探究
        電子制作(2018年12期)2018-08-01 00:48:06
        高速公路整合移動(dòng)音視頻系統(tǒng)應(yīng)用
        基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
        Roland專業(yè)音視頻新技術(shù)研討會(huì)在上海召開
        10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
        亚洲国产精品久久久av| 国产香蕉视频在线播放| 精品国产yw在线观看| 手机在线亚洲精品网站| 亚洲精品无码av人在线播放| 亚洲一区二区观看播放| 国产福利97精品一区二区| 日本小视频一区二区三区| 一区二区三区视频在线观看免费| 精品国际久久久久999波多野| 亚洲国产成人片在线观看| 午夜亚洲www湿好大| 97人妻无码免费专区| av一区二区在线网站| 久久婷婷五月综合色欧美| 国产成人无码精品午夜福利a| 欧美精品久久久久久三级| 久久九九精品国产不卡一区| 亚洲精品国偷拍自产在线| 搡老熟女老女人一区二区| 男人无码视频在线观看| 亚洲成a人片77777kkkkk| 蜜桃视频在线免费视频| 狠狠色噜噜狠狠狠777米奇小说| 亚洲国产精品一区二区第四页| 久久婷婷免费综合色啪| gg55gg国产成人影院| 久久成人国产精品免费软件| 精品久久久噜噜噜久久久| 日本特黄a级高清免费大片| 另类人妖在线观看一区二区| 97精品一区二区三区| 18女下面流水不遮图| 一本大道久久a久久综合| 国产精品一品二区三区| 精品亚洲一区二区三区四区五| www射我里面在线观看| 国产亚洲精久久久久久无码77777| 国产资源在线视频| 亚洲av色香蕉一区二区三区av| 国产乱人对白|