亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        影視節(jié)目扁平化標(biāo)簽獲取技術(shù)研究

        2019-10-11 11:24:36殷復(fù)蓮徐榮閣劉志心冀美琪
        軟件導(dǎo)刊 2019年7期

        殷復(fù)蓮 徐榮閣 劉志心 冀美琪

        摘 要:針對(duì)影視節(jié)目標(biāo)簽手動(dòng)采集費(fèi)時(shí)費(fèi)力,以及傳統(tǒng)樹狀標(biāo)簽體系信息冗余且不全面等問(wèn)題,提出一種標(biāo)簽自動(dòng)獲取技術(shù)。通過(guò)數(shù)據(jù)爬取技術(shù)采集與節(jié)目相關(guān)的互聯(lián)網(wǎng)原始數(shù)據(jù),然后通過(guò)文本分析、同義匹配、數(shù)據(jù)庫(kù)匹配等技術(shù)進(jìn)行數(shù)據(jù)分析與挖掘,最終實(shí)現(xiàn)對(duì)扁平化節(jié)目標(biāo)簽的獲取。實(shí)驗(yàn)結(jié)果表明,在選取8~10個(gè)標(biāo)簽時(shí),該算法準(zhǔn)確率為84.3%~ 92.4%,召回率為53.4%~ 63.1%,說(shuō)明該算法獲取的標(biāo)簽?zāi)軌蚝芎玫貙?duì)影視節(jié)目進(jìn)行描述。

        關(guān)鍵詞:扁平化標(biāo)簽;標(biāo)簽自動(dòng)獲取;Web自動(dòng)信息采集;標(biāo)簽庫(kù)匹配

        DOI:10. 11907/rjdk. 182739 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

        中圖分類號(hào):TP319文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2019)007-0150-04

        Research on the Acquisition Technology of Film and Television Program Flat Tags

        YIN Fu-lian,XU Ronge-ge,LIU Zhi-xin,JI Mei-qi

        (School of Information and Communication Engineering, Communication University of China, Beijing 100024, China)

        Abstract: This paper proposes an automatic tag acquisition technology for the which is time-consuming and labor-intensive manual collection of film and television program tags and the information redundancy and incompleteness of the traditional tree tag system. Our research collects the original Internet data related to the program through data crawling technology, and then analyzes and mines the data through text analysis, synonym matching, database matching and other technologies. Finally we achieve the acquisition of flat program tags. The experimental results show that the accuracy of this algorithm is 84.3%~92.4% when 8-10 labels are selected, and the recall rate is 53.4%~63.1%. This proves that the label obtained by the algorithm in this paper can describe a program well.

        Key Words: flattened tag; automatic tag acquisition; Web automatic information collection; tag library matching

        基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(61801441);國(guó)家級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(JG18110205)

        作者簡(jiǎn)介:殷復(fù)蓮(1982-),女,博士,中國(guó)傳媒大學(xué)信息與通信工程學(xué)院副教授、碩士生導(dǎo)師,研究方向?yàn)榇髷?shù)據(jù)、數(shù)據(jù)分析與挖掘技術(shù);徐榮閣(1996-),男,中國(guó)傳媒大學(xué)信息與通信工程學(xué)院學(xué)生,研究方向?yàn)閿?shù)字媒體技術(shù);劉志心(1996-),女,中國(guó)傳媒大學(xué)信息與通信工程學(xué)院學(xué)生,研究方向?yàn)閿?shù)字媒體技術(shù);冀美琪(1998-),女,中國(guó)傳媒大學(xué)信息與通信工程學(xué)院學(xué)生,研究方向?yàn)閿?shù)字媒體技術(shù)。

        0 引言

        如今隨著大眾審美觀的不斷變化,涌現(xiàn)出大量新類型與題材的影視節(jié)目。與此同時(shí),人們的需求也變得越來(lái)越個(gè)性化,因此很多節(jié)目類型不能再被簡(jiǎn)單歸為某一類,而往往是多種形式的雜糅和變異。對(duì)節(jié)目進(jìn)行全方位的信息采集與分析才能夠更加準(zhǔn)確、完整地描述一個(gè)節(jié)目,使觀眾可以更直觀地進(jìn)行選擇,同時(shí)也能讓節(jié)目發(fā)布方對(duì)節(jié)目有更加全面的認(rèn)識(shí),從而方便管理與運(yùn)營(yíng)。

        近年來(lái),互聯(lián)網(wǎng)的迅速發(fā)展致使數(shù)據(jù)規(guī)模不斷擴(kuò)大,人們?cè)絹?lái)越依賴互聯(lián)網(wǎng)獲取信息,因此Web數(shù)據(jù)挖掘、信息采集和管理技術(shù)也得到了快速發(fā)展[1-2]。Web信息采集通常分為基于整個(gè)Web的信息采集、增量式Web信息采集、基于主題的Web信息采集等類別[3-5]。目前,國(guó)內(nèi)相關(guān)研究主要集中在以下方面:面向主題的Web信息采集、個(gè)性化Web信息采集、分布式Web信息采集、基于元搜索的Web信息采集與多技術(shù)結(jié)合的Web信息采集[6]。國(guó)外則主要是發(fā)展基于全采集策略、基于選擇性采集策略與基于聯(lián)合采集策略的項(xiàng)目等[7]。其中,信息采集是指采集指定網(wǎng)站中的特定信息,通過(guò)模擬用戶正常瀏覽行為并設(shè)置一定規(guī)則,從而獲取Web頁(yè)面指定信息[8]。其采集的最終結(jié)果不再是頁(yè)面,而是深入到站點(diǎn)或頁(yè)面內(nèi)部,獲取信息并保存到用戶指定的數(shù)據(jù)庫(kù)中[9-11]。信息自動(dòng)采集既能節(jié)省時(shí)間,又能得到相對(duì)準(zhǔn)確的結(jié)果,因此很多學(xué)者針對(duì)該技術(shù)在各領(lǐng)域的應(yīng)用進(jìn)行了研究[12-13]。如在新聞自動(dòng)采集方面,為了保證新聞發(fā)布的時(shí)效性,張一睿[14] 、戚揚(yáng)[15]提出通過(guò)綜合利用動(dòng)態(tài)服務(wù)器頁(yè)面(Active Server Pages,ASP)、Java服務(wù)器頁(yè)面(JavaServer Pages,JSP)等技術(shù)對(duì)用戶指定網(wǎng)站區(qū)域下的Web新聞網(wǎng)頁(yè)進(jìn)行自動(dòng)抓取,經(jīng)解析、消重、分類處理后保存到新聞網(wǎng)站數(shù)據(jù)庫(kù)中,即可24小時(shí)自動(dòng)采集并發(fā)布新聞;馬凱[16]采用模塊化技術(shù)構(gòu)建一種特定領(lǐng)域的Web信息集成系統(tǒng),通過(guò)用戶提供的關(guān)鍵詞,結(jié)合人工篩選進(jìn)行關(guān)鍵詞擴(kuò)展,對(duì)全網(wǎng)相關(guān)新聞、微博數(shù)據(jù)進(jìn)行采集與抽取。針對(duì)小企業(yè)的信息采集問(wèn)題,趙紅艷[17]提出利用自動(dòng)信息采集系統(tǒng)從鏈接地址頁(yè)面中提取目標(biāo)網(wǎng)頁(yè)URL地址與相應(yīng)企業(yè)名稱,并從URL地址對(duì)應(yīng)的詳細(xì)信息頁(yè)面中提取具體企業(yè)信息。在輿情采集、網(wǎng)絡(luò)爬蟲方面,國(guó)內(nèi)如周劍[18]、湯露陽(yáng)[19]、李曉偉[20]應(yīng)用自動(dòng)采集技術(shù)進(jìn)行網(wǎng)絡(luò)爬蟲、數(shù)據(jù)融合與文本情感分析等,實(shí)現(xiàn)了面向Web輿情評(píng)價(jià)信息的采集與分析系統(tǒng);王仕艷[21]、熊暢[22]采用的數(shù)據(jù)采集技術(shù)主要是從Web上獲取網(wǎng)站網(wǎng)頁(yè),通過(guò)既定規(guī)則自動(dòng)抓取整個(gè)網(wǎng)頁(yè)信息,并將其保存在文檔中,同時(shí)將文檔中的信息提取出來(lái)。國(guó)外研究則側(cè)重于高性能Web爬蟲程序的體系結(jié)構(gòu)與實(shí)現(xiàn)、協(xié)作Web爬蟲、深層Web爬蟲、多媒體內(nèi)容爬蟲以及Web爬蟲研究未來(lái)方向5個(gè)主題[23]。

        總體上看,Web信息采集技術(shù)正逐漸向高性能、專業(yè)化、智能化、個(gè)性化方向發(fā)展。但由于網(wǎng)絡(luò)信息資源的迅猛增長(zhǎng),現(xiàn)有技術(shù)仍存在一些待改進(jìn)之處,比如信息采集需要更加個(gè)性化,在多個(gè)平臺(tái)采集時(shí)需要進(jìn)行網(wǎng)頁(yè)預(yù)處理,以達(dá)到網(wǎng)頁(yè)去重的效果等。

        本文在以上技術(shù)基礎(chǔ)上進(jìn)行創(chuàng)新,將自動(dòng)采集技術(shù)應(yīng)用于影視節(jié)目標(biāo)簽獲取。與已有技術(shù)不同的是,本文在對(duì)不同平臺(tái)進(jìn)行信息采集時(shí),沒(méi)有使用保存整個(gè)網(wǎng)頁(yè)信息的方法,而是采用一定規(guī)則提取所需內(nèi)容,從而提高了采集效率。同時(shí),本文采集的節(jié)目信息不是由單一平臺(tái)產(chǎn)生的,而是源自很多不同的互聯(lián)網(wǎng)平臺(tái)。本次研究還利用中文近義詞匹配技術(shù),并采用課題組的扁平化節(jié)目標(biāo)簽體系得到扁平化的節(jié)目標(biāo)簽,從而對(duì)影視節(jié)目進(jìn)行更加準(zhǔn)確、有效的描述[24]。

        1 扁平化標(biāo)簽體系

        本文將扁平化結(jié)構(gòu)應(yīng)用于影視節(jié)目分類的標(biāo)簽體系中,通過(guò)減少原有樹形標(biāo)簽體系帶來(lái)的大量冗余,使不同維度的領(lǐng)域標(biāo)簽、形態(tài)標(biāo)簽以及內(nèi)容標(biāo)簽可以同等權(quán)重賦予同一節(jié)目,不僅可以簡(jiǎn)化現(xiàn)有復(fù)雜的影視節(jié)目標(biāo)簽體系,還可以實(shí)現(xiàn)對(duì)多元化影視節(jié)目進(jìn)行快速、高效的分類。

        本文采取課題組的扁平化節(jié)目標(biāo)簽體系,將節(jié)目標(biāo)簽分為三大維度,即領(lǐng)域、形態(tài)、內(nèi)容[24],整個(gè)體系如圖1所示。然后根據(jù)三大維度將標(biāo)簽分為內(nèi)容、類型、時(shí)間、評(píng)分4類。內(nèi)容標(biāo)簽根據(jù)影視節(jié)目選題范圍和制作信息提煉出標(biāo)簽,分為背景、題材、基調(diào)、元素、人物、主旨、導(dǎo)演、演員;類型標(biāo)簽主要根據(jù)影視劇的領(lǐng)域進(jìn)行劃分,分為形式和產(chǎn)地兩種;時(shí)間標(biāo)簽根據(jù)影視劇上映日期進(jìn)行劃分,如:2018年、2017年、90年代等;評(píng)分標(biāo)簽根據(jù)國(guó)內(nèi)評(píng)分可信度較高的豆瓣平臺(tái)上該影視節(jié)目的得分制作而成。

        圖1 電視節(jié)目扁平化標(biāo)簽體系

        2 扁平化標(biāo)簽自動(dòng)獲取方案及關(guān)鍵技術(shù)

        本文所涉及的標(biāo)簽獲取流程如圖2所示,分為數(shù)據(jù)采集、數(shù)據(jù)處理與標(biāo)簽扁平化3部分。首先通過(guò)搜集愛(ài)奇藝等影視網(wǎng)站的影視數(shù)據(jù)得到基礎(chǔ)的影視標(biāo)簽信息,然后對(duì)采集的標(biāo)簽信息進(jìn)行數(shù)據(jù)清洗、格式標(biāo)準(zhǔn)化、合并等處理,并結(jié)合已建立完成的扁平化標(biāo)簽庫(kù),獲取影視節(jié)目的扁平化標(biāo)簽,最后通過(guò)3部分聯(lián)合運(yùn)作,實(shí)現(xiàn)影視節(jié)目扁平化標(biāo)簽的一鍵自動(dòng)獲取。相比于人工貼標(biāo)簽方式,運(yùn)用扁平化標(biāo)簽自動(dòng)獲取技術(shù)為影視節(jié)目貼標(biāo)簽更加準(zhǔn)確、迅速。

        圖2 扁平化標(biāo)簽獲取方案

        2.1 數(shù)據(jù)采集

        本文提出的扁平化標(biāo)簽獲取技術(shù)運(yùn)用對(duì)象為影視節(jié)目,網(wǎng)絡(luò)上的相關(guān)影視信息則是本文的直接信息數(shù)據(jù)來(lái)源。數(shù)據(jù)采集過(guò)程如圖3所示。

        相比于其它影視節(jié)目,電視劇與電影的節(jié)目標(biāo)簽具有復(fù)雜性、多樣性、主觀性等特點(diǎn),因此本文主要對(duì)電視劇和電影的相關(guān)信息數(shù)據(jù)進(jìn)行采集與處理。利用Python爬蟲程序?qū)?ài)奇藝、搜狗影視、貓眼電影和豆瓣影視4個(gè)影視網(wǎng)站進(jìn)行標(biāo)簽信息采集,信息包括節(jié)目類型、節(jié)目簡(jiǎn)介、導(dǎo)演、演員、評(píng)分等。

        圖3 數(shù)據(jù)采集過(guò)程

        2.2 數(shù)據(jù)處理

        由于初始采集的影視節(jié)目信息數(shù)據(jù)來(lái)源于4個(gè)不同網(wǎng)站,因此信息數(shù)據(jù)格式并不統(tǒng)一,且有大量重復(fù),需要對(duì)這些數(shù)據(jù)作進(jìn)一步處理,如圖4所示。

        圖4 數(shù)據(jù)處理

        首先,對(duì)采集的標(biāo)簽信息進(jìn)行合并。在4個(gè)影視網(wǎng)站上采集的影視信息存在大量重復(fù)的情況,此處將同一影視節(jié)目在不同網(wǎng)站的相關(guān)信息進(jìn)行合并,使一個(gè)影視節(jié)目在數(shù)據(jù)庫(kù)中只出現(xiàn)一次,標(biāo)簽信息更加清晰明確。

        然后,對(duì)合并后的節(jié)目信息數(shù)據(jù)進(jìn)行清洗。采集到的文本中存在一些不必要的數(shù)字、標(biāo)點(diǎn)符號(hào)、網(wǎng)址等內(nèi)容,這些文本信息并不屬于節(jié)目標(biāo)簽信息,將會(huì)增加后續(xù)程序運(yùn)行工作量及獲取標(biāo)簽的不確定性,因此在數(shù)據(jù)處理過(guò)程中需將其清除。

        最后,對(duì)處理后的標(biāo)簽進(jìn)行格式標(biāo)準(zhǔn)化。4個(gè)網(wǎng)站收集的標(biāo)簽信息格式各有不同,因此將同類標(biāo)簽信息進(jìn)行格式上的統(tǒng)一,包括文字編碼格式統(tǒng)一、英文大小寫統(tǒng)一、數(shù)字格式統(tǒng)一以及標(biāo)簽分隔符統(tǒng)一。

        2.3 標(biāo)簽扁平化

        對(duì)采集到的標(biāo)簽信息進(jìn)行處理后,基本得到完整的影視節(jié)目標(biāo)簽。為使節(jié)目標(biāo)簽呈現(xiàn)扁平化特點(diǎn),利用上文提到的節(jié)目標(biāo)簽庫(kù)以及中文近義詞工具包對(duì)節(jié)目標(biāo)簽進(jìn)行扁平化匹配處理,使處理后的節(jié)目標(biāo)簽全部為源于標(biāo)簽庫(kù)的扁平化標(biāo)簽。處理過(guò)程如圖5所示。

        將處理后的節(jié)目標(biāo)簽與本文建立的節(jié)目標(biāo)簽詞庫(kù)進(jìn)行逐一匹配,將標(biāo)簽庫(kù)中不存在的標(biāo)簽篩選出來(lái)。然而篩選出的大部分標(biāo)簽雖然不存在于標(biāo)簽庫(kù)中,但其意義與標(biāo)簽庫(kù)中的標(biāo)簽相近,不能簡(jiǎn)單刪去,因此還需進(jìn)行下一步的近義詞匹配操作。

        本文在近義詞匹配過(guò)程中采用了一款名為“synonyms”的中文近義詞工具包,該工具包可以應(yīng)用于自然語(yǔ)言理解的很多任務(wù)中。在Python程序中使用該工具包,可以針對(duì)某具體詞語(yǔ)進(jìn)行“近義詞查找”及“詞語(yǔ)相似度檢測(cè)”任務(wù)。例如,Python程序中對(duì)詞語(yǔ)“熱血”進(jìn)行近義詞匹配的輸出內(nèi)容為(結(jié)果保留兩位小數(shù)): [‘熱血,‘青春,‘勇往直前,‘男子漢,‘FUN,‘勵(lì)志,‘新時(shí)代,‘本色,‘好勝,‘
        ],[1.0,0.61,0.61,0.57,0.57,0.53,0.51,0.49,0.49,0.43]。

        上例中的第一個(gè)向量是匹配到的相關(guān)近義詞,第二個(gè)向量是每個(gè)近義詞與“熱血”這一原詞的相似度,數(shù)值越大表示該詞與原詞相似度越高。本文在近義詞匹配過(guò)程中,按照相似程度大小排序,將查找到的近義詞與標(biāo)簽庫(kù)中的標(biāo)簽再一次進(jìn)行匹配。一旦在標(biāo)簽庫(kù)中查找到該近義詞,即將其加入節(jié)目標(biāo)簽信息中,并停止對(duì)剩余近義詞的匹配查找,從而得到標(biāo)簽庫(kù)中與節(jié)目最相近的標(biāo)簽。對(duì)于近義詞依然無(wú)法與標(biāo)簽詞庫(kù)匹配的原節(jié)目標(biāo)簽詞語(yǔ),則將其舍棄。

        在對(duì)節(jié)目標(biāo)簽進(jìn)行扁平化匹配處理后,節(jié)目的標(biāo)簽扁平化操作已基本完成。由于在上述匹配過(guò)程中,存入影視節(jié)目的部分標(biāo)簽信息會(huì)有重復(fù),因此還需進(jìn)行最后一步去重操作,即將重復(fù)出現(xiàn)的影視節(jié)目扁平化標(biāo)簽刪除。

        通過(guò)數(shù)據(jù)采集、數(shù)據(jù)處理與標(biāo)簽扁平化3個(gè)步驟的操作,可以準(zhǔn)確地為影視節(jié)目貼上標(biāo)簽,標(biāo)簽類型與扁平化標(biāo)簽庫(kù)中的標(biāo)簽類型相對(duì)應(yīng),分為“內(nèi)容”、“類型”、“評(píng)價(jià)”、“時(shí)間”。本文為了更快捷地獲取節(jié)目扁平化標(biāo)簽,將上述3個(gè)步驟進(jìn)行整合運(yùn)作,各程序在時(shí)間上無(wú)縫連接,實(shí)現(xiàn)了對(duì)影視節(jié)目扁平化標(biāo)簽的一鍵自動(dòng)獲取,大大提高了影視標(biāo)簽獲取效率。

        3 實(shí)驗(yàn)與結(jié)果分析

        本研究通過(guò)訓(xùn)練集對(duì)算法進(jìn)行訓(xùn)練,并通過(guò)測(cè)試集進(jìn)行測(cè)試。實(shí)驗(yàn)中采用兩個(gè)較為常用的指標(biāo)測(cè)評(píng)實(shí)驗(yàn)生成的標(biāo)簽,即準(zhǔn)確率和召回率。準(zhǔn)確率和召回率用于衡量實(shí)驗(yàn)中的標(biāo)簽生成效果。P表示節(jié)目集合,Lab(p)表示節(jié)目p在豆瓣、時(shí)光網(wǎng)等視頻網(wǎng)站給出節(jié)目標(biāo)簽中出現(xiàn)頻率最高的標(biāo)簽集合,Tag(p)表示節(jié)目p由本實(shí)驗(yàn)算法得出的標(biāo)簽集合。準(zhǔn)確率定義如下:

        [Precision=p∈P|Lab(p)?Tag(p)|p∈P|Tag(p)|]? ? (1)

        召回率定義如下:

        [Recall=p∈P|Lab(p)?Tag(p)|p∈P|Lab(p)|]? ? ? ?(2)

        上式中的[Lab(p)?Tag(p)]表示實(shí)驗(yàn)中得出的節(jié)目標(biāo)簽集與視頻網(wǎng)站給出的節(jié)目高頻標(biāo)簽集合交集所含有的元素?cái)?shù)量。準(zhǔn)確率用于表示實(shí)驗(yàn)給出標(biāo)簽與網(wǎng)絡(luò)公認(rèn)節(jié)目標(biāo)簽的交疊程度,召回率表示測(cè)試集中利用本實(shí)驗(yàn)算法計(jì)算得出網(wǎng)絡(luò)公認(rèn)節(jié)目標(biāo)簽的比例。

        以下兩個(gè)實(shí)驗(yàn)根據(jù)準(zhǔn)確率與召回率對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析。每個(gè)實(shí)驗(yàn)根據(jù)所選標(biāo)簽數(shù)量的不同分為5組,為了能夠更清晰、直觀地看到結(jié)果變化規(guī)律,采用折線圖表示結(jié)果。

        實(shí)驗(yàn)1:準(zhǔn)確率分析。將豆瓣、時(shí)光網(wǎng)等影視網(wǎng)站給出的高頻標(biāo)簽作為測(cè)試數(shù)據(jù)與本文所得結(jié)果利用公式(1)進(jìn)行比較計(jì)算,本文標(biāo)簽獲取算法的準(zhǔn)確率結(jié)果如圖6所示。

        圖6 準(zhǔn)確率結(jié)果

        由圖6可見,隨著實(shí)驗(yàn)獲取標(biāo)簽數(shù)量的增加,準(zhǔn)確率逐漸降低。主要由于增加標(biāo)簽數(shù)量使一些由算法計(jì)算出的低權(quán)值標(biāo)簽逐漸加入結(jié)果中,這些標(biāo)簽很難與本文測(cè)試數(shù)據(jù)進(jìn)行匹配。然而,這些標(biāo)簽本身權(quán)值很低,所以并不能說(shuō)明實(shí)驗(yàn)得出的標(biāo)簽不夠準(zhǔn)確。可以看到,在使用8個(gè)標(biāo)簽時(shí)測(cè)試結(jié)果的準(zhǔn)確率很高。事實(shí)上,8個(gè)標(biāo)簽已能足夠反映出一個(gè)節(jié)目的各方面信息,如本算法得出《霸王別姬》的標(biāo)簽為電影、90年代、陳凱歌、中國(guó)大陸/香港、漢語(yǔ)普通話、人性、文藝、同性。

        實(shí)驗(yàn)2:召回率分析。將豆瓣、時(shí)光網(wǎng)等影視網(wǎng)站給出的高頻標(biāo)簽作為測(cè)試數(shù)據(jù)與本文所得結(jié)果利用公式(2)進(jìn)行比較計(jì)算,本文標(biāo)簽獲取算法的召回率結(jié)果如圖7所示。

        圖7 召回率結(jié)果

        由圖7可見,隨著獲取標(biāo)簽數(shù)量的增多,召回率逐漸下降,且標(biāo)簽數(shù)量越多,下降越快。主要由于越來(lái)越多的低頻標(biāo)簽加入了測(cè)試集,這些數(shù)據(jù)很難與本文標(biāo)簽數(shù)據(jù)庫(kù)中的標(biāo)簽進(jìn)行匹配。但這些標(biāo)簽通常不具有代表性,并不會(huì)影響對(duì)一個(gè)節(jié)目的描述。8~10個(gè)標(biāo)簽時(shí)情況較好,實(shí)際上此時(shí)標(biāo)簽已能很全面地展現(xiàn)一個(gè)節(jié)目。

        綜上所述,在選用8~10個(gè)標(biāo)簽時(shí),本文算法能得到較為理想的結(jié)果。在標(biāo)簽數(shù)量增多時(shí),準(zhǔn)確率與召回率逐漸降低,并且下降速度不斷加快。事實(shí)證明8~10個(gè)標(biāo)簽?zāi)軌蚝苋娴孛枋鲆粋€(gè)影視節(jié)目的各方面信息,包括主題、類型、年代、導(dǎo)演、國(guó)家、語(yǔ)言等。故利用本文算法能夠得出準(zhǔn)確、全面的節(jié)目標(biāo)簽,并且選用8~10個(gè)標(biāo)簽更為合適。

        4 結(jié)語(yǔ)

        本文提出的扁平化節(jié)目標(biāo)簽自動(dòng)獲取技術(shù)具有高效、準(zhǔn)確與全面等特點(diǎn)。扁平化節(jié)目標(biāo)簽獲取需要經(jīng)過(guò)數(shù)據(jù)采集、數(shù)據(jù)處理與標(biāo)簽扁平化3個(gè)步驟,并運(yùn)用了多種自然語(yǔ)言處理技術(shù)。實(shí)驗(yàn)結(jié)果表明,本文算法所得節(jié)目標(biāo)簽的準(zhǔn)確率與召回率較好,具有較高的實(shí)用價(jià)值。同時(shí),實(shí)驗(yàn)也得出選用8~10個(gè)標(biāo)簽描述一個(gè)節(jié)目較為合適。本文研究成果可用于后續(xù)影視節(jié)目推薦算法或其它用戶服務(wù)技術(shù),同時(shí)還可在匹配算法方面作進(jìn)一步優(yōu)化與改進(jìn)。

        參考文獻(xiàn):

        [1] 黃慶. 大數(shù)據(jù)挖掘與數(shù)據(jù)處理方法[J]. 電腦迷,2018,9(11): 89.

        [2] 高國(guó)連,祖成浩. 大數(shù)據(jù)定向采集技術(shù)研究[J]. 中國(guó)管理信息化, 2017,12(15):162-164.

        [3] 周林云. Web信息采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 四川:西南交通大學(xué), 2013.

        [4] LIN S-H,HO J-M. Discovering informative content blocks from Web documents[C]. Washing,D.C.:Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002:588-593.

        [5] FREITAG D. Machine learning for information extraction in informal domains[J]. Machine Learning, 2000, 5(39):169-202.

        [6] 張婧,劉彥君,范漪萍,等.國(guó)內(nèi)網(wǎng)絡(luò)信息采集研究現(xiàn)狀述評(píng)[J].科技管理研究,2017,37(9):260-266.

        [7] EMILIO F,PASQUALE D M,GIACOMO F,et al. Web data extraction, applications and techniques: a survey[J]. Knowledge-Based Systems,2014,70:301-323.

        [8] 吳爽. 基于python語(yǔ)言的web數(shù)據(jù)挖掘與分析研究[J]. 電腦知識(shí)與技術(shù),2018,14(27):1-2.

        [9] 韓洋. 大數(shù)據(jù)時(shí)代計(jì)算機(jī)信息處理技術(shù)探析[J]. 科技傳播, 2018, 9(18): 80-81.

        [10] 袁琦. 大數(shù)據(jù)時(shí)代計(jì)算機(jī)信息處理技術(shù)的研究[J]. 科技風(fēng), 2018,30(28): 72.

        [11] FURCHE T,GOTTLOB G,GRASSO G, et al. OXPath: a language for scalable data extraction, automation, and crawling on the deep web[J]. VLDB Journal, 2013, 22(1):47-72.

        [12] 周瑜智,劉展鳴,王博,等. 關(guān)于網(wǎng)絡(luò)信息自動(dòng)采集技術(shù)的難點(diǎn)及其解決辦法的研究[J]. 科技傳播, 2013, 4(6): 204-205.

        [13] 李寶密.基于自動(dòng)生成模板的Web信息抽取技術(shù)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2016(9):56,58.

        [14] 張一睿. Web端新聞自動(dòng)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 北京:中國(guó)科學(xué)院大學(xué), 2017.

        [15] 戚揚(yáng). Web數(shù)據(jù)挖掘、信息采集技術(shù)研究及在網(wǎng)絡(luò)新聞自動(dòng)抓取中的應(yīng)用[D]. 杭州:浙江工業(yè)大學(xué), 2012.

        [16] 馬凱. 基于微博數(shù)據(jù)采集的Web信息集成系統(tǒng)研究[J]. 現(xiàn)代電子技術(shù),2016,39(11):125-128.

        [17] 趙紅艷. 基于大數(shù)據(jù)技術(shù)的小微企業(yè)信息采集技術(shù)研究[J]. 科技展望, 2015 (30):1-3.

        [18] 周劍. 面向Web輿情評(píng)價(jià)信息的采集與分析系統(tǒng)的研究與開發(fā)[D]. 蘇州:蘇州大學(xué),2017.

        [19] 湯露陽(yáng). 面向網(wǎng)絡(luò)輿情分析的數(shù)據(jù)采集與管理方法研究[D]. 成都:電子科技大學(xué),2017.

        [20] 李曉偉. 云環(huán)境下的輿情監(jiān)測(cè)關(guān)鍵技術(shù)研究[D]. 綿陽(yáng):西南科技大學(xué),2017.

        [21] 王仕艷. 云環(huán)境中Web信息抓取技術(shù)的研究及應(yīng)用[J]. 通信電源技術(shù),2018,35(9):175-176,178.

        [22] 熊暢. 基于Python爬蟲技術(shù)的網(wǎng)頁(yè)數(shù)據(jù)抓取與分析研究[J]. 數(shù)字技術(shù)與應(yīng)用,2017(9):35-36.

        [23] DENIS S. Current challenges in Web crawling[C]. 13th International Conference Web Engineering,2013:518-521.

        [24] 殷復(fù)蓮,王顏顏,柴劍平,等. 中國(guó)電視節(jié)目扁平化標(biāo)簽分類體系研究[J]. 電視技術(shù), 2017, 41(Z1): 174-176,181.

        (責(zé)任編輯:黃 ?。?/p>

        久久久久久九九99精品| 精品少妇一区二区av免费观看 | 亚洲伊人久久大香线蕉综合图片| 国产片精品av在线观看夜色| 亚洲av中文字字幕乱码软件 | 97一期涩涩97片久久久久久久 | 欧美国产激情二区三区| 日本av一区二区三区四区| 中年人妻丰满AV无码久久不卡| 国产精品久久久久9999赢消| 亚洲综合日韩一二三区| 久久亚洲一级av一片| 亚洲福利视频一区 | 久久午夜无码鲁丝片直播午夜精品| 日本精品久久久久中文字幕| 久久久精品人妻一区二区三区免费 | 日韩久久久黄色一级av| 天天看片视频免费观看| 国内精品久久久久影院优| 色婷婷亚洲精品综合影院| 欧美手机在线视频| 97色伦图片97综合影院久久| 99热爱久久99热爱九九热爱| 国产99一区二区三区四区| 日韩一级精品亚洲一区二区精品| 男人天堂av在线成人av| 久久久久亚洲av无码专区| 欧美黑寡妇特a级做爰| 亚洲一区二区国产激情| 日本一区二区高清在线观看| 日韩人妻无码精品久久伊人| 亚洲精品无码久久久久av麻豆| 久久精品国产只有精品96| 日本一区二区在线播放视频| 一区二区三区在线蜜桃| 欧美亚洲高清日韩成人| 俺来也俺去啦最新在线| 亚洲一区二区三区av无码| 亚洲av熟女一区二区三区站| 一区二区三区四区免费国产视频 | 久久精品国产亚洲7777|