亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于監(jiān)督學(xué)習(xí)的數(shù)據(jù)預(yù)測(cè)服務(wù)構(gòu)建方法

        2019-09-28 01:25:20昭,宋壹,陳
        關(guān)鍵詞:延時(shí)建模誤差

        李 昭,宋 壹,陳 鵬

        (三峽大學(xué) 計(jì)算機(jī)與信息學(xué)院,湖北 宜昌 443002)

        0 引 言

        現(xiàn)代信息產(chǎn)業(yè)的長(zhǎng)足發(fā)展使人們逐漸從對(duì)信息數(shù)量的崇拜轉(zhuǎn)向?qū)π畔①|(zhì)量的追求。作為計(jì)算機(jī)信息產(chǎn)業(yè)、大數(shù)據(jù)領(lǐng)域的重要組成部分,針對(duì)數(shù)據(jù)預(yù)測(cè)的研究近年來(lái)不斷取得新的成果,呈現(xiàn)出了蓬勃發(fā)展的勢(shì)頭。隨著數(shù)據(jù)量的不斷增長(zhǎng),該領(lǐng)域相關(guān)技術(shù)不斷發(fā)展成熟,這也為數(shù)據(jù)預(yù)測(cè)賦予了更加豐富的內(nèi)涵:從分析角度看,數(shù)據(jù)預(yù)測(cè)是對(duì)數(shù)據(jù)信息內(nèi)在本質(zhì)、潛在關(guān)聯(lián)的深入挖掘與剖析;從應(yīng)用角度看,數(shù)據(jù)預(yù)測(cè)是對(duì)數(shù)據(jù)信息增長(zhǎng)方向、發(fā)展趨勢(shì)的準(zhǔn)確評(píng)價(jià)與預(yù)估。數(shù)據(jù)量的膨脹雖然為數(shù)據(jù)預(yù)測(cè)領(lǐng)域提供了廣闊的素材空間與研究基礎(chǔ),但另一方面也制約了預(yù)測(cè)技術(shù)的進(jìn)一步優(yōu)化,集中表現(xiàn)為以下幾點(diǎn):一是噪聲數(shù)據(jù)的大量存在擾亂了預(yù)測(cè)方法的正常工作,使得預(yù)測(cè)效率降低;二是數(shù)據(jù)安全受到嚴(yán)峻挑戰(zhàn);三是缺乏有針對(duì)性、深層次的信息分析提煉手段,數(shù)據(jù)的價(jià)值未得以充分發(fā)揮[1]。大數(shù)據(jù)時(shí)代處理數(shù)據(jù)理念的三大轉(zhuǎn)變是“要全體不要抽樣、要效率不要絕對(duì)精確、要相關(guān)不要因果”[2],因此,掌握好、挖掘好、運(yùn)用好既有數(shù)據(jù),不斷從數(shù)據(jù)中創(chuàng)造更多的價(jià)值,成為了數(shù)據(jù)預(yù)測(cè)研究領(lǐng)域的新課題。

        文中研究?jī)?nèi)容所依托的“三峽大學(xué)科研大數(shù)據(jù)計(jì)算服務(wù)平臺(tái)”是根據(jù)數(shù)據(jù)預(yù)測(cè)領(lǐng)域研究趨勢(shì)和發(fā)展目的構(gòu)建的具有鮮明應(yīng)用導(dǎo)向的開(kāi)放型服務(wù)平臺(tái),涵蓋了信息上傳、內(nèi)容分析、模型構(gòu)建等內(nèi)容,為數(shù)據(jù)預(yù)測(cè)服務(wù)方法的構(gòu)建提供了現(xiàn)實(shí)可用的載體。該平臺(tái)的一大亮點(diǎn)是數(shù)據(jù)互通互用、方法共建共享,抽象包裝好的數(shù)據(jù)上傳模塊大大提高了上傳效率、優(yōu)化了上傳體驗(yàn),而且數(shù)據(jù)一旦被上傳到云端,所有平臺(tái)用戶均可查看、下載;平臺(tái)還為用戶提供了數(shù)據(jù)預(yù)測(cè)服務(wù)的構(gòu)建體系,包括數(shù)據(jù)訪問(wèn)、數(shù)據(jù)預(yù)處理、特征工程、統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、文本分析、數(shù)據(jù)可視化等模塊,用戶可以根據(jù)自己的實(shí)際需要,以抽象的方法構(gòu)建出相應(yīng)的服務(wù)模型,結(jié)合自己或其他用戶已經(jīng)上傳的數(shù)據(jù)即可投入實(shí)際運(yùn)行使用。例如,基于數(shù)據(jù)采集與特征分析的城市火災(zāi)風(fēng)險(xiǎn)預(yù)測(cè)服務(wù)、城市人口疾病概率預(yù)測(cè)服務(wù)、影片受歡迎程度預(yù)測(cè)服務(wù)、新聞節(jié)目延時(shí)風(fēng)險(xiǎn)預(yù)測(cè)服務(wù)等,都可以基于該科研大數(shù)據(jù)計(jì)算服務(wù)平臺(tái)進(jìn)行構(gòu)建和實(shí)現(xiàn)。

        在數(shù)據(jù)預(yù)測(cè)服務(wù)構(gòu)建方面,文獻(xiàn)[3]只指出了數(shù)據(jù)預(yù)測(cè)的理論背景和應(yīng)用領(lǐng)域,沒(méi)有對(duì)相關(guān)方法做進(jìn)一步研究;文獻(xiàn)[4]提供了數(shù)據(jù)預(yù)測(cè)模型性能度量的維度與相關(guān)技術(shù),但沒(méi)有通過(guò)實(shí)際用例進(jìn)行實(shí)驗(yàn)研究;文獻(xiàn)[5]提出了基于主成分分析和統(tǒng)計(jì)建模的數(shù)據(jù)預(yù)測(cè)模型,但僅僅應(yīng)用在經(jīng)濟(jì)預(yù)測(cè)領(lǐng)域,沒(méi)有抽象出可移植的通用模型。

        作為對(duì)該平臺(tái)實(shí)用性、可靠性的驗(yàn)證,文中通過(guò)數(shù)據(jù)樣本采集和特征提取、特征預(yù)處理、建模技術(shù)選擇等過(guò)程,提出了一種基于監(jiān)督學(xué)習(xí)的數(shù)據(jù)預(yù)測(cè)服務(wù)構(gòu)建方法。該方法以機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)為基本手段,構(gòu)建了“數(shù)據(jù)—特征—模型—數(shù)據(jù)”的預(yù)測(cè)鏈,較高的抽象性使其移植性能良好,能夠在比較廣泛的領(lǐng)域得以應(yīng)用,從而為科研大數(shù)據(jù)平臺(tái)上具體服務(wù)的構(gòu)建提供統(tǒng)一化模型。

        1 科研大數(shù)據(jù)服務(wù)平臺(tái)簡(jiǎn)介

        數(shù)據(jù)量的迅猛增長(zhǎng)在為數(shù)據(jù)使用者帶來(lái)機(jī)遇的同時(shí),也催生了許多亟待解決的問(wèn)題。有的研究者掌握大量數(shù)據(jù),但空白的數(shù)據(jù)整合方法、落后的數(shù)據(jù)建模技術(shù)、低下的數(shù)據(jù)使用效率制約了數(shù)據(jù)量?jī)?yōu)勢(shì)的發(fā)揮;有的研究者有一套科學(xué)系統(tǒng)的數(shù)據(jù)分析機(jī)制和模型構(gòu)建體系,但匱乏的數(shù)據(jù)獲取渠道使研究工作缺乏寶貴的原材料。數(shù)據(jù)與技術(shù)不相適應(yīng)的矛盾已經(jīng)成為數(shù)據(jù)預(yù)測(cè)領(lǐng)域的一個(gè)重要瓶頸。

        將數(shù)據(jù)與技術(shù)進(jìn)行有機(jī)整合的科研大數(shù)據(jù)服務(wù)平臺(tái)為解決這一矛盾提供了新路徑。該平臺(tái)的一個(gè)重要優(yōu)勢(shì)是將“數(shù)據(jù)上傳-數(shù)據(jù)分析-數(shù)據(jù)應(yīng)用”這一封閉管道改造成了開(kāi)放鏈條,實(shí)現(xiàn)了一人上傳、多人分享、群體共用。具體地說(shuō),當(dāng)構(gòu)建一個(gè)數(shù)據(jù)預(yù)測(cè)服務(wù)時(shí),一個(gè)用戶將原始數(shù)據(jù)上傳至服務(wù)器云端,該數(shù)據(jù)可以立即被平臺(tái)上的其他用戶檢索、瀏覽到,而且基于該數(shù)據(jù)的預(yù)測(cè)模型構(gòu)建過(guò)程也可以由所有用戶一起完成,所得到的模型結(jié)果可以一起應(yīng)用,這有效地提高了對(duì)數(shù)據(jù)潛在價(jià)值的挖掘能力。

        2 數(shù)據(jù)預(yù)測(cè)服務(wù)的構(gòu)建方法

        用好科研大數(shù)據(jù)服務(wù)平臺(tái)的關(guān)鍵在于擁有一個(gè)好的數(shù)據(jù)預(yù)測(cè)服務(wù)構(gòu)建方法。數(shù)據(jù)預(yù)測(cè)服務(wù)構(gòu)建方法相當(dāng)于平臺(tái)上的一個(gè)抽象“模具”,以它為基礎(chǔ)可以構(gòu)建出各種不同的數(shù)據(jù)預(yù)測(cè)服務(wù),從而在各個(gè)領(lǐng)域有針對(duì)性的發(fā)揮作用。因此,數(shù)據(jù)預(yù)測(cè)服務(wù)構(gòu)建方法對(duì)于整個(gè)平臺(tái)能否有效運(yùn)行具有十分重要的意義:一個(gè)好的構(gòu)建方法可以為各個(gè)服務(wù)的構(gòu)建提供良好的模板,從而提高運(yùn)行效率、減少錯(cuò)誤產(chǎn)生的可能性;相反,一個(gè)壞的構(gòu)建方法不單單影響自身,依據(jù)它所創(chuàng)建的具體服務(wù)都會(huì)帶有先天缺陷,從而嚴(yán)重影響平臺(tái)的運(yùn)行效果。

        文中提出的基于監(jiān)督學(xué)習(xí)的數(shù)據(jù)預(yù)測(cè)服務(wù)構(gòu)建方法(見(jiàn)圖1),以樣本、特征、建模技術(shù)三個(gè)對(duì)象為主體,具有較好的可擴(kuò)展性和可移植性。

        圖1 基于監(jiān)督學(xué)習(xí)的數(shù)據(jù)預(yù)測(cè)服務(wù)構(gòu)建方法

        2.1 樣本采集與特征選取

        數(shù)據(jù)樣本是數(shù)據(jù)預(yù)測(cè)的基本對(duì)象,也是整個(gè)研究過(guò)程的開(kāi)展空間,采集樣本是研究開(kāi)始的前提。在一般的科研過(guò)程中,樣本采集的方式主要可以歸為以下幾類(lèi):一是在相關(guān)領(lǐng)域的信息公開(kāi)網(wǎng)站上直接下載,如文獻(xiàn)[6];二是通過(guò)API接口在線獲取,如文獻(xiàn)[7];三是通過(guò)人工方式手動(dòng)采集。無(wú)論通過(guò)何種方式,采集的數(shù)據(jù)都必須符合真實(shí)、完整、客觀、準(zhǔn)確的要求,才能夠應(yīng)用到下一步的分析中,以保證實(shí)驗(yàn)結(jié)果的可靠性。在監(jiān)督學(xué)習(xí)中,采集的數(shù)據(jù)樣本總和稱為樣本空間,它會(huì)被進(jìn)一步劃分為訓(xùn)練集和測(cè)試集,以構(gòu)建模型并進(jìn)行檢驗(yàn)。

        特征是對(duì)研究對(duì)象的高度抽象,是數(shù)據(jù)對(duì)象所含信息的代表性表示,是表征數(shù)據(jù)的關(guān)鍵。在樣本采集過(guò)程中,一個(gè)數(shù)據(jù)對(duì)象往往包含著大量信息,其中部分與研究相關(guān)的信息對(duì)工作起到了重要作用,但大部分信息與研究工作無(wú)關(guān)或關(guān)聯(lián)度較小,將其納入研究范圍會(huì)大大降低數(shù)據(jù)分析、預(yù)測(cè)的效率。因此,從大量信息中找準(zhǔn)提取數(shù)據(jù)特征的角度,成為了每一名研究者必須面對(duì)的問(wèn)題。選取特征既可以根據(jù)生活常識(shí)、工作經(jīng)驗(yàn)進(jìn)行人工判斷,也可以輔助SVD分解技術(shù)[8],通過(guò)計(jì)算能量值并設(shè)定取舍閾值選取最具影響力的特征。總之,特征的選取一定要符合兩個(gè)方面的要求:一是最大限度表征數(shù)據(jù)樣本;二是最大程度降低計(jì)算開(kāi)銷(xiāo)。

        2.2 特征預(yù)處理

        通過(guò)相關(guān)方法收集到的特征往往不能直接投入后續(xù)算法進(jìn)行應(yīng)用,這可能與數(shù)據(jù)本身的特質(zhì)有關(guān),也可能與待使用算法模型對(duì)數(shù)據(jù)的要求有關(guān)。如果在樣本采集的過(guò)程中出現(xiàn)欠采樣或者過(guò)采樣[9]問(wèn)題,導(dǎo)致樣本類(lèi)別不均衡,則需要增加或減少相應(yīng)樣本;如果采集到了大量的異常樣本,而這些樣本本身并無(wú)太大實(shí)際意義并且對(duì)模型的構(gòu)建起到了嚴(yán)重的負(fù)面作用,則需要進(jìn)行樣本的選擇與清洗;如果特征向量中某一維的取值范圍過(guò)大,而其實(shí)際影響力與其他特征并無(wú)顯著差別,則需要進(jìn)行歸一化處理。

        預(yù)處理既是對(duì)數(shù)據(jù)樣本的進(jìn)一步提取與精煉,也是對(duì)下一步輸入模型的準(zhǔn)備與鋪墊,它并不產(chǎn)生新的對(duì)象,只是通過(guò)在既有特征對(duì)象上施加映射關(guān)系,生成一種新的表示。預(yù)處理方式的選擇一是要為數(shù)據(jù)預(yù)測(cè)的最終目的服務(wù),二是要符合特征的本質(zhì)屬性,三是要契合后續(xù)待使用模型的相關(guān)要求。

        2.3 建模技術(shù)的選擇

        根據(jù)處理好的特征進(jìn)行建模是數(shù)據(jù)預(yù)測(cè)服務(wù)構(gòu)建方法的最后一步,也是最重要的一步。在一般的建模過(guò)程中,往往只對(duì)特征選取一種技術(shù)進(jìn)行建模,這在預(yù)測(cè)要求較為簡(jiǎn)單的情況下應(yīng)用得比較廣泛,但在特征數(shù)量豐富、特征間關(guān)系復(fù)雜的情況下則不再適用。文中描述的數(shù)據(jù)預(yù)測(cè)服務(wù)構(gòu)建方法提出在同一數(shù)據(jù)集上分別使用不同建模技術(shù),以提高總模型與數(shù)據(jù)的擬合程度,進(jìn)一步優(yōu)化預(yù)測(cè)效果。

        在該方法中,服務(wù)是平臺(tái)的實(shí)例,模型是服務(wù)的載體,因此,選擇好的建模技術(shù)對(duì)單個(gè)服務(wù)乃至整個(gè)平臺(tái)的質(zhì)量具有決定性意義。需求導(dǎo)向是對(duì)建模技術(shù)進(jìn)行選擇的根本遵循,即構(gòu)建的服務(wù)需要產(chǎn)生什么樣的結(jié)果,就相應(yīng)地選擇什么樣的模型;同時(shí)也要考慮模型與數(shù)據(jù)特征的兼容性,確保模型不僅能用得好,還能用得穩(wěn)。

        3 對(duì)構(gòu)建方法的實(shí)例驗(yàn)證

        本部分用一個(gè)具體的應(yīng)用服務(wù)來(lái)驗(yàn)證以上提到的構(gòu)建方法。

        3.1 服務(wù)應(yīng)用背景概述

        近年來(lái),隨著新聞?shì)浾摴ぷ鞯娜婕訌?qiáng),新聞數(shù)量的不斷擴(kuò)大、新聞內(nèi)容的不斷增多,導(dǎo)致電視新聞節(jié)目的既定時(shí)長(zhǎng)經(jīng)常無(wú)法滿足實(shí)際的播出需要,延時(shí)[10]情況頻頻出現(xiàn)。特別是中央電視臺(tái)《新聞聯(lián)播》節(jié)目,延時(shí)頻率、幅度呈現(xiàn)出了“雙上升”勢(shì)頭。以全國(guó)“兩會(huì)”召開(kāi)的3月為例,2016、2017、2018年3月《新聞聯(lián)播》節(jié)目延時(shí)的次數(shù)分別為6次、12次、22次,月延時(shí)率同比分別上漲了19.1%和32.3%;另?yè)?jù)統(tǒng)計(jì),在2017年9月下旬至2018年9月下旬的365期《新聞聯(lián)播》中,延時(shí)節(jié)目期數(shù)為75,延時(shí)率高達(dá)20.5%,相當(dāng)于每五天就有一次延時(shí)情況發(fā)生。

        頻繁出現(xiàn)的延時(shí)情況會(huì)對(duì)電視臺(tái)生產(chǎn)播出各環(huán)節(jié)造成連鎖影響:一是打破節(jié)目常規(guī)播出預(yù)案,播出線上的各種不確定因素顯著增多,播出事故風(fēng)險(xiǎn)陡然上升;二是影響后續(xù)節(jié)目編排,尤其是《新聞聯(lián)播》之后的黃金時(shí)段節(jié)目,會(huì)因延時(shí)出現(xiàn)播出時(shí)間后移、節(jié)目時(shí)長(zhǎng)縮減甚至取消播出等嚴(yán)重后果;三是廣告播出受到波及,每天19點(diǎn)30分之后的廣告具有數(shù)量少、價(jià)格高、影響大、傳播廣等特點(diǎn),每秒鐘均價(jià)高達(dá)數(shù)萬(wàn)元,延時(shí)使得廣告無(wú)法按時(shí)播出造成經(jīng)濟(jì)損失;四是地方衛(wèi)視也會(huì)因此受到影響,國(guó)家有關(guān)部門(mén)明確規(guī)定地方臺(tái)每晚需完整轉(zhuǎn)播央視《新聞聯(lián)播》節(jié)目,延時(shí)情況的出現(xiàn)會(huì)使所有地方臺(tái)不得不臨時(shí)做出調(diào)整。

        從《新聞聯(lián)播》大量的歷史播出庫(kù)中提取分析相關(guān)數(shù)據(jù),對(duì)可能出現(xiàn)的延時(shí)情況進(jìn)行定量研究成為了預(yù)測(cè)延時(shí)、減小風(fēng)險(xiǎn)、降低損失的新途徑。

        3.2 樣本采集和特征選取

        《新聞聯(lián)播》的延時(shí)具有一定的時(shí)間聚集性,在一些重大事件發(fā)生的時(shí)間段,延時(shí)的幾率高于平時(shí)。雖然近年來(lái)該節(jié)目的延時(shí)次數(shù)大幅增加,但相較于每天播出一期的密度,延時(shí)率依然維持在較低區(qū)間,“不延時(shí)是常態(tài),延時(shí)是例外”的基本面沒(méi)有打破。為有效分析《新聞聯(lián)播》延時(shí)特點(diǎn),準(zhǔn)確找出延時(shí)背后的關(guān)鍵因素,選取了較具延時(shí)代表性的2015年9月、2016年3月和10月、2017年3月、2017年9月中上旬的135期節(jié)目;同時(shí)考慮到更為普遍的一般性,選取了2017年9月下旬至2018年9月下旬的365期節(jié)目,組成容量為500的樣本空間。

        特征是對(duì)樣本的概貌性描述,是表征樣本的關(guān)鍵點(diǎn),抓好特征是用好樣本的基礎(chǔ)與前提。在新聞延時(shí)預(yù)測(cè)服務(wù)中,時(shí)政新聞字?jǐn)?shù)、占比及輻射指數(shù)三個(gè)特征可以較好地對(duì)樣本進(jìn)行解釋。特征間關(guān)系如圖2所示

        圖2 特征間關(guān)系

        3.2.1 時(shí)政新聞字?jǐn)?shù)

        時(shí)政新聞一般指黨和國(guó)家的重要會(huì)議、國(guó)家重大外事活動(dòng)及領(lǐng)導(dǎo)人出席的活動(dòng)等。不同于其他類(lèi)型新聞,時(shí)政新聞是《新聞聯(lián)播》的必播內(nèi)容,可變性小、播出彈性小,用其衡量節(jié)目的延時(shí)風(fēng)險(xiǎn)具有較好的代表性。隨著新興媒體的不斷發(fā)展,絕大多數(shù)時(shí)政新聞的文字稿件在每晚《新聞聯(lián)播》播出之前就會(huì)被官方媒體發(fā)布于網(wǎng)站,因此時(shí)政新聞字?jǐn)?shù)(word number,WN)可以作為特征用于預(yù)測(cè)。

        3.2.2 時(shí)政新聞?wù)急?/p>

        時(shí)政新聞?wù)急?current politics ratio,CPR)定義為時(shí)政新聞時(shí)長(zhǎng)(current politics duration,CPD)占節(jié)目常規(guī)時(shí)長(zhǎng)(1 800秒)的比例,它是預(yù)測(cè)延時(shí)風(fēng)險(xiǎn)的一個(gè)重要指標(biāo),如式1所示。

        (1)

        例如,當(dāng)該特征值在0.5時(shí),說(shuō)明時(shí)政新聞時(shí)長(zhǎng)為15分鐘,余下15分鐘可用于其他類(lèi)型新聞的播放,延時(shí)風(fēng)險(xiǎn)較低;當(dāng)該特征值在0.8時(shí),留給其他類(lèi)型新聞的播放時(shí)間僅剩6分鐘,延時(shí)風(fēng)險(xiǎn)較高;當(dāng)該特征值在1及以上時(shí),說(shuō)明僅時(shí)政新聞就已達(dá)到或超過(guò)30分鐘,延時(shí)風(fēng)險(xiǎn)為100%。

        《新聞聯(lián)播》播音員語(yǔ)速近年來(lái)處于較為固定的區(qū)間范圍,所以WN和CPD之間存在著增長(zhǎng)關(guān)系,該關(guān)系可以利用前向逐步線性回歸方法找到。而由式1可知,CPD與CPR之間呈現(xiàn)出線性關(guān)系,所以可以由WN直接得到CPR。利用前向逐步線性回歸算法找到這一關(guān)系的過(guò)程將在3.4節(jié)具體描述。

        3.2.3 輻射指數(shù)

        單單依靠時(shí)政新聞?wù)急阮A(yù)測(cè)節(jié)目的延時(shí)風(fēng)險(xiǎn)有時(shí)并不可靠。當(dāng)CPR很高時(shí),節(jié)目可能會(huì)壓縮或者取消排序靠后的社會(huì)新聞、國(guó)際新聞,以對(duì)沖延時(shí)風(fēng)險(xiǎn);當(dāng)CPR很低時(shí),也有可能會(huì)大量播放與時(shí)政新聞配套的其他新聞,從而造成超時(shí)比(overtime ratio,OR,實(shí)際播出時(shí)長(zhǎng)與節(jié)目常規(guī)時(shí)長(zhǎng)的比值)升高。

        在抽取的500個(gè)樣本中,延時(shí)樣本有107個(gè),其平均CPR為0.78,但其中也有部分樣本CPR值非常??;非延時(shí)樣本有393個(gè),其平均CPR為0.28,其中也有部分樣本CPR值非常高。表1列出了部分此類(lèi)異常樣本。

        表1 CPR與OR不相適應(yīng)的部分異常樣本

        這類(lèi)異常樣本出現(xiàn)的原因在于忽略了《新聞聯(lián)播》節(jié)目編排中的要聞?dòng)绊懸蛩亍.?dāng)處于重大活動(dòng)及節(jié)日期間時(shí),《新聞聯(lián)播》節(jié)目為配合活動(dòng)的開(kāi)展、營(yíng)造節(jié)日的氛圍,會(huì)有意地增加相關(guān)新聞的播出量,而這往往對(duì)是否延時(shí)及延時(shí)幅度造成較大影響。為此,文中提出“輻射指數(shù)”(influence exponential,IE)特征,表征重大活動(dòng)及節(jié)日對(duì)《新聞聯(lián)播》節(jié)目延時(shí)的影響程度,如式2所示。

        (2)

        其中,k表示某天附近范圍內(nèi)可能對(duì)當(dāng)天新聞節(jié)目時(shí)長(zhǎng)產(chǎn)生影響的重大事件數(shù);distance為該事件與當(dāng)天的時(shí)間距離;α為該事件影響力大小的量化體現(xiàn);β(初始值置0)根據(jù)該事件所處時(shí)間位置表示其是否對(duì)當(dāng)天節(jié)目產(chǎn)生影響,如產(chǎn)生則賦值為1,否則保持初始值。

        根據(jù)對(duì)往期《新聞聯(lián)播》節(jié)目播出規(guī)律的觀察,提煉出黨代會(huì)開(kāi)閉幕、全國(guó)兩會(huì)開(kāi)閉幕、重大外交活動(dòng)和其他重要活動(dòng)等四類(lèi)對(duì)延時(shí)率貢獻(xiàn)較大的主要事件,其α、β及影響鄰域取值由表2定義。

        表2 輻射指數(shù)公式相關(guān)參數(shù)取值規(guī)則

        如2018年全國(guó)兩會(huì)的開(kāi)幕時(shí)間分別是3月3日、3月5日,閉幕時(shí)間分別是3月15日、3月20日,根據(jù)定義的影響鄰域及相關(guān)指數(shù),可以劃出這四個(gè)事件在當(dāng)月的影響范圍,如圖3所示。

        以3月10日為例,其處于事件1、事件2、事件3三個(gè)事件的影響半徑內(nèi),因此有:

        圖3 2018年3月重大活動(dòng)影響范圍

        3.3 特征預(yù)處理

        在挑選出來(lái)的特征中,CPR、IE、OR均為個(gè)位數(shù),而WN則多以千、萬(wàn)為單位,這給特征間相互關(guān)系的挖掘帶來(lái)了負(fù)面影響。為此,首先對(duì)WN進(jìn)行歸一化處理,將其轉(zhuǎn)化為分布于0-1之間的值。

        為使有限的數(shù)據(jù)集發(fā)揮出更好的效能,有必要對(duì)數(shù)據(jù)集進(jìn)行合理劃分。這里采用基于分層采樣[11]的10-折交叉驗(yàn)證[12],將500個(gè)樣本均分為10個(gè)子集,每個(gè)子集的非延時(shí)樣本與延時(shí)樣本之比控制在4∶1左右。

        3.4 建模技術(shù)選擇一:通過(guò)前向逐步回歸預(yù)測(cè)CPR

        時(shí)政新聞?wù)急仁穷A(yù)測(cè)延時(shí)比的重要指標(biāo),但每天的CPR只有當(dāng)節(jié)目播出后才能獲得,因此單純的CPR對(duì)預(yù)測(cè)沒(méi)有直接意義。3.2.2中已經(jīng)提到可以通過(guò)機(jī)器學(xué)習(xí)算法,用時(shí)政新聞字?jǐn)?shù)來(lái)預(yù)測(cè)時(shí)政新聞?wù)急?,從而將CPR這一后得特征轉(zhuǎn)化為先得特征,達(dá)到預(yù)測(cè)的目的。

        3.4.1 前向逐步回歸算法

        前向逐步回歸是機(jī)器學(xué)習(xí)線性回歸算法[13]中的一個(gè)重要方法,其將誤差初始化為無(wú)窮大,之后對(duì)特征賦予初始值為0的權(quán)重,通過(guò)每次對(duì)權(quán)重加、減步長(zhǎng)后計(jì)算并覆蓋誤差,得到使誤差最小的系數(shù)。(它屬于一種貪心算法,每一步都盡可能減少誤差[7])

        在此,采用絕對(duì)值誤差度量真實(shí)值與預(yù)測(cè)值之間的偏差,如式(3)所示。

        (3)

        3.4.2 建立WN-CSR模型

        這里展示了以第一個(gè)子集為測(cè)試集,后九個(gè)子集為訓(xùn)練集得到的WN-CSR前向逐步回歸模型,圖4(a)、(b)分別是將該模型應(yīng)用在訓(xùn)練集和測(cè)試集上的結(jié)果(x、y軸分別表示歸一化處理后的WN和CSR)。

        (a)將模型應(yīng)用在訓(xùn)練集

        (b)將該模型應(yīng)用在測(cè)試集圖4 前向逐步回歸建模過(guò)程及模型擬合效果

        可以看到,該模型對(duì)大多數(shù)樣本點(diǎn)進(jìn)行了很好的擬合,但仍有部分樣本點(diǎn)與模型相距較遠(yuǎn),且實(shí)際值高于預(yù)測(cè)值的“正向誤差樣本量”遠(yuǎn)多于實(shí)際值低于預(yù)測(cè)值的“反向誤差樣本量”,即時(shí)政新聞字?jǐn)?shù)較少時(shí)仍有較高的幾率出現(xiàn)高時(shí)政新聞?wù)急?。文獻(xiàn)[14]對(duì)此現(xiàn)象給出了解釋。

        盡管如此,大多數(shù)樣本間依然存在較為明顯的線性關(guān)系,經(jīng)過(guò)10-折交叉驗(yàn)證,可得WN-CSR平均模型為:

        y=1.539 2x

        (4)

        該模型平均訓(xùn)練誤差、平均測(cè)試誤差分別為0.05、0.14。

        3.5 建模技術(shù)選擇二:通過(guò)三維點(diǎn)云建模預(yù)測(cè)OR

        3.2.3節(jié)給出了計(jì)算輻射指數(shù)IE的公式,3.4.2節(jié)給出了WN-CSR模型,本節(jié)討論利用MATLAB的cftool工具箱進(jìn)行三維點(diǎn)云建模,得到CSR-IE:OR的映射關(guān)系。

        3.5.1 Curve Fitting Tool

        MATLAB提供了大量實(shí)用的工具箱,其中cftool(curve fitting tool)因其“使用方便、功能強(qiáng)大、能實(shí)現(xiàn)多種類(lèi)型的線性或非線性曲線”[15]而得以廣泛應(yīng)用。它包含了多種對(duì)數(shù)據(jù)點(diǎn)進(jìn)行逼近和擬合的方式,在建模完成后還會(huì)提供擬合度、自由度、均方誤差等指標(biāo),為用戶判斷該模型的好壞提供量化依據(jù);友好的數(shù)據(jù)可視化功能也是該工具箱的一大亮點(diǎn)。cftool為三維點(diǎn)云曲面擬合提供了四種方式,即custom equation(自定義方程)、interpolant(插值逼近)、LOWESS(局部加權(quán)回歸散點(diǎn)平滑)及polynomial(多項(xiàng)式擬合)。在較為常用的多項(xiàng)式擬合中,需要用戶指定較為合適的最高冪次:如果冪次過(guò)高,模型對(duì)數(shù)據(jù)學(xué)習(xí)得太好而泛化能力較差,就會(huì)出現(xiàn)“過(guò)擬合”[16];冪次過(guò)低可能導(dǎo)致模型無(wú)法挖掘到數(shù)據(jù)間的內(nèi)在關(guān)系,從而不能充分逼近數(shù)據(jù),即出現(xiàn)“欠擬合”現(xiàn)象。cftool工具箱在曲面擬合時(shí)允許的最高冪次為“雙5次”[17]。此外,cftool也為用戶提供了指定模型魯棒性的機(jī)會(huì),可根據(jù)實(shí)際需要選擇off(常規(guī)最小二乘法)、LAR(最小絕對(duì)值殘差)和bisquare(二次方權(quán)值)[18]。

        3.5.2 建立CSR-IE:OR模型

        該模型的構(gòu)建過(guò)程仍然采用10-折交叉驗(yàn)證方式,將第1~10個(gè)子集依次作為測(cè)試集,其余9個(gè)子集依次作為訓(xùn)練集。在當(dāng)前訓(xùn)練集、測(cè)試集上,將三維點(diǎn)拆分出X、Y、Z軸作為cftool的輸入。在輸入?yún)?shù)選項(xiàng)中,擬合方式選擇多項(xiàng)式擬合“Polynomial”,冪次選擇“x:2,y:2”,魯棒性選擇最小絕對(duì)值殘差“LAR”。

        由此可得該模型的一般形式,如式5所示。

        f(x,y) =p00+p10x+p01y+p20x2+p11xy+p02y2

        (5)

        其中,x為時(shí)政新聞?wù)急菴SR;y為輻射指數(shù)IE;f(x,y) 為超時(shí)比OR。

        圖5展示以第一個(gè)子集為測(cè)試集,后九個(gè)子集為訓(xùn)練集得到的CSR-IE:OR三維點(diǎn)云模型(x、y、z軸分別表示CSR、IE、OR)。

        圖5 CSR-IE:OR點(diǎn)云模型

        經(jīng)過(guò)10-折交叉驗(yàn)證可得CSR-IE:OR平均模型:p00=1.006 6,p10=-0.142 6,p01=0.057 3,p20=0.330 7,p11=0.173 1,p02=-0.030 4。

        以上步驟給出了該方法構(gòu)建出的一個(gè)具體數(shù)據(jù)預(yù)測(cè)服務(wù),該服務(wù)在科研大數(shù)據(jù)服務(wù)平臺(tái)上的部署如圖6所示。

        圖6 服務(wù)方法在數(shù)據(jù)平臺(tái)上的部署

        4 模型應(yīng)用與誤差分析

        3.5.2節(jié)給出了10次實(shí)驗(yàn)得出的平均模型。為進(jìn)一步評(píng)估模型的可信度,從訓(xùn)練誤差、測(cè)試誤差、決定系數(shù)(R-Square)、均方根誤差(RMSE)、可信度、延時(shí)可信度、非延時(shí)可信度等七個(gè)維度對(duì)10個(gè)模型進(jìn)行度量。

        訓(xùn)練誤差指該模型在對(duì)應(yīng)訓(xùn)練集上的平均誤差;測(cè)試誤差指該模型在對(duì)應(yīng)測(cè)試集上的平均誤差;決定系數(shù)[19]取值范圍為[0,1],表征模型對(duì)數(shù)據(jù)的解釋能力,越接近1表示擬合程度越高;均方根誤差[20]表征預(yù)測(cè)值與實(shí)際值的離散程度(見(jiàn)式6);可信度為模型在每一組測(cè)試集50個(gè)樣本中預(yù)測(cè)成功的比例;延時(shí)可信度為模型在每一組測(cè)試集所有延時(shí)樣本中的查出率;非延時(shí)可信度為模型在每一組測(cè)試集所有非延時(shí)樣本中的查出率。具體如表3所示。

        (6)

        (7)

        依據(jù)表3可知,該方法的平均訓(xùn)練誤差、測(cè)試誤差均在0.06左右,即預(yù)測(cè)新聞節(jié)目時(shí)長(zhǎng)的誤差均值為1.8分鐘;平均決定系數(shù)為0.981 6,說(shuō)明預(yù)測(cè)模型與真實(shí)模型的擬合度處于較高水平;均方根誤差為0.027 5,說(shuō)明預(yù)測(cè)值與真實(shí)值離散程度較??;可信度為0.86,說(shuō)明該方法判斷新聞節(jié)目延時(shí)與否的可信度為86%;延時(shí)可信度為70.4%,說(shuō)明該方法判斷新聞節(jié)目延時(shí)的可信度為70.4%;非延時(shí)可信度為0.911,說(shuō)明該方法判斷新聞節(jié)目不延時(shí)的可信度為91.1%。綜上所述,基于監(jiān)督學(xué)習(xí)的數(shù)據(jù)預(yù)測(cè)服務(wù)構(gòu)建方法在新聞延時(shí)領(lǐng)域取得了良好的應(yīng)用效果。

        表3 模型誤差度量結(jié)果

        5 結(jié)束語(yǔ)

        文中提出的基于監(jiān)督學(xué)習(xí)的數(shù)據(jù)預(yù)測(cè)服務(wù)構(gòu)建方法,以科研大數(shù)據(jù)服務(wù)平臺(tái)為依托,以實(shí)際應(yīng)用中的不同需求為導(dǎo)向,以具體服務(wù)為實(shí)際的運(yùn)行載體,對(duì)整個(gè)服務(wù)構(gòu)建過(guò)程提供了一套流程完善、可用性和復(fù)用性強(qiáng)的機(jī)制。以新聞節(jié)目延時(shí)預(yù)測(cè)為例進(jìn)行的實(shí)驗(yàn)表明,所構(gòu)建的服務(wù)對(duì)數(shù)據(jù)進(jìn)行了合理采集,對(duì)特征進(jìn)行了準(zhǔn)確抽取,對(duì)建模技術(shù)進(jìn)行了有效選擇,最終獲取了良好的預(yù)測(cè)結(jié)果。

        一個(gè)好的數(shù)據(jù)預(yù)測(cè)服務(wù)構(gòu)建方法既需具備良好的實(shí)用性和復(fù)用性,也需最大程度實(shí)現(xiàn)用戶的預(yù)測(cè)需求。文中提出的基于監(jiān)督學(xué)習(xí)的數(shù)據(jù)預(yù)測(cè)服務(wù)構(gòu)建方法在實(shí)用性和復(fù)用性上表現(xiàn)良好,但方法可變性不足,仍需在特定的應(yīng)用領(lǐng)域進(jìn)行優(yōu)化。

        猜你喜歡
        延時(shí)建模誤差
        聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃?chǎng)中做圓周運(yùn)動(dòng)”為例
        基于級(jí)聯(lián)步進(jìn)延時(shí)的順序等效采樣方法及實(shí)現(xiàn)
        角接觸球軸承接觸角誤差控制
        哈爾濱軸承(2020年2期)2020-11-06 09:22:26
        Beidou, le système de navigation par satellite compatible et interopérable
        壓力容器制造誤差探究
        基于PSS/E的風(fēng)電場(chǎng)建模與動(dòng)態(tài)分析
        電子制作(2018年17期)2018-09-28 01:56:44
        不對(duì)稱半橋變換器的建模與仿真
        九十億分之一的“生死”誤差
        山東青年(2016年2期)2016-02-28 14:25:41
        Two-dimensional Eulerian-Lagrangian Modeling of Shocks on an Electronic Package Embedded in a Projectile with Ultra-high Acceleration
        三元組輻射場(chǎng)的建模與仿真
        日韩不卡一区二区三区色图| 中国精学生妹品射精久久| 亚洲日韩图片专区小说专区| www.尤物视频.com| 日韩一二三四区在线观看| 99久久精品免费看国产| 欧美日韩色另类综合| 97超在线视频免费| 日韩人妻系列在线视频| 不卡一区二区三区国产| 国产片精品av在线观看夜色| 蜜桃成人无码区免费视频网站| 狠狠色狠狠色综合网老熟女| 国产成人自拍视频视频| 日韩精品熟妇一区二区三区| 91久国产在线观看| 男女啪啪在线视频网站| 性久久久久久| 国产精品毛片无码| 天啦噜国产精品亚洲精品| 中文字幕乱码在线婷婷| 国产大屁股喷水视频在线观看| 中文字幕精品一二三四五六七八| 少妇无码av无码去区钱| 国产精品久久久看三级| 成人影片麻豆国产影片免费观看| 久久久久亚洲精品无码网址色欲| 亚洲日韩AV秘 无码一区二区 | 日韩美女亚洲性一区二区| 久久人妻少妇嫩草av无码专区| 国产成人国产在线观看入口| 青青草久热手机在线视频观看| 成人av在线久色播放| 真人新婚之夜破苞第一次视频| 国产精品大屁股1区二区三区| 亚洲中文字幕国产剧情| 精人妻无码一区二区三区| 无码三级在线看中文字幕完整版 | 中文字幕一区二区三区人妻精品 | 一区二区三区日韩亚洲中文视频 | 手机在线观看成年人视频|