亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于回歸學習算法的高鐵站媒體資源價值評估模型研究與應(yīng)用

        2023-01-16 13:26:02單杏花牛慧琳
        鐵路計算機應(yīng)用 2022年12期
        關(guān)鍵詞:價值特征資源

        許 娜,單杏花,付 睿,吳 剛,?;哿?/p>

        (1.中國鐵道科學研究院集團有限公司 電子計算技術(shù)研究所,北京 100081;2.中國國家鐵路集團有限公司 經(jīng)營開發(fā)部,北京 100844)

        近年來,我國高速鐵路(簡稱:高鐵)網(wǎng)規(guī)模快速擴大,從“四縱四橫”到“八縱八橫”[1]。高鐵所具有的高密度、高速度、安全性、舒適性、準時性使其成為鐵路旅客的主流出行方式[2]。以華東某高鐵線路受眾為例,20~39 歲的消費人群占比61.8%,男性占比約60%,本科及以上學歷占比約75%。由此可見,具備引導力的消費群體正在成為高鐵媒體的潛在消費主力[3]。

        隨著高鐵站媒體廣告市場的興盛,鐵路媒體應(yīng)基于各類型受眾的出行需求、身份差異及時節(jié)變化等因素,進行針對性傳播,增強信息傳播的廣度、深度和影響力。因此,亟需一種科學、系統(tǒng)、全面的鐵路媒體資源價值評估體系指導廣告資源經(jīng)營。目前,大數(shù)據(jù)分析、人工智能、機器學習等技術(shù)的飛速發(fā)展和成熟應(yīng)用,為高鐵站媒體資源廣告價值評估提供了可行性。

        清水公一[4]提出了每日有效流量監(jiān)測,建立了日本戶外廣告效果評估指標體系;孫文清[5]認為廣告效果的多層次性使得廣告效果具有模糊性,建立了多級模糊綜合評價模型測定廣告效果,設(shè)計了廣告效果綜合評價的指標體系,并確定各評價指標權(quán)重;陳文凱[6]將高鐵站內(nèi)廣告資源整合為站內(nèi)廣告空間的形式進行評估,論述高鐵站內(nèi)廣告空間價值,分析影響因素,評估廣告空間整體價值。而目前對高鐵車站媒體資源定量評估指標及價值分析研究尚不深入。

        媒體價值是指媒體作為商品的市場價值。媒體資源價值評估即是對媒體的市場價值進行預估和解析,建立起一個綜合的、完整的評估模型[7]。本文從鐵路媒體資源經(jīng)營出發(fā),通過大數(shù)據(jù)分析方法,研究相關(guān)性指標與媒體招商價值的關(guān)系,篩選影響鐵路媒體價值的強相關(guān)特征因素,形成媒體資源價值評估的指標體系模型,構(gòu)建高鐵站媒體資源價值評估模型,實現(xiàn)對高鐵站媒體資源價值的評估與預測。

        1 指標體系搭建

        1.1 指標體系構(gòu)成

        基于受眾和媒體2 個角度,結(jié)合高鐵站媒體特征,構(gòu)建高鐵站媒體資源價值評估指標體系,如圖1所示,包含6 個大類、10 個子類、31 項指標。

        圖1 高鐵站媒體資源價值評估指標體系

        1.2 數(shù)據(jù)項采集及預處理

        高鐵站媒體資源價值評估指標體系31 項指標的數(shù)據(jù)主要從鐵路媒體資源管理平臺、鐵路出行統(tǒng)計、國家統(tǒng)計局、各地方政府官網(wǎng)公開發(fā)布的社會經(jīng)濟、車站環(huán)境等數(shù)據(jù)源中獲取。部分指標的數(shù)據(jù)可直接從上述數(shù)據(jù)源采集,如城市GDP、高動占比等;部分數(shù)據(jù)指標需進行數(shù)據(jù)源分類統(tǒng)計,如年齡構(gòu)成;部分數(shù)據(jù)指標需要對采集到的源數(shù)據(jù)進行加工,形成數(shù)據(jù)項,以滿足要求,以觸達人次為例,不同媒體位置的觸達人次各不相同,結(jié)合第三方調(diào)研公司獲取到媒體觸達率、觸達頻次,如表1所示,以及車站年到發(fā)客流量,根據(jù)公式(1)得出觸達人次。

        表1 調(diào)研高鐵站媒體位置到達率和接觸頻次

        對原始數(shù)據(jù)項進行處理后,31 個指標共形成含82 個數(shù)據(jù)項的原始樣本數(shù)據(jù)集。

        2 特征工程

        2.1 特征數(shù)據(jù)項分析

        對原始樣本數(shù)據(jù)集進行探索性分析,得出各特征數(shù)據(jù)項的分布趨勢,如表2所示。其中,集中趨勢是數(shù)據(jù)聚攏程度的一種衡量,衡量參數(shù)是均值、中位數(shù)、眾數(shù)和分位數(shù);離中趨勢是數(shù)據(jù)離散程度的衡量,衡量參數(shù)主要是標準差;數(shù)據(jù)分布主要檢驗數(shù)據(jù)是否符合正態(tài)分布,衡量參數(shù)為偏態(tài)系數(shù)和峰態(tài)系數(shù),偏態(tài)系數(shù)衡量數(shù)據(jù)平均值偏離狀態(tài),峰態(tài)系數(shù)衡量數(shù)據(jù)分布集中強度。

        表2 部分特征數(shù)據(jù)項分布趨勢衡量參數(shù)

        對上述指標進行分析可得出,年均媒體單價分布較離散,數(shù)據(jù)標準差較大,需排查并剔除異常值,同時,其偏態(tài)程度也較大,需進行數(shù)據(jù)變換,消弱數(shù)據(jù)的異方差性,使其更接近正態(tài)分布;城市GDP、年經(jīng)停列車數(shù)量等數(shù)據(jù)項標準差較其他數(shù)據(jù)項大,不利于不同單位或量級的指標進行比較,易影響目標結(jié)果,使得一些回歸算法無法學習到其他數(shù)據(jù)項特征,因此,需進行標準化、歸一化處理。

        2.2 異常值識別

        本文采用箱線圖的鑒定方式進行異常值剔除,如圖2所示。在箱線圖中,箱子中間的一條線代表中位數(shù),箱子的上下底分別是上四分位數(shù)(Q3)和下四分位數(shù)(Q1),上極限=中位數(shù)+3 · (Q3-Q1),下極限=中位數(shù)-3 · (Q3-Q1)。箱子的高度在一定程度上反映了數(shù)據(jù)的波動程度。上下邊緣則代表了該組數(shù)據(jù)的最大值和最小值,超范圍值視為異常值。

        圖2 原始樣本集特征數(shù)據(jù)箱線圖

        圖2中,紅色星為異常值,能看出城市人口規(guī)模、車站合同總金額、媒體面積、年均媒體單價等數(shù)據(jù)項均存在異常值。需將所列樣本數(shù)據(jù)異常值剔除。

        2.3 標準化和歸一化

        標準差較大的數(shù)據(jù)項需進行標準化和歸一化處理,確保所有特征數(shù)值都有相同的數(shù)量級。如果數(shù)據(jù)較為穩(wěn)定,不存在極端的最大/最小值,可用歸一化方式進行處理。本文對與媒體屬性相關(guān)的數(shù)據(jù)項、車站環(huán)境相關(guān)的數(shù)據(jù)項、與城市經(jīng)濟相關(guān)的數(shù)據(jù)項進行標準化處理。對與客流有關(guān)的數(shù)據(jù)項、與受眾屬性相關(guān)的數(shù)據(jù)項進行歸一化處理。

        2.4 數(shù)據(jù)變換

        對年均媒體單價做指數(shù)變換,解決其分布不均、方差較大的問題。變換前后的分布趨勢如圖3所示。對比可知,數(shù)據(jù)變換后更符合正態(tài)分布,且對評估模型的擬合效果更優(yōu)。

        圖3 年均媒體單價正態(tài)分布曲線對比

        2.5 相關(guān)性分析及特征選擇

        在生成預測模型前,還須對上述過程處理過的82 個特征數(shù)據(jù)之間、82 個特征數(shù)據(jù)和目標值(年均媒體單價)間的相關(guān)性進行分析。過濾掉特征相關(guān)性高、互相冗余或與目標值相關(guān)性較弱、給模型帶來噪聲并導致模型訓練速度緩慢的數(shù)據(jù)特征。本文采用皮爾遜相關(guān)系數(shù)法檢測變量間的相關(guān)性,剔除與目標值相關(guān)性低(相關(guān)系數(shù)<0.3)的特征數(shù)據(jù),合并相同指標項下共線性較強(相關(guān)系數(shù)>0.9)的特征數(shù)據(jù),得到初步篩選的37 個特征數(shù)據(jù)。皮爾遜相關(guān)性熱力圖如圖4所示。共線性較強的紅橙色區(qū)域依然存在,須進一步進行特征選擇。本文采用前進逐步回歸算法,進行特征數(shù)量及特征因子的選擇。

        圖4 特征數(shù)據(jù)初步篩選后的相關(guān)性熱力圖

        特征數(shù)量結(jié)果如圖5所示,當特征數(shù)量為24 時,模型的均方根誤差(RMSE,Root Mean Square Error)最低,使用梯度提升決策樹(GBDT,Gradient Boosting Decision Tree)模型來評估該24 項特性的重要性結(jié)果如圖6所示。

        圖5 特征數(shù)量與RMSE 關(guān)系折線圖

        圖6 GBDT 模型下特征重要性排序

        媒體面積為24 項特征項中與目標值相關(guān)性最高的特征項。特征工程選取出的最佳數(shù)據(jù)特征子集如圖7所示。

        圖7 特征工程選擇出的最佳數(shù)據(jù)特征

        3 價值評估模型

        對高鐵站媒體資源價值做分析與預測可歸結(jié)為回歸問題?;貧w學習算法可被認為是一種“函數(shù)逼近”[8]。價值評估模型的建構(gòu)需先將樣本數(shù)據(jù)集依次代入多個備選回歸學習算法,根據(jù)性能指標得到最優(yōu)算法,并將樣本數(shù)據(jù)集通過歸一化處理、超參調(diào)優(yōu)等方式進一步提升最優(yōu)算法的擬合優(yōu)度,以求達到符合商用要求(擬合優(yōu)度(R2)≥0.80)的模型。

        3.1 最優(yōu)算法選取

        將包含最佳特征子集的樣本數(shù)據(jù)集按4:1 的比例,隨機分割為訓練集和測試集,并將年均媒體單價設(shè)為目標值Y,將最佳特征子集的24 個數(shù)據(jù)特征設(shè)為X=(x1,x2,···,x24),分別代入表3的回歸算法,在默認算法參數(shù)不做調(diào)優(yōu)的情況下,得出各算法的性能指標。其中,R2是衡量自變量,是解釋因變量變動的程度指標,取值范圍在0~1 之間,越接近1,擬合度越好;均方誤差(MSE,Mean Square Error)在預測值與真實值完全吻合時等于 0,誤差越大,值越大;RMSE 越小,預測效果越好。

        表3 年均媒體單價為目標值的各種回歸算法性能指標

        由表3可知,增強梯度提升決策樹回歸學習算法的R2最大,且RMSE 和MAE 相對較小,但R2仍未達到0.8 的商用目標,作為本文價值評估算法需進行進一步優(yōu)化。

        3.2 模型優(yōu)化

        (1)對目標值Y進行歸一化處理,得到新樣本數(shù)據(jù)集,重復3.1 節(jié)中的模型訓練過程,所得結(jié)果為:R2=0.78,RMSE=123 421.49,MAE=66 154.81。

        (2)針對分布不均、方差較大的特征值,如動車旅客數(shù)量和目標值進行l(wèi)og 變換,重復3.1 節(jié)模型訓練過程,所得結(jié)果為:R2=0.8,RMSE=91 846.28,MAE=49 500.05。

        3.3 超參調(diào)優(yōu)

        對極限梯度提升(XGBoost,eXtreme Gradient Boosting)算法的超參學習器迭代次數(shù)(n_estimators)、樹深度(max_depth)、學習器的權(quán)重縮減系數(shù)(learning_rate)、正則化參數(shù)(gamma)等進行經(jīng)驗值區(qū)間設(shè)置。采用網(wǎng)格搜索法進行超參調(diào)優(yōu),獲取最優(yōu)超參組合,即表4中R2為0.803 872 425 的組合項。

        表4 特征變換處理后算法庫結(jié)果

        4 業(yè)務(wù)場景驗證

        對2019~2021年度西安北站、昆明站、福州站、福州南站的燈箱類高鐵站媒體數(shù)據(jù)進行隨機采樣,驗證評估模型,結(jié)果如表5所示。其中,價格欄為招商價格,預測值欄為該評估模型預測值。市面?zhèn)鹘y(tǒng)評估方法,如專家打分、指標數(shù)據(jù)加權(quán)等方式,偏離度約在±20%左右。因此,本文模型偏離度更低,評估效果更好。

        表5 2019~2021年度生產(chǎn)經(jīng)營數(shù)據(jù)驗證明細

        5 結(jié)束語

        本文建立了高鐵站媒體資源價值評估指標體系,對高鐵站媒體資源樣本進行智能識別和分析后,構(gòu)建了高鐵站媒體資源價值評估模型,并驗證了預測效果。為高鐵站媒體經(jīng)營提質(zhì)增效、精細化管理提供方案和工具。

        本文依然存在不足之處。媒體經(jīng)營業(yè)務(wù)復雜,為更好發(fā)揮大數(shù)據(jù)分析的作用,應(yīng)持續(xù)增加能優(yōu)化媒體價值評估模型的數(shù)據(jù)特征、樣本數(shù)據(jù)集收集處理、超參調(diào)優(yōu),進一步擴大可評估的媒體類型。下一步,應(yīng)基于推廣應(yīng)用的效果不斷進行模型的迭代和驗證,確保模型的可持續(xù)性、合理性和適用性。

        猜你喜歡
        價值特征資源
        基礎(chǔ)教育資源展示
        一樣的資源,不一樣的收獲
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        資源回收
        抓住特征巧觀察
        資源再生 歡迎訂閱
        資源再生(2017年3期)2017-06-01 12:20:59
        一粒米的價值
        “給”的價值
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        国产高清乱理伦片| 国产毛片av一区二区| 欧美肥婆性猛交xxxx| 50岁熟妇的呻吟声对白| 女性自慰网站免费看ww| 久久亚洲精品一区二区| 一本色道久在线综合色| 在线看无码的免费网站| 丝袜足控一区二区三区| 精品无码国产一二三区麻豆| 久久99人妖视频国产| 亚洲av高清在线观看一区二区| 国产无遮挡又黄又爽又色| 国产精品一卡二卡三卡| 日本免费一区二区在线| 日本丰满少妇裸体自慰| 五月婷婷俺也去开心| 国产中文字幕乱码在线| 日本少妇又色又紧又爽又刺激| 色又黄又爽18禁免费网站现观看| 久久精品国产亚洲av蜜臀| 伊人婷婷色香五月综合缴激情| 日本久久视频在线观看| 韩国三级在线观看久| 亚洲精品久久久久久| 亚洲无码毛片免费视频在线观看| 内射爆草少妇精品视频| 日本大片免费观看视频| 欧美va免费精品高清在线| 免费啪啪av人妻一区二区| 看日本全黄色免费a级| 亚洲国产精品久久久久婷婷老年| 2021国产精品久久| 亚洲国产一区二区视频| 又黄又爽又无遮挡免费的网站| 国产黄a三级三级三级av在线看| 国产高清女人对白av在在线 | 国产一区二区三区在线蜜桃 | 国产精品一区成人亚洲| 丰满少妇被猛进去高潮| 男男啪啪激烈高潮cc漫画免费|