亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多源數(shù)據(jù)融合方法及其在市場調(diào)查中的應(yīng)用

        2024-01-08 05:29:08王霄王小寧柴青慧蘇磊付曉東
        統(tǒng)計理論與實踐 2023年12期
        關(guān)鍵詞:樣本量總體調(diào)研

        王霄 王小寧 柴青慧 蘇磊 付曉東

        (1.央視市場研究股份有限公司,北京 100032;2.中國傳媒大學(xué)數(shù)據(jù)科學(xué)與智能媒體學(xué)院,北京 100024)

        一、引言

        市場調(diào)查設(shè)計一般要實現(xiàn)三個相互制約的目標(biāo):數(shù)據(jù)質(zhì)量、實施效率和花費成本。市場調(diào)查設(shè)計的現(xiàn)實發(fā)展趨勢是追求三個目標(biāo)間的最優(yōu)路徑規(guī)劃和可持續(xù)發(fā)展平衡。當(dāng)前,市場研究利用的調(diào)查方式均面臨著一些難以突破的瓶頸與痛點。譬如,基于樣本招募的在線可訪問樣組(Web Access Panel),以及基于微信群、公眾號、調(diào)研類App等社會化媒體(SocialMedia)的抽樣調(diào)查,能夠較為快速、高效、低成本地獲取大量、多樣性的樣本,但面臨樣本逐漸固化、職業(yè)化,問卷數(shù)據(jù)質(zhì)量下降,以及非概率樣本實質(zhì)上難以進行統(tǒng)計推斷的挑戰(zhàn)?;ヂ?lián)網(wǎng)大數(shù)據(jù)的抽樣調(diào)查,是基于覆蓋人群更廣泛、更豐富的運營商數(shù)據(jù)的概率抽樣調(diào)查,調(diào)查數(shù)據(jù)能夠?qū)崿F(xiàn)對目標(biāo)總體特征較為精準(zhǔn)的推斷,包括可以實現(xiàn)下沉城市、高低年齡段、低滲透率消費品等目標(biāo)人群的抽樣,但其通過大數(shù)據(jù)推送問卷調(diào)查的單位成本高,答題存在一定隨意性,有不可忽視的短板。

        為了充分發(fā)揮概率抽樣對目標(biāo)總體的代表性優(yōu)勢和非概率樣本網(wǎng)絡(luò)調(diào)查便捷、低成本的優(yōu)勢,市場研究行業(yè)越來越普遍的運用混合調(diào)查模式進行數(shù)據(jù)采集和研究。探尋一種能夠帶來成本和效率相互平衡、相互彌補、更高數(shù)據(jù)質(zhì)量的調(diào)查模式成為整個行業(yè)關(guān)注的焦點。本文針對在線可訪問樣組,微信群、調(diào)研社區(qū)等社會化媒體的非概率樣本,以及運營商大數(shù)據(jù)抽樣框的概率樣本等多種來源數(shù)據(jù)進行混合抽樣調(diào)查的模式進行較為深入地探索和研究,包括多重抽樣框的編制、具體抽樣方案設(shè)計,以及通過傾向得分匹配、校準(zhǔn)估計等問卷數(shù)據(jù)融合算法,實現(xiàn)概率-非概率樣本融合推斷目標(biāo)總體特征,提升調(diào)查數(shù)據(jù)使用效率和數(shù)據(jù)質(zhì)量。

        同時,在理論研究的基礎(chǔ)上積極進行產(chǎn)品化實踐,綜合數(shù)據(jù)質(zhì)量、實施效率和花費成本等關(guān)鍵因素,基于機器學(xué)習(xí)的多目標(biāo)規(guī)劃算法搭建“全域用戶調(diào)研智能引擎”產(chǎn)品,實現(xiàn)多源數(shù)據(jù)資源最優(yōu)組合和執(zhí)行策略的智能化推薦,利用數(shù)字化手段重構(gòu)調(diào)研流程,在確保數(shù)據(jù)質(zhì)量的基礎(chǔ)上達到降本增效目的,為混合調(diào)查模式的實際應(yīng)用和行業(yè)內(nèi)推廣積累了較為豐富的經(jīng)驗。

        二、多源數(shù)據(jù)融合數(shù)據(jù)采集方法

        目前,大量的在線調(diào)查仍是基于傳統(tǒng)的非概率抽樣調(diào)查,利用其對目標(biāo)總體特征進行統(tǒng)計推斷通常會出現(xiàn)涵蓋誤差、樣本選擇性偏差等問題。因此,基于網(wǎng)民總體數(shù)據(jù)構(gòu)建一個完善的抽樣框是在線調(diào)查抽樣的重要基石?;ヂ?lián)網(wǎng)及大數(shù)據(jù)背景下,數(shù)據(jù)信息更新速度快,調(diào)查對象變化頻繁,僅僅依靠單一數(shù)據(jù)來源建立完善、實時的抽樣框成本較高,難度較大,而且很難涵蓋目標(biāo)總體。多重抽樣框則可以通過融合多個單一抽樣框來提高對目標(biāo)總體的覆蓋度,從而實現(xiàn)概率抽樣、節(jié)約成本、提高效率。在具體的抽樣過程中,對多個抽樣框的融合可以完善數(shù)據(jù)的多樣性,增加樣本,在解決樣本動態(tài)變化問題的同時讓新增加的樣本進入抽樣框,從而大大降低更新數(shù)據(jù)帶來的成本。

        基于此,本文嘗試探索和研究在大數(shù)據(jù)背景下通過融合在線可訪問樣組、社會化媒體和運營商大數(shù)據(jù)源等構(gòu)建多重抽樣框,依據(jù)多重抽樣框的估計方法對抽取樣本數(shù)據(jù)的因果關(guān)系進行分析,探索調(diào)研數(shù)據(jù)背后隱含的變量間深層因果關(guān)系,剖析大數(shù)據(jù)時代抽樣技術(shù)的必要性和重要應(yīng)用價值。

        圖1 多重抽樣框設(shè)計及應(yīng)用

        (一)概率抽樣框編制

        大數(shù)據(jù)背景下,電信運營商掌握的海量數(shù)據(jù)資源幾乎100%覆蓋總體網(wǎng)民,基于運營商數(shù)據(jù)的抽樣調(diào)查本質(zhì)上屬于概率抽樣。直接對全量數(shù)據(jù)的大規(guī)模挖掘和分析會耗費巨大的人力、物力,因此,引入編制大規(guī)模概率抽樣框的方法可以提升處理效率、降低成本。探索如何利用這些數(shù)據(jù)構(gòu)建科學(xué)的抽樣設(shè)計進行網(wǎng)絡(luò)調(diào)查和總體信息推斷,以及如何分析挖掘消費者潛在的行為模式尤為必要。

        國家統(tǒng)計局每5年進行一次1%抽樣調(diào)查,對應(yīng)抽樣誤差為0.26‰,獲得了精確度非常高的人口、經(jīng)濟等指標(biāo)的估算結(jié)果。在市場研究中,考慮滿足各類網(wǎng)絡(luò)抽樣調(diào)查和數(shù)據(jù)挖掘項目的樣本量需求,本文大數(shù)據(jù)概率抽樣框的編制規(guī)模約為1000萬,約占目前全國總網(wǎng)民的1%,對1000萬樣本的抽樣調(diào)查本質(zhì)上可以實現(xiàn)概率抽樣和推斷目標(biāo)總體。

        對于全國各個城市抽樣框樣本的分配方案,在確定抽樣框規(guī)模(總樣本量m)的基礎(chǔ)上,計算各個城市分配的比例。按照等概率抽樣的原理,通常根據(jù)城市人口比例形式分配樣本量,但是考慮到經(jīng)濟因素,確定樣本量比例時須同時考慮城市總?cè)丝?、GDP、人均GDP,最終采用多指標(biāo)加權(quán)方案計算抽樣框城市分配人數(shù)占比,部分城市最終分配結(jié)果見表1。

        表1 部分城市樣本分配占比

        抽樣框在基本屬性特征如性別、年齡上的樣本分配方案,需要先進行假設(shè)檢驗,判斷運營商數(shù)據(jù)與實際網(wǎng)民結(jié)構(gòu)之間是否存在顯著性差異。然后根據(jù)檢驗結(jié)果,從數(shù)據(jù)源中抽取性別、年齡等具有代表性的樣本構(gòu)建抽樣框,同時考慮參數(shù)估計時的權(quán)數(shù)問題。

        (二)非概率抽樣框編制

        在線可訪問樣組是在線調(diào)查最為依賴的樣本來源,受訪者均是通過招募來自愿參與各類市場調(diào)查項目的人群,大致規(guī)模在幾十萬到幾百萬不等。為了激勵樣本加入在線可訪問樣組,常常會采取一些激勵措施,比如提供一定的現(xiàn)金、禮品兌換券、抽獎機會等。

        社會化媒體經(jīng)歷了近幾年的高速發(fā)展,目前已在市場調(diào)查領(lǐng)域展現(xiàn)出了潛在應(yīng)用價值,其社會化特性能夠以更低的成本吸引更多外部效度更高的受訪者。而某些平臺的實名制特性也能夠增強受訪者的信任水平,使其更用心地進行作答。目前社會化媒體調(diào)查方式包括微信群、公眾號、手機App等。上述兩類市場調(diào)查的數(shù)據(jù)來源本質(zhì)上均為非概率樣本集合,我們在編制抽樣框時通常需要嚴格參照網(wǎng)民總體在屬性結(jié)構(gòu)上的比例分布情況,盡可能地接近網(wǎng)民總體的各類特征分布。

        抽樣過程中,要充分利用輔助信息,例如常見的人口普查數(shù)據(jù)、行政區(qū)劃數(shù)據(jù)等?;诙嘀爻闃涌虻某闃釉O(shè)計是借助多源數(shù)據(jù)增進抽樣方案的探索,使抽樣更為科學(xué)和有代表性。針對多重抽樣框,除概率與規(guī)模成比例抽樣、非概率配額抽樣、多階段分層抽樣等常規(guī)的抽樣方法外,目前較為前沿的抽樣設(shè)計方法包括鏈接跟蹤取樣、適應(yīng)性集群抽樣、響應(yīng)式調(diào)查設(shè)計等,在實際抽樣調(diào)查中均具有探索和嘗試價值。

        三、多源調(diào)研數(shù)據(jù)的融合算法及實證研究

        (一)基于模型和加權(quán)的目標(biāo)總體推斷算法

        傳統(tǒng)的抽樣推斷理論是依據(jù)隨機原則抽取樣本,樣本單元入樣概率的倒數(shù)是其權(quán)數(shù),將觀測結(jié)果與樣本單元的權(quán)數(shù)結(jié)合實現(xiàn)對總體目標(biāo)量的估計。從在線可訪問樣組、社會化媒體中抽取樣本單元的入樣概率本質(zhì)上是非概率樣本,無法使用傳統(tǒng)的抽樣推斷理論進行統(tǒng)計推斷。目前基于概率-非概率多源數(shù)據(jù)融合推斷的方法主要包括傾向得分加權(quán)、校準(zhǔn)加權(quán)、大規(guī)模插補和雙重穩(wěn)健估計。

        (二)模擬分析

        為了評估雙重穩(wěn)健估計的性能,同時比較不同方法的優(yōu)劣,將基于邏輯斯蒂回歸構(gòu)建傾向得分并得到逆概率加權(quán)估計量和大規(guī)模插補進行比較。本文中分別考慮兩個因素:一是樣本量的大小,二是生成有限總體的超參數(shù)模型。非概率樣本B的樣本量分別定義為500和1000,有限總體N=100000,輔助變量xi—N(2,1),同時誤差項ei—N(0,1),且分別是獨立同分布的。

        目標(biāo)變量y分別通過兩個不同的模型實現(xiàn):

        模型1:yi=2xi+1+ei

        模型2:yi=2xi2+3+ei

        通過使用隨機抽樣獲得樣本量為nA=500的概率樣本A,各抽取A、B樣本的50%進行融合,分別計算其簡單樣本、校準(zhǔn)加權(quán)(Cal)、大規(guī)模插補(M)、雙重穩(wěn)健估計(DR)的樣本估計偏差(Bias)及其方差(Var)和相對均方誤差(ReMSE),其定義為:

        偏差及其方差具體結(jié)果通過1000次Bootstrap重復(fù)抽樣得到,相對均方誤差(ReMSE)越小表明估計的精度越高,其結(jié)果見表2。

        表2 偏差、方差和相對均方誤差估計結(jié)果

        從表2可看出,本文提出的方法在不同樣本量基礎(chǔ)上均表現(xiàn)出較好的性能,相對均方誤差(ReMSE)較概率樣本稍增加,較非概率樣本大幅下降,并且在非概率樣本量較大時得到的估計精度更好。

        (三)實證研究案例

        下面結(jié)合具體數(shù)據(jù)對多源數(shù)據(jù)融合進行估計。某電信運營商對受訪者進行包括傳統(tǒng)電視媒體、廣播、互聯(lián)網(wǎng)(PC端、移動端)、智能電視終端(電視盒子)等不同媒體類型接觸習(xí)慣的調(diào)查,采用基于運營商大數(shù)據(jù)抽樣獲得的概率樣本是380個,采用在線可訪問樣組和微信群共同抽樣獲得的非概率樣本是378個,2個目標(biāo)變量分別是:

        Y1:過去一周您是否看過陜西衛(wèi)視?

        Y2:過去一年,您的家庭收入在高端消費(教育培訓(xùn)、旅游文化、休閑娛樂、奢侈品消費等)中所占的比例是多少?

        第一個變量是二元變量,用來估計比例值,第二個變量是連續(xù)變量。首先,將概率和非概率樣本各自隨機抽樣50%的樣本進行融合,融合后總樣本量為379個,結(jié)合原始數(shù)據(jù)對兩個目標(biāo)變量進行估計,結(jié)果見表3。

        表3 目標(biāo)變量的估計

        多源數(shù)據(jù)估計的目的是為了盡可能多的利用輔助信息對目標(biāo)變量進行更加精準(zhǔn)的估計,因此本文考慮三種不同的融合方法并進行比較,采用的輔助信息(X)包括受訪者家庭年收入、最高受教育程度、是否本市常住三個月以上以及實際年齡。得到三種不同方法的估計結(jié)果如表4所示。

        表4 三種不同融合方法的估計值比較

        通過表4可看出,兩個目標(biāo)變量的融合估計方法相對單一數(shù)據(jù)源的估計精度均有較大提升,尤其是結(jié)合了加權(quán)和插補的穩(wěn)健估計方法,這為后續(xù)的多源數(shù)據(jù)融合估計提供了新的思路。

        迄今為止,針對多源數(shù)據(jù)融合技術(shù)完成了各類場景下抽樣調(diào)查和數(shù)據(jù)挖掘的若干項目實踐。通過產(chǎn)品滿意度調(diào)查、消費者態(tài)度和行為研究、新產(chǎn)品上市研究等若干抽樣調(diào)查項目的模擬和實際測試,有效驗證了基于多源數(shù)據(jù)融合技術(shù)的抽樣調(diào)查相較于傳統(tǒng)網(wǎng)絡(luò)調(diào)查方式能夠提升目標(biāo)總體推斷的準(zhǔn)確性。這樣不僅提升了抽樣調(diào)查的數(shù)據(jù)質(zhì)量,而且綜合了成本、效率因素,在實際的市場研究中可以表現(xiàn)出明顯的優(yōu)勢。

        四、多源數(shù)據(jù)融合技術(shù)產(chǎn)品設(shè)計

        (一)全域用戶調(diào)研智能引擎的產(chǎn)品設(shè)計

        以上述多源調(diào)研數(shù)據(jù)融合方法為理論支撐,以實現(xiàn)全域用戶調(diào)研資源最優(yōu)化、智能化為導(dǎo)向,將問卷調(diào)研轉(zhuǎn)化為多渠道樣本資源立體化分配的解決方案。綜合數(shù)據(jù)質(zhì)量、執(zhí)行效率和成本費用等因素,利用智能優(yōu)化算法自動為調(diào)研項目匹配最優(yōu)資源組合和最佳執(zhí)行策略。大體講,首先根據(jù)項目需求通過智能引擎產(chǎn)品進行多渠道抽樣問卷投放,其次完成多渠道樣本數(shù)據(jù)采集和數(shù)據(jù)融合,最終實現(xiàn)調(diào)研目標(biāo)總體的精確推斷。基于數(shù)據(jù)融合技術(shù)的智能化產(chǎn)品顛覆以往依靠人工、固有經(jīng)驗的傳統(tǒng)調(diào)研模式,通過數(shù)字化手段重構(gòu)調(diào)研執(zhí)行的全流程,實現(xiàn)樣本渠道資源的最優(yōu)組合和合理調(diào)度,在確保數(shù)據(jù)質(zhì)量的基礎(chǔ)上達到降本增效的目的(見圖2)。

        圖2 全域用戶調(diào)研智能引擎

        (二)多目標(biāo)規(guī)劃算法推薦策略優(yōu)化生成

        全域用戶調(diào)研智能引擎底層集成的算法本質(zhì)上屬于多目標(biāo)規(guī)劃算法的范疇。多目標(biāo)規(guī)劃通常記為MOP(Multi-objective Programming),指在一定約束下希望使多個目標(biāo)都能達到最優(yōu),或者是妥協(xié)最好,就像是在多目標(biāo)函數(shù)構(gòu)成的多維曲面數(shù)不清的“山峰”中利用全局搜索能力,尋找海拔最高的“山峰”的過程。多目標(biāo)規(guī)劃在資源分配、生產(chǎn)調(diào)度、計劃編制等問題上均有廣泛應(yīng)用。例如,買車,要便宜,又要省油,還要速度快,那么對應(yīng)市場研究領(lǐng)域則應(yīng)是執(zhí)行速度快、成本費用低,而且確保數(shù)據(jù)質(zhì)量不打折扣。

        實際上,智能推薦算法在追求實現(xiàn)多目標(biāo)最優(yōu)或妥協(xié)最優(yōu)的過程中,需要考慮的影響因素和限制條件非常復(fù)雜而繁多,譬如各樣本渠道具有不同的問卷響應(yīng)率、回答率和非抽樣誤差;對應(yīng)到具體調(diào)研項目,各渠道能夠觸達調(diào)研目標(biāo)人群的能力不同,例如不同城市級別人群、母嬰人群、汽車人群等垂直類人群。智能推薦模型最終要輸出的是考慮各類影響因素、滿足各類限制條件的約束下,具體某個調(diào)研項目個性化的最優(yōu)執(zhí)行推薦策略。算法的具體實現(xiàn)過程主要通過基于精英策略的快速非支配排序遺傳算法(NSGA-II)實現(xiàn)。

        五、總結(jié)和展望

        目前,國內(nèi)學(xué)者關(guān)于多源數(shù)據(jù)融合在市場研究中的應(yīng)用理論化、系統(tǒng)化的研究尚少,更未形成抽樣調(diào)查的標(biāo)準(zhǔn)化流程。本文提出在綜合考慮調(diào)研成本、效率、質(zhì)量基礎(chǔ)上的數(shù)據(jù)融合技術(shù),通過構(gòu)建多重抽樣框和設(shè)計抽樣方法獲取混合隨機樣本進行問卷調(diào)查,借助校準(zhǔn)估計、大規(guī)模插補、雙重穩(wěn)健估計等專業(yè)數(shù)據(jù)融合算法實現(xiàn)目標(biāo)總體特征的精確推斷。事實證明,多源數(shù)據(jù)融合方法的樣本代表性和總體推斷的準(zhǔn)確性均優(yōu)于近似樣本量的非概率數(shù)據(jù)來源,并且具有降本增效等多方面的優(yōu)越性。

        數(shù)據(jù)融合技術(shù)覆蓋了問卷調(diào)查從抽樣設(shè)計到最終推及總體的全流程,是理論研究的前沿課題,具有重要的應(yīng)用價值。本文創(chuàng)新性地將相關(guān)研究成果落地為“全域用戶調(diào)研智能引擎”最優(yōu)執(zhí)行策略推薦類產(chǎn)品,利用多目標(biāo)規(guī)劃算法為調(diào)研項目自動化匹配最優(yōu)資源組合和合理調(diào)度策略,完成了理論方法到實踐應(yīng)用的轉(zhuǎn)化。現(xiàn)階段有越來越多的市場研究公司與企業(yè)傾向于依賴多種來源數(shù)據(jù)進行內(nèi)部或外部調(diào)查,本文研究成果能夠為其實踐調(diào)查提供借鑒與參考。

        未來,我們將會更多關(guān)注和掌握不同調(diào)查方式間的數(shù)據(jù)差異,憑借類似隨機對照研究的方法來測量在線可訪問樣組、各類App、微信群等不同調(diào)研模式之間的異同。通過計算選項無差異程度、答題規(guī)范程度等指標(biāo)來衡量,從而充分了解混合調(diào)查模式中運用不同類型調(diào)查方式產(chǎn)生的問題與偏差,考慮融合混合模式數(shù)據(jù)時所面臨的潛在風(fēng)險,以獲取同質(zhì)性更高水平的調(diào)查數(shù)據(jù),提升數(shù)據(jù)利用效率,保證調(diào)研數(shù)據(jù)質(zhì)量?!?/p>

        猜你喜歡
        樣本量總體調(diào)研
        醫(yī)學(xué)研究中樣本量的選擇
        用樣本估計總體復(fù)習(xí)點撥
        2020年秋糧收購總體進度快于上年
        外匯市場運行有望延續(xù)總體平穩(wěn)發(fā)展趨勢
        中國外匯(2019年6期)2019-07-13 05:44:06
        人大到基層調(diào)研應(yīng)做到“三不”
        調(diào)研“四貼近” 履職增實效
        航空裝備測試性試驗樣本量確定方法
        Sample Size Calculations for Comparing Groups with Binary Outcomes
        直擊高考中的用樣本估計總體
        腳踏實地扶貧調(diào)研
        紅土地(2016年9期)2016-05-17 04:31:55
        性高朝大尺度少妇大屁股| 99久久久无码国产精品试看| 久久精品国产日本波多麻结衣| 亚洲欧洲美洲无码精品va | 色欲网天天无码av| 日日噜噜夜夜爽爽| 国产亚洲欧洲三级片A级| 日韩在线视频专区九区| 精品人妻av一区二区三区四区| 小说区激情另类春色| 成人网站免费大全日韩国产| 波多野结衣有码| 亚洲av噜噜狠狠蜜桃| 国产性虐视频在线观看| 国产又色又爽又黄的| 99re在线视频播放| 日本a一区二区三区在线| 在线观看视频日本一区二区| 少妇太爽了在线观看免费视频| 免费成人福利视频| 久久夜色精品亚洲天堂| 成年美女黄网站色大免费视频| 伊伊人成亚洲综合人网香| 99精品久久久中文字幕| 亚洲老女人区一区二视频| 国产自拍偷拍精品视频在线观看| 色吊丝中文字幕| 亚洲aⅴ无码日韩av无码网站| 亚洲第一页在线观看视频网站| 国产成人a级毛片| 最新国产av无码专区亚洲| 免费国产调教视频在线观看| 国产一区二区黄色的网站| 中国少妇内射xxxx狠干| 无码人妻视频一区二区三区99久久| 国产精品黄色av网站| 少妇被又大又粗又爽毛片久久黑人 | 91精品国产无码在线观看| 中文字幕手机在线精品| 精品av熟女一区二区偷窥海滩 | 亚洲爆乳无码精品aaa片蜜桃|