亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        行政記錄整合的貝葉斯分層記錄鏈接模型及應(yīng)用

        2016-08-04 05:42:52丁東洋周麗莉
        統(tǒng)計與信息論壇 2016年7期

        丁東洋,周麗莉

        (南昌大學(xué)a. 廉政研究中心;b. 公共管理學(xué)院,江西 南昌 330031)

        ?

        行政記錄整合的貝葉斯分層記錄鏈接模型及應(yīng)用

        丁東洋a,b,周麗莉a

        (南昌大學(xué)a. 廉政研究中心;b. 公共管理學(xué)院,江西 南昌 330031)

        摘要:記錄鏈接的技術(shù)問題與統(tǒng)計理論密切相關(guān),尤其是在建立記錄鏈接分類規(guī)則時需要構(gòu)建統(tǒng)計模型,識別關(guān)鍵變量以完成數(shù)據(jù)匹配。在貝葉斯框架下構(gòu)建分層模型整合行政記錄,通過多元回歸可以實現(xiàn)匹配錯誤率的估計,而且一對一限制下的記錄鏈接允許通過模塊反映記錄信息的來源變化,基于MCMC模擬的后驗分布計算方便,有助于提高數(shù)據(jù)整合效率。

        關(guān)鍵詞:記錄鏈接;貝葉斯方法;分層模型

        一、引 言

        行政記錄指的是政府行政部門記錄的關(guān)于自然人或其他實體的信息,如人事檔案、戶口薄、納稅登記表、單位地址目錄等。行政記錄的統(tǒng)計開發(fā)是政府各部門貫徹落實《統(tǒng)計法》的重要措施,而其中的重要工作就是行政記錄整合。行政記錄整合是指將不同行政部門的行政記錄進(jìn)行鏈接,形成統(tǒng)一完整的名錄庫,在整合過程中需要借助記錄鏈接技術(shù)。記錄鏈接(Record linkage)指的是把來自不同數(shù)據(jù)庫的同源記錄,通過直接和間接識別碼將記錄鏈接起來的技術(shù),是把兩個或兩個以上的單一記錄整合成一個綜合記錄的過程。

        記錄鏈接理論在行政記錄上的應(yīng)用無疑是一次重要的技術(shù)創(chuàng)新。國外許多政府統(tǒng)計機(jī)構(gòu)已經(jīng)開始積極適應(yīng)大數(shù)據(jù)時代的變化和要求,應(yīng)用現(xiàn)代化信息技術(shù),使用記錄鏈接技術(shù)整合行政記錄。運用記錄鏈接方法時,如果行政記錄中需要鏈接的數(shù)據(jù)有著準(zhǔn)確無誤并且相同的識別碼,那么鏈接的過程十分容易操作。但是如果直接識別碼有誤或缺失,記錄鏈接的技術(shù)問題需要結(jié)合統(tǒng)計理論來解決。由于對行政記錄的研究尚屬一個較新的領(lǐng)域,大部分文獻(xiàn)集中于行政記錄的統(tǒng)計開發(fā)前景和名錄庫建設(shè)等問題[1]。但是關(guān)于用于行政記錄整合的記錄鏈接技術(shù)研究較少,尤其是貝葉斯框架下的分層模型構(gòu)建和后驗分布模擬等問題都有待深入研究。

        二、記錄鏈接理論及模型

        (一)記錄鏈接的Fellegi-Sunter模型

        下面用一個簡單的例子來說明整合行政記錄時應(yīng)用記錄鏈接技術(shù)的原因。表1中來自不同行政部門的3對記錄代表3個自然人。在前兩種情況下,兩對人有相類似的姓名、地址和年齡。在整合這種類型的行政記錄時我們希望能夠通過統(tǒng)計模型識別判斷并進(jìn)行匹配。在第三種情況下,對應(yīng)記錄的詳細(xì)信息我們可能會知道該對的第一條記錄是一個20年前醫(yī)學(xué)專業(yè)的大學(xué)生。第二條記錄來源于一個曾就讀于江西醫(yī)學(xué)院的工作在湖北的醫(yī)生信息。這與一個之前在不同城市大學(xué)中就讀于醫(yī)學(xué)院的信息相關(guān)聯(lián)。綜上可以發(fā)現(xiàn),運用良好的自動化方法能夠確定前兩對信息代表同一個人。將自動化的方法和人類的思維理解相結(jié)合,可能確定第三對是同一個人。記錄鏈接技術(shù)的主要目的就是識別行政記錄匹配與否,并確定是否需要進(jìn)一步人工審查。

        表1 行政記錄整合的基本形式示例

        R(γ)=p(γ(a,b)k|(a,b)∈M)/p(γ(a,b)k|(a,b)∈U)

        (1)

        上式表示在記錄鏈接中文件匹配時出現(xiàn)比較結(jié)果γ(a,b)k的概率與不匹配時出現(xiàn)比較結(jié)果γ(a,b)k的概率的比值,其中γ(a,b)k是配對信息,例如行政記錄中關(guān)于某個人住址的街道名稱和門牌號碼。比率R(γ)或它的任何單調(diào)函數(shù)(比如自然對數(shù))為匹配權(quán)重。

        (二)匹配錯誤率估計

        在估計匹配錯誤率之前,首先需要利用全概率公式計算:

        p(γ)=p(γ|M)p(M)+p(γ|U)p(U)

        (2)

        如果γ滿足有條件的獨立性假設(shè),那么可以估計出屬于M的概率p(γ|M),屬于U的概率p(γ|U),以及比例p(M)。然后依據(jù)條件概率的計算公式可得匹配錯誤率:

        (3)

        對于潛在的類別而言,由于最大期望算法(EM)是一種無監(jiān)督的學(xué)習(xí)方法,使用EM算法進(jìn)行匹配的比例應(yīng)該在5%以上[2]。不過匹配錯誤率估計程序可能只在兩份文件中的名稱、地址以及其他信息可以有效的匯集成對并精確地指定匹配時才能有效的運作。

        三、貝葉斯記錄鏈接方法

        從統(tǒng)計方法的角度來說,兩個或者兩個以上的數(shù)據(jù)集的合并可以達(dá)到兩個目的:一是為了獲得一個更大的集成數(shù)據(jù)集;二是為了在附加信息的基礎(chǔ)上執(zhí)行后續(xù)的統(tǒng)計分析,該附加信息不能從兩個數(shù)據(jù)集中的任何一個單獨提取得到。第二種情形值得更加關(guān)注。

        (一)貝葉斯記錄鏈接技術(shù)

        從貝葉斯統(tǒng)計推斷視角對記錄鏈接問題進(jìn)行研究是當(dāng)前國際研究的趨勢,不僅理論成果豐富,應(yīng)用效果也非常明顯[3]。從統(tǒng)計推斷角度分析,一個重要的原因是針對記錄鏈接問題,貝葉斯統(tǒng)計推斷思想具有一定的優(yōu)勢。記錄鏈接問題的突出難點是鏈接結(jié)構(gòu)的不確定性,此時以樣本信息為主的經(jīng)典頻率統(tǒng)計方法就較難發(fā)揮作用,而具有較強適應(yīng)性與靈活性的分層貝葉斯模型可以為鏈接模型估計過程中融入不可或缺的先驗信息。因此,具有融合“先驗信息”和“樣本信息”進(jìn)行穩(wěn)健推斷的貝葉斯方法成為解決記錄鏈接問題的重要思想。

        基于貝葉斯定理的記錄鏈接方法,是通過蒙特卡洛馬爾科夫(MCMC)模擬得到的后驗分布推斷匹配矩陣的相關(guān)參數(shù),其重點在于從參數(shù)的聯(lián)合后驗分布獲取模擬樣本,以(γ,M,U;θ)表示,其中γ是匹配矩陣,M和U分別代表匹配組和不匹配組,θ代表模型中的參數(shù)向量。在數(shù)據(jù)整合過程中,首先對匹配矩陣γ進(jìn)行點估計,然后用這個估計量來推斷記錄信息是否配對。值得注意的是,由于矩陣γ的特殊結(jié)構(gòu),沒有顯著的點估計值是有用的,因為需要對矩陣γ中的每一個元素γ(a,b)作出值為0或1的估計,γ的后驗均值實質(zhì)上是無效的。

        如果將矩陣γ的聯(lián)合后驗分布中所體現(xiàn)的不確定性轉(zhuǎn)移到后續(xù)的統(tǒng)計分析中,也就是說在確定信息匹配與否的過程中需要重點關(guān)注不確定性的影響,在一定程度上能夠避免高估鏈接方法的精確度,這樣對于不確定性的處理更為有效[4]。例如在匹配的過程中,首先需要考慮的是匹配向量γ的結(jié)果,而對于匹配結(jié)果是否確認(rèn)為γ(a,b)值為0或1的估計需要依賴于文檔A和B中詳細(xì)記錄信息的判別。也就是說,在聯(lián)合后驗分布(γ,M,U;θ)的推斷過程中,不僅需要考慮記錄鏈接過程中匹配向量γ(a,b)值為0或1,而且需要在所有參數(shù)的聯(lián)合后驗分布中提取一個樣本,這兩個因子都在MCMC算法中同時考慮,從而能夠在產(chǎn)生后驗樣本的馬爾科夫鏈中考慮到γ(a,b)和參數(shù)θ之間的信息反饋,體現(xiàn)出更加注重不確定性的影響。

        (二)多元回歸過程

        根據(jù)上面論述的數(shù)據(jù)整合過程,下面建立多元回歸框架。首先,設(shè)定一個與模型(1)相關(guān)的MCMC運算法則,也就是說,在每一次迭代時t=1,2,…,T,從它的完全條件分布中提取γt;然后,從完全條件分布中提取Mt,Ut;最后,從完全條件分布中提取θt。從回歸的步驟中可以發(fā)現(xiàn)矩陣γ的邊際后驗分布將有可能受到θ信息的影響。在這個情況下θ的后驗分布將對鏈接過程中涉及的不確定性作出解釋。從理論角度上來說,該解釋將所有變量和參數(shù)間的關(guān)系都潛在考慮在內(nèi),不確定性能夠以一種正確的方式被解釋。

        矩陣γ的估計值不受模型中回歸部分的影響。如果記錄鏈接過程的主要目標(biāo)是為了在附加信息的基礎(chǔ)上執(zhí)行后續(xù)的統(tǒng)計分析,整合記錄在未來由于不同目的可以被重復(fù)使用,那么從計算的角度來看,由于在給定記錄鏈接參數(shù)時,附加參數(shù)的完全條件分布必須派生出一個不同的統(tǒng)計模型,這樣上述的多元回歸框架就能夠避免新參數(shù)的引進(jìn)改變記錄鏈接參數(shù)的完全條件分布[5]309-318。

        四、分層貝葉斯記錄鏈接的實現(xiàn)

        下面將構(gòu)建貝葉斯分層模型實現(xiàn)數(shù)據(jù)匹配,為了便于描述模型參數(shù)隨行政記錄變動而適時調(diào)整的情形,首先需要給出一對一匹配假定。

        (一)一對一匹配限制

        先驗信息和數(shù)據(jù)通??梢詮闹暗挠涗涙溄硬僮髦蝎@得,模塊的設(shè)定與行政記錄的具體形式有關(guān)。例如在一些人口普查記錄鏈接的應(yīng)用中,模塊通常以區(qū)域方式劃分,模塊的變動導(dǎo)致記錄鏈接參數(shù)也產(chǎn)生顯著變動[6]。當(dāng)從兩個記錄文件中獲得同一個人的記錄信息進(jìn)行匹配時,鏈接參數(shù)將出現(xiàn)跨區(qū)域一致的情形,從而可以判斷兩份記錄是相匹配的。這種情形很有可能就是我們上述的同一個人的學(xué)習(xí)所在地和工作所在地有所不同。在分層模型中采用模塊索引不同區(qū)域的做法,使得匹配概率的計算相比傳統(tǒng)方法更為準(zhǔn)確。就經(jīng)驗而言,完全一致的記錄在匹配對中的概率高于不匹配對,而且單個字段完全一致的概率在匹配對中比非匹配對中更高:p(γ(a,b)=1|(a,b)∈M)>p(γ(a,b)=1|(a,b)∈U)。從邏輯上說,在模塊s中匹配對的數(shù)量nms一定比文件A(nas)和B(bas)中記錄的數(shù)量要低。所以,在模塊s中出現(xiàn)一個匹配的概率PsM小于等于最小值除以匹配對的數(shù)量乘積nas×bas。這種限制條件可以幫助我們在后驗分布模擬中有效地降低估計誤差。

        (二)分層貝葉斯記錄鏈接模型

        1.模型構(gòu)建。在貝葉斯框架下,首先根據(jù)式(2)利用全概率公式計算p(γ),稱為鏈接模型中的比較向量。分層模型需要在模塊S=1,2,…,s中指定參數(shù)分布。下面以常見的貝塔分布作為先驗信息,信息域一致的概率同樣被允許隨模塊而變化:

        psMk=p(γ(a,b)k=1|M,s)~beta(αsMk,βsMk)

        (4)

        并且

        psUk=p(γ(a,b)k=1|U,s)~beta(αsUk,βsUk)

        (5)

        二者跨模塊、域和類的情形下均相互獨立。貝塔分布中參數(shù)的下標(biāo)如sMk分別表示模塊s、匹配組M和第k個匹配對。同時依據(jù)參數(shù)限制條件存在psMk≥psUk。分層分布是建立在參數(shù)貝塔分布的變形基礎(chǔ)之上(貝塔分布的變形可詳見Larsen, 2004),基本形式如下:

        其中βsMk=eτsMkLogit-1(1-θsMk)。上面的限制并不意味著θsMk≥θsUk,而是僅約束參數(shù)psMk和αsM=eτsMLogit-1(θsM)。這也是使得先驗分布同時需要滿足θsMk≥θsUk這一約束條件。在模塊s和psM中屬于類別M的概率被賦予一個貝塔(αsM,βsM)先驗分布。這一分層分布與其他分層是相互獨立的:

        同時psM要小于na和nb的較小值除以配對的數(shù)量。按照之前的設(shè)定αsM=eτsMLogit-1(θsM)以及βsM=eτsMLogit-1(θsM),如果沒有滿足上述的假定,較小的樣本容量和跨模塊較大的可變性將使得推斷結(jié)果不夠穩(wěn)健。

        第四步,循環(huán)下面的步驟1至步驟3,直到推斷值的分布收斂于目標(biāo)后驗分布。

        1.對于S=1,2,…,s,在給定指標(biāo)Is以及(αp,βp)值的條件下基于條件分布推斷ps。具體而言,ps|Is,αp,βp~beta(αp+nms,βp+min(nas,nbs)-nms)。

        2.對S=1,2,…,s和k=1,2,…,K,從其給出當(dāng)前指標(biāo)Is,模塊s中的比較向量γs以及賦值(αsOk,βsOk),O∈(M,U)的條件分布中推斷psMk和psUk。具體而言:

        psMk|Is,γs,αsMk,βsMk~beta(αsMk+∑sIabγk(a,b),βsMk+∑sIab(1-γk(a,b)))

        psUk|Is,γs,αsUk,βsUk~beta(αsUk+∑s(1-Iab)γk(a,b),βsUk+∑s(1-Iab)(1-γk(a,b)))

        3.對于S=1,2,…,s,k=1,2,…,K,使用MH算法首先推斷參數(shù)θsMk和τsMk的值,然后推斷參數(shù)θsUk和τsUk的值,最后從其完全條件分布中推斷Is和nms的值。

        最后一步,確定算法停止與否。需要注意的是一對一限制是強加于矩陣I,在模塊S=1,2,…,s中匹配類別的大小由nms≤min(nas,nbs)以及0

        (三)在行政記錄整合中的應(yīng)用

        為了說明上述方法的有效性,我們對現(xiàn)實中的一組行政記錄進(jìn)行整合分析。數(shù)據(jù)包括300個記錄,基本信息包括姓名拼音,出生年、月、日。為了有效匹配,將記錄信息分解為5個變量,姓名分開記錄為姓和名的拼音,年、月、日分開記錄。截取部分信息如表2。

        表2 行政記錄數(shù)據(jù)信息示例

        1.數(shù)據(jù)整合的準(zhǔn)備工作。行政記錄整合的重要工作之一就是合并記錄或者是刪除重復(fù)數(shù)據(jù)。依據(jù)上述的貝葉斯記錄鏈接方法,行政數(shù)據(jù)中配對的任一記錄如果有缺失值,整合后的記錄中都以無真實值“NA”表示。而整合模型中對這些“NA”值的處理方式都是默認(rèn)為數(shù)值0,記錄鏈接的結(jié)果用1表示記錄匹配,0表示不匹配,比如表2中的記錄1和記錄2的鏈接結(jié)果為0。

        當(dāng)行政記錄數(shù)據(jù)量龐大,或者關(guān)注記錄信息中部分變量的時候,以采用分塊的方法進(jìn)行數(shù)據(jù)整合。比如表2中的數(shù)據(jù),在我們進(jìn)行數(shù)據(jù)整合的時候,假設(shè)第一步只關(guān)注生日是否相同。那么在進(jìn)行匹配的時候,將比較對象限定為后面的三個變量:年、月、日。例如記錄1和記錄2的出生日期相同,那么在分塊比較的時候,二者鏈接結(jié)果為1。

        表3 匹配概率的頻數(shù)分布表

        根據(jù)設(shè)定的閾值0.6,最終匹配的個數(shù)為26個。接下來還需要根據(jù)貝葉斯鏈接方法中匹配錯誤率的計算檢驗數(shù)據(jù)整合效果。在貝葉斯框架下,根據(jù)模型(4)可以采用吉布斯抽樣進(jìn)行估計,過程簡潔清晰,并且適用于計算任何精度的后驗推斷。圖1給出了橫軸為α和縱軸為β的10 000次模擬散點圖,收斂效果明顯,最后的估計值應(yīng)該位于圖中黑色區(qū)域的中心。

        圖1 后驗分布模擬散點圖

        推斷結(jié)果α=0.013,β=0。進(jìn)而計算得到匹配的精度為0.998 4,就此數(shù)據(jù)來說,匹配錯誤率較低,整合效果理想。

        五、結(jié)論與展望

        貝葉斯記錄鏈接方法能夠有效利用分析人員的鏈接經(jīng)驗,尤其在行政記錄整合的分層模型中,利用模塊變動反映行政記錄信息的來源變化,有助于提高匹配錯誤率的估計精度。此外,如果在似然函數(shù)中使用一對一匹配限制,可以采用MH算法模擬推斷匹配狀態(tài)指標(biāo),相比傳統(tǒng)計算方法更易操作實現(xiàn)。將貝葉斯分層鏈接方法應(yīng)用到人口普查及其他來源的行政記錄數(shù)據(jù)中將極大地提高數(shù)據(jù)整合效率。在實際應(yīng)用中,分析人員選取記錄鏈接參數(shù)的先驗分布時有多種選擇,甚至可以使用實驗數(shù)據(jù)不斷調(diào)整先驗分布。

        最后要說明的是,與記錄鏈接模型相關(guān)的兩個擴(kuò)展有待進(jìn)一步研究。首先,可以考慮拓寬匹配變量比較的定義,面對行政記錄的具體形式,今后需要允許將更詳細(xì)的信息如家庭結(jié)構(gòu)等變量作為比較指標(biāo);其次,放寬分層模型的限制條件,允許在一對一匹配限制之外的模塊調(diào)整,使得分層模型能夠更好地適應(yīng)兩個以上行政記錄文件的匹配錯誤率估計。

        參考文獻(xiàn):

        [1]Maria J,S?ren E,Mats B.Testing Methods of Record Linkage on Swedish Censuses[J].Journal of Quantitative and Interdisciplinary History,2014(3).

        [2]Lahiri P,Larsen M D. Regression Analysis with Linked Data[J].Journal of the Acoustical Society,2005,100(1).

        [3]Tancredi A,Liseo B.A Hierarchical Bayesian Approach to Record Linkage and Population Size Estimation[J].Annals of Applied Statistics,2011(2).

        [4]許永洪.行政記錄和政府統(tǒng)計的多視角研究[J].統(tǒng)計研究,2012(4).

        [5]Larsen M D. Record Linkage Using Finite Mixture Models[C]//Gelman A, Meng X L. Applied Bayesian Modeling and Causal Inference from Incomplete-Data Perspectives.New York:Wiley,2004.

        [6]胡桂華.人口普查覆蓋誤差估計方法綜述[J].統(tǒng)計與信息論壇,2013,28(9).

        (責(zé)任編輯:李勤)

        收稿日期:2015-11-18

        基金項目:江西省高校人文社會科學(xué)重點研究基地項目《行政記錄數(shù)據(jù)的開發(fā)及其在政府統(tǒng)計中的應(yīng)用研究》(JD1412);教育部人文社會科學(xué)研究青年基金項目《信貸約束與學(xué)習(xí)行為交互作用下金融外部性對逆周期監(jiān)管的影響研究》(15YJC630194);國家自然科學(xué)基金青年項目《逆周期資本監(jiān)管框架下考慮跳躍行為的信用風(fēng)險度量研究》(71401069)

        作者簡介:丁東洋,男,滿族,遼寧撫順人,經(jīng)濟(jì)學(xué)博士,副教授,研究方向:貝葉斯數(shù)據(jù)分析方法與風(fēng)險管理技術(shù);

        中圖分類號:O212.8∶C916.1

        文獻(xiàn)標(biāo)志碼:A

        文章編號:1007-3116(2016)07-0030-06

        Bayesian Hierarchical Record Linkage Model and Its Application in Administrative Records Integration

        DING Dong-yanga,b, ZHOU Li-lia

        (a. Center for Anti-Corruption Studies; b. School of Public Administration, Nanchang University, Nanchang 330031, China)

        Abstract:Technical issues about record linkage require a combination of statistical theory to resolve, especially in the establishment of record linkage classification rules, we need to build a statistical model to identify critical variables in order to complete the data match. Build hierarchical model to integrate administrative records under the Bayesian framework, can estimate matching error rate by multiple regression, and allows block to reflect the change of information sources under restriction of one to one integration, the posterior distribution calculated based MCMC simulation is convenient, help to improve the efficiency of data matching.

        Key words:record linkage; Bayesian methods; hierarchical model

        周麗莉,女,江西臨川人,經(jīng)濟(jì)學(xué)博士,副教授,研究方向:國際金融市場與風(fēng)險管理方法。

        【統(tǒng)計理論與方法】

        国产91成人自拍视频| www插插插无码视频网站| 国产xxxx99真实实拍| 久久精品国产99精品国偷| 久久久久久人妻一区二区无码Av | 精品久久中文字幕系列| 后入内射国产一区二区| 国产深夜男女无套内射| 亚洲中久无码永久在线观看软件| 波多野无码AV中文专区| 久久精品国产亚洲av沈先生 | 精精国产xxxx视频在线| 亚洲一区二区三区免费av在线| 激情五月六月婷婷俺来也| av天堂精品久久综合网| 精品国产拍国产天天人 | 亚洲愉拍自拍视频一区| av一区二区在线网站| 久久综合激激的五月天| 天堂av在线播放观看| 国产三级精品三级在线专区| 乱老年女人伦免费视频| 欧妇女乱妇女乱视频| 国产三级黄色在线观看| 日本视频一区二区三区三州| 亚洲精品成人无百码中文毛片| 亚洲字幕av一区二区三区四区| 成熟丰满熟妇高潮xxxxx| 欧洲无码一级毛片无遮挡| 国内偷拍精品一区二区| 亚洲av不卡无码国产| 黄色a级国产免费大片| 国产在线欧美日韩精品一区二区| 日韩精品人妻一区二区三区蜜桃臀 | 日本不卡一区二区三区在线| 精品人伦一区二区三区蜜桃麻豆 | 欧美色aⅴ欧美综合色| 性色av成人精品久久| 中文字幕av永久免费在线| 婷婷射精av这里只有精品| 亚洲乱码日产精品bd在线观看|