向緒言, 劉麗芳
(湖南文理學院 數(shù)學與計算科學學院, 湖南 常德, 415000)
EM方法的一種修正及應用
向緒言, 劉麗芳
(湖南文理學院 數(shù)學與計算科學學院, 湖南 常德, 415000)
針對刪失數(shù)據(jù)的參數(shù)估計問題, 給出了EM方法的一種修正. 對Poisson過程情形, 理論上證明由該方法得到的估計是無偏估計, 并給出了相應的置信區(qū)間;對一般情形, 通過該方法在計算神經(jīng)科學解碼研究中的應用舉例, 說明該方法得到的估計比通常EM方法得到的估計好.
刪失數(shù)據(jù);EM;修正EM
極大似然估計(Maximum Likelihood Estimate,即MLE)是一種常用的點估計,在總體分布形式復雜時, 不可能找到顯示解, 這時需要用更復雜的方法——EM(Expectation Maximization)方法. 然而在樣本數(shù)據(jù)具有刪失的情況下, 用通常的EM方法會失敗. 例如:在計算神經(jīng)科學的解碼研究中[1-3], 需要利用神經(jīng)元的已知反應提取相應刺激的參數(shù)信息,實驗中, 用固定的時間窗口觀測并記錄神經(jīng)元的spike發(fā)放(fire)時間, 由于實驗本身限制, 時間窗口通常很小, 所以得到的ISIs(Interspike intervals, 即spikes時間間隔)是刪失數(shù)據(jù). 這樣, 由通常的EM方法得到刺激的估計與實際刺激誤差很大, 于是給出了針對這種刪失數(shù)據(jù)的一種修正EM方法. 對Poisson過程情形, 理論上證明由該方法得到的估計是無偏估計, 并給出相應的置信區(qū)間;對一般情形,通過該方法在計算神經(jīng)科學解碼研究中的應用舉例,說明該方法得到的估計比通常EM方法得到的估計好.
1.1 MLE
根據(jù)p( x| Θ)的不同, 其求解的難易程度不同.例如, p( x| Θ)是單個的正態(tài)分布, Θ=(μ, σ2)時很容易求解. 然而, 有許多這樣的問題, 我們不可能得到其顯示解, 于是需要用到更復雜的技巧——EM方法.
1.2 EM方法
當樣本數(shù)據(jù)不完全或有缺失時, EM算法是求解極大似然估計的常用方法. 仍然假設X是一些分布的樣本數(shù)據(jù), 此時X是不完全數(shù)據(jù). 記其完全數(shù)據(jù)集為Z( X, Y), 聯(lián)合密度函數(shù)為:
1.3 混合分布的EM方法
考慮如下混合密度參數(shù)模型:
解碼是計算神經(jīng)科學中的重要方面, 其目的是利用神經(jīng)元的已知反應(response)提取相應刺激(stimulus)的參數(shù)信息, 因為對于給定的神經(jīng)元, 接受不同的刺激, 其反應也不同;而神經(jīng)元的反應表現(xiàn)在spikes變化上, 包括spikes的發(fā)放頻率(firing rate)和spikes之間的時間間隔(Interspike intervals, ISIs).一項重要的研究工作就是根據(jù)神經(jīng)元的ISIs序列估計其密度函數(shù)的參數(shù)(通常與輸入的刺激有關). 具體做法是:
實驗中, 用固定的時間窗口T觀測并記錄神經(jīng)元每個spike發(fā)放的時間, 得到ISIs序列{ti, τi, σi} (圖1, {τi},{σi}是不完整數(shù)據(jù)), 稱為刪失數(shù)據(jù). 由于實驗本身限制, 時間窗口通常很小, 所以由EM方法得到刺激的估計與刺激真值誤差很大.
圖1 刪失數(shù)據(jù)
圖2 來自Poisson過程的刪失數(shù)據(jù)
用500 ms的時間窗口截取1 438個trial, 共產(chǎn)生3 000個ISIs, 其中, 規(guī)則數(shù)據(jù)1 676個, 截斷數(shù)據(jù)1 324個, 超過25%的trials(362個)只有1個spike(圖3). 頻率直方圖見圖4.
圖3 模擬產(chǎn)生的前50個trials
按通常的EM方法求得MLE為:
圖4 頻率直方圖
由式(11)、(12)、(13)和圖4易知:用通常的EM方法失敗, 而修正EM方法成功.
[1] Feng J F. Computational Neuroscience—A Comprehensive Approach[M]. London FL: Chapman and Hall Press, 2003: 341-366.
[2] Feng J F, Ding M. Decoding spikes in a spiking neural network[J]. Journal of Physics A: Math and Gen, 2004, 37:5713-5727.
[3] Tuckwell H C. Introduction to Theoretical Neurobiology [M]. Cambridge: Cambridge University Press, 1988:191-246.
[4] Lehmann E, Casella G. Theory of Point Estimation[M]. Berlin: Springer, 1999: 109-128.
[5] 茆詩松, 王靜龍, 濮曉龍. 高等數(shù)理統(tǒng)計[M]. 北京: 高等教育出版社, 1999: 428-443.
[6] 何聲武, 謝盛榮, 程依民. 隨機過程[M]. 北京: 中國統(tǒng)計出版社, 1997: 34-50.
A correction for EM method and its application
XIANG Xu-yan, LIU Li-fang
(College of Mathematics and Computing Science, Hunan University of Arts and Science, Changde 415000, China)
For parameter’s estimate with censored data, a correction for EM method is proposed. In the case of Poisson process, we prove in theory that the estimate obtained by this method is unbiased. The corresponding confidence interval is given. Generally, examples which the method for decoding is unable in neuroscience to show that the estimate obtained by this method is better than maximum likelihood estimate, are included.
censored data; EM; EM with correction
O 211.67
:A
1672-6146(2010)04-0003-04
10.3969/j.issn.1672-6146.2010.04.002
2010-09-10
國家自然科學基金(10871064); 湖南省自然科學基金(09JJ6016); 湖南省教育廳優(yōu)秀青年項目(10B073)
向緒言(1975-), 男, 博士, 副教授, 研究方向為隨機過程及生物信息.