程彥茹, 凌能祥
(合肥工業(yè)大學 數(shù)學學院,安徽 合肥 230601)
考慮函數(shù)型數(shù)據(jù)非參數(shù)回歸模型:
Y=m(χ)+ε
(1)
其中,Y為響應變量(標量);χ為取值于無限維向量空間SH?H中的函數(shù)型解釋變量;m(·)為從SH到R的未知回歸算子;ε為隨機誤差,且滿足:
E(ε|χ)=0,a.s.;0 文獻[1]提出的函數(shù)型非參數(shù)回歸算子的k近鄰估計量,用交叉驗證尋找最優(yōu)的正整數(shù)k來代替?zhèn)鹘y(tǒng)NW核回歸估計中的連續(xù)窗寬h,更符合函數(shù)型數(shù)據(jù)的局部結構,相關文獻可參見文獻[2-5]。 考慮到實際中觀測手段、天氣狀況及儀器設備等影響,收集的數(shù)據(jù)常常是不完全的,響應變量隨機缺失就是一種常見的情形。因此本文主要研究響應變量Y隨機缺失時非參數(shù)回歸模型(1)的k近鄰估計,即當Y缺失時,δ=0;反之δ=1,并且滿足給定χ時,δ與Y是條件獨立的,即P(δ=1|Y,χ)=P(δ=1|χ)=p(χ),a.s.。 假設隨機向量{(χi,δi,Yi)|1≤i≤n}來自總體(χ,δ,Y),Yi缺失時,δi=0;反之δi=1。則Yi=m(χi)+εi,i=1, 2,…,n。m(·)的k近鄰回歸估計定義如下: (2) 其中,K(·)為實值核函數(shù);d(·,·)為空間H上的半度量;Hn,k(χ)為隨機窗寬,滿足: 其中,B(χ,h)為以χ為中心,h>0為半徑的小球。若Hn,k(χ)=hn(χ),其中hn(χ)為一列非隨機正序列,且隨著n→∞時,趨近于0,則(2)式轉化為文獻[6]提出的NW核估計量,即 (3) 為了通過熵的概念來證明H的子集SH上的一致結果,給出空間SH上Kolmogorovε熵的定義為ψSH(ε)=log(Nε(SH)),其中Nε(SH)為在空間H上必須覆蓋SH的開球半徑ε的最小值。 由于篇幅有限,一些前提假設可見文獻[4]中假設H1~H6。以下是估計量的漸近性質(zhì)。 (4) 為證明定理1,需要如下2個引理。類似于文獻[4],令{(Ai,Bi)|1≤i≤n}為取值于(Ω×R,A×(R))的隨機向量,其中(Ω,A)為通常的可測空間。令SΩ為Ω的固定子集,G(·,·):R×(SΩ×Ω)→R+為函數(shù),且?χ∈SΩ,G(·, (χ,·))為可測的。同時對?t,t′∈R,t G(t,z)≤G(t′,z), ?z∈SΩ×Ω。 對于?χ∈SΩ,n≥1,定義: (2) 當n→∞時,有 O(un)。 則有: (5) 證明見文獻[4]。 引理2 在文獻[4]假設H1~H6下,有 (6) 證明見文獻[7]。 下面在引理1、引理2的基礎上給出定理1的證明。 嚴格意義上講,甲狀腺結節(jié)性病變從其發(fā)病特點上區(qū)分,可分為兩類。第一類,單發(fā)性結節(jié);第二類,多發(fā)性結節(jié)。在臨床診斷治療領域,需要密切關注的是病變性的結節(jié)特征。具體來看,包括結節(jié)的大小、部位、質(zhì)地、功能等。如上所述,甲狀腺結節(jié)病變主要呈現(xiàn)為單發(fā)性和多發(fā)性,包括有增生性、腫瘤性、膠體性、囊性、甲狀腺炎性等??傊?,在臨床治療尤其是早期控制階段,對不同類型的甲狀腺結節(jié)性病變予以對應的治療措施是非常關鍵的。正如開篇所言,B超檢查診斷的臨床意義巨大。 本節(jié)通過模擬研究來驗證k近鄰回歸估計 的有效性,同時在有限樣本下將本文提出的k近鄰回歸估計與文獻[7]提出的NW核回歸估計的預測效果進行對比。 t∈[0, π], n=200的曲線樣本如圖1所示。同時,取核函數(shù)為K(u)=1-u2,u∈(0,1),半度量為: ?χi,χj∈SH。 圖1 n=200的曲線樣本 其中,MSEj為第j個檢驗樣本的MSE,具體結果見表1所列。本文缺失機制同文獻[8],α越大,缺失率越小。 從表1可以看出,在相同樣本量下,2種估計量的AMSE都隨著缺失率的減小(α增大)而逐漸減小;在缺失率相同的情況下,樣本量越大,2種估計量的預測效果越好;而在樣本量與缺失率均相同的前提下,k近鄰估計量的預測效果比NW核估計量的預測效果好。表中數(shù)據(jù)說明,k近鄰估計量可以較好地處理缺失數(shù)據(jù)的預測問題;結合文獻[1,2,9]的結論,可以發(fā)現(xiàn)在任何情況下,k近鄰估計量與NW核估計量相比有明顯的優(yōu)勢。 表1 2種估計量在不同樣本量和缺失率下預測的AMSE 圖2 N=781條溫度曲線 圖3 不同缺失率下的預測結果 理論驗證k近鄰估計的合理性后,模擬實驗以及真實數(shù)據(jù)分析都展示了k近鄰估計在函數(shù)型數(shù)據(jù)為解釋變量,響應變量隨機缺失時的預測能力,與NW核估計相比,k近鄰估計不僅預測效果更好,同時也考慮到了數(shù)據(jù)的局部性質(zhì),為函數(shù)型數(shù)據(jù)在實際生活中的應用提供了更廣闊的平臺。1 估計量的構造及主要結果
1.1 模型及估計
1.2 主要結果
2 引理及定理證明
3 模擬研究
4 真實數(shù)據(jù)分析
5 結 論