羅亭亭, 李本崇
(西安電子科技大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院, 西安 710126)
Bayes網(wǎng)絡(luò)[1], 也稱為概率網(wǎng)絡(luò)、 信念網(wǎng)絡(luò)或者因果網(wǎng)絡(luò), 是一種用有向無環(huán)圖表示隨機變量間條件獨立關(guān)系的統(tǒng)計模型, 最初主要用于處理人工智能中的不確定性信息, 目前廣泛應(yīng)用于不確定性推理和機器學(xué)習(xí)等領(lǐng)域[2-6]. Bayes網(wǎng)絡(luò)通過若干條件分布的乘積表示復(fù)雜的聯(lián)合概率分布, 因此有助于處理高維統(tǒng)計問題.
VC(Vapnik-Chervonenkis)維數(shù)和歐氏嵌入維數(shù)是二值函數(shù)類復(fù)雜性的兩種度量[7], 離散Bayes網(wǎng)絡(luò)誘導(dǎo)的概念類的VC維數(shù)和歐氏嵌入維數(shù)的大小備受關(guān)注. Kearns等[8]研究了一般概念學(xué)習(xí)的形式化模型, 著重研究了概念類的可學(xué)習(xí)性和一致收斂性, 并給出了許多有效算法; García-Puente等[9]給出了離散Bayes網(wǎng)的代數(shù)幾何刻畫; Nakamura等[10]給出了二值隨機變量Bayes網(wǎng)誘導(dǎo)的概念類歐氏嵌入維數(shù)的上下界, 并確定了一些特殊Bayes網(wǎng)誘導(dǎo)的概念類歐氏嵌入維數(shù)的精確值; Yang等[11-12]針對Boolean域上的二分類任務(wù), 證明了完全Bayes網(wǎng)和幾乎完全Bayes網(wǎng)誘導(dǎo)的概念類的VC維數(shù)和歐氏嵌入維數(shù)相等; Yang等[13]針對隨機變量取值均為k個的二分類問題, 證明了任意不含有V-結(jié)構(gòu)的Bayes網(wǎng)誘導(dǎo)的概念類VC維數(shù)和歐氏嵌入維數(shù)的一致性, 并給出了計算該維數(shù)的顯示公式; Yang等[14]針對變量在Boolean域取值的Bayes網(wǎng), 證明了隨機變量個數(shù)不超過5時, Bayes網(wǎng)絡(luò)誘導(dǎo)的概念類的VC維數(shù)與歐氏嵌入維數(shù)相等; Varando等[15]用Lagrange多項式乘積的線性組合評估Bayes網(wǎng)的表達能力, 得到了與文獻[13]類似的結(jié)果; Li等[16]擴展了Yang等[13]以及Varando等[15]的結(jié)果, 證明了任意不含V-結(jié)構(gòu)的Bayes網(wǎng)誘導(dǎo)的概念類VC維數(shù)和歐氏嵌入維數(shù)的一致性, 并給出了一般Bayes網(wǎng)誘導(dǎo)的概念類歐氏嵌入維數(shù)的上界(VC維數(shù)的上界). 近年來, 研究者們已利用Bayes網(wǎng)絡(luò)模型解決了許多實際問題[17-19], 但對Bayes網(wǎng)誘導(dǎo)的概念類的復(fù)雜性理論研究目前尚未見文獻報道. 當(dāng)一個網(wǎng)絡(luò)中的每個隨機變量取任意有限個值時, 該Bayes網(wǎng)絡(luò)誘導(dǎo)的概念類VC維數(shù)的下界尚無一般性結(jié)果. 因此, 基于Yang等[13]的工作, 本文考慮一般的離散Bayes網(wǎng)絡(luò)誘導(dǎo)的概念類VC維數(shù)的下界, 為進一步研究Bayes網(wǎng)誘導(dǎo)的概念類的復(fù)雜性做鋪墊, 并為分類任務(wù)提供理論支撐.
定義1[1]如果一個有向圖從任意頂點出發(fā), 沿任意若干條有向邊都不能回到該點(不含有向環(huán)), 則稱該圖是一個有向無環(huán)圖, 記作G=(V,E).每個頂點Xi∈V表示一個隨機變量, 一個有向邊(Xi,Xj)∈E表示Xi和Xj之間的條件依賴性, 其中V={X1,X2,…,Xn},i,j∈{1,2,…,n}且i≠j.
圖G中若(Xi,Xj)∈E, 則Xi稱為Xj的父節(jié)點,Xj稱為Xi的子節(jié)點.本文用PA(Xi)表示節(jié)點Xi的父節(jié)點集合,mi=|PA(Xi)|表示父節(jié)點的個數(shù).一個有向圖是完全的當(dāng)且僅當(dāng)給定節(jié)點的拓?fù)湫驎r, 對每個節(jié)點Xi都有PA(Xi)={X1,X2,…,Xi-1}.令X,Z,Y是有向無環(huán)圖G=(V,E)的3個節(jié)點, 如果G中包含有向邊X→Z和Y→Z, 且X和Y在G中不相鄰, 則稱(X,Z,Y)是一個V-結(jié)構(gòu), 如圖1所示.
圖1 圖G的一個V-結(jié)構(gòu)Fig.1 A V-structure of graph G
每個有向無環(huán)圖G都對應(yīng)一個概率分布族P,P由X上有如下形式的概率分布組成:
(1)
其中p(Xi|PA(Xi))表示給定父變量PA(Xi)時Xi的條件概率.
定義2(Bayes網(wǎng))[2]一個Bayes網(wǎng)由有向無環(huán)圖G=(V,E)和分布族P構(gòu)成, 記作N=(G,P).
例1如圖2所示的一個有向無環(huán)圖, 節(jié)點集V={X1,X2,X3,X4}, 有向邊集合E={(X1,X2),(X1,X3),(X2,X4),(X3,X4)}.由式(1)可知, 該有向無環(huán)圖對應(yīng)的概率分布族中的每個分布P滿足
圖2 一個有向無環(huán)圖Fig.2 A directed acyclic graph
P(X)=p(X1)p(X2|X1)p(X3|X1)p(X4|X2,X3).
考慮N是一個有n個節(jié)點X1,X2,…,Xn的Bayes網(wǎng),Xi∈[ki], 其中ki∈,ki≥2,i=1,2,…,n.易知若PA(Xi)={Xi1,Xi2,…,Xir}, 觀測向量為x=(x1,x2,…,xn), 則xpa(xi)?(xi1,xi2,…,xir).將N對應(yīng)的分布族記為DN,DN中X上的任一概率分布由如下形式表示:
(2)
記Bayes網(wǎng)絡(luò)N可自由設(shè)定的參數(shù)個數(shù)為FA(N), 基于上述討論可知參數(shù)個數(shù)應(yīng)為所有變量可自由設(shè)定的參數(shù)數(shù)目之和, 即
(3)
根據(jù)式(3), 對完全的Bayes網(wǎng)絡(luò)NF, 其可自由設(shè)定的參數(shù)個數(shù)為
(4)
例2以圖2對應(yīng)的Bayes網(wǎng)絡(luò)為例,X=(X1,X2,X3,X4),Xi取ki個值,i=1,2,3,4.若x=(1,0,1,2), 則由PA(X4)={X2,X3}可得xpa(x4)=(0,1).若變量X1,X2,X3,X4對應(yīng)的可自由設(shè)定參數(shù)個數(shù)分別為k1-1,k1(k2-1),k1(k3-1),k2k3(k4-1), 則由式(3)可得該Bayes網(wǎng)絡(luò)的可自由設(shè)定參數(shù)個數(shù)為k1-1+k1(k2-1)+k1(k3-1)+k2k3(k4-1).
定義3[10]概念類C是定義在X上的一個函數(shù)族, 滿足f:X→{-1,1}, 每個f∈C稱為一個概念.
定義4[10]一個有限集合S={s1,s2,…,sm}?X稱為被概念類C打散是指對任意m維向量b∈{-1,1}m, 存在f∈C使得f(si)=bi, 其中i=1,2,…,m.
定義5[10]概念類的VC維數(shù)定義為
VC dim(C)=sup{m|S?X,S被C打散, 且|S|=m}.
(5)
若由任意數(shù)目的樣本點組成的集合都能被概念類C打散, 則該概念類的VC維數(shù)即為無窮大.
(6)
由定義5和定義6可得Bayes網(wǎng)誘導(dǎo)的概念類的VC維數(shù), 將CN的VC維數(shù)記作VCdim(N).歐氏嵌入維數(shù)是用來評價Bayes網(wǎng)分類能力的另一個常用指標(biāo), 其定義如下:
定義7[10]給定X上的一個概念類C和一個具有標(biāo)準(zhǔn)內(nèi)積的d維歐氏空間, 若存在d中的向量(uf)f∈C和(vx)x∈X, 使得?f∈C,x∈X, 有則稱概念類C可以嵌入到d維歐氏空間.使C可以被嵌入d中最小的d稱為概念類C的歐氏嵌入維數(shù), 記作Edim(C).
對于一個概念類C, 如果不存在有限維的歐氏空間可以被C嵌入, 則Edim(C)為無窮大.概念類CN的歐氏嵌入維數(shù)記作Edim(N).
例3考慮圖2對應(yīng)的Bayes網(wǎng), 若Xi∈{0,1},i=1,2,3,4, 則VCdim(N)=Edim(N)=11[12].
命題1[10]對每個有限概念類C, 均有Edim(C)≥VCdim(C).
命題1表明,CN的歐氏嵌入維數(shù)是其VC維數(shù)的上界.完全Bayes網(wǎng)絡(luò)誘導(dǎo)的概念類的VC維數(shù)和歐氏嵌入維數(shù)皆等于網(wǎng)絡(luò)中可自由設(shè)定的參數(shù)個數(shù)[20].
命題2[13]設(shè)N′是有(n-1)個變量的Bayes網(wǎng)絡(luò),N中有向無環(huán)圖去掉節(jié)點Xn及與之相連的有向邊后對應(yīng)的Bayes網(wǎng)為N′, 若S′?[k]n-1被N′打散且VCdim(N′)=|S′|, 則
VCdim(N)≥VCdim(N′)+(k-1)k|PA(Xn)|,
(7)
其中Xi∈[k],i=1,2,…,n.
命題2表明, 一個有n個k-值隨機變量的Bayes網(wǎng)絡(luò)誘導(dǎo)的概念類VC維數(shù)的下界是前(n-1)個變量組成的Bayes網(wǎng)絡(luò)誘導(dǎo)的概念類VC維數(shù)與最后一個變量對應(yīng)的可自由設(shè)定的參數(shù)個數(shù)之和.
定理1[13]設(shè)N是一個離散的非完全Bayes網(wǎng)絡(luò), 其有n個變量X1,X2,…,Xn, 且每個變量Xi∈[k],k∈,k≥2, 則
(8)
定理2[16]設(shè)N是一個有n個隨機變量, 無V-結(jié)構(gòu)的非完全Bayes網(wǎng)絡(luò), 且每個變量Xi∈[ki],ki∈,ki≥2, 則
VCdim(N)=Edim(N)=FA(N)+1.
(9)
定理1給出了當(dāng)隨機變量取值個數(shù)均為k時, 非完全Bayes網(wǎng)絡(luò)誘導(dǎo)的概念類VC維數(shù)和歐氏嵌入維數(shù)的上下界.定理2表明, 不含有V-結(jié)構(gòu)的非完全Bayes網(wǎng)誘導(dǎo)的概念類的VC維數(shù)和歐氏嵌入維數(shù)相等.
Yang等[13]證明了當(dāng)X=(X1,X2,…,Xn)在[k]n上取值時, 非完全Bayes網(wǎng)中得到的VC維數(shù)的下界為可自由設(shè)定的參數(shù)加1.本文推廣該結(jié)果, 考慮網(wǎng)絡(luò)中每個隨機變量Xi∈[ki](ki∈,ki≥2)時該Bayes網(wǎng)誘導(dǎo)的概念類VC維數(shù)的下界.
首先給出一個引理, 其本質(zhì)是在定義Bayes網(wǎng)誘導(dǎo)的函數(shù)類時, 若函數(shù)類中不包含(1,1,…,1), 則可改寫符號函數(shù)的定義, 以避開樣本點概率相等的情形.
引理1設(shè)N是有n個變量X1,X2,…,Xn的Bayes網(wǎng)絡(luò), 其中Xi∈[ki],ki∈,k≥2,i=1,2,…,n,N誘導(dǎo)的概念類為CN, 則對每個k1k2…kn維的向量b=(b1,b2,…,bk1k2…kn)∈CN-{(1,1,…,1)}都存在一對分布P,Q∈DN, 使得:
1) sign[log(P(xk)/Q(xk))]=bk;
證明: 當(dāng)n=1時,N是一個完全Bayes網(wǎng)絡(luò), 此時的結(jié)果是文獻[13]中引理3.4的一個特例, 因此當(dāng)n=1時結(jié)論成立.
命題3[13]設(shè)a是一個非負(fù)實數(shù),b是一個m維向量, 其中
b=(b1,b2,…,bm)∈({1,-1}m-{(1,1,…,1),(-1,-1,…,-1)}),
(10)
{x′m+1|PA(Xn),x′m+2|PA(Xn),…,x′m+d-t|PA(Xn)}={zt+1,zt+2,…,zd},
且zt+1,zt+2,…,zd均不相同, 其中zt+1,zt+2,…,zd都是r維的.取
S3={(x′i,1),(x′i,2),…,(x′i,kn-1)|i=m+1,…,m+d-t},
易知S1∩S2=?,S1∩S3=?,S2∩S3=?.現(xiàn)令S=S1∪S2∪S3, 則有
下面證明?b=(b1,b2,…,bm,bm+1,…,bm+d(kn-1))∈{1,-1}m+d(kn-1), 存在一對分布P,Q∈DN, 使得
sign[log(P(si)/Q(si))]=bi,i=1,2,…,m+d(kn-1),
① (bi,0,bi,1,…,bi,kn-1)∈{(1,1,…,1),(-1,-1,…,-1)}, (bj1,0,…,bjl,0)∈{1,-1}l.
首先考慮si,0,si,1,…,si,kn-1, 可以指定參數(shù)p(xn=u|zi)=q(xn=u|zi), 選擇分布P′,Q′只需滿足P′(x′i)≥Q′(x′i)或P′(x′i) ② (bi,0,bi,1,…,bi,kn-1)∈{1,-1}kn-{(1,1,…,1),(-1,-1,…,-1)}, (bj1,0,…,bjl,0)∈{1,-1}l. 首先考慮si,0=(x′i,0)∈Ai, 由引理1知, 若bi,0=1, 則選擇分布P′,Q′時需滿足P′(x′i)>Q′(x′i); 若bi,0=-1 , 則選擇分布P′,Q′時需滿足P′(x′i) 引理2是命題2的推廣, 它表明當(dāng)Bayes網(wǎng)絡(luò)中每個隨機變量取任意有限個值時, 該網(wǎng)絡(luò)誘導(dǎo)的概念類的VC維數(shù)大于或等于前(n-1)個變量組成的Bayes網(wǎng)絡(luò)誘導(dǎo)的概念類的VC 維數(shù)與最后一個變量的可自由設(shè)定參數(shù)個數(shù)之和.在引理2的基礎(chǔ)上, 結(jié)合定理2, 有下列結(jié)論. 定理3設(shè)N是一個有n個節(jié)點X1,X2,…,Xn的非完全Bayes網(wǎng)絡(luò), 其中Xi∈[ki],ki∈,ki≥2, 則 (11) 證明: 當(dāng)n=1時,N1是一個完全Bayes網(wǎng)絡(luò), 此時VCdim(N1)=FA(N1)=k1-1[13,16].考慮非完全Bayes網(wǎng)從n=2開始, 由定理2知, VCdim(N2)=k1+k2-1,FA(N2)=k1+k2-2, 結(jié)論成立. 假設(shè)該結(jié)論對任一有(n-1)個變量X1,X2,…,Xn-1的非完全Bayes網(wǎng)Nn-1成立, 且Xi∈[ki], 則 證畢. 定理3給出了所有離散非完全Bayes網(wǎng)誘導(dǎo)的概念類VC維數(shù)的下界, 對此說明如下. (i) 當(dāng)Bayes網(wǎng)絡(luò)不含有V-結(jié)構(gòu)時, 此類Bayes網(wǎng)誘導(dǎo)的概念類VC維數(shù)的下界正是VC維數(shù)[16]. (ii) 當(dāng)Bayes網(wǎng)絡(luò)含有V-結(jié)構(gòu)時, 有些情況下這個下界恰為VC維數(shù).例如, 圖1所示的有向圖對應(yīng)的非完全Bayes網(wǎng)絡(luò), 令X,Y,Z∈{0,1}, 則該Bayes網(wǎng)絡(luò)的可自由設(shè)定參數(shù)個數(shù)為1+2×2+1=6, 其誘導(dǎo)的概念類VC維數(shù)的下界為6+1=7, 這與Yang等[14]證明的該Bayes網(wǎng)誘導(dǎo)的概念類VC維數(shù)等于7一致. (iii) 在Bayes網(wǎng)絡(luò)含有V-結(jié)構(gòu)時, 這個下界有時偏小. 例如, 圖2對應(yīng)的Bayes網(wǎng)絡(luò)含有一個V-結(jié)構(gòu), 當(dāng)X1,X2,X3,X4∈{0,1}時, 該Bayes網(wǎng)誘導(dǎo)的概念類VC維數(shù)的下界為1+2+2+4+1=10, 而Yang等[12]證明了該Bayes網(wǎng)誘導(dǎo)的概念類VC維數(shù)為11. 綜上所述, 本文主要討論了一般Bayes網(wǎng)誘導(dǎo)的概念類VC維數(shù)的下界問題. 對每個隨機變量都可取任意有限值的任一非完全Bayes網(wǎng)絡(luò), 考慮其誘導(dǎo)的概念類的VC維數(shù)與網(wǎng)絡(luò)中可自由設(shè)定的參數(shù)個數(shù)的關(guān)系, 證明了任意非完全離散Bayes網(wǎng)的可自由設(shè)定參數(shù)個數(shù)加1后, 是該Bayes網(wǎng)誘導(dǎo)的概念類VC維數(shù)的一個下界. 對于沒有V-結(jié)構(gòu)的非完全Bayes網(wǎng)絡(luò), 本文給出的這個下界恰好是VC維數(shù)[16]; 對于含有V-結(jié)構(gòu)的非完全Bayes網(wǎng)絡(luò), 這個下界可能等于VC維數(shù), 也可能小于VC維數(shù). 本文的研究結(jié)果對任一非完全Bayes網(wǎng)絡(luò)都適用, 解決了一般Bayes網(wǎng)誘導(dǎo)的概念類VC維數(shù)的下界問題, 為進一步研究Bayes網(wǎng)誘導(dǎo)的概念類的復(fù)雜性提供了參考.Q′(x′j); 若bj,0=-1, 則選擇分布P′,Q′時需滿足P′(x′j)