亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

通用智能框架下的紐康姆難題

2019-09-27 08:56:18李熙

邏輯學(xué)研究 2019年4期

李熙

對于一個理性的主體來說，如果已知每個行為可能帶來的后果，他會選擇能夠帶來最大期望效用的行為。但如何精確地刻畫并計算期望效用卻是一個難題，尤其在涉及不確定情境下的決策時，對于如何用概率刻畫可能后果的不確定性，并不是一件平凡的事。證據(jù)決策論與因果決策論是兩種比較主流的決策理論，在分析紐康姆難題時，通常認為，證據(jù)決策論采用期望效用最大化進行決策，因果決策論采用“占優(yōu)原則”進行決策，事實上，通過合適的概率計算，“占優(yōu)原則”可以看作特殊的期望效用最大化，也就是說，兩種決策論都通過期望效用最大化進行決策，但二者對于“期望”的計算方式不一樣。比如在紐康姆難題中，證據(jù)決策論（[4]）與因果決策論（[5]）導(dǎo)出了兩種完全不同的行為方式。

紐康姆難題最初由物理學(xué)家紐康姆提出、由哲學(xué)家諾齊克（R.Nozick）發(fā)表（[8]），它指如下這種謎題：

一個女巫向你展示了兩個箱子a和x，其中a透明x不透明。透明箱子a中有很少的錢（L元），不透明箱子x中可能有很多錢（B元，B?L），也可能什么都沒有，你可以兩個箱子都拿走也可以只拿不透明的箱子x。

女巫聲稱她可以提前預(yù)測你的行為，如果她預(yù)測到你會兩個箱子都拿，她就讓x空著，如果她預(yù)測到你只拿x，她就會放很多錢（B元）在里面。你們已經(jīng)玩了好多回合了，女巫每次都猜對。下一次你該怎么選？1在原始的紐康姆難題（[8]）設(shè)定中，你看到女巫跟很多人玩，她幾乎從來沒輸過?，F(xiàn)在輪到你了，你該如何選擇？本文對此做了微小的改動。之所以稱其為紐康姆“難題”，是因為，根據(jù)主流的決策理論，比如證據(jù)決策理論，你最好只拿一個箱子；而根據(jù)因果決策理論，兩個箱子都拿是一種“占優(yōu)”策略。這在一定程度上非常反直觀，所以雖然不構(gòu)成一個悖論，卻是一個難題。雖然本文對游戲設(shè)定略有修改，但這種反直觀的情形依然存在。關(guān)于紐康姆難題更細致的哲學(xué)分析可以參看張建軍（[15]）。

這個難題涉及到因果決定論與自由意志這一宏大哲學(xué)主題，所以倍受哲學(xué)家關(guān)注。除了因果決策論和證據(jù)決策論，為了解決這個難題，甚至產(chǎn)生了幾個專門的決策理論。比如連貫決策論（[1]），無時間決策論（[14]），無更新決策論（[10]），量子決策論（[3]）等等。從結(jié)果來看，這些決策理論要么支持選擇一個箱子，要么支持選擇兩個箱子。但還有另外一種消解難題的方式，那就是徹底否定這個游戲本身的合理性，認為這不是一個嚴格定義的博弈框架，不同的解讀可以導(dǎo)出不同的博弈，比如[13]。

一般認為，證據(jù)決策論采用經(jīng)典的條件概率，因果決策論采用反事實條件概率，其他形形色色的決策理論也基本是在設(shè)計各種“條件概率”。采用“消解”方案的人一般認為，經(jīng)典的條件概率理論已足夠，對游戲的不同解讀方式對應(yīng)不同的條件概率計算方式。本文也認為，發(fā)展一套專門的反事實條件概率或其他形式的條件概率的理論是不必要的，本文將從胡特爾（M.Hutter）的通用智能模型AIXI2關(guān)于AIXI的詳細知識請參考[2]和[6]，其中涉及到的關(guān)于柯爾莫哥洛夫復(fù)雜性的知識請參考[7]，博弈論的知識請參考[9]。入手，認為在紐康姆難題中，關(guān)鍵在于如何用概率論刻畫未知的“因果性”，從算法概率的角度看，關(guān)鍵在于，環(huán)境類/假設(shè)空間如何設(shè)定。

1 通用智能模型AIXI簡介

記號.字母表X上的有窮序列記為X?，無窮序列記為X∞，記X#:=X?∪X∞，空序列記為?。有窮序列x∈X?的長度記為|x|，Xt:={x∈X?:|x|=t},X≤t:=長度為n的序列x1x2...xn簡記為x1:n，類似的，xt:n:=xtxt+1...xn?1xn，x

字母表X上的全序<可以誘導(dǎo)出有窮字符串X?上的準(zhǔn)字典序，

艾佛森括號

記?(X)為X上的概率分布的集合。

在強化學(xué)習(xí)框架中，主體與環(huán)境不斷交互，在第k個回合，主體向環(huán)境采取動作ak∈A，環(huán)境反饋給主體一個觀察xk∈X，主體感知到xk的同時體驗到效用u(ax1:k)，然后進入第k+1個回合，如此循環(huán)往復(fù)。形成的交互歷史是(A×X)?的一個元素。一個策略是一個函數(shù)π:(A×X)?→?(A)，它映射一個歷史ax

一般默認用μ作為真實環(huán)境，如果真實環(huán)境μ已知，那么一個理性的主體會采取某個能使其獲得最大的期望效用的“最優(yōu)”策略

其中策略μ在環(huán)境μ中的期望效用為，

其中u:(A×X)?→[0,1]是效用函數(shù)，γ是貼現(xiàn)函數(shù)，滿足為貼現(xiàn)歸一化因子。

假設(shè)M:={ν1,ν2...}是下半可計算的環(huán)境集。其中對每個環(huán)境ν∈M，主體都有一個相信其為真實環(huán)境的先驗信念w(ν)，即w∈?(M)，那么對所有可能環(huán)境的貝葉斯混合就是

所以，可以不區(qū)分確定性環(huán)境還是不確定性環(huán)境，而追求最大化。AIXI可以看作在各種可能的環(huán)境中以算法概率追求期望效用最大化的主體。

2 AIXI與紐康姆難題

紐康姆難題的原始版本中，主體對于女巫勝率的估計是題目直接給定或基于頻率的。雖然紐康姆難題涉及因果性的話題，但對于概率本身的理論基礎(chǔ)卻不做討論。事實上，紐康姆難題的關(guān)鍵是因果性，或主體做決策時眼中的主觀因果性，對這個因果性的刻畫恰恰應(yīng)該被囊括在主體對于女巫勝率的主觀信念之中，體現(xiàn)為某種主觀概率。而在AIXI的框架中，AIXI是以所羅門諾夫先驗概率作為評估各種可能性的初始信念，用貝葉斯混合或與其等價的算法概率為基礎(chǔ)進行決策，因果性體現(xiàn)為可計算函數(shù)或可計算概率分布。下面對比證據(jù)決策論和因果決策論分析AIXI在紐康姆難題上的表現(xiàn)。

根據(jù)證據(jù)決策論，行為a帶來的期望效用為

而根據(jù)因果決策論，行為a帶來的期望效用為

二者的差別僅在于，證據(jù)決策論采用條件概率P[x|a]，而因果決策論采用反事實條件概率P[a>x]。在紐康姆難題中，條件概率與反事實條件概率并不相等。但不管條件概率還是反事實條件概率，背后起作用的都是因果性。

如果你相信女巫的說辭，那么你就會相信女巫是通過某種你不知道的策略進行預(yù)測然后據(jù)此決定放不放錢

根據(jù)AIXI的框架，你的博弈環(huán)境可以看作

你在博弈環(huán)境P中的期望效用為

在紐康姆博弈中，主體把每一局都當(dāng)做最后一局來玩，不考慮未來的情況，所以雖然不考慮未來可能繼續(xù)的博弈，但計算概率時，整個的過去歷史在起作用，主體所能依賴的也只有過去歷史。

因為無法判斷a（選擇箱子）和x（放錢）的先后順序，所以根據(jù)時間順序誰先誰后有兩種分解方式，一種我們稱它為“證據(jù)/因果”的分解方式，另一種稱它為“自由意志”的分解方式。3根據(jù)我們的分解方式，一種情況下可以討論女巫的行為多大程度上影響主體選擇箱子的動作，這跟主體的自由意志相關(guān)，所以我們稱這種分解方式為“自由意志”分解。另一種情況下可以討論選擇箱子的動作是否可能影響女巫的行為，而這種情況下又可以分別討論證據(jù)決策者和因果決策者的不同選擇，所以我們稱這種分解方式為“證據(jù)/因果”分解。

按“自由意志”的分解方式，

自認為擁有自由意志的人會認為自己的行為完全獨立于女巫的行為P[at|h

也就是說，不管女巫放沒放錢，她的行為的結(jié)果都是已經(jīng)確定無法更改的了，所以自己兩個箱子都拿可以多賺L，是一種“占優(yōu)”策略。

而相信自己不完全擁有自由意志、自己的行為部分受女巫的控制的人會認為這時，選擇一個箱子還是兩個箱子就取決于女巫的預(yù)測行為和自己擁有多少自由意志。比如，假如你認為自己沒有任何自由意志，這意味著你的行為將完全被女巫決定那么，

替換P進行估測，其中q?h指程序q輸出歷史h。雖然放錢xt發(fā)生在選擇箱子at之前，但AIXI在做出選擇之前完全看不到箱子里是否放了錢xt，所以他只會根據(jù)他已有的經(jīng)驗h

按照“證據(jù)/因果”的分解方式，可區(qū)分證據(jù)決策與因果決策兩種決策方式，

對于因果決策者來說，他相信自己的選擇行為發(fā)生在女巫的預(yù)測行為之后，所以對女巫的預(yù)測沒有影響，所以，

所以，

所以，雖然對放錢x和選擇箱子a的“時序”的理解與自由意志的情形完全相反，但結(jié)果跟完全相信自由意志的情況一樣，都認為拿兩個箱子是“占優(yōu)”策略，可以多賺L，必須兩個箱子都拿，

而對于證據(jù)決策者來說，他不確信自己的行為是否影響女巫的預(yù)測，所以會認為，

所以，是否只拿一個箱子取決于二者相差多少，

因此，因果決策與證據(jù)決策的區(qū)別就在于對條件概率P[x|ha]的賦予方式不同；而對于AIXI來說，他會用算法概率M來逼近P(xt|h

3 小結(jié)與討論

紐康姆難題是一個有哲學(xué)韻味的決策難題。面對紐康姆難題，主流的決策理論出現(xiàn)了分歧，采用期望效用最大化原則和占優(yōu)原則分別會導(dǎo)向兩種不同的選擇。證據(jù)決策論者會拿一個箱子，因果決策論者會拿兩個箱子。拿一個箱子的一般是宿命決定論者，拿兩個箱子的一般是自由意志論者。一般來說，證據(jù)決策論采用經(jīng)典的條件概率，因果決策論采用反事實條件概率。本文認為，解決紐康姆難題的關(guān)鍵在于，如何用概率方法刻畫其中隱藏的因果性。如果用經(jīng)典概率論可以刻畫出其中的因果性，那么發(fā)展一套專門的反事實條件概率或其他形式的條件概率的理論是不必要的。本文通過對聯(lián)合概率進行的“證據(jù)/因果”和“自由意志”兩種不同的分解方式，說明不同的分解方式組合，會產(chǎn)生不同的期望效用。占優(yōu)原則可以看作一種極端的期望效用最大化原則。所以，決策理論的基礎(chǔ)——追求效用最大化并不與占優(yōu)原則沖突。問題是——如何計算期望效用。本文主要從胡特爾的通用智能模型AIXI出發(fā)，從AIXI與女巫博弈的視角分析紐康姆悖論。AIXI采用算法概率計算期望效用，因為算法概率可以用來處理序列預(yù)測問題，而序列預(yù)測在一定程度上是對因果性的反映。而從算法概率的角度看，計算概率的關(guān)鍵在于，環(huán)境類/假設(shè)空間如何設(shè)定。借助通用智能模型AIXI，我們可以清楚地看出，基于什么樣的環(huán)境類/假設(shè)空間，主體會采取什么樣的選擇。當(dāng)環(huán)境類/假設(shè)空間足夠大到包含類似于“自己的行為可能會影響女巫的決策”的可能假設(shè)時，主體都會傾向于選擇一個箱子。

另外，如果AIXI的源代碼和內(nèi)存可以被修改，而且它自己也知道可以被修改（即，假設(shè)空間中包含自己的源代碼和內(nèi)存可以被修改的環(huán)境），那么，這就類似于主體不具有完全的自由意志的情形，也會傾向于只選擇一個箱子。

如果AIXI意識到自己是完全內(nèi)嵌于真實環(huán)境之中的，自己對真實環(huán)境的理解只是一種虛擬建模，主體完全是環(huán)境的一部分，環(huán)境可以修改主體的任何部分，環(huán)境執(zhí)行主體的代碼，主體所能做的頂多是在模擬環(huán)境的時候能夠同時模擬主體在模擬環(huán)境中的表現(xiàn)。這種完全內(nèi)嵌于環(huán)境的主體跟內(nèi)存和源代碼可以被修改的主體類似，都會考慮到自己不完全具有自由意志，都可能傾向于選擇一個箱子。

雖然AIXI的“算法概率”對于估測“女巫”的預(yù)測行為有著重要作用，但是，在AIXI的框架中，盡管信息是不完全的，但時序關(guān)系是嚴格確定的，所以“主體”與“環(huán)境”的博弈可以看作“可觀察行為的貝葉斯擴展博弈”。但在紐康姆難題中，對于“女巫”的預(yù)測行為“主體”無法觀察到，所以無法確定自己的“選擇”行為是否會影響“女巫”的“預(yù)測”、或“女巫”的“預(yù)測”是否會影響自己的“選擇”。從AIXI的角度看，這就要慎重對待“女巫”給出的先驗信息。因果決策者相當(dāng)于把“女巫”的說辭理解為“自己的行為與女巫的行為完全獨立”，所以，凡是模型類中自己的行為與女巫的行為不獨立的所有假設(shè)都提前剔除了。而證據(jù)決策者只重視博弈的交互過程本身，不會把“女巫”的說辭作為先驗信息從而據(jù)此提前對假設(shè)空間做那么大的刪減。因此，二者的差別源于對“游戲設(shè)定”本身的理解不同。如何“合理地”對待游戲設(shè)定本身的不確定性已經(jīng)超出了算法概率所能處理的不確定性的范疇，因為算法概率僅僅以“簡單性”為先驗，而不會考慮“游戲設(shè)定”給出的先驗信息。

另外，一個有意思的問題是，假如跟你博弈的不是女巫而是AIXI，而且你知道跟你博弈的是AIXI，并且你知道自己是某個可計算的策略，那么，你會選一個箱子還是兩個箱子？因為AIXI能夠逼近任何可計算的策略，而且逼近的誤差大小與可計算策略的柯爾莫哥洛夫復(fù)雜度相當(dāng)，根據(jù)胡特爾（[2]），

這意味著，AIXI可以近似正確地預(yù)測你的選擇。所以，這種情況下最好永遠只拿一個箱子。