亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        人工社團協(xié)商競爭模型的研究及其仿真

        2012-12-31 00:00:00陳鳳欽
        計算機光盤軟件與應用 2012年9期

        摘要:針對當前人工社團競爭研究缺乏同時考慮不對等競爭情報和信息交流對主體行為選擇的影響問題。本文根據(jù)競爭中的信息交流特點提出從協(xié)商競爭角度探討信息不對等性和信息溝通機制對主體行為的影響以及主體的歷史信息學習能力。構(gòu)建協(xié)商競爭宏觀模型框架并提出新的學習算法—歷史信念學習算法。對主體未學習與學習后的實驗結(jié)果進行對比,對比結(jié)果表明經(jīng)過學習主體能夠做出更有益于其利益追求的行為演化,驗證歷史信念學習算法的有效性。

        關(guān)鍵詞:協(xié)商;競爭;學習;仿真

        中圖分類號:TP311.52 文獻標識碼:A 文章編號:1007-9599 (2012) 09-0000-03

        一、引言

        生活中存在的供貨商與消費者之間關(guān)于價格利益的競爭,電子商務市場中交易主體的動態(tài)競價,合作伙伴的選擇競爭等都存在一個共同點:競爭雙方擁有不對等的競爭情報并存在一定的信息交流。不對等信息影響主體在競爭中的地位,但一定的交流機制使得主體不僅可以獲得自身歷史信息而且可以在交流中獲取對手歷史信息。當前人工社團競爭研究缺乏對主體信息不對等性和交流機制的研究,也缺乏對兩者關(guān)系的研究,影響主體行為選擇參考信息的完備性。為改進這一問題,本文針對上述兩種機制特點提出以協(xié)商競爭角度研究存在信息不對等性和交流的人工社團競爭問題,分析協(xié)商競爭的環(huán)境、機制、資源等問題,構(gòu)建人工社團協(xié)商競爭模型框架并提出歷史信念學習算法。通過歷史信念學習的主體可以比未學習主體獲取更多有關(guān)競爭對手的歷史信息,提高主體行為選擇的智能性和正確性。

        二、協(xié)商競爭

        為構(gòu)建協(xié)商競爭模型框架,本文從三方面對協(xié)商進行研究[1][2]:(1)協(xié)商協(xié)議:所有參與競爭主體都必須遵守的一系列競爭規(guī)則集合。(2)協(xié)商目標:協(xié)商參與者希望通過協(xié)商達到的目標。(3)協(xié)商策略模型:協(xié)商過程也是策略選擇過程。

        三、協(xié)商競爭模型框架

        (一)協(xié)商競爭宏觀模型框架NCpe-scape

        為進一步分析人工社團協(xié)商競爭中的競爭環(huán)境和主體學習行為,本文接著構(gòu)建協(xié)商競爭宏觀模型NCpe-scape,模型用七元組表示,各元素含義如下:

        N:參與協(xié)商競爭的主體集合;

        E:協(xié)商競爭環(huán)境;

        O:協(xié)商競爭目標,各主體為此目標而進行爭奪;

        P:協(xié)商競爭協(xié)議,主體在競爭過程中必須遵守的規(guī)則集合,它對主體的行為起約束作用;

        S:協(xié)商競爭策略,主體在競爭過程中采取的行動策略集合;

        R:協(xié)商競爭的結(jié)果狀態(tài)集合,包含協(xié)商成功,協(xié)商失敗和非正常終止;

        L:協(xié)商競爭中主體的學習機制,主體根據(jù)當前環(huán)境信息和歷史信息進行學習。

        模型框架如圖1所示:

        圖1 協(xié)商競爭模型框架

        在上述模型框架中,代表競爭環(huán)境的二維網(wǎng)格中分布著競爭參與主體和資源,每個競爭主體在二維網(wǎng)格中都有一個確定的空間坐標位置,每個主體都包含標識和屬性集合,并攜帶一定含量的資源。初始時,環(huán)境資源及主體資源由資源分配機制確定。擁有資源和能量的主體制定協(xié)商競爭目標,在協(xié)商競爭協(xié)議的約束下選擇協(xié)商競爭策略展開競爭行為,主體間的行為交互通過標識調(diào)節(jié)。競爭系統(tǒng)中的主體具有一定的學習能力,這種學習能力利用歷史信念學習表征,主體通過學習歷史信息參考模型增強競爭策略的成功率和智能性,通過積累歷史經(jīng)驗提高自身決策能力。

        協(xié)商的終極目標是主體為自身爭取更多的利益,為驗證宏觀模型框架的可行性及正確性,我們在下文構(gòu)建以協(xié)商獲取最大利益為目標的利益驅(qū)動協(xié)商競爭模型。

        (二)利益驅(qū)動協(xié)商競爭模型BNC-scape

        利益驅(qū)動協(xié)商競爭模型BNC-scape定義為七元組,其中:

        1.BN表示協(xié)商參與主體集合,包含兩種類型的主體集合可定義為BN=,其中,BA1,BA2分別表示第一、二類主體;

        2.BE表示協(xié)商競爭環(huán)境;

        3.BO表示爭取最大利益的協(xié)商目標;

        4.BP表示利益驅(qū)動協(xié)商競爭協(xié)議;

        5.BS表示利益驅(qū)動協(xié)商競爭策略,具體策略反映在主體的協(xié)商行為選擇上;

        6.BR表示利益驅(qū)動協(xié)商競爭結(jié)果狀態(tài)集;

        7.BL表示利益驅(qū)動協(xié)商主體的學習策略。我們將此學習機制定義為歷史信念學習HBL。

        (三)歷史信念學習HBL

        協(xié)商競爭的最大特點在于主體間的交流和歷史信息的可獲取性,競爭主體在交互過程中不斷收集相關(guān)對手的歷史信息并利用這些信息優(yōu)化行為決策??衫眯畔⒂扇糠謨?nèi)容組成:自身歷史信息、對手歷史信息與環(huán)境信息,分別用 , 表示,并用 表示三者的重要性權(quán)重。對手歷史信息又可分為:對手歷史最優(yōu)行為、對手歷史平均信息與對手歷史最差行為,分別用 , , 表示,并用 表示三者的權(quán)重系數(shù)。主體的信息參考模型如下式:

        (1) (2)

        主體的學習機制描述如下:

        (1)主體根據(jù)交互的歷史信息實時調(diào)整參數(shù),并根據(jù)信息參考模型以效用最大化為目標從行為策略侯選集中選擇一個最佳行為策略;

        (2)主體根據(jù)自身歷史信息和當前環(huán)境信息預測交互對手在該階段做出的行動策略S1,根據(jù)對手的歷史信息預測交互對手在該階段做出的行動策略S2;

        (3)觀察對手的實際策略與主體的預測策略之間的差值,如果實際策略更接近S1,則強化主體自身歷史信息和環(huán)境信息的權(quán)重,如果實際策略更接近S2,則強化對手歷史信息的權(quán)重。

        四、仿真模型設計

        以價格協(xié)商為應用背景,在宏觀模型框架的指導下設計一個房地產(chǎn)市場中開發(fā)商與消費者關(guān)于房價利益的協(xié)商模型PBNC-scape。房子價值利用hedonic定價模型確定。

        首先介紹PBNC-scape設計與利益驅(qū)動協(xié)商競爭模型之間的映射關(guān)系:

        1.開發(fā)商和消費者代表兩種不同類型的協(xié)商主體。BN=,DA表示開發(fā)商主體,CA表示消費者主體;

        2.在二維網(wǎng)格環(huán)境中分布房子及影響房子價值的公共設施,為簡化分析,本文構(gòu)建的模型公共設施物只涉及醫(yī)院,商場,學校,公交站點和工廠這幾類具有標志性作用的建筑。醫(yī)院,商場,學校和公交站點對房子價值起正反饋作用,工廠因噪聲污染等原因?qū)Ψ孔觾r值起負反饋作用。因為數(shù)據(jù)收集問題,我們假設所構(gòu)建模型的房子的建筑結(jié)構(gòu)都是一樣的,只探討區(qū)位和不同鄰里環(huán)境屬性對房子價值的影響;

        房子的Hedonic價值函數(shù)如下:

        (3)

        其中,Pb表示房子的基本價值,a1,a2,a3表示三個影響因子的權(quán)重系數(shù), 表示誤差項。

        3.開發(fā)商對房子的最低限制價格與其報價之間的差值定義為開發(fā)商剩余價值,雙方協(xié)商競爭的目標是獲取最大剩余價值;

        4.每個周期開發(fā)商和消費者對欲交易的房子進行價格協(xié)商博弈[9][10]。協(xié)議包含:

        (1)雙方在區(qū)間內(nèi)報價,開發(fā)商報價區(qū)間[spmin,spmax],消費者報價區(qū)間[cpmin,cpmax]。

        (2)T表示消費者未知的開發(fā)商最低限制價格,R表示開發(fā)商未知的消費者最高可接受價格。開發(fā)商估計消費者的R是[cmin,cmax]上分布的自由變量,消費者估計開發(fā)商的T是[smin,smax]上分布的自由變量。

        (3)不成功的報價對下一回報價具有參考價值。開發(fā)商新的報價將低于舊的報價同時高于消費者舊的報價。

        (4)模型引入折算系數(shù), 代表開發(fā)商的折算系數(shù), 代表消費者的折算系數(shù)。開發(fā)商行為模型描述如下: ,消費者行為模型描述如下: 。其中,DP,CP表示開發(fā)商和消費者各自對房子的Hedonic定價,開發(fā)商根據(jù)DP設置房子的最低限制價格T,消費者根據(jù)CP設置房子的最高可接受價格R。

        5.協(xié)商輪數(shù)利用泊松分布指定;

        6.根據(jù)歷史信念學習算法,在某個位置上經(jīng)過多個周期協(xié)商后仍未售出的房子在 周期時開發(fā)商可以進行歷史信念學習,學習模型為:

        4)

        (5)

        其中, 表示開發(fā)商根據(jù)自身歷史報價信息計算出的報價參考值, 表示開發(fā)商根據(jù)當前環(huán)境下的供求關(guān)系計算出的報價參考值, 表示開發(fā)商根據(jù)該位置協(xié)商交互過的消費者報價信息計算出的報價參考值。

        五、仿真結(jié)果分析

        實驗在仿真平臺Swarm下進行,實驗數(shù)據(jù)在參考相關(guān)文獻關(guān)于hedonic屬性取值的范圍內(nèi)隨機取值。

        房子,醫(yī)院,商場,公交站點,學校及工廠隨機分布在40*40的二維網(wǎng)格中。房子數(shù)量為200,開發(fā)商數(shù)量為40,消費者數(shù)量為400,屬性L、S、N的基本價值在4000到4500之間隨機取值。公共設施建筑物起反饋作用的界限距離在15到20之間隨機取值

        首先,我們考察主體無學習情況。

        (一)無學習

        主體不具有學習能力時其報價策略是區(qū)間內(nèi)隨機取值。經(jīng)過100多個仿真周期,房子平均價值—時間曲線與房子平均交易價格—時間曲線如圖2(a)(b)所示。

        圖2 主體未學習下的時間圖

        從圖2(a)我們觀察到隨著時間推移,房子價值越來越高,在第50和80周期附近房子價值出現(xiàn)明顯的上升,說明設計的模型規(guī)則能夠反映房子價值隨市場環(huán)境的變化而變化。房子平均價值并不是一瞬間增高的,需要經(jīng)過一個波動的過程,實驗結(jié)果驗證了這一點。從圖2(b)中我們觀察到房子平均交易價格也在第50和80周期附近出現(xiàn)跳躍,這與圖2(a)的結(jié)果是相吻合的。說明模型中競爭雙方的報價規(guī)則和報價策略是可行的,協(xié)商過程中動態(tài)信息的調(diào)整也是正確。

        (二)學習

        添加歷史信念學習機制后的房子平均價值——時間曲線與房子平均交易價格——時間曲線如圖3(a)(b)所示:

        圖3 主體學習下的時間圖

        從圖3(a)我們觀察到房子平均價值在前45個周期內(nèi)存在小波動,但基本平衡,在第45周期時發(fā)生價值跳躍。在第75周期附近出現(xiàn)第二次跳躍。圖3(b)中,房子的平均交易價格也相應在第45周期和第75周期附近發(fā)生跳躍。對比圖2和圖3,我們發(fā)現(xiàn)添加學習后的房子平均價值和平均交易價格跳躍周期均早于未學習情況,而且對比中可以發(fā)現(xiàn)添加學習機制后,房子平均交易價格的波動幅度明顯小于未學習情況,說明通過學習開發(fā)商制定出的報價更加接近消費者可接受區(qū)域,更加合理,協(xié)商次數(shù)減少,協(xié)商成功的機率增大,能夠在更短的時間內(nèi)與消費者達成一致意見,利潤增長幅度也呈上升趨勢。通過實驗結(jié)果,我們驗證了歷史信念學習的有效性。

        六、結(jié)論

        從協(xié)商角度分析信息不對等和交流的人工社團競爭問題可以更貼切地反映競爭主體行為特點,提高主體行為選擇參考信息的完備性,結(jié)合競爭環(huán)境和協(xié)商特點制定出的學習算法可以幫助主體做出更符合其利益追求的行為演化與選擇,歷史信念學習算法可以幫助主體有效地汲取歷史經(jīng)驗,最大化主體價值。任何一個宏觀模型都不可能既準確無誤又完整地反映實際情況,只能在某種程度上給予抽象性和戰(zhàn)略性的指導,因此下一步工作是研究競爭系統(tǒng)中其他細節(jié)因素對模型的影響和作用。

        參考文獻:

        [1]Rahwan l,Ramchurn S D,Jeaning N R,et al.Argumentation2 based negotiation.Knowledge Eginerring Review,2004:343-375

        [2]Jennings N R.Automated negotiation[C].Manchester,UK:Proc 5th Int Conf on The Practical Application of Intelligent Agents and Multi-Agent Systems (PAAM-2000),2000:23-30

        [3]王立春,陳世福.多Agent多問題協(xié)商模型[J].軟件學報,2002,13(8):1637-1643

        [4]王娟,柴玉梅.基于在線學習的多Agent協(xié)商[D].鄭州:鄭州大學,2006

        [5]楊清平,蒲國林,王剛,邱玉輝.基于交互歷史的多Agent自動協(xié)商研究[J].計算機科學,2008,35(9):226-228

        [6]周慶,黃穎穎,陳劍.基于主體的動態(tài)競爭模型的設計與仿真[J].系統(tǒng)仿真學報,2005,17(8):1977-1981

        [7]曹先彬,高雋,王煦法.基于生態(tài)競爭模型的遺傳強化學習[J].軟件學報,1999,10(6):658-662

        [8]王德,黃萬樞.Hedonic住宅價格法及其應用[J].規(guī)劃方法,2005,29(3):62-70

        [9]Holland,J.H.,Asset Pricing under Endogenous Expectations in an Artificial Stock Market,Santa Fe Institute Working Paper,et al,1997:96-12-093

        [10]唐亮貴,程代杰.一個基于博弈學習的多主體競價模型[J].計算機工程與應用,2006,17:76-78

        [作者簡介]陳鳳欽(1985.11-),女,籍貫:福建莆田,學歷:碩士,職稱:助教,研究方向:人工生命、智能計算。

        中文字幕 亚洲精品 第1页| 精品亚洲一区二区区别在线观看| 日本精品一级二区三级| 日本a级特级黄色免费| 五月天激情电影| 久久久老熟女一区二区三区| 中文字幕一区二区三区精彩视频| 久久亚洲精品成人| 亚洲av无码一区二区三区性色| 国产精品多人P群无码| 香港三级欧美国产精品| 午夜一区二区在线视频| 亚洲毛片免费观看视频| 永久免费毛片在线播放| 国产卡一卡二卡三| 青青视频一区| 亚洲一区二区观看网站| 中文文精品字幕一区二区| 久久综合久久美利坚合众国| 屁屁影院ccyy备用地址 | 亚洲中文字幕av天堂自拍| 国产免费爽爽视频在线观看| 中文亚洲成a人片在线观看| 97视频在线播放| 亚洲熟伦在线视频| 扒开女性毛茸茸的视频| 亚洲中文字幕av天堂自拍| 怡红院a∨人人爰人人爽| 久久久精品3d动漫一区二区三区| 精品蜜桃av一区二区三区| 国产自拍精品在线免费观看| 观看在线人视频| 无码人妻精一区二区三区| 久久99精品免费一区二区| 老熟妇高潮av一区二区三区啪啪| 区一区二区三免费观看视频| 日本另类αv欧美另类aⅴ| 妓院一钑片免看黄大片| 精选麻豆国产AV| 大量漂亮人妻被中出中文字幕| 国产精品无码久久综合|