亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于投票人影響因子的投票預(yù)測模型

        2022-03-11 02:17:58張新昀張紹武張益嘉林鴻飛
        模式識別與人工智能 2022年2期
        關(guān)鍵詞:特征向量比率法案

        張新昀 張紹武 任 璐 楊 亮 徐 博 張益嘉 林鴻飛

        計算政治學(xué)[1]又稱計量政治學(xué),是分析相關(guān)數(shù)據(jù)描述和研究政治現(xiàn)象的學(xué)科.議會作為某些國家的政治關(guān)鍵組成部分和立法機(jī)構(gòu),是計算政治學(xué)研究人員密切關(guān)注的對象,而在議會中作為投票人的議員,更是計算政治學(xué)中投票預(yù)測的研究重點(diǎn).本文以人工智能相關(guān)理論方法為基礎(chǔ)進(jìn)行投票預(yù)測研究.

        根據(jù)相關(guān)國家議會議事規(guī)則,議案分為4類:決議案(Simple Resolution)、共同決議案(Concurrent Resolution)、聯(lián)合決議案(Joint Resolution)和法案(Bill).法案是最常見、使用最多的立法形式,占議案總數(shù)的85.2%以上.法案由一個或多個立法者提出,法案想法可以是原創(chuàng)的,也可來自選民、公職人員或利益集團(tuán).為了成為法律,該法案需要在被提出的議院經(jīng)過一個審查程序,其中最關(guān)鍵的環(huán)節(jié)就是由全體議員投票表決.如果法案獲得通過,會被送到另一個議院完成一個同樣的程序.經(jīng)兩院通過并統(tǒng)一文本后提交總統(tǒng)簽署成為國家法律,這樣的過程也被稱為立法過程.

        每個法案對應(yīng)一個或多個主題,擁有一份官方的標(biāo)題和描述.在提出法案的議員當(dāng)中,排名第一的議員稱為發(fā)起者(Sponsor),其余議員稱為共同發(fā)起者(Cosponsor).議員對于一個法案有三種投票選擇:贊成、棄權(quán)、反對.對于三種投票選擇的百分比在本文中稱為法案的投票比率.對于每位議員,相應(yīng)的信息主要包含姓名、國會唯一編號、地區(qū)、黨派等.后文中,議員被稱為投票人.

        投票預(yù)測中最受歡迎的技術(shù)之一是Poole等[2]提出的理想點(diǎn)模型(Ideal Point Model),這是一種基于統(tǒng)計學(xué)的投票預(yù)測模型,假設(shè)投票人的意識形態(tài)和法案反映的意識形態(tài)都是單一維度,計算空間距離,得到投票人對于法案的傾向性.Simon[3]使用貝葉斯統(tǒng)計方法實(shí)現(xiàn)對理想點(diǎn)模型的模擬和簡化.Clinton等[4]將理想點(diǎn)模型發(fā)展為投票人的多維意識形態(tài)立場估計.Gerrish等[5]在理想點(diǎn)模型中引入國會法案相關(guān)的文本信息,利用法案相關(guān)文本的主題推斷法案在意識形態(tài)空間中的位置,根據(jù)歷史投票記錄得到投票人在意識形態(tài)空間中的位置,并依照立法主題進(jìn)行調(diào)整,然后對比投票人與法案的空間距離,預(yù)測投票人支持法案的可能性,預(yù)測準(zhǔn)確率得到一定提升.Yano等[6]研究從第103屆到第111屆國會的法案,發(fā)現(xiàn)利用法案處理問題的緊迫性和重要性的特征,以及從共同發(fā)起人中提取的一組特征,有助于模型預(yù)測.Nay[7]研究大量國會法案文本,確定最適合投票預(yù)測的文本結(jié)構(gòu),最終發(fā)現(xiàn),模型中使用法案的全文可提高預(yù)測精度.Yang等[8]提出基于圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)[9]的對投票人和法案聯(lián)合表征學(xué)習(xí)的方法,利用GCN學(xué)習(xí)共同發(fā)起者之間的聯(lián)系,能得到更好的法案和投票人的特征表示,再通過對比投票人和法案的空間距離,確定投票人對法案的偏好,提高預(yù)測精度.

        盡管上述工作提升投票預(yù)測的精度,但都未考慮投票過程中投票人的相互影響,因此存在改進(jìn)的可能性.在現(xiàn)實(shí)的投票過程中,不僅少數(shù)的共同發(fā)起者之間有聯(lián)系,每位投票人之間都會因?yàn)辄h派不一、理念異同、關(guān)系遠(yuǎn)近、地位高低而產(chǎn)生或強(qiáng)或弱的投票選擇的影響.也就是說確定其中一位投票人的投票選擇,就可以高置信度地認(rèn)定另一位投票人的投票選擇.但是以往的模型都單方面注重投票人對于法案的傾向性,忽視投票過程中投票人之間的相互影響.

        GCN是一種直接運(yùn)行在圖數(shù)據(jù)結(jié)構(gòu)上的神經(jīng)網(wǎng)絡(luò),能從圖數(shù)據(jù)結(jié)構(gòu)中抽取局部特征或全局特征.近年來,學(xué)者們嘗試將GCN應(yīng)用在不同的自然語言任務(wù)當(dāng)中,并證實(shí)有效性.Bastings等[10]把GCN融入機(jī)器翻譯模型之中.Nguyen等[11]使用GCN完成事件檢測.Yao等[12]應(yīng)用GCN到文本分類.Zhang等[13]在事件抽取任務(wù)中使用GCN.在自然語言處理(Natural Language Processing, NLP)任務(wù)當(dāng)中,上述方法都恰當(dāng)?shù)貞?yīng)用GCN,取得當(dāng)時最佳的表現(xiàn).

        通過投票人影響因子,可得到近似真實(shí)博弈結(jié)果.為了模擬現(xiàn)實(shí)中投票人之間的聯(lián)系,本文提出基于投票人影響因子的投票預(yù)測模型.結(jié)合投票人影響因子圖與投票人的特征信息,輸入GCN,學(xué)習(xí)投票過程中投票人的相互影響及投票人的影響范圍和影響特征.此外,考慮到法案文本中上下文信息的關(guān)聯(lián)性,利用雙層長短期記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory, BiLSTM)替代單層長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)理解法案文本描述的語義信息,獲得法案特征向量.鑒于法案文本的規(guī)范性導(dǎo)致的術(shù)語頻繁、用詞重復(fù),使用引入TF-IDF(Term-Frequency-Inverse Document Frequency)因子的TextRank替代樸素TextRank,得到法案的關(guān)鍵詞.實(shí)驗(yàn)表明,本文模型的精確度和F1值都有所提升.

        1 基于投票人影響因子的投票預(yù)測模型

        1.1 模型基本結(jié)構(gòu)

        基于投票人影響因子的投票預(yù)測模型的基本結(jié)構(gòu)如圖1所示.將投票人的唯一編號、地區(qū)、黨派等基本信息作為輸入,得到投票人初始特征向量.使用歷史法案投票結(jié)果計算投票人之間的影響因子,并利用優(yōu)化器優(yōu)化影響因子,得到投票人影響因子圖.把投票人的特征向量和投票人影響因子圖共同輸入GCN中,獲得投票人的最終特征向量.利用BiLSTM得到法案的特征向量,計算各位投票人對法案的投票偏好并排序,得到投票人序列.

        圖1 本文模型基本結(jié)構(gòu)

        投票偏好是以投票人最終特征向量和法案特征向量之間的相似度衡量的.再利用投票比率的感知模型得到投票比率,綜合投票人序列和投票比率可得到最終投票結(jié)果.本文模型的基本結(jié)構(gòu)優(yōu)點(diǎn)在于能學(xué)到投票人之間的相互影響,較好地在向量空間中映射每位投票人的位置.投票比率感知模型的優(yōu)點(diǎn)在于能充分學(xué)到投票過程中的背景信息,得到投票比率.相比直接得到投票人投票選擇的模型結(jié)構(gòu),投票人序列和投票比率分別學(xué)習(xí)后再結(jié)合的模型結(jié)構(gòu)預(yù)測精度更高.

        1.2 投票人序列

        1.2.1 投票人初始特征向量矩陣

        本文每位投票人的信息由唯一編號、出身州和黨派類別組成.唯一編號由國會制定.

        將投票人i對應(yīng)的唯一編號、出身州和黨派類別分別輸入預(yù)訓(xùn)練模型msmarco-MiniLM-L-6-v3,嵌入得到特征向量VID(i)、VState(i)、VParty(i),依次拼接,得到投票人i的初始特征向量:

        Vlgt(i)=VID(i)+VState(i)+VParty(i).

        組合所有投票人的初始特征向量,得到投票人初始特征向量矩陣Vlgt.

        1.2.2投票人影響因子圖

        如果完全模擬投票過程中的真實(shí)博弈過程,除了需要考慮投票人的黨派、出身、經(jīng)歷、理念、地位等因素,還需要考慮該投票人與其他投票人的關(guān)系,該投票人與各個利益集團(tuán)之間的來往及該投票人對自身信念的堅定程度等因素.所以真實(shí)博弈過程的模型構(gòu)建過于困難,權(quán)重關(guān)系復(fù)雜,同時涉及許多難以獲得的非公開信息.上述分析說明在客觀上難以完全模擬投票過程中的真實(shí)博弈過程.

        針對上述問題,本文采用“唯結(jié)果論”的“逆推”方法,計算兩兩投票人的歷史投票行為的擬合程度,即投票人影響因子,模擬近期未來兩兩投票人之間的真實(shí)博弈過程的結(jié)果.

        本文具體統(tǒng)計分析2014~2018年度投票人投票選擇相似度分布,具體如表1所示.

        表1 2014~2018年投票人投票選擇相似度分布

        由表1可發(fā)現(xiàn),有40.37%的兩兩投票人的投票選擇相似度在80%以上,而僅有6.08%的兩兩投票人的投票相似度在40%以下.這是因?yàn)樽h會中有大量符合社會共識的法案,如教育、民生等領(lǐng)域的法案.對于這些法案,投票人會舍棄派別等方面的對立而共同致力于法案的通過,導(dǎo)致投票人之間的對立分歧不是非常明顯.此外通過實(shí)驗(yàn)發(fā)現(xiàn),因?yàn)閿?shù)量過少,加入負(fù)影響的投票人影響因子對本文實(shí)驗(yàn)結(jié)果幾乎無影響.所以本文僅考慮在模型中加入正影響的投票人影響因子.

        投票人影響因子矩陣S中的元素si,j表示投票人i與投票人j之間的影響因子:

        歷史投票選擇存在高擬合度的投票人在未來的投票中也會大概率擁有同樣的投票選擇,所以模型在預(yù)測投票結(jié)果時要充分注意到高擬合度投票人之間的聯(lián)系,忽視弱擬合度投票人生成的噪音信息.本文使用優(yōu)化器優(yōu)化投票人影響因子矩陣S,增強(qiáng)高擬合度投票人之間的聯(lián)系,削弱擬合度投票人之間的相互聯(lián)系,得到新的投票人影響因子矩陣S′.優(yōu)化器函數(shù)

        (1)

        通過此優(yōu)化器優(yōu)化后,投票人之間的聯(lián)系被賦予馬太效應(yīng),高相似度投票人之間的聯(lián)系變得更強(qiáng),低相似度投票人之間的聯(lián)系變得更弱.忽視歷史投票選擇擬合度小于等于60%的投票人之間的聯(lián)系,這些投票人的歷史行為不會對彼此的投票預(yù)測結(jié)果產(chǎn)生影響.

        投票人影響因子圖由構(gòu)建好的投票人影響因子鄰接矩陣S′表示.在投票人影響因子圖中,把代表某投票人的節(jié)點(diǎn)作為中心節(jié)點(diǎn),而該中心節(jié)點(diǎn)的一階鄰域的節(jié)點(diǎn)集合叫作某投票人在投票人影響因子圖中的周邊空間分布.在投票人影響因子圖中,除了最直接的投票人影響因子,投票人在投票人影響因子圖中的周邊空間分布也值得注意.原因是不同投票人的周邊空間分布表示不同投票人各自的影響范圍和影響特征,這也是模擬真實(shí)博弈過程的重要信息.所以如何讓模型精確學(xué)習(xí)到每位投票人的周邊空間分布狀態(tài)也是提升模型性能的關(guān)鍵.

        1.2.3法案特征向量

        法案的文本冗長,上下文聯(lián)系密切.普通循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)能容納的上下文信息有限,在處理較長序列時,容易出現(xiàn)梯度消失現(xiàn)象.所以本文引入BiLSTM,由兩層的前向LSTM和后向LSTM組合拼接而成,能更好地學(xué)習(xí)文本上下文語義信息,抽取文本的語義特征.

        使用BiLSTM獲得法案k的信息特征向量:

        Vlgn(k)=BiLSTM(lk(t)),

        其中,

        lk(t)=lk(title)+lk(des)

        表示法案k的文本信息,lk(title)表示法案k的標(biāo)題,lk(des)表示法案k的描述.

        1.2.4投票人最終特征向量矩陣

        基于譜域卷積實(shí)現(xiàn)GCN,由輸入信號x∈RN和過濾器gθ=diag(θ)共同定義如下:

        gθ*x=UgθUTx.

        其中:*為卷積運(yùn)算,U為標(biāo)準(zhǔn)化圖拉普拉斯矩陣L的特征矩陣,

        Λ為L的特征值對角矩陣,UTx為輸入x的圖傅里葉變換;gθ可理解為L的特征值函數(shù),即gθ(Λ).為了減小計算開銷,Hammond等[14]提出gθ(Λ)可通過切比雪夫多項式近似為Tk(x),得

        (2)

        其中,

        為拉普拉斯算子的一個K階多項式.本文將分層卷積限制為K=1,即關(guān)于L是線性的,因此在拉普拉斯譜上有線性函數(shù).進(jìn)一步近似λmax≈2,可將式(2)簡化為

        其中,θ′0、θ′1為自定義系數(shù),過濾器參數(shù)被整個圖共享.通過連續(xù)堆疊這種形式的過濾器,可有效卷積節(jié)點(diǎn)的K階鄰域,進(jìn)一步簡化為

        其中,

        W為可學(xué)習(xí)的參數(shù)矩陣.

        通過上述分析可發(fā)現(xiàn),GCN的實(shí)現(xiàn)是基于鄰域聚合.首先聚合某節(jié)點(diǎn)的一階鄰域特征,再合并鄰域聚合的特征與當(dāng)前節(jié)點(diǎn)特征,以更新當(dāng)前節(jié)點(diǎn)特征.所以結(jié)合投票人影響因子圖,GCN不僅可直接學(xué)習(xí)投票人對其他投票人的影響力大小,還能學(xué)到投票人周邊空間分布,即產(chǎn)生相互影響的投票人的數(shù)量.

        在本文模型中,使用雙層GCN結(jié)構(gòu),雙層GCN結(jié)構(gòu)之間使用SeLU激活函數(shù)連接.相比ReLU等激活函數(shù),SeLU激活函數(shù)的自歸一化能力在解決梯度消失和梯度爆炸問題的同時,可使網(wǎng)絡(luò)更快地收斂.

        把投票人的初始向量矩陣Vlgt和投票人影響因子圖S′作為輸入,得到投票人的最終特征向量矩陣:

        Zlgt=F(SeLU(F(Vlgt,S′)),S),

        1.2.5投票人排序

        投票人序列依照各位投票人對被預(yù)測法案的偏好程度的高低進(jìn)行排序.各位投票人對被預(yù)測法案的偏好程度由投票人的最終特征向量與法案特征向量的相似度決定,即

        根據(jù)數(shù)值大小從高到低排序的相似度序列為:

        list=sort(sim1,sim2,…,simn),

        simi的排名就是對應(yīng)投票人對法案偏好的排名,即投票人序列.

        1.3 投票結(jié)果的預(yù)測

        根據(jù)圖1可知,投票人序列和投票比率對于投票結(jié)果預(yù)測缺一不可.為了得到投票比率,本文應(yīng)用投票比率的感知模型,如圖2所示.

        圖2 投票比率的感知模型結(jié)構(gòu)框圖

        為了得到法案的相似度矩陣,需要得到每個法案文本的嵌入表示:

        其中:kw表示使用TextRank得到法案文本中的關(guān)鍵詞,每篇法律文本選擇前n個關(guān)鍵字;kwglove表示關(guān)鍵詞kw在預(yù)訓(xùn)練詞向量GloVe-6B-100d中的嵌入表示.考慮到法案文本中有很多專業(yè)辭令,雖然出現(xiàn)頻率較高,但不能較好地作為關(guān)鍵字使用,所以本文模型引入TF-IDF因子,kwTF-IDF表示關(guān)鍵詞的TF-IDF值.

        法案相似度圖M中的結(jié)點(diǎn)mk,j表示法案k與法案j的相似度值:

        mk,j=cos(ed(k),ed(j)).

        使用BiLSTM獲得所有法案的信息特征向量,組成法案特征向量矩陣Vlgn.將法案相似度圖M與法案特征向量矩陣Vlgn一起輸入GCN中,法案的最終特征向量矩陣為:

        Zlgn=F(SeLU(F(Vlgn,M)),M),

        R=MLP(Zlgn+Vlgn),

        其中,Rk為投票比率矩陣R中的第k行,表示第k個法案的投票比率,即該法案中贊成、棄權(quán)及反對這三種投票選擇的比例.結(jié)合投票比率和投票人序列,得到最終的投票結(jié)果.

        2 實(shí)驗(yàn)及結(jié)果分析

        2.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)數(shù)據(jù)來自于Yang等[8]在2020年公開的國外議會網(wǎng)站數(shù)據(jù)集,包含1993年至2018年的立法信息和投票結(jié)果,共有215 857項立法,2 234 082項投票記錄,2 347位投票人.

        考慮到實(shí)驗(yàn)數(shù)據(jù)的時間跨度較大,本文依次抽取1993年至2018年內(nèi)連續(xù)五年的數(shù)據(jù),構(gòu)建22個單獨(dú)的數(shù)據(jù)塊.第1個數(shù)據(jù)塊包含1993年至1997年的數(shù)據(jù),第2個數(shù)據(jù)塊包含1994年至1998年的數(shù)據(jù).依此類推,一共有22個數(shù)據(jù)塊.在每個數(shù)據(jù)塊中,隨機(jī)抽取前四年的數(shù)據(jù)作為訓(xùn)練集和驗(yàn)證集,比例為4∶1,使用最后一年的數(shù)據(jù)作為測試集.

        本文選擇準(zhǔn)確率(Accuracy)和F1值作為主要評價指標(biāo),具體公式如下:

        其中:TP表示實(shí)際為正樣本且被判定為正樣本的數(shù)量;TN表示實(shí)際為負(fù)樣本且被判定為負(fù)樣本的數(shù)量;FP表示實(shí)際為負(fù)樣本但被判定為正樣本的數(shù)量;FN表示實(shí)際為正樣本但被判定為負(fù)樣本的數(shù)量.文中準(zhǔn)確率取在22個數(shù)據(jù)塊上的平均結(jié)果.

        本文模型中GCN深度為兩層,隱藏層維度為32.BiLSTM深度為雙層,輸出維度為32.投票人特征向量的維度是32(ID維度16,黨派維度8,地區(qū)維度8).模型的學(xué)習(xí)率設(shè)置為0.000 1,采用自適應(yīng)矩估計(Adaptive Moment Estimation, Adam)優(yōu)化器.為了防止過擬合,采用提前終止策略.損失函數(shù)為三元組損失函數(shù)(Triplet Loss).

        2.2 實(shí)驗(yàn)結(jié)果對比

        本文選擇如下基準(zhǔn)模型進(jìn)行對比實(shí)驗(yàn).

        1)文獻(xiàn)[4]模型(A Statistical Model for Roll Call Analysis).利用理想點(diǎn)模型計算投票人和法案的空間位置,投票人和法案的空間距離用于表征投票行為.

        2)文獻(xiàn)[5]模型(Text and Ideal Point Models).利用立法文本信息擴(kuò)展理想點(diǎn)模型,使用文本回歸嵌入立法立場.

        3)Bert.使用Bert[15]的CLS位作為法案的特征向量,對比法案之間的相似度,進(jìn)行遷移學(xué)習(xí).

        4)LSTM+MLP(Multi-layer Perception).使用LSTM獲得投票人和法案的特征向量.結(jié)合兩種特征向量,使用雙層感知機(jī)模型預(yù)測投票結(jié)果.

        5)LSTM+DeepWalk[8].使用DeepWalk[16],基于共同發(fā)起者之間的關(guān)系建模,獲得投票人的特征向量,LSTM獲得法案的特征向量.結(jié)合兩種特征向量,使用雙層感知機(jī)模型預(yù)測投票結(jié)果.

        6)LSTM+GCN[8].使用GCN,基于共同發(fā)起者之間的關(guān)系建模,獲得投票人的特征向量,LSTM獲得法案的特征向量.結(jié)合兩種特征向量,使用雙層感知機(jī)模型,預(yù)測投票結(jié)果.

        7)文獻(xiàn)[8]模型(Joint Representation Learning of Legislation and Legislators).基于GCN,對共同發(fā)起者之間的關(guān)系建模,獲得投票人的特征向量.利用LSTM獲得法案的特征向量.結(jié)合兩種特征向量,獲得投票人序列.使用基于TextRank的投票比率感知模型獲得投票比率,結(jié)合投票人序列和投票比率,預(yù)測投票結(jié)果.

        各模型的指標(biāo)值結(jié)果如表2所示.由表可發(fā)現(xiàn),文獻(xiàn)[4]模型表現(xiàn)最差,表明忽略法案文本信息的理想點(diǎn)模型的預(yù)測能力有限.加入文本信息后,相比文獻(xiàn)[4]模型,文獻(xiàn)[5]模型可大幅提高預(yù)測能力.

        表2 各模型的指標(biāo)值對比

        Bert的表現(xiàn)只強(qiáng)于文獻(xiàn)[4]模型,這可能是Bert在預(yù)訓(xùn)練時未學(xué)習(xí)到足夠的法案相關(guān)的語料,注意力機(jī)制缺乏對法案關(guān)鍵信息的敏感性,不能較好地捕捉立法過程中的特征.

        對比LSTM+MLP、LSTM+DeepWalk、LSTM+GCN和文獻(xiàn)[8]模型可發(fā)現(xiàn),基于共同發(fā)起者之間的關(guān)系使用GCN建模是有效的.雖然DeepWalk和GCN都把共同發(fā)起者視為節(jié)點(diǎn),但是相比Deep-Walk,GCN表現(xiàn)更優(yōu),這是因?yàn)镚CN不僅學(xué)習(xí)每個節(jié)點(diǎn)及其鄰域的結(jié)構(gòu)關(guān)系,同時可將每個節(jié)點(diǎn)自身的特征融入其中進(jìn)行更全面的學(xué)習(xí).

        相比LSTM+GCN,文獻(xiàn)[8]模型加入投票比率感知模型,由于能更準(zhǔn)確地劃分不同的投票群體及比例,進(jìn)一步提高模型準(zhǔn)確率.

        相比文獻(xiàn)[8]模型,本文模型引入投票人影響因子,通過GCN學(xué)習(xí)投票人之間的相互影響及投票人影響范圍和影響特征,在某種程度上實(shí)現(xiàn)投票的動態(tài)過程.同時由于改進(jìn)為BiLSTM和融入TF-IDF因子的TextRank,本文模型能容納立法過程中更多的背景信息,更好地捕捉投票人和法案的特征,取得更佳結(jié)果.

        2.3 改進(jìn)驗(yàn)證實(shí)驗(yàn)

        為了驗(yàn)證本文模型中多項改進(jìn)的有效性,進(jìn)行驗(yàn)證實(shí)驗(yàn),選用如下模型.

        1)文獻(xiàn)[8]模型-BiLSTM.使用雙層BiLSTM替代文獻(xiàn)[8]模型中單層LSTM.

        2)文獻(xiàn)[8]模型-factor.在文獻(xiàn)[8]模型中引入投票人之間的影響因子.

        3)文獻(xiàn)[8]模型-TR-with-TI.在文獻(xiàn)[8]模型中使用融入TF-IDF因子的TextRank.

        各模型的驗(yàn)證結(jié)果如表3所示.由表可發(fā)現(xiàn),相比文獻(xiàn)[8]模型,文獻(xiàn)[8]模型-BiLSTM提升0.32%的準(zhǔn)確率,0.006 8的F1值,這是由于BiLSTM能學(xué)習(xí)更多的立法文本上下文關(guān)聯(lián)的語義信息,更好地抽取立法文本的語義特征.在基準(zhǔn)模型中融入投票人之間的影響因子之后,文獻(xiàn)[8]模型-factor在預(yù)測過程中開始捕捉投票人之間的相互影響及投票人影響范圍和影響特征,注意到某些投票人大概率具有相似的投票選擇,因此準(zhǔn)確率提升1.94%,F(xiàn)1值提升0.011 3,是提升最大的一項改進(jìn).將基準(zhǔn)模型使用的TextRank改為融入TF-IDF因子的TextRank之后,文獻(xiàn)[8]模型-TR-with-TI的準(zhǔn)確率提升0.40%,F(xiàn)1值提升0.007 2,效果的提升是因?yàn)橥镀北嚷矢兄P透玫貙Ρ确ò钢g的相似度,使下游的GCN和MLP得到高質(zhì)量的輸入,輸出更準(zhǔn)確的投票比率.

        表3 各模型的驗(yàn)證實(shí)驗(yàn)結(jié)果

        2.4 超參數(shù)和預(yù)訓(xùn)練詞向量驗(yàn)證實(shí)驗(yàn)

        優(yōu)化器函數(shù)(式(1))中的n,k為超參數(shù),對預(yù)測準(zhǔn)確度的影響如表4所示.

        表4 超參數(shù)n,k對預(yù)測準(zhǔn)確度的影響

        由表4可知,n=60,k=3時效果較優(yōu),這也符合表1中投票人投票選擇相似度分布.

        在近期的應(yīng)用中,預(yù)訓(xùn)練詞向量表現(xiàn)出良好的通用性,在很多任務(wù)中取得較好效果.常見的預(yù)訓(xùn)練詞向量有GloVe(GlobalVectorsforWordRepresen-tation)[17]和FastText[18].進(jìn)行英文詞向量預(yù)訓(xùn)練的語料庫一般采用CommonCrawl、Twitter、Wikipedia.預(yù)訓(xùn)練詞向量的維度分為50維、100維、300維等.不同類型的預(yù)訓(xùn)練詞向量和維度可根據(jù)任務(wù)特點(diǎn)進(jìn)行靈活選擇.

        在本文模型中,投票比率感知模型使用基于Wikipedia語料庫的GloVe預(yù)訓(xùn)練詞向量.相比CommonCrawl和Twitter語料庫,Wikipedia語料庫的行文更正式,內(nèi)容更專業(yè),與法案文本內(nèi)容較契合.為了確定GloVe預(yù)訓(xùn)練詞向量維度對預(yù)測準(zhǔn)確率的影響,選擇3種GloVe預(yù)訓(xùn)練詞向量:GloVe-6B-50d、GloVe-6B-100d、GloVe-6B-300d.它們都是在60億詞元上訓(xùn)練的,維度分別為50維、100維和300維.在本文模型上進(jìn)行對比實(shí)驗(yàn),結(jié)果如表5所示.

        表5 預(yù)訓(xùn)練詞向量維度對指標(biāo)值的影響

        由表5可看出,GloVe預(yù)訓(xùn)練詞向量維度對預(yù)測準(zhǔn)確率有一定的影響.從50維增加到100維時,模型準(zhǔn)確率提升0.27%,F(xiàn)1值提升0.002 6.從100維增加到300維時,模型的準(zhǔn)確率下降0.20%,F(xiàn)1值下降0.002 3.預(yù)訓(xùn)練詞向量維度在100維時取得最高準(zhǔn)確率.因此本文模型最終應(yīng)用基于Wikipedia語料庫的GloVe-6B-100d預(yù)訓(xùn)練詞向量.

        2.5 正確案例與錯誤案例分析

        為了更好地理解本文模型的工作方式,進(jìn)行正確案例與錯誤案例分析.以2018年的數(shù)據(jù)為例,深入探究后發(fā)現(xiàn)意識形態(tài)排名、黨內(nèi)偏離度排名和相互影響投票人數(shù)對投票人投票預(yù)測的準(zhǔn)確率產(chǎn)生明顯影響,具體結(jié)果如表6所示.

        表6中一共列舉10位投票人,前5位投票人是投票預(yù)測準(zhǔn)確率最高的5位投票人,后5位投票人是投票預(yù)測準(zhǔn)確率最低的5位投票人.意識形態(tài)排名數(shù)據(jù)來自于GovTrack,一共435位投票人,排名越高意識形態(tài)越保守,排名越低意識形態(tài)越自由.將投票人在投票中沒有跟隨黨內(nèi)多數(shù)人投票的行為稱作偏離行為,黨內(nèi)偏離度排名越高,偏離行為越嚴(yán)重.相互影響投票人數(shù)是指與該投票人產(chǎn)生相互影響的投票人數(shù)量.

        表6 正確案例與錯誤案例分析結(jié)果

        通過觀察發(fā)現(xiàn),在意識形態(tài)方面,前5位投票人的意識形態(tài)都較保守,相比之下,后5位投票人的意識形態(tài)較中立.在黨內(nèi)偏離度方面,前5位投票人的黨內(nèi)偏離程度較低,而后5位投票人的偏離程度較高.在相互影響投票人數(shù)方面,前5位投票人與大量的投票人產(chǎn)生相互影響,相比之下,后5位投票人幾乎不與其他投票人產(chǎn)生相互影響.

        據(jù)此可得到結(jié)論:投票人的意識形態(tài)越鮮明,黨內(nèi)偏離程度越低,相互影響投票人數(shù)越高,模型的投票預(yù)測準(zhǔn)確率越高;否則越低.而且相互影響投票人數(shù)因素的作用最清晰.

        3 結(jié) 束 語

        投票預(yù)測就是盡可能地模擬真實(shí)的投票過程,而投票人之間的相互影響不可或缺.因此本文提出投票人影響因子,并在相應(yīng)數(shù)據(jù)集上進(jìn)行研究.加入投票人影響因子圖到GCN中,使本文模型模擬真實(shí)投票過程中投票人之間相互影響的博弈過程.同時,考慮到法案文本語義的嚴(yán)謹(jǐn)性和用詞的規(guī)范性,使用BiLSTM和引入TF-IDF因子的TextRank,得以充分理解法案文本語義信息,并挖掘法案的細(xì)粒度文本特征,使投票過程的模擬更貼近現(xiàn)實(shí).實(shí)驗(yàn)表明,本文模型能取得較好結(jié)果.今后將考慮建立并引入投票人辯論文本集或外部知識庫等,進(jìn)一步提升模型性能.

        猜你喜歡
        特征向量比率法案
        二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
        克羅內(nèi)克積的特征向量
        一類具有時滯及反饋控制的非自治非線性比率依賴食物鏈模型
        Industrial Revolution
        美國禁止詢問犯罪記錄法案的立法與實(shí)踐
        反歧視評論(2019年0期)2019-12-09 08:52:18
        一類特殊矩陣特征向量的求法
        EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
        美參議院未能通過控槍法案
        人民周刊(2016年13期)2016-07-25 15:16:19
        一種適用于微弱信號的新穎雙峰值比率捕獲策略
        日本強(qiáng)推新安保法案說明了什么
        亚洲一区二区三区精品久久av| 国产毛片一区二区三区| 一区二区在线视频大片| 蜜桃av一区二区三区久久| 人妻人妇av一区二区三区四区| 久久精品国产亚洲av麻豆四虎| 国产喷白浆精品一区二区豆腐| 亚洲高清一区二区精品| 亚洲精品第一页在线观看| 久久久国产精品va麻豆| 免费观看又色又爽又湿的视频| 天美传媒精品1区2区3区| 美日韩毛片| 狠狠色欧美亚洲综合色黑a| 亚洲av午夜福利一区二区国产| 国产精品一区二区三区播放 | 中国农村熟妇性视频| 国产98在线 | 免费| 精品一区二区三区久久久| 啪啪视频免费看一区二区| 不卡av网站一区二区三区| 免费国产a国产片高清网站| 亚洲色欲久久久综合网| 波霸影院一区二区| 中文字幕av人妻一区二区| 亚洲国产区中文在线观看 | 黄页免费人成网址大全| 亚洲国产av一区二区三区精品| 亚州性无码不卡免费视频| 一区二区三区国产亚洲网站| 欧美三级免费网站| 国产精品天干天干在线观蜜臀| 在线观看av不卡 一区二区三区| 开心五月婷婷激情综合网| 樱桃视频影院在线播放| 国产精品免费久久久久影院仙踪林 | 一区二区亚洲精美视频| 日韩美女亚洲性一区二区| 国产精品538一区二区在线| 亚洲第一成人网站| 香蕉久久夜色精品国产|