亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于社會(huì)新聞數(shù)據(jù)集的倫理行為判別方法

        2021-02-07 02:51:28古天龍包旭光李云輝
        關(guān)鍵詞:語(yǔ)義文本實(shí)驗(yàn)

        古天龍 馮 旋 李 龍,2 包旭光 李云輝

        1(廣西可信軟件重點(diǎn)實(shí)驗(yàn)室(桂林電子科技大學(xué)) 廣西桂林 541004)2(暨南大學(xué)信息科學(xué)技術(shù)學(xué)院/網(wǎng)絡(luò)空間安全學(xué)院 廣州 510632)(gu@guet.edu.cn)

        隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展和物聯(lián)網(wǎng)的不斷更新,人工智能(AI)已經(jīng)廣泛應(yīng)用到無(wú)人駕駛、智能家居、醫(yī)療護(hù)理等諸多領(lǐng)域,為生活帶來(lái)巨大便利.但與此同時(shí),人機(jī)交互方式的簡(jiǎn)化使得人們對(duì)技術(shù)的依賴程度越來(lái)越深,對(duì)其控制卻逐漸減弱,技術(shù)的不完善和數(shù)據(jù)的不恰當(dāng)使用引發(fā)的倫理問(wèn)題不斷出現(xiàn)[1-2].為了使技術(shù)更好地為人類服務(wù),AI系統(tǒng)需要具備倫理行為判別能力,理解特定社會(huì)的倫理道德規(guī)范,理解行為背后的社會(huì)、文化和倫理含義,才能在現(xiàn)實(shí)世界中進(jìn)行大規(guī)模部署[3].

        AI系統(tǒng)的開(kāi)發(fā)應(yīng)當(dāng)始終秉承以人為中心、造福全人類的發(fā)展理念,為其添加倫理行為判別能力成為日益緊迫的問(wèn)題[4-6].通過(guò)嵌入倫理道德規(guī)范能夠使AI系統(tǒng)具備倫理行為的判別及執(zhí)行能力,從而遵守法律和社會(huì)行為規(guī)范,是AI具備道德能力的體現(xiàn).但由于倫理概念的復(fù)雜性及當(dāng)前技術(shù)發(fā)展的局限性,倫理行為判別方面的技術(shù)研究面臨著諸多障礙.

        早期針對(duì)倫理行為判別能力的研究工作主要包括基于規(guī)則的方法[7]和基于案例的方法[8],而這些方法普遍存在知識(shí)信息難以規(guī)則化、不具備自動(dòng)獲取特征表示的能力,導(dǎo)致模型的泛化能力并不理想.近年來(lái),基于強(qiáng)化學(xué)習(xí)的方法[9]從試錯(cuò)或觀察中學(xué)習(xí)人類的行為偏好,取得了很好的效果.雖然基于強(qiáng)化學(xué)習(xí)的方法行之有效,但是仍然具有以下不足之處:1)對(duì)環(huán)境變化的適應(yīng)能力弱,只能適應(yīng)特定領(lǐng)域而難以學(xué)習(xí)演示示例之外的知識(shí);2)學(xué)習(xí)效率低下,示教者難以提供高質(zhì)量的演示,而且提供演示需要耗費(fèi)大量時(shí)間;3)模型訓(xùn)練嚴(yán)重依賴數(shù)據(jù),往往需要海量的高質(zhì)量數(shù)據(jù),而且有反饋信號(hào)稀疏等問(wèn)題,難以從原始數(shù)據(jù)中提取有用特征.

        近期的研究表明,基于大規(guī)模無(wú)監(jiān)督語(yǔ)料的預(yù)訓(xùn)練語(yǔ)言模型編碼了行為規(guī)范等常識(shí)知識(shí),包含豐富的語(yǔ)義信息,同時(shí)在高質(zhì)量標(biāo)注數(shù)據(jù)集上進(jìn)行微調(diào)(fine-tuning)可以給目標(biāo)任務(wù)帶來(lái)巨大的效果提升[10-14].其具體優(yōu)勢(shì)有:1)近乎無(wú)限量的優(yōu)質(zhì)數(shù)據(jù);2)一次學(xué)習(xí)多次復(fù)用;3)學(xué)習(xí)到的語(yǔ)義表征可在多個(gè)任務(wù)中進(jìn)行快速遷移.

        鑒于最近預(yù)訓(xùn)練語(yǔ)言模型的強(qiáng)大語(yǔ)義表示能力,針對(duì)缺乏高質(zhì)量標(biāo)注數(shù)據(jù)集的倫理行為判別任務(wù),本文基于豐富的新聞?wù)Z料構(gòu)建了涵蓋倫理道德和人類行為的社會(huì)新聞數(shù)據(jù)集,同時(shí)基于使用信息實(shí)體的增強(qiáng)語(yǔ)言表示(enhanced language repre-sentation with informative entities, ERNIE)[14-16]和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[17]提出了倫理行為判別模型ERNIE-CNN.通過(guò)倫理行為判別實(shí)驗(yàn)和零樣本遷移實(shí)驗(yàn),證明了本文所提方法和模型的有效性,同時(shí)為AI倫理的未來(lái)研究提供必要的支持.

        本文的主要貢獻(xiàn)有3個(gè)方面:

        1) 基于豐富的新聞?wù)Z料構(gòu)建了社會(huì)新聞數(shù)據(jù)集,為了驗(yàn)證倫理判別方法的有效性,同時(shí)構(gòu)建了法律與行為規(guī)范數(shù)據(jù)集.

        2) 基于使用信息實(shí)體的增強(qiáng)語(yǔ)言表示(ERNIE)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)提出ERNIE-CNN模型.

        3) 通過(guò)零樣本遷移實(shí)驗(yàn)驗(yàn)證了協(xié)變量偏移下的領(lǐng)域適應(yīng)能力,驗(yàn)證倫理行為判別方法的有效性.

        1 相關(guān)工作

        為AI系統(tǒng)增添倫理行為判別能力,有助于避免倫理問(wèn)題,提高人類對(duì)技術(shù)的接受程度,從而促進(jìn)AI技術(shù)的研究與推廣.早期的相關(guān)研究工作大多選擇將明確的倫理原則或規(guī)范嵌入AI系統(tǒng),主要包括基于規(guī)則的方法和基于案例的方法.

        基于規(guī)則的方法是根據(jù)倫理原則或規(guī)范為AI系統(tǒng)嵌入倫理行為判別的能力,實(shí)現(xiàn)了不同的倫理原則.Anderson等人[18]基于羅爾斯義務(wù)論開(kāi)發(fā)了倫理顧問(wèn)系統(tǒng)W.D.,該系統(tǒng)從案例數(shù)據(jù)中學(xué)習(xí)各項(xiàng)行為原則的權(quán)重,計(jì)算并選擇具有最高效用值的行為.Anderson等人[19]基于生物醫(yī)學(xué)理論設(shè)計(jì)了倫理顧問(wèn)系統(tǒng)MedEthEx,使用歸納邏輯程序設(shè)計(jì)技術(shù)提取倫理信息,輔助醫(yī)護(hù)人員確定倫理行為選擇,用于解決醫(yī)療護(hù)理中涉及人機(jī)交互的倫理問(wèn)題.Arkin[20]將戰(zhàn)爭(zhēng)法和交戰(zhàn)規(guī)則嵌入自主武器系統(tǒng),用于約束系統(tǒng)的致命行為,判斷其行為是否符合倫理道德.盡管上述研究工作實(shí)現(xiàn)了對(duì)單一倫理原則或規(guī)范的嵌入,但并未考慮不同規(guī)范間存在的規(guī)范沖突風(fēng)險(xiǎn).總體而言,基于規(guī)則的方法具有較強(qiáng)的可解釋性,能使人們更直觀地了解模型的判別過(guò)程,而無(wú)法推理未編碼到知識(shí)庫(kù)中的條件和規(guī)則,難以避免規(guī)范沖突問(wèn)題,因此其性能表現(xiàn)較為受限.

        基于案例的方法是通過(guò)重用以往經(jīng)驗(yàn)進(jìn)行規(guī)范嵌入,通過(guò)類比以往的案例自動(dòng)提取規(guī)范并求解問(wèn)題的方法.Ashley和McLaren[21-22]使用基于案例的方法設(shè)計(jì)了SIROCCO程序,探索和分析案件遵循的倫理原則和具體事實(shí)之間的關(guān)系.Dehghani等人[23]提出了計(jì)算模型MoralDM.當(dāng)面對(duì)新的倫理決策場(chǎng)景時(shí),MoralDM中的類比推理模塊將新場(chǎng)景與數(shù)據(jù)庫(kù)中先前已解決的多個(gè)場(chǎng)景進(jìn)行比較,計(jì)算新案例和已解決方案之間的相似度并以此為基礎(chǔ)進(jìn)行類比推理.但隨著案例數(shù)量的增加,MoralDM窮舉比較方法的計(jì)算復(fù)雜度將相應(yīng)增加,導(dǎo)致實(shí)用性變差.Blass等人[24]利用結(jié)構(gòu)映射擴(kuò)展了MoralDM模型,通過(guò)計(jì)算案例及候選規(guī)范之間的相似度縮小搜索空間,提高基于案例方法的效率.總體而言,基于案例的方法具有信息表達(dá)完整、求解方法簡(jiǎn)單等優(yōu)點(diǎn),已經(jīng)在倫理行為判別研究中成功運(yùn)用,但是其缺點(diǎn)也較為突出,即有限的規(guī)范無(wú)法適應(yīng)不斷變化的道德場(chǎng)景,而且必須解決案例的相似度度量、訓(xùn)練案例的選取等問(wèn)題.

        近年來(lái),基于強(qiáng)化學(xué)習(xí)的方法通過(guò)人類專家示教、獎(jiǎng)勵(lì)的形式學(xué)習(xí)人類的行為偏好,同樣能夠?yàn)锳I系統(tǒng)嵌入倫理行為判別能力.強(qiáng)化學(xué)習(xí)通常使用動(dòng)態(tài)規(guī)劃技術(shù)來(lái)解決問(wèn)題,以試錯(cuò)的方式自主學(xué)習(xí)或從示教者提供的示例中學(xué)習(xí),以達(dá)到獎(jiǎng)勵(lì)函數(shù)最大化并最終實(shí)現(xiàn)特定目標(biāo).Abel等人[25]將強(qiáng)化學(xué)習(xí)形式化為部分可觀察馬爾可夫決策過(guò)程(POMDP),并針對(duì)2個(gè)倫理困境(蛋糕或死亡、火災(zāi)救援實(shí)驗(yàn))驗(yàn)證了該方法的靈活性和穩(wěn)定性.然而在有限步(Finite Horizon)內(nèi),POMDP問(wèn)題難以求解.Wu等人[26]基于反向強(qiáng)化學(xué)習(xí),利用專家行為數(shù)據(jù),通過(guò)最大化獎(jiǎng)勵(lì)函數(shù)來(lái)平衡道德行為和效用值的追求.但由于每個(gè)人的偏好不同,專家的行為數(shù)據(jù)也可能存在分歧.Riedl等人[27]認(rèn)為一個(gè)可以閱讀和理解故事的模型能夠從故事所直接體現(xiàn)出的或隱含的社會(huì)文化知識(shí)中學(xué)習(xí)其所蘊(yùn)含的社會(huì)行為規(guī)范,因此基于強(qiáng)化學(xué)習(xí)提出了從眾包故事中學(xué)習(xí)人類行為偏好的方法.此方法的局限性在于眾包故事的獲取途徑單一,只適用于特定任務(wù).總體而言,基于強(qiáng)化學(xué)習(xí)的方法能夠通過(guò)與環(huán)境交互、學(xué)習(xí)獲得人類行為偏好,具備解決復(fù)雜問(wèn)題的能力,但此類方法在很大程度上依賴于輸入信號(hào)的質(zhì)量,制約了該方法的性能表現(xiàn)及實(shí)際應(yīng)用.

        近期的研究表明,使用大規(guī)模無(wú)監(jiān)督文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的語(yǔ)言模型編碼了文本中行為規(guī)范等常識(shí)概念[28-29].Ziegler等人[30]使用預(yù)訓(xùn)練語(yǔ)言模型GPT-2成功學(xué)習(xí)到人類生成句子的偏好,驗(yàn)證了語(yǔ)言模型可以從文本數(shù)據(jù)中學(xué)到人類行為偏好.Frazier等人[31]使用長(zhǎng)期連載的兒童漫畫(huà)構(gòu)建數(shù)據(jù)集,通過(guò)訓(xùn)練語(yǔ)言模型識(shí)別文本內(nèi)容是否符合社會(huì)規(guī)范.盡管上述工作驗(yàn)證了語(yǔ)言模型蘊(yùn)含知識(shí)信息,但過(guò)分強(qiáng)調(diào)精心策劃的場(chǎng)景,難以應(yīng)對(duì)現(xiàn)實(shí)場(chǎng)景帶來(lái)的挑戰(zhàn).

        綜合上述研究,本文旨在為倫理行為判別研究提供新的方法以及在語(yǔ)言模型上進(jìn)行改進(jìn).鑒于社會(huì)新聞充分涵蓋倫理道德且易于獲取,構(gòu)建了社會(huì)新聞數(shù)據(jù)集用于倫理行為判別研究.提出了倫理行為判別模型ERNIE-CNN,從大量的社會(huì)新聞數(shù)據(jù)中學(xué)習(xí)行為偏好,通過(guò)詞向量表示計(jì)算語(yǔ)義相似度來(lái)提取關(guān)于行為的倫理判斷,解決了場(chǎng)景限制問(wèn)題.經(jīng)過(guò)訓(xùn)練的模型編碼了知識(shí)信息,可以理解行為背后的社會(huì)、文化和倫理含義.

        2 數(shù)據(jù)集構(gòu)建

        為了推動(dòng)因缺乏高質(zhì)量標(biāo)注數(shù)據(jù)而受阻的倫理行為判別研究,本文選擇充分涵蓋倫理道德和人類行為的社會(huì)新聞標(biāo)題為數(shù)據(jù)源,構(gòu)建了社會(huì)新聞數(shù)據(jù)集(ETH-News),并將新聞文本中包含的行為分類為道德行為、不文明行為、違規(guī)行為和違法行為,用于倫理行為判別模型的訓(xùn)練.同時(shí)構(gòu)建了法律與行為規(guī)范數(shù)據(jù)集(ETH-Norms),用于驗(yàn)證倫理行為判別方法的有效性.以上數(shù)據(jù)集的構(gòu)建均包括數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注和數(shù)據(jù)集分析3個(gè)階段.

        2.1 數(shù)據(jù)采集

        2.1.1 社會(huì)新聞數(shù)據(jù)集(ETH-News)

        本文選擇社會(huì)新聞標(biāo)題作為倫理行為的主要數(shù)據(jù)源,原因主要有3點(diǎn):1)社會(huì)新聞充分涵蓋倫理道德和人類行為,同時(shí)具有易于獲取的優(yōu)點(diǎn).2)社會(huì)新聞以較簡(jiǎn)明扼要的文字,向公眾傳達(dá)重要信息,每條新聞還有一個(gè)非常詳實(shí)且簡(jiǎn)短的新聞?wù)?與新聞全文相比,新聞?wù)獌?nèi)容豐富、簡(jiǎn)明扼要.3)社會(huì)新聞是涉及人民群眾日常生活的社會(huì)事件、社會(huì)問(wèn)題、社會(huì)風(fēng)貌的報(bào)道,具有公開(kāi)性、真實(shí)性、時(shí)效性、準(zhǔn)確性和廣泛性等特點(diǎn).

        本文針對(duì)中文語(yǔ)境中的倫理行為判別任務(wù)進(jìn)行建模,采集的新聞文本主要爬取于新浪微博(1)https://weibo.com/,并使用THUCTC工具包(2)http://thuctc.thunlp.org/篩選出社會(huì)新聞.THUCTC是由清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室推出的中文文本分類工具包,能夠自動(dòng)高效地實(shí)現(xiàn)用戶自定義的文本分類任務(wù).由于負(fù)面新聞比正面新聞更容易吸引大眾的注意力,因此媒體登載了較多的負(fù)面新聞,導(dǎo)致自動(dòng)采集的新聞文本存在樣本不平衡問(wèn)題.為了解決這一問(wèn)題,本文進(jìn)一步從中國(guó)文明網(wǎng)(3)http://www.wenming.cn/的好人好事專欄爬取了全部的新聞標(biāo)題,以此擴(kuò)充正面新聞,因?yàn)楹萌撕檬率堑赖滦袨槔硐氲臄?shù)據(jù)來(lái)源.

        本文期望通過(guò)具體的行為訓(xùn)練模型倫理行為判別的能力,因此對(duì)上述新聞進(jìn)行了篩選,只保留了至少包含一個(gè)具體行為的文本,同時(shí)刪除:1)不包含具體行為的文本;2)字段長(zhǎng)度超過(guò)52個(gè)字符的文本;3)格式錯(cuò)誤的文本.經(jīng)過(guò)數(shù)據(jù)清理,使用剩余的12 183條新聞文本構(gòu)建了所需社會(huì)新聞數(shù)據(jù)集.表1為社會(huì)新聞數(shù)據(jù)集的示例展示:

        Table 1 Samples From ETH-News Dataset表1 社會(huì)新聞數(shù)據(jù)集示例

        2.1.2 法律與行為規(guī)范數(shù)據(jù)集(ETH-Norms)

        為了驗(yàn)證基于社會(huì)新聞數(shù)據(jù)集訓(xùn)練的模型具備倫理行為判別能力,本文同時(shí)構(gòu)建了法律與行為規(guī)范數(shù)據(jù)集來(lái)驗(yàn)證模型識(shí)別法律與行為規(guī)范的能力.本文選擇將《中華人民共和國(guó)刑法》與各省市《文明行為條例》納入數(shù)據(jù)集,將各項(xiàng)條款拆分為簡(jiǎn)單句,文本長(zhǎng)度同樣控制在52字以內(nèi).表2為法律與行為規(guī)范數(shù)據(jù)集中擁有不同標(biāo)簽的示例展示.

        Table 2 Samples From ETH-Norms Dataset表2 法律與行為規(guī)范數(shù)據(jù)集示例

        2.2 數(shù)據(jù)標(biāo)注

        數(shù)據(jù)集的標(biāo)注工作由實(shí)驗(yàn)室九名碩士研究生共同完成,男女比例為5∶4.九名碩士研究生平均分為3組,每組3人,每條新聞文本由組內(nèi)2人進(jìn)行標(biāo)注,另一人為仲裁.當(dāng)2人標(biāo)注結(jié)果相同時(shí)則完成標(biāo)注(占總數(shù)的93%),如有分歧,由仲裁者進(jìn)行仲裁(占總數(shù)的6.9%).在3人都難以標(biāo)注的情況下丟棄樣本(占總數(shù)的0.1%),以此在最大程度上保證標(biāo)注的一致性和準(zhǔn)確性.

        功利主義是一種主張最大化所有人的總體幸福感的理論[4].為了衡量新聞中包含的行為是否合乎倫理道德,本文選擇功利主義為道德評(píng)判標(biāo)準(zhǔn),計(jì)算公式為[32]

        (1)

        其中,N是利益相關(guān)者的數(shù)量,Wi是每個(gè)利益相關(guān)者的權(quán)重,Pi用于衡量每個(gè)利益相關(guān)者的幸福度,M是某一行為的效用值.

        每個(gè)標(biāo)注人員根據(jù)功利主義將文本標(biāo)注為0(道德行為),1(不文明行為),2(違規(guī)行為),3(違法行為),4(無(wú)關(guān)行為),同時(shí)刪除所有不包括具體行為的新聞文本.

        2.3 數(shù)據(jù)集分析

        本文標(biāo)注了16 000條新聞文本,修改了448條法律條文與20個(gè)省市的文明行為條例,經(jīng)過(guò)數(shù)據(jù)清理等步驟,進(jìn)一步刪除了屬于無(wú)效類別的所有文本.所構(gòu)建的社會(huì)新聞數(shù)據(jù)集包含3 496條道德行為(Moral)、1 777條不文明行為(Uncivilized)、994條違規(guī)行為(Violative)和5 916條違法行為(Illegal).由于不文明行為和違規(guī)行為標(biāo)簽下的數(shù)據(jù)量少且樣本表現(xiàn)形式不易區(qū)分,參考《文明行為條例》將其進(jìn)行合并為不道德行為(Immoral).所構(gòu)建的法律與行為規(guī)范數(shù)據(jù)集包含283條道德行為、149條不道德行為和709條違法行為.

        數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)信息如表3所示,文本長(zhǎng)度分布如圖1所示,大部分文本長(zhǎng)度小于30個(gè)字符,其中社會(huì)新聞數(shù)據(jù)集平均文本長(zhǎng)度為17.1,法律與行為規(guī)范數(shù)據(jù)集平均文本長(zhǎng)度為20.

        Table 3 Statistics of Datasets表3 數(shù)據(jù)集的統(tǒng)計(jì)信息

        Fig. 1 Length distribution of text圖1 文本長(zhǎng)度分布

        3 ERNIE-CNN倫理行為判別模型

        為了使模型具備倫理行為判別能力,理解行為背后的社會(huì)、文化和倫理含義,本文提出了ERNIE-CNN倫理行為判別模型,其整體架構(gòu)如圖2所示,主要由4部分組成,分別為詞嵌入層、文本卷積層、池化層和輸出層.

        Fig. 2 ERNIE-CNN architecture圖2 ERNIE-CNN架構(gòu)

        3.1 詞嵌入層

        詞嵌入層主要實(shí)現(xiàn)的功能是基于語(yǔ)言模型ERNIE[14]與輸入文本進(jìn)行交互,生成文本的詞向量表示.ERNIE針對(duì)BERT[13]在處理中文文本時(shí)難以獲得語(yǔ)義完整表示的缺點(diǎn),為了抽取和編碼知識(shí)信息,將知識(shí)模型中的實(shí)體表征整合到語(yǔ)義模型的底層中,結(jié)合大規(guī)模無(wú)監(jiān)督語(yǔ)料庫(kù)和知識(shí)圖譜進(jìn)行預(yù)訓(xùn)練.

        詞嵌入層由2個(gè)模塊組成:1)文本編碼器(T-Encoder),負(fù)責(zé)從輸入的文本中捕獲詞匯和語(yǔ)義信息;2)知識(shí)編碼器(K-Encoder),負(fù)責(zé)將知識(shí)圖譜中的知識(shí)信息整合到輸出的詞向量中.

        文本編碼器是包含多頭注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)的多層雙向transformer[33]編碼單元,其架構(gòu)如圖3所示.

        Fig. 3 T-Encoder architecture圖3 文本編碼器架構(gòu)

        給定一條社會(huì)新聞,令xi∈Rjk為句子中第i個(gè)單詞所對(duì)應(yīng)的k維詞向量,通過(guò)式(2)計(jì)算每個(gè)字符的詞匯和語(yǔ)義特征:

        {h1,h2,…,hn}=T-Encoder({x1,x2,…,xn}),

        (2)

        其中,{h1,h2,…,hn}代表具有語(yǔ)義特征的詞嵌入輸出;n為文本長(zhǎng)度.

        多頭注意力機(jī)制(multi-head attention)[33]是文本編碼器中的核心組成單元之一.注意力機(jī)制具有快速提取關(guān)鍵信息的重要特征,廣泛應(yīng)用于自然語(yǔ)言處理任務(wù).注意力機(jī)制可以描述為一個(gè)查詢(query)到一系列鍵-值對(duì)(key-value)的映射.注意力機(jī)制計(jì)算方法如下[33]:

        (3)

        其中,分別用向量Q,K,V表示查詢和鍵-值對(duì).首先,將Q和K進(jìn)行相似度計(jì)算(點(diǎn)積)得到權(quán)重,為了防止點(diǎn)乘結(jié)果數(shù)值過(guò)大,使用向量K的維度dk進(jìn)行縮放;其次,使用softmax函數(shù)對(duì)權(quán)重進(jìn)行歸一化得到概率分布;最后,將權(quán)重與相應(yīng)的鍵值V進(jìn)行加權(quán)求和得到目標(biāo)的Attention.在自然語(yǔ)言處理任務(wù)中,K通常與V取值相同,即K=V.

        自注意力機(jī)制是注意力機(jī)制的改進(jìn),為了捕獲句子的內(nèi)部相關(guān)性,減少對(duì)外部信息的依賴.在自注意力機(jī)制中,Q=K=V.

        多頭注意力機(jī)制利用多個(gè)查詢,并行地從輸入信息中選取多組信息,可以提取多重語(yǔ)義的含義.多頭注意力機(jī)制將數(shù)據(jù)投影到h(注意力機(jī)制頭數(shù))個(gè)子空間中,考慮了多個(gè)子空間中向量的相似度.其中單頭注意力Hi的計(jì)算公式如式(4)所示[33]:

        (4)

        多頭注意力機(jī)制將所有空間中的注意力向量進(jìn)行拼接,計(jì)算公式如式(5)所示[33]:

        MH-Att(Q,K,V)=
        Concat(H1,H2,…,Hh)W0,

        (5)

        其中,W0是附加權(quán)重矩陣,作用是將拼接后的矩陣維度壓縮成固定的文本長(zhǎng)度大小.

        知識(shí)編碼器可以編碼字符和實(shí)體,也能融合異構(gòu)特征,作用是將知識(shí)信息注入語(yǔ)義表征,其結(jié)構(gòu)如圖4所示:

        Fig. 4 K-Encoder architecture圖4 知識(shí)編碼器架構(gòu)

        在知識(shí)編碼器中,將字符嵌入{h1,h2,…,hn}和預(yù)訓(xùn)練得到的實(shí)體嵌入{e1,e2,…,em}(其中m是實(shí)體對(duì)齊序列長(zhǎng)度)進(jìn)行異構(gòu)信息融合并通過(guò)式(6)計(jì)算得到最終的輸出詞嵌入{w1,w2,…,wn}.

        {w1,w2,…,wn}=

        K-Encoder({h1,h2,…,hn},{e1,e2,…,em}).

        (6)

        3.2 文本卷積層

        在獲得詞嵌入輸出{w1,w2,…,wn}后,通過(guò)文本卷積操作提取句子的局部區(qū)域特征,能夠自動(dòng)地對(duì)N-gram特征進(jìn)行組合和篩選,獲得不同抽象層次的語(yǔ)義信息.文本卷積層結(jié)構(gòu)如圖5所示:

        Fig. 5 Example of text convolution process圖5 文本卷積過(guò)程示例

        對(duì)于輸入的每一個(gè)句子s,將s中字符的詞向量{w1,w2,…,wn}進(jìn)行連接操作,如式(7)所示.

        s=w1⊕w2⊕…⊕wn,

        (7)

        其中,?表示詞向量間的連接操作.s是拼接得到的n×k維矩陣,其中n為一個(gè)句子中的單詞數(shù),k是每個(gè)單詞對(duì)應(yīng)的詞向量維度.

        卷積層使用卷積核W∈Rjk與滑動(dòng)窗口si:i+j-1對(duì)輸入的n×k維矩陣進(jìn)行卷積操作,產(chǎn)生特征ci:

        ci=f(W·si:i+j-1+b),

        (8)

        其中,j表示窗口中的單詞數(shù),si:i+j-1代表由輸入矩陣的第i行到第i+j-1行拼接而成的大小為j×k維的窗口,W為卷積核對(duì)應(yīng)的j×k維的權(quán)重矩陣,b為偏置參數(shù),f(·)為非線性函數(shù)tanh.首先,W和si:i+j-1進(jìn)行點(diǎn)積運(yùn)算;其次,卷積核對(duì)j個(gè)字符按照步長(zhǎng)1滑動(dòng)提取文本局部特征ci;最后,將其拼接得到特征映射c=(c1,c2,…,cn-j+1).

        3.3 池化層

        經(jīng)卷積操作后,使用時(shí)序最大池化操作(1-Max Pooling)從每個(gè)滑動(dòng)窗口產(chǎn)生的特征向量中篩選出最重要的特征,并將這些特征進(jìn)行拼接,構(gòu)成向量表示.

        3.4 輸出層

        得到文本句子的向量表示之后,接入全連接層輸出每個(gè)類別的概率,并使用softmax激活函數(shù)進(jìn)行歸一化處理,得到最終分類結(jié)果.

        4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

        本文在社會(huì)新聞數(shù)據(jù)集上訓(xùn)練模型,對(duì)社會(huì)新聞中包含的行為進(jìn)行倫理行為判別實(shí)驗(yàn),其中二分類(行為被劃分為道德、不道德2類)實(shí)驗(yàn)可以體現(xiàn)模型辨別對(duì)錯(cuò)的能力,三分類(行為被劃分為道德、不道德、違法3類)具有更細(xì)粒度的分類能力,體現(xiàn)模型識(shí)別行為倫理程度的能力,同時(shí)使用訓(xùn)練好的模型在法律與行為規(guī)范數(shù)據(jù)集上驗(yàn)證該方法的有效性.

        4.1 度量標(biāo)準(zhǔn)

        倫理行為判別屬于多分類問(wèn)題,為了計(jì)算分類模型在不同類別上的總體精確率、召回率和F1值,本文選用宏精確率(macro-P)、宏召回率(macro-R)和宏F1值(macro-F1)作為模型預(yù)測(cè)評(píng)價(jià)指標(biāo),如式(9)~(11)所示:

        (9)

        (10)

        (11)

        其中,K為類別數(shù);Pi為精確率;Ri為召回率.

        4.2 數(shù)據(jù)與設(shè)置

        本文共設(shè)置2個(gè)實(shí)驗(yàn),在倫理行為判別實(shí)驗(yàn)中(實(shí)驗(yàn)1),社會(huì)新聞數(shù)據(jù)集的劃分情況如表4所示(在二分類任務(wù)中,將不道德行為與違法行為劃分為一類),在零樣本遷移實(shí)驗(yàn)中(實(shí)驗(yàn)2),將法律與行為規(guī)范作為測(cè)試集,數(shù)據(jù)集的劃分情況如表5所示.

        Table 4 Datasets Used in Experiment 1表4 實(shí)驗(yàn)1使用的數(shù)據(jù)集

        Table 5 Datasets Used in Experiment 2表5 實(shí)驗(yàn)2使用的數(shù)據(jù)集

        本文采用基于字符的方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理.實(shí)驗(yàn)中,基于特征的語(yǔ)言模型使用搜狗預(yù)先訓(xùn)練好的300維中文詞向量(4)https://github.com/Embedding/Chinese-Word-Vectors初始化單詞嵌入,基于微調(diào)的語(yǔ)言模型使用谷歌和百度發(fā)布的預(yù)訓(xùn)練模型.短填長(zhǎng)切,將每句話長(zhǎng)度處理為30,設(shè)置batch_size為64.采用Adam梯度下降更新網(wǎng)絡(luò)參數(shù),使用交叉熵(cross entropy)作為代價(jià)函數(shù),計(jì)算模型預(yù)測(cè)結(jié)果與訓(xùn)練實(shí)例之間的差異性.為了緩解訓(xùn)練中可能出現(xiàn)的過(guò)擬合問(wèn)題,在模型的全連接層使用了隨機(jī)失活(Dropout)和提前停止技術(shù).實(shí)驗(yàn)代碼基于Pytorch1.5.1實(shí)現(xiàn).

        4.2.1 倫理行為判別實(shí)驗(yàn)

        為了驗(yàn)證社會(huì)新聞數(shù)據(jù)集在訓(xùn)練模型進(jìn)行倫理行為判別方面的有效性,將新聞文本中的行為分為道德行為、不道德行為和違法行為,并使用8種不同的基準(zhǔn)模型來(lái)構(gòu)建二元、三元分類器.

        1) TextCNN[17].本文選擇卷積核的大小為(2,3,4),每個(gè)尺寸的卷積核個(gè)數(shù)為100,dropout設(shè)置為0.5,學(xué)習(xí)率設(shè)置為1×10-3.

        2) TextRNN[34](Bi-LSTM).使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)捕捉長(zhǎng)距離語(yǔ)義關(guān)系,能夠更好的表達(dá)上下文信息.TextRCNN[35]在Bi-LSTM的基礎(chǔ)上加入一層最大池化層來(lái)捕捉重要的特征信息.本文使用2層雙向LSTM,每層包含256個(gè)神經(jīng)元,dropout設(shè)置為0.5,學(xué)習(xí)率設(shè)置為1×10-4.

        3) RNN-Att[36].在Bi-LSTM的基礎(chǔ)上加入注意力機(jī)制,能夠直觀的解釋各個(gè)句子和詞對(duì)分類類別的重要性.本文使用2層雙向LSTM,第1層包含128個(gè)神經(jīng)元,第2層包含64個(gè)神經(jīng)元,dropout設(shè)置為0.5,學(xué)習(xí)率設(shè)置為1×10-3.

        4) DPCNN[37].引入了殘差結(jié)構(gòu),增加了多尺度信息,并且增加了用于文本卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)深度,以提取文本中遠(yuǎn)程關(guān)系特征.本文選擇卷積核的大小為3,卷積核個(gè)數(shù)為250,dropout設(shè)置為0.5,學(xué)習(xí)率設(shè)置為1×10-5.

        5) BERT[13].采用多層雙向Transformer結(jié)構(gòu)以及掩碼語(yǔ)言模型來(lái)捕捉一個(gè)詞在上下文語(yǔ)境中的詞向量表達(dá),極大程度提升了詞向量的表征能力.本文使用谷歌發(fā)布的預(yù)訓(xùn)練模型BERT_Chinese(5)https://github.com/google-research/bert進(jìn)行微調(diào),微調(diào)的學(xué)習(xí)率設(shè)置為5×10-5.

        6) BERT-CNN[38].將BERT的輸出作為詞嵌入層,再由卷積神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)卷積后提取句子級(jí)別特征,經(jīng)過(guò)池化層保留重要特征,微調(diào)的學(xué)習(xí)率設(shè)置為5×10-5.

        7) BERT-RCNN.基于BERT-CNN與Text-RCNN的設(shè)計(jì)思路,將BERT的輸出作為詞嵌入層,加入Bi-LSTM捕捉長(zhǎng)距離語(yǔ)義關(guān)系,最后加入一層最大池化層來(lái)捕捉層次語(yǔ)義信息,微調(diào)的學(xué)習(xí)率設(shè)置為5×10-5.

        8) ERNIE-CNN.本文使用百度發(fā)布的預(yù)訓(xùn)練模型ERNIE_Chinese(6)https://github.com/PaddlePaddle/ERNIE進(jìn)行微調(diào),微調(diào)的學(xué)習(xí)率設(shè)置為5×10-1.

        4.2.2 零樣本遷移實(shí)驗(yàn)

        為了驗(yàn)證基于社會(huì)新聞數(shù)據(jù)集倫理行為判別方法的有效性,本文通過(guò)零樣本遷移實(shí)驗(yàn)進(jìn)行驗(yàn)證,測(cè)試模型在訓(xùn)練集和測(cè)試集上分布不同的協(xié)變量偏移下的領(lǐng)域適應(yīng)能力.實(shí)驗(yàn)2使用在實(shí)驗(yàn)1中性能表現(xiàn)更出色的基于微調(diào)的語(yǔ)言模型,訓(xùn)練集為法律與行為規(guī)范數(shù)據(jù)集.實(shí)驗(yàn)2中其他參數(shù)設(shè)置與實(shí)驗(yàn)1相同.

        4.3 實(shí)驗(yàn)結(jié)果分析

        倫理行為判別實(shí)驗(yàn)結(jié)果如表6所示.零樣本遷移實(shí)驗(yàn)結(jié)果如表7所示.本文著重分析更細(xì)粒度的三分類實(shí)驗(yàn)結(jié)果,其更能體現(xiàn)模型倫理行為判別的能力.

        Table 6 Ethical Behavior Discrimination Experiment Results表6 倫理行為判別實(shí)驗(yàn)結(jié)果

        4.3.1 倫理行為判別實(shí)驗(yàn)結(jié)果分析

        通過(guò)對(duì)比不同基于特征的語(yǔ)言模型(TextCNN,TextRCNN,TextRNN-ATT和DPCNN)與基于微調(diào)的語(yǔ)言模型(BERT,BERT-CNN,BERT-RCNN和ERNIE-CNN)下得出的實(shí)驗(yàn)結(jié)果可以看出,在語(yǔ)義表示能力方面,基于微調(diào)的語(yǔ)言模型優(yōu)于基于特征的語(yǔ)言模型,表明基于transformer結(jié)構(gòu)的模型效果明顯優(yōu)于非基于transformer結(jié)構(gòu)的模型.

        二分類任務(wù).通過(guò)二分類任務(wù)的實(shí)驗(yàn)結(jié)果可以看出,本文提出的ERINE-CNN模型在macro-P,macro-R和macro-F1指標(biāo)上均獲得了最佳性能,分別達(dá)到了0.957,0.966和0.961,效果最差的基準(zhǔn)模型為DPCNN,在macro-P,macro-R和macro-F1指標(biāo)上分別為0.894,0.884和0.889.即使效果最差的模型也取得了令人滿意的實(shí)驗(yàn)結(jié)果,表明基于社會(huì)新聞數(shù)據(jù)集訓(xùn)練的倫理行為判別模型可以對(duì)社會(huì)新聞中包含的行為準(zhǔn)確地分類.

        三分類任務(wù).通過(guò)對(duì)比不同基于特征的語(yǔ)言模型下得出的實(shí)驗(yàn)結(jié)果可以看出,盡管TextCNN模型相較于其他模型結(jié)構(gòu)更為簡(jiǎn)單,但在3個(gè)衡量指標(biāo)上均獲得了最佳效果,分別達(dá)到了0.764,0.744和0.750.由于DPCNN是為捕捉長(zhǎng)距離語(yǔ)義關(guān)系而設(shè)計(jì)的模型,因此在本文的短文本任務(wù)中效果較差.通過(guò)對(duì)比TextCNN與基于TextRNN改進(jìn)的TextRCNN和TextRNN-ATT的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),模型的堆疊并沒(méi)有為T(mén)extRNN帶來(lái)效果的提升,反而增加了模型的復(fù)雜程度.本實(shí)驗(yàn)中針對(duì)基于特征的語(yǔ)言模型所進(jìn)行的對(duì)比表明,對(duì)于短文本倫理行為判別任務(wù),由于句子不具有復(fù)雜的結(jié)構(gòu),通過(guò)滑動(dòng)卷積操作捕捉局部特征就可以識(shí)別全局語(yǔ)句結(jié)構(gòu),獲取句子中最重要的語(yǔ)義信息,在任務(wù)中獲得較好的結(jié)果.

        通過(guò)對(duì)比基于微調(diào)的語(yǔ)言模型的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),本文提出的ERINE-CNN模型在macro-P,macro-R和macro-F1均獲得了最佳效果,分別達(dá)到了0.829,0.808和0.813.通過(guò)對(duì)比BERT,BERT-CNN和BERT-RCNN的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),將BERT的輸出作為詞嵌入層,加入CNN和RCNN模型之后在各項(xiàng)指標(biāo)上均有所提升.BERT-CNN加入CNN模型后在macro-P,macro-R和macro-F1指標(biāo)上分別提升了1.2,1.5和1.2個(gè)百分點(diǎn),高于BERT-RCNN加入RCNN模型帶來(lái)的效果提升,同時(shí)再次驗(yàn)證加入滑動(dòng)卷積操作捕捉局部特征的有效性.通過(guò)對(duì)比BERT-CNN和本文提出的ERNIE-CNN模型下的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)ERINE-CNN模型在macro-P,macro-R和macro-F1指標(biāo)上均獲得了更好的性能,與BERT-CNN相比分別提升了1,2.7和2.8個(gè)百分點(diǎn),表明在處理中文任務(wù)時(shí),ERNIE的特征抽取能力比BERT更強(qiáng),同時(shí)也證明了本文提出的模型在倫理行為判別任務(wù)中的有效性.

        4.3.2 零樣本遷移實(shí)驗(yàn)結(jié)果分析

        通過(guò)二分類任務(wù)的實(shí)驗(yàn)結(jié)果可以看出,本文提出的ERINE-CNN模型在macro-P,macro-R和macro-F1均獲得了最佳效果,分別達(dá)到了0.890,0.929和0.906,效果最差的基準(zhǔn)模型BERT在macro-P,macro-R和macro-F1指標(biāo)上分別為0.839,0.875和0.854;對(duì)于三分類任務(wù),ERNIE-CNN模型同樣達(dá)到了最佳效果,在各項(xiàng)指標(biāo)上分別達(dá)到了0.767,0.803和0.781,效果最差的基準(zhǔn)模型在各項(xiàng)指標(biāo)上分別達(dá)到了0.695,0.735和0.689.實(shí)驗(yàn)結(jié)果表明使用社會(huì)新聞數(shù)據(jù)集訓(xùn)練好的模型在零樣本遷移實(shí)驗(yàn)上同樣可以取得令人滿意的實(shí)驗(yàn)結(jié)果,在資源有限的情況下,驗(yàn)證了社會(huì)新聞數(shù)據(jù)集蘊(yùn)含豐富的倫理道德和規(guī)范知識(shí),可以用于倫理行為判別研究.

        5 總 結(jié)

        本文針對(duì)包含具體行為的社會(huì)新聞做倫理行為判別研究,受預(yù)訓(xùn)練語(yǔ)言模型的啟發(fā),提出了基于社會(huì)新聞數(shù)據(jù)集的倫理行為判別方法.具體地,由于缺乏高質(zhì)量標(biāo)注數(shù)據(jù),基于社會(huì)新聞和社會(huì)規(guī)范分別構(gòu)建了社會(huì)新聞數(shù)據(jù)集和法律與行為規(guī)范數(shù)據(jù)集.使用預(yù)訓(xùn)練語(yǔ)言模型ERNIE捕獲新聞文本的多維語(yǔ)義特征獲得詞向量,通過(guò)CNN模型自動(dòng)對(duì)N-gram特征進(jìn)行組合和篩選,獲得不同抽象層次的語(yǔ)義信息,從而提升模型的識(shí)別能力.在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了以上方法和模型的有效性.

        具備倫理行為判別能力的模型可以為機(jī)器人、無(wú)人駕駛汽車等自主機(jī)器提供先驗(yàn)知識(shí),減少不道德行為的發(fā)生,有助于避免倫理問(wèn)題.本文的研究工作為倫理行為判別開(kāi)辟了新思路,是一次有益的嘗試.

        然而,本文工作也存在一些問(wèn)題:1)自動(dòng)采集的新聞文本在不同標(biāo)簽下存在數(shù)據(jù)量少和數(shù)據(jù)不均衡問(wèn)題,而本文僅對(duì)不易區(qū)分的數(shù)據(jù)進(jìn)行合并;2)僅針對(duì)短文本任務(wù)進(jìn)行優(yōu)化,未考慮模型對(duì)長(zhǎng)文本的識(shí)別能力;3)社會(huì)新聞是被精心編輯過(guò)的規(guī)范數(shù)據(jù),而社交媒體領(lǐng)域有大量含有噪聲的非規(guī)范數(shù)據(jù).在接下來(lái)的研究工作中,我們將補(bǔ)充更多的數(shù)據(jù),擴(kuò)展模型更細(xì)粒度的倫理行為辨別能力;優(yōu)化模型對(duì)于長(zhǎng)文本的識(shí)別能力;探索從新聞?lì)I(lǐng)域到社交媒體領(lǐng)域的遷移學(xué)習(xí)任務(wù).

        猜你喜歡
        語(yǔ)義文本實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        語(yǔ)言與語(yǔ)義
        在808DA上文本顯示的改善
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語(yǔ)義模糊
        久久与欧美视频| 中文字幕aⅴ人妻一区二区| 又粗又硬又黄又爽的免费视频| 在线不卡av天堂| 国产自产自现在线视频地址| 亚洲女优中文字幕在线观看| 人人爽久久涩噜噜噜丁香| 国产在线一91区免费国产91| 亚洲中文字幕有码av| 国产亚洲熟妇在线视频| 欧美日韩国产精品自在自线| 人人看人人做人人爱精品| 亚洲av高清资源在线观看三区| 偷拍视频网址一区二区| 亚洲精品久久久久久久久久吃药 | 美女mm131爽爽爽| 18无码粉嫩小泬无套在线观看 | 国产一级r片内射视频播放| 99久久婷婷国产亚洲终合精品| 超清精品丝袜国产自在线拍| 日韩AV无码一区二区三| 中文字幕日韩精品亚洲精品| 欧美大片va欧美在线播放| 不卡高清av手机在线观看| 成人国产在线观看高清不卡| 成人高清在线播放视频| av永久天堂一区二区三区| 亚洲视频毛片| 午夜日本理论片最新片| 尤物yw午夜国产精品视频| 不卡高清av手机在线观看| 国产激情视频在线| 青青草成人免费在线视频| 中文字幕丰满伦子无码| 亚洲动漫成人一区二区| 国产精品亚洲在线播放| 国产欧美亚洲精品第一页| 久热香蕉视频| 日本一区二区精品色超碰| 无码专区人妻系列日韩精品 | 麻豆夫妻在线视频观看|