亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合BERT與多尺度CNN的科技政策內(nèi)容多標(biāo)簽分類(lèi)研究*

        2022-12-01 07:49:10馬雨萌黃金霞
        情報(bào)雜志 2022年11期
        關(guān)鍵詞:尺度標(biāo)簽語(yǔ)義

        馬雨萌 黃金霞 王 昉 芮 嘯

        (1.中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心 北京 100190;2.北京大學(xué)信息管理系 北京 100871)

        0 引 言

        在科技創(chuàng)新已成為國(guó)家轉(zhuǎn)型發(fā)展的根本驅(qū)動(dòng)力和國(guó)家間競(jìng)爭(zhēng)制高點(diǎn)的今天,科技政策層出不窮??萍颊呤菄?guó)家為實(shí)現(xiàn)一定歷史時(shí)期的科技任務(wù)而規(guī)定的基本行動(dòng)準(zhǔn)則,是指導(dǎo)整個(gè)科技事業(yè)的戰(zhàn)略和策略原則[1]。科技政策文本是指國(guó)家或地方為發(fā)展科技事業(yè),各級(jí)權(quán)力或行政機(jī)關(guān)以文件形式頒布的法律、法規(guī)、部門(mén)規(guī)章等官方文獻(xiàn)[2]。網(wǎng)絡(luò)信息時(shí)代決策過(guò)程日益開(kāi)放,大數(shù)據(jù)帶來(lái)的沖擊更加劇了對(duì)政府決策的影響,政府如何利用大數(shù)據(jù)完善決策過(guò)程是適應(yīng)時(shí)代和把握機(jī)遇的關(guān)鍵[3]。政策文本是政府處理公共事務(wù)的真實(shí)記錄和行為印跡,具有數(shù)據(jù)挖掘、趨勢(shì)分析、執(zhí)政參考等多重決策支持價(jià)值[4]。對(duì)于科技政策決策者和研究者而言,科技政策文本涵蓋領(lǐng)域廣,蘊(yùn)含了大量復(fù)雜多元的指導(dǎo)性?xún)?nèi)容,能夠支持豐富決策知識(shí)的發(fā)現(xiàn),成為大數(shù)據(jù)時(shí)代政府科技決策的重要依據(jù)和工具。

        當(dāng)前政府決策過(guò)程對(duì)科技政策結(jié)構(gòu)化內(nèi)容的分類(lèi)需求越來(lái)越強(qiáng)烈,對(duì)大規(guī)模、碎片化的政策內(nèi)容進(jìn)行有效分類(lèi),能夠幫助決策者從不同科技創(chuàng)新領(lǐng)域視角組織管理政策措施,是揭示領(lǐng)域政策演化脈絡(luò)、開(kāi)展區(qū)域間政策對(duì)比等進(jìn)一步分析的基礎(chǔ)。隨著大規(guī)模政策文本分析環(huán)境的轉(zhuǎn)變,傳統(tǒng)的人工定性編碼方式難以滿(mǎn)足快速?zèng)Q策的需求,文本自動(dòng)分類(lèi)方法在政策分類(lèi)中的應(yīng)用得到了越來(lái)越多的關(guān)注。政策文本具有信息密度大與內(nèi)涵分布不均衡等特點(diǎn)[5],如何完整和準(zhǔn)確地表達(dá)分類(lèi)語(yǔ)義是提升政策分類(lèi)準(zhǔn)確性的關(guān)鍵問(wèn)題。傳統(tǒng)的基于詞袋模型或其變體方法的分類(lèi)模型,由于忽略了詞的相對(duì)位置信息,在表征文本的上下文信息和語(yǔ)義特征上存在局限性[6],因此如果傳統(tǒng)文本分類(lèi)模型直接遷移應(yīng)用于政策文本領(lǐng)域,將無(wú)法充分捕獲政策文本的復(fù)雜語(yǔ)義與多層次特征。此外,科技政策措施涉及了人才建設(shè)、基礎(chǔ)設(shè)施、財(cái)政稅收、市場(chǎng)監(jiān)管等眾多領(lǐng)域,通過(guò)多種政策工具的組合共同支持國(guó)家科技創(chuàng)新發(fā)展。然而傳統(tǒng)的科技政策分類(lèi),多以科技計(jì)劃、農(nóng)村科技、國(guó)際科技合作等科技政策的作用領(lǐng)域?yàn)闃?biāo)簽,從政策文件層面給予單標(biāo)簽分類(lèi)[7-8],未能有效地揭示出政策內(nèi)容的多主題特征。

        針對(duì)以上問(wèn)題,本文以科技政策文本為研究對(duì)象,基于BERT預(yù)訓(xùn)練模型和卷積神經(jīng)網(wǎng)絡(luò)相融合的深度學(xué)習(xí)方法,構(gòu)建科技政策文本的多標(biāo)簽分類(lèi)模型。一方面通過(guò)BERT學(xué)習(xí)政策內(nèi)容句的語(yǔ)義特征表示,充分提取文本的上下文信息;另一方面利用多尺度、多通道的卷積模塊提取更多尺度的特征,增強(qiáng)政策分類(lèi)語(yǔ)義特征表示和不同層次信息獲取的準(zhǔn)確性,從而提升模型在多標(biāo)簽分類(lèi)任務(wù)上的性能,為實(shí)現(xiàn)科技政策文本內(nèi)容的自動(dòng)化編碼與多主題分類(lèi)提供參考。

        1 相關(guān)研究

        1.1 科技政策文本內(nèi)容分析與挖掘

        公共政策文本內(nèi)容分析領(lǐng)域經(jīng)歷了從質(zhì)性文本解讀到定量數(shù)據(jù)分析的變化,定量分析方法的應(yīng)用與拓展豐富了政策研究范式,在一定程度上有助于政府在決策過(guò)程中科學(xué)地調(diào)整或制定相關(guān)政策。科技政策作為蘊(yùn)含了豐富科技決策知識(shí)的敘述性文本,近年來(lái)學(xué)者們積極探索了文本內(nèi)容分析方法在科技政策領(lǐng)域的應(yīng)用。自然語(yǔ)言處理、數(shù)據(jù)挖掘與文本計(jì)算等技術(shù)的研究與應(yīng)用,通過(guò)關(guān)注政策內(nèi)容的深層語(yǔ)義,為支持大規(guī)模政策文本的隱性特征發(fā)現(xiàn)與知識(shí)規(guī)律揭示提供了方法基礎(chǔ)。目前文本內(nèi)容分析與挖掘方法在科技政策應(yīng)用的主要領(lǐng)域包括:

        a.文本內(nèi)容分類(lèi):當(dāng)前研究通常以政策工具理論為依據(jù)建立類(lèi)目,采用內(nèi)容分析法進(jìn)行分類(lèi)編碼和計(jì)量,將政策內(nèi)容語(yǔ)句轉(zhuǎn)化為帶有政策工具分類(lèi)標(biāo)簽的可量化數(shù)據(jù),有助于決策者梳理與把握議題領(lǐng)域政策工具體系的結(jié)構(gòu)特征[9]。

        b.領(lǐng)域新詞發(fā)現(xiàn):為了準(zhǔn)確識(shí)別科技政策文本中出現(xiàn)的領(lǐng)域新詞、專(zhuān)有名詞術(shù)語(yǔ),基于規(guī)則的方法根據(jù)政策文本的語(yǔ)言規(guī)律和句法特征,通過(guò)構(gòu)建規(guī)則模板來(lái)識(shí)別政策領(lǐng)域詞語(yǔ)[10]。深度學(xué)習(xí)的發(fā)展提供了特征的自動(dòng)提取,針對(duì)科技政策領(lǐng)域缺乏標(biāo)注語(yǔ)料的問(wèn)題,目前有學(xué)者探索了無(wú)監(jiān)督方法,利用較少的標(biāo)注語(yǔ)料達(dá)到了較好的識(shí)別性能[11]。

        c.文本主題分析:主題分析提供了一種深入語(yǔ)義層面的文本挖掘方法,發(fā)現(xiàn)大規(guī)模政策文本中的主題特征和語(yǔ)義內(nèi)涵。早期通過(guò)政策文本詞語(yǔ)關(guān)聯(lián)網(wǎng)絡(luò)的構(gòu)建,能夠直觀地展示科技政策文本主題的分布與關(guān)聯(lián)結(jié)構(gòu)[12]。更進(jìn)一步,學(xué)者們將主題模型和文本聚類(lèi)技術(shù)引入科技政策內(nèi)容分析中,揭示科技政策文本中的隱含主題信息及主題強(qiáng)度變化規(guī)律[13]。

        d.知識(shí)圖譜構(gòu)建:科技政策涉及政策工具、創(chuàng)新主體、適用條件、實(shí)現(xiàn)目標(biāo)等要素的協(xié)同合作,對(duì)政策文本中這些關(guān)鍵知識(shí)的解析與關(guān)聯(lián)可以借助知識(shí)圖譜解決。通過(guò)采用知識(shí)抽取、鏈接、存儲(chǔ)等知識(shí)圖譜技術(shù),能夠提取政策內(nèi)容中關(guān)鍵表述的知識(shí)實(shí)體、實(shí)體屬性及實(shí)體間關(guān)系,以知識(shí)網(wǎng)絡(luò)圖形式實(shí)現(xiàn)政策內(nèi)容的關(guān)系分析與推理[14]。

        1.2 基于深度學(xué)習(xí)的政策文本分類(lèi)

        基于深度學(xué)習(xí)的分類(lèi)方法,由于能夠從樣本中主動(dòng)學(xué)習(xí)文本特征,且具有強(qiáng)大的特征選擇、抽取與表達(dá)能力,目前在政策文本分類(lèi)領(lǐng)域得到應(yīng)用。根據(jù)待分類(lèi)對(duì)象的類(lèi)型與顆粒度,政策主題分類(lèi)研究涉及了政策文件或其內(nèi)容語(yǔ)句的分類(lèi)任務(wù)。一是在政策文件的主題分類(lèi)方面,李志鵬引入LSTM模型解決政策文本分類(lèi)的語(yǔ)義抽象及上下文環(huán)境保留問(wèn)題,提高政策分類(lèi)精度和挖掘效果[15]。越來(lái)越多的學(xué)者通過(guò)探索分類(lèi)模型的融合或改進(jìn),以取得更好的分類(lèi)效果。胡吉明等通過(guò)CNN模型提取政策文本的局部特征,利用BiLSTM模型整合政策文本的上下文特征,最大程度上保證政策文本語(yǔ)義完整性[16]。王濤利用深度學(xué)習(xí)中的注意力機(jī)制,根據(jù)正文與標(biāo)題二者的重要程度來(lái)對(duì)教育政策文本進(jìn)行建模,得到文本的最優(yōu)向量表示,解決政策文本語(yǔ)義分布不均衡的問(wèn)題[17]。另一方面,由于自動(dòng)分類(lèi)技術(shù)的應(yīng)用可以減少傳統(tǒng)政策內(nèi)容分析法所需的勞動(dòng)量,目前有學(xué)者嘗試開(kāi)展了基于機(jī)器學(xué)習(xí)的政策內(nèi)容自動(dòng)編碼實(shí)踐,張維沖等利用自動(dòng)分類(lèi)和加權(quán)算法對(duì)政策條文進(jìn)行開(kāi)放式編碼,快速得到以政策目標(biāo)、研發(fā)與應(yīng)用、政策工具為主要維度的芯片產(chǎn)業(yè)政策內(nèi)容分析編碼表[18]。

        目前基于深度學(xué)習(xí)的政策分類(lèi)研究,分類(lèi)對(duì)象仍主要集中于政策文件層面,由于缺乏政策領(lǐng)域的標(biāo)注數(shù)據(jù)和科學(xué)、細(xì)致的主題分類(lèi)體系,因此在政策內(nèi)容的分類(lèi)研究上應(yīng)用較少。此外,一個(gè)完整的政策措施句通常具有多方面的主題,尤其對(duì)于科技政策而言,圍繞國(guó)家創(chuàng)新體系涉及了要素、環(huán)境、需求等科技創(chuàng)新多維度領(lǐng)域。然而,因?yàn)槟壳岸鄶?shù)政策分類(lèi)研究忽視了科技政策內(nèi)容的這種多主題特征,所以科技政策信息在不同視角、維度下的空間定位難以得到有效揭示。因此,探索深度學(xué)習(xí)方法在實(shí)現(xiàn)政策多標(biāo)簽分類(lèi)任務(wù)上的應(yīng)用,是科技政策分類(lèi)研究的重要發(fā)展方向。

        1.3 基于深度學(xué)習(xí)的多標(biāo)簽文本分類(lèi)模型

        隨著文本分類(lèi)粒度的細(xì)化程度越來(lái)越高,一個(gè)樣本可能與多個(gè)類(lèi)別標(biāo)簽相關(guān),多標(biāo)簽文本分類(lèi)的主要任務(wù)是通過(guò)特定的分類(lèi)器為某個(gè)文本賦予多個(gè)標(biāo)簽[19]。如何高效地從文本中提取特征是多標(biāo)簽文本分類(lèi)面臨的首要問(wèn)題,相比于傳統(tǒng)的以詞袋模型作為文本特征表示的方法,深度學(xué)習(xí)方法通過(guò)學(xué)習(xí)文本的向量表示,能夠充分捕捉文本的上下文信息和語(yǔ)義特征,因此在文本多標(biāo)簽分類(lèi)中取得了較好的效果[6]。按照網(wǎng)絡(luò)結(jié)構(gòu)的不同,基于深度學(xué)習(xí)的多標(biāo)簽文本分類(lèi)包括基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和基于Transformer的算法[20]。基于CNN的方法一般通過(guò)改進(jìn)CNN結(jié)構(gòu)來(lái)適應(yīng)多標(biāo)簽文本分類(lèi),Baker等提出了一種基于改進(jìn)CNN結(jié)構(gòu)的多標(biāo)簽文本分類(lèi)方法,通過(guò)初始化神經(jīng)網(wǎng)絡(luò)模型的最終隱藏層來(lái)利用標(biāo)簽共現(xiàn)關(guān)系[21]?;赗NN的多標(biāo)簽文本分類(lèi)方法大多采用Seq2Seq結(jié)構(gòu)來(lái)實(shí)現(xiàn),將多標(biāo)簽分類(lèi)任務(wù)視為序列生成問(wèn)題,以此來(lái)考慮標(biāo)簽之間的相關(guān)性[22]。隨著具有注意力機(jī)制的Transformer在自然語(yǔ)言處理領(lǐng)域的廣泛應(yīng)用,尤其基于雙向Transformer的文本表示模型BERT在文本分類(lèi)、信息抽取等任務(wù)中達(dá)到了領(lǐng)先水平[23],Transformer模型在多標(biāo)簽分類(lèi)領(lǐng)域也得到了大量應(yīng)用。Lee等利用預(yù)訓(xùn)練的BERT模型,對(duì)以權(quán)力要求書(shū)為主要內(nèi)容的專(zhuān)利文本進(jìn)行分類(lèi),實(shí)驗(yàn)證明BERT模型針對(duì)多標(biāo)簽的專(zhuān)利文本有更好的分類(lèi)效果[24]。

        上述研究為科技政策內(nèi)容的多標(biāo)簽分類(lèi)提供了一定的參考思路,但是存在如下問(wèn)題:①目前基于CNN、RNN的分類(lèi)模型在提取特征前,多使用Word2Vec等傳統(tǒng)詞向量模型將預(yù)處理文本進(jìn)行向量化表示,但是這些詞向量忽視了詞語(yǔ)的多義性,對(duì)文本的表征依然存在局限性[25];②對(duì)CNN或RNN的單獨(dú)使用存在著一些問(wèn)題,例如CNN因?yàn)榫W(wǎng)絡(luò)變深而出現(xiàn)性能飽和,RNN會(huì)疊加錯(cuò)誤標(biāo)簽帶來(lái)的影響,而且目前神經(jīng)網(wǎng)絡(luò)模型獲取文本的特征有限,相對(duì)于BERT等預(yù)訓(xùn)練模型仍有差距[20];③科技政策內(nèi)容句具有信息密度大、涉及主題領(lǐng)域多、內(nèi)涵分布不均衡等特點(diǎn),如未充分考慮這些問(wèn)題就將通用分類(lèi)模型進(jìn)行移植應(yīng)用,則難以實(shí)現(xiàn)對(duì)語(yǔ)句局部特征和關(guān)鍵有效信息的捕獲。

        2 研究設(shè)計(jì)

        2.1 整體研究框架

        本文提出了基于深度學(xué)習(xí)模型的科技政策多標(biāo)簽分類(lèi)方法,依據(jù)政策工具理論建立科技政策分類(lèi)體系,將科技政策內(nèi)容語(yǔ)句歸屬于相應(yīng)的若干政策工具類(lèi)型。本文的整體研究框架包括:①實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備:采集科技政策文本并進(jìn)行預(yù)處理,依據(jù)分類(lèi)體系,準(zhǔn)備訓(xùn)練數(shù)據(jù)。②BERT-多尺度CNN模型訓(xùn)練:本文使用BERT提取政策語(yǔ)句特征,提高對(duì)文本語(yǔ)義的表示能力,然后為了獲得不同層次的信息,設(shè)計(jì)了多尺度卷積模塊Text Inception,在不同尺度上提取句子中的關(guān)鍵語(yǔ)義特征,最后通過(guò)Sigmoid對(duì)語(yǔ)句進(jìn)行多標(biāo)簽分類(lèi)。③對(duì)比實(shí)驗(yàn):通過(guò)與僅使用BERT的分類(lèi)實(shí)驗(yàn)對(duì)比,驗(yàn)證融合多尺度CNN方法的有效性。④分類(lèi)效果評(píng)價(jià):計(jì)算與分析BERT-多尺度CNN模型和單一BERT模型的分類(lèi)結(jié)果,對(duì)模型進(jìn)行評(píng)價(jià)。

        2.2 基于政策工具的科技政策分類(lèi)體系

        政策工具是由政府所掌握的、用以實(shí)現(xiàn)政策目標(biāo)的各類(lèi)手段和措施[26]。在科技政策體系研究中,當(dāng)前學(xué)者們通常以政策工具理論作為定義科技政策內(nèi)容分析框架的依據(jù),揭示科技創(chuàng)新特定領(lǐng)域下的政策工具特征,指出政策體系結(jié)構(gòu)存在的問(wèn)題,并提出相應(yīng)建議[27]。本文依據(jù)經(jīng)典的Rothwell等提出的供給型、環(huán)境型和需求型政策工具分類(lèi)法[28],界定和劃分科技政策內(nèi)容語(yǔ)句所屬的政策工具類(lèi)型,共15個(gè)類(lèi)別,并以此作為科學(xué)的、較細(xì)粒度的、覆蓋科技創(chuàng)新重點(diǎn)領(lǐng)域的科技政策分類(lèi)體系??萍颊叩墓┙o型政策工具指政府通過(guò)對(duì)人才、設(shè)施、技術(shù)、資金等方面的支持,直接擴(kuò)大或改善科技創(chuàng)新相關(guān)要素的供給,可細(xì)分為資金投入、技術(shù)研發(fā)、人才隊(duì)伍建設(shè)、項(xiàng)目計(jì)劃、科創(chuàng)基地與平臺(tái)、科技基礎(chǔ)設(shè)施建設(shè)、公共服務(wù)。科技政策的環(huán)境型政策工具指政府通過(guò)影響科技創(chuàng)新發(fā)展的環(huán)境因素,為促進(jìn)科技活動(dòng)、提高創(chuàng)新主體積極性營(yíng)造有利的政策環(huán)境,可分為創(chuàng)造和知識(shí)產(chǎn)權(quán)保護(hù)、金融支持、科技成果轉(zhuǎn)移轉(zhuǎn)化、市場(chǎng)監(jiān)管、稅收激勵(lì)??萍颊叩男枨笮驼吖ぞ咧刚e極開(kāi)拓并穩(wěn)定技術(shù)和產(chǎn)品應(yīng)用的市場(chǎng),減少與創(chuàng)新相關(guān)的市場(chǎng)不確定性,通過(guò)擴(kuò)大市場(chǎng)需求對(duì)新產(chǎn)品、新技術(shù)開(kāi)發(fā)等創(chuàng)新活動(dòng)產(chǎn)生拉動(dòng)作用,較為常見(jiàn)的有貿(mào)易協(xié)定、政府采購(gòu)、宣傳推廣[29]。

        2.3 基于BERT-多尺度CNN的多標(biāo)簽分類(lèi)模型構(gòu)建

        本文提出了基于BERT與多尺度CNN融合的多標(biāo)簽分類(lèi)模型,如圖1所示,模型結(jié)構(gòu)主要包括BERT文本表示層、多尺度卷積層和多標(biāo)簽分類(lèi)層。首先將政策語(yǔ)句輸入BERT文本表示層進(jìn)行語(yǔ)義編碼、補(bǔ)充;然后在多尺度卷積層中,利用多種尺度的卷積核得到不同尺度的語(yǔ)義特征,通過(guò)最大池化獲取最優(yōu)特征;在分類(lèi)層通過(guò)Sigmoid函數(shù)計(jì)算不同類(lèi)別的概率,從而輸出多標(biāo)簽的預(yù)測(cè)序列。該模型既通過(guò)BERT充分提取文本的上下文信息,又具備了多尺度卷積核提取文本的局部特征的特點(diǎn)。

        圖1 BERT-多尺度CNN模型結(jié)構(gòu)

        a.BERT文本表示層。

        BERT采用雙向Transformer編碼器作為特征提取器,以多頭注意力機(jī)制融合了上下文信息[30]。BERT通過(guò)自動(dòng)隨機(jī)掩碼機(jī)制來(lái)預(yù)測(cè)文本中的缺失詞,同時(shí)利用上下句關(guān)系預(yù)測(cè)來(lái)聯(lián)合表達(dá)文本的語(yǔ)句序列表示,分別獲取詞語(yǔ)和句子級(jí)別的語(yǔ)義信息[31]。因此,相比于Word2Vec等傳統(tǒng)的詞向量,BERT充分考慮了文本的上下文關(guān)系,具有良好的語(yǔ)義多樣性[32]。在BERT的輸出層,可以結(jié)合具體的任務(wù)做參數(shù)微調(diào),完成文本分類(lèi)等自然語(yǔ)言處理任務(wù)。

        在BERT-多尺度CNN模型的文本表示層,采用BERT對(duì)輸入長(zhǎng)度為n的政策句子進(jìn)行編碼。BERT首先對(duì)輸入文本做詞向量嵌入表示,包括單詞嵌入(Token Embedding)、句子嵌入(Segment Embedding)和位置嵌入(Position Embedding),將句子通過(guò)“[CLS]”和“[SEP]”標(biāo)記同時(shí)輸入到模型中表示為En,每個(gè)詞的嵌入維度為768,如圖1所示,E1、E2、…、En表示模型的輸入向量;然后再通過(guò)12層Transformers Encoder結(jié)構(gòu),將每個(gè)詞轉(zhuǎn)換成富含句法語(yǔ)義特征的Tn,如圖1所示,T1、T2、…、Tn表示模型的輸出向量,作為下游多尺度CNN模型的輸入。

        b.多尺度卷積層。

        卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以學(xué)習(xí)到文本的局部特征,結(jié)構(gòu)通常由卷積層、池化層和全連接層組成。CNN模型通過(guò)不同卷積核來(lái)提取多種深層特征,為了提取高維度特征,主要是進(jìn)行更深層卷積,但隨之帶來(lái)網(wǎng)絡(luò)變深、性能飽和的問(wèn)題[33]。因此,Google提出了Inception卷積模塊[34],增加了網(wǎng)絡(luò)的寬度,Inception網(wǎng)絡(luò)中并行使用多個(gè)不同尺度的卷積核,將輸出結(jié)果拼接成一個(gè)更深的特征圖,充分提取多尺度的特征,可更加全面地利用隱藏的特征信息[35]。本文針對(duì)科技政策內(nèi)容句的特征,借鑒Inception V1網(wǎng)絡(luò)結(jié)構(gòu)的思想,設(shè)計(jì)了多尺度卷積模塊(CNN-Inception),對(duì)CNN模型增加卷積層和通道數(shù),通過(guò)不同尺度的卷積核學(xué)習(xí)文本的不同特征信息,更好地捕獲文本的局部特征與高階特征,將這些多尺度特征進(jìn)行拼接來(lái)獲得政策句的關(guān)鍵語(yǔ)義特征。

        CNN-Inception模塊對(duì)BERT輸出的向量并行地執(zhí)行多個(gè)卷積運(yùn)算和池化處理,如圖1所示,模型中有四個(gè)卷積通道,使用不同大小的卷積核,可以從不同尺度視角下獲得文本的特征信息。第一通道和第四通道為一層卷積,第一通道的卷積核尺寸為1×768,輸出數(shù)量為256;第四通道的卷積核尺寸為3×768,輸出數(shù)量為256。為了獲得更深層的多尺度高維特征,第二個(gè)和第三個(gè)卷積通道使用兩層卷積,這兩個(gè)通道之間加入BatchNorm并使用ReLU為激活函數(shù)。其中,第二通道中第一層卷積核的尺寸為1×768,第二層卷積核尺寸為1×1,兩層輸出數(shù)量均為256;第三通道中第一層卷積核的尺寸為3×768,第二層卷積核的尺寸為5×1,兩層輸出數(shù)量均為256。模型利用最大池化方式進(jìn)行特征選擇,選取主要特征作為最后的輸出特征。經(jīng)過(guò)最大池化層后將4個(gè)通道的特征拼接在一起得到一個(gè)256×4維的政策句向量,再將這個(gè)向量輸入到一個(gè)全連接層,全連接層的輸出維度等于分類(lèi)數(shù)目。

        c.多標(biāo)簽分類(lèi)層。

        不同于多類(lèi)別分類(lèi),多標(biāo)簽分類(lèi)由于每個(gè)實(shí)例的標(biāo)簽數(shù)量不同,模型將不對(duì)預(yù)測(cè)的概率進(jìn)行歸一化處理[6]。本文在分類(lèi)層使用Sigmoid函數(shù)預(yù)測(cè)多標(biāo)簽分類(lèi)任務(wù)中每個(gè)標(biāo)簽的獨(dú)立分布,將全連接層輸出的特征向量轉(zhuǎn)換為不同標(biāo)簽的概率,對(duì)不同政策工具類(lèi)別的概率進(jìn)行獨(dú)立計(jì)算,概率大于0.5就屬于該標(biāo)簽,從而得到多標(biāo)簽的預(yù)測(cè)序列。

        3 實(shí)驗(yàn)與結(jié)果

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        本實(shí)驗(yàn)于2022年1—2月期間使用后羿采集器,采集了國(guó)家部委、各省、自治區(qū)、直轄市及其省會(huì)城市的各級(jí)政府部門(mén)網(wǎng)站公開(kāi)發(fā)布的2021、2020年科技政策文本。本文將這些采集數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,一方面由于數(shù)據(jù)來(lái)源于政府部門(mén)官網(wǎng),具有權(quán)威性;另一方面,各級(jí)政策制定是對(duì)上層政策的響應(yīng)和細(xì)化[36],因此國(guó)家級(jí)、省級(jí)及重要城市頒布的政策文件在政策擴(kuò)散路徑上通常作為上層政策,其主題基本涵蓋了我國(guó)科技政策的體系結(jié)構(gòu)及布局重點(diǎn)。

        表1 政策內(nèi)容句數(shù)據(jù)集分布

        首先,對(duì)采集數(shù)據(jù)集進(jìn)行遴選與去HTML標(biāo)簽等數(shù)據(jù)清洗操作,對(duì)政策全文做分句處理和篩選,剔除非措施內(nèi)容的無(wú)關(guān)語(yǔ)句。然后,對(duì)得到的政策內(nèi)容句數(shù)據(jù)集進(jìn)行多標(biāo)簽分類(lèi)標(biāo)注,優(yōu)先標(biāo)注2021年的政策句,對(duì)于樣本量過(guò)少的分類(lèi)標(biāo)簽,補(bǔ)充標(biāo)注2020年的政策句,使各標(biāo)簽下的語(yǔ)句數(shù)量盡量平衡,共得到11 096條科技政策標(biāo)注數(shù)據(jù),每種類(lèi)別下的政策句數(shù)量如表1所示。本實(shí)驗(yàn)對(duì)各分類(lèi)標(biāo)簽下的樣本進(jìn)行隨機(jī)抽取,按6∶2∶2將數(shù)據(jù)集劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。

        3.2 評(píng)價(jià)指標(biāo)

        與其他多標(biāo)簽分類(lèi)方法使用的評(píng)價(jià)指標(biāo)相同,本文采用精確率(Precision)、召回率(Recall)以及Micro-F1值作為模型評(píng)價(jià)指標(biāo)。精確率是指預(yù)測(cè)正確的樣本占數(shù)據(jù)中真正例與錯(cuò)誤預(yù)測(cè)正例的樣本中比例,召回率表示分類(lèi)預(yù)測(cè)正確的樣本占所有真實(shí)正確樣本的比例。Micro-F1值是衡量多標(biāo)簽分類(lèi)任務(wù)效果的重要指標(biāo),由于多標(biāo)簽文本分類(lèi)賦予文本的標(biāo)簽數(shù)量不是固定的,micro對(duì)同一類(lèi)別下的文本給予相同權(quán)重,將micro-precision和micro-recall調(diào)和平均后求得micro-F1,計(jì)算公式[37]如式(1)-(3)所示,這種方式可以部分消除多標(biāo)簽文本分類(lèi)因?yàn)閿?shù)據(jù)不平衡帶來(lái)的影響。

        (1)

        (2)

        (3)

        3.3 實(shí)驗(yàn)配置

        本文在以下環(huán)境進(jìn)行實(shí)驗(yàn):PyTorch 1.10.1,Python 3.8,操作系統(tǒng)Red Hat 4.8.5,CPU為Intel Xeon@2.4GHZx4,GPU為Quadro RTX 5000(16G),運(yùn)行內(nèi)存12G。

        本文使用BERT-Base的中文預(yù)訓(xùn)練模型進(jìn)行實(shí)驗(yàn),該模型結(jié)構(gòu)包含12層Transformers,隱藏層維度為768,注意力頭(Head)數(shù)量為12,BERT模型其他參數(shù)通過(guò)微調(diào)后作為正式實(shí)驗(yàn)使用的參數(shù),如表2所示。

        表2 BERT參數(shù)設(shè)置

        在多尺度卷積層,采用Adam優(yōu)化器加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程,CNN的模型參數(shù)包括批尺寸(Batch_size)為4,隨機(jī)失活率(Dropout)為0.5,學(xué)習(xí)率(Learning_rate)為3×10-5,激活函數(shù)為ReLU。

        3.4 結(jié)果與分析

        本文模型在測(cè)試集上各個(gè)類(lèi)別和平均的精確率、召回率和Micro-F1值如表3所示。為了驗(yàn)證本文模型融合多尺度CNN的有效性,開(kāi)展僅使用BERT的多標(biāo)簽分類(lèi)實(shí)驗(yàn),將文本輸入BERT模型中,經(jīng)全連接層映射到標(biāo)簽維度,通過(guò)Sigmoid分別對(duì)每個(gè)維度計(jì)算所有標(biāo)簽的分布,并與BERT-CNN的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。

        表3 多標(biāo)簽分類(lèi)的實(shí)驗(yàn)結(jié)果比較

        實(shí)驗(yàn)結(jié)果表明,本文提出的BERT-多尺度CNN模型,由于融合了Text Inception多尺度、多通道、更深層的卷積特性,相比于僅使用BERT的分類(lèi)模型,能夠有效獲得不同尺度語(yǔ)句的特征,在平均精確率、召回率、Micro-F1值3個(gè)指標(biāo)上分別取得了75.33%、69.12%、72.09%的效果,都要優(yōu)于單一BERT模型,且平均召回率提升了17.28%,Micro-F1值提升了11.15%,因此BERT-多尺度CNN模型提升了多標(biāo)簽分類(lèi)模型的整體性能。

        通過(guò)對(duì)比模型在各個(gè)類(lèi)上的結(jié)果,除“項(xiàng)目計(jì)劃”類(lèi)外,BERT-多尺度CNN模型在其他所有類(lèi)別上的Micro-F1值均高于單一BERT模型,其中有超過(guò)一半的分類(lèi)標(biāo)簽提升幅度超過(guò)了10%。BERT-多尺度CNN模型顯著提升了一些樣本量偏少的類(lèi)別Micro-F1值,例如提升幅度前兩位的“政府采購(gòu)”類(lèi)(35.18%)和“貿(mào)易協(xié)定”類(lèi)(31.02%),由于在一定程度上解決了因樣本量少所造成的特征提取不充分的問(wèn)題,因此該模型能夠彌補(bǔ)多標(biāo)簽數(shù)據(jù)分布不均的缺點(diǎn)。

        對(duì)于“項(xiàng)目計(jì)劃”這樣錯(cuò)誤較多且提升效果不理想的類(lèi),通過(guò)深入分析其對(duì)應(yīng)的樣本數(shù)據(jù),發(fā)現(xiàn)這些類(lèi)的標(biāo)注數(shù)據(jù)中多標(biāo)簽樣本較少,可能由于人工標(biāo)注語(yǔ)料的問(wèn)題,機(jī)器未能充分學(xué)習(xí)到這類(lèi)語(yǔ)句的多維度特征,未來(lái)可通過(guò)提高多標(biāo)簽標(biāo)注數(shù)據(jù)的質(zhì)量來(lái)改善分類(lèi)性能。此外,在模型的多標(biāo)簽分類(lèi)層,本文以概率是否大于0.5為依據(jù)來(lái)判斷語(yǔ)句是否屬于該標(biāo)簽,這種判別方法本身就存在較大的誤差,未來(lái)將探索判別方法的改進(jìn)來(lái)提高分類(lèi)的準(zhǔn)確率。

        4 總結(jié)與展望

        本文面向當(dāng)前科技政策文本內(nèi)容的自動(dòng)編碼與多領(lǐng)域分類(lèi)的需求,針對(duì)科技政策內(nèi)容句具有信息密度大、涉及主題多、內(nèi)涵分布不均衡等特點(diǎn),提出了一種融合BERT與多尺度CNN的多標(biāo)簽文本分類(lèi)方法。本文依據(jù)政策工具理論建立科技政策類(lèi)別體系,構(gòu)建的多標(biāo)簽分類(lèi)模型結(jié)合了BERT和多尺度CNN的優(yōu)點(diǎn),通過(guò)捕獲文本的局部特征與組合不同尺度的語(yǔ)句特征得到更加豐富的語(yǔ)義特征信息,從而提升模型在多標(biāo)簽分類(lèi)任務(wù)上的性能。實(shí)驗(yàn)結(jié)果表明,該模型與單一BERT分類(lèi)模型相比效果顯著提升,為科技政策內(nèi)容句的自動(dòng)分類(lèi)編碼工作提供了參考。

        利用本文提出的自動(dòng)分類(lèi)方法,可將科技政策內(nèi)容中有決策價(jià)值的信息快速轉(zhuǎn)化為定量數(shù)據(jù),幫助決策者從政策工具視角把握政策體系結(jié)構(gòu)?;诳萍颊邇?nèi)容的多標(biāo)簽分類(lèi)結(jié)果,實(shí)現(xiàn)不同政策工具視角的交叉與關(guān)聯(lián),反映了該政策信息在科技政策體系的空間定位,便于根據(jù)不同決策任務(wù)從不同維度對(duì)科技政策措施進(jìn)行分類(lèi)匯總,為支撐科技決策服務(wù)提供覆蓋科技創(chuàng)新重點(diǎn)領(lǐng)域的政策數(shù)據(jù)資源。在未來(lái)工作中,將通過(guò)繼續(xù)收集與遴選國(guó)家和地方各級(jí)政策文本,擴(kuò)大政策分類(lèi)數(shù)據(jù)集規(guī)模,針對(duì)當(dāng)前樣本數(shù)據(jù)較少的類(lèi)別增加訓(xùn)練樣本數(shù)量,進(jìn)一步提高政策分類(lèi)效果;另外,通過(guò)引入實(shí)體識(shí)別、知識(shí)圖譜等技術(shù),結(jié)合抽取到的科技創(chuàng)新主體、活動(dòng)、條件等其他實(shí)體,進(jìn)一步豐富科技政策內(nèi)容的描述維度,能夠從更多視角對(duì)政策數(shù)據(jù)進(jìn)行組織管理。

        猜你喜歡
        尺度標(biāo)簽語(yǔ)義
        財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
        語(yǔ)言與語(yǔ)義
        無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車(chē)迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        標(biāo)簽化傷害了誰(shuí)
        基于多進(jìn)制查詢(xún)樹(shù)的多標(biāo)簽識(shí)別方法
        認(rèn)知范疇模糊與語(yǔ)義模糊
        9
        国产精品自在线拍国产手机版| 看全色黄大色大片免费久久久 | 色偷偷久久一区二区三区| 国产精品久久1024| 国产免费网站看v片元遮挡| 亚洲精品成人国产av| 日韩人妻有码中文字幕| 中文字幕丰满人妻被公强| 涩涩鲁精品亚洲一区二区| 国产一区二区三区在线蜜桃| 亚洲av永久无码精品一福利| 欧美丰满熟妇bbbbbb| 男同gay毛片免费可播放| 欧美疯狂性xxxxxbbbbb| 国产一区二区三区爆白浆| 女同性恋一区二区三区四区| 国产高清精品一区二区| 日本动漫瀑乳h动漫啪啪免费| 亚洲中文字幕无码av| 少妇人妻真实偷人精品视频| 国产午夜亚洲精品不卡福利| 免费高清日本中文| 国产av区亚洲av毛片| 久久亚洲精品国产av| 久久伊人少妇熟女大香线蕉| 免费人成视频在线观看网站| 97色噜噜| 久久精品无码一区二区三区不卡| 青青草视频在线免费观看91| 青青草免费在线爽视频| 亚洲精品国偷拍自产在线观看 | 国产精品入口蜜桃人妻| 亚洲另类国产精品中文字幕| 久久久黄色大片免费看| 青春草在线视频观看| 99精品国产丝袜在线拍国语| 欧美性受xxxx白人性爽| 人妻丰满熟妇AV无码片| 久久天堂av综合合色| 91盗摄偷拍一区二区三区| 免费av网站大全亚洲一区|