亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語(yǔ)義增強(qiáng)的多策略政策術(shù)語(yǔ)抽取系統(tǒng)①

        2022-09-20 04:11:04曹秀娟馬志柔張慶文
        關(guān)鍵詞:語(yǔ)義特征文本

        曹秀娟, 馬志柔, 朱 濤, 張慶文, 楊 燕, 葉 丹

        1(廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院, 南寧 530004)

        2(中國(guó)科學(xué)院 軟件研究所 軟件工程技術(shù)研究開(kāi)發(fā)中心, 北京 100190)

        3(政和科技股份有限公司, 濟(jì)南 250000)

        政策文本是用來(lái)記錄政策活動(dòng)而產(chǎn)生的過(guò)程性文件, 是政策服務(wù)研究的重要載體和依據(jù), 包括通知、公告、意見(jiàn)、批復(fù)等公文類別. 目前, 政府與企業(yè)之間在政策服務(wù)上存在著一定的壁壘, 一方面企業(yè)無(wú)法及時(shí)解讀相關(guān)政策, 不能及時(shí)享受政府補(bǔ)貼; 另一方面, 政府無(wú)法及時(shí)了解政策發(fā)布的受益面及其所發(fā)揮的作用,而政策文本分析在政策解讀、政企協(xié)同、企業(yè)決策和成果轉(zhuǎn)化等政策服務(wù)方面具有非常重要的現(xiàn)實(shí)意義.由于政策術(shù)語(yǔ)新詞的大量出現(xiàn), 使得政策領(lǐng)域的分詞不準(zhǔn)確, 嚴(yán)重影響了對(duì)政策文本的解讀[1], 政策術(shù)語(yǔ)抽取成為了解決這一難題的當(dāng)務(wù)之急. 政策術(shù)語(yǔ)具有時(shí)效性、低頻度、稀疏性和復(fù)合短語(yǔ)的特點(diǎn), 難以用頻繁模式和序列標(biāo)注的方法直接抽取, 多由領(lǐng)域?qū)<沂止こ槿?

        為了實(shí)現(xiàn)半自動(dòng)化的政策術(shù)語(yǔ)抽取, 本文設(shè)計(jì)了語(yǔ)義增強(qiáng)的多策略政策術(shù)語(yǔ)抽取系統(tǒng), 該系統(tǒng)融合頻數(shù)、自由度、凝固度等多種策略, 獲得包含政策結(jié)構(gòu)信息的術(shù)語(yǔ)新詞; 并利用預(yù)訓(xùn)練語(yǔ)言模型增強(qiáng)語(yǔ)義相似度匹配來(lái)召回包含政策語(yǔ)義信息的術(shù)語(yǔ)新詞, 結(jié)合兩者信息來(lái)生成政策術(shù)語(yǔ)詞庫(kù)并可對(duì)其迭代更新, 切實(shí)解決了人工抽取政策術(shù)語(yǔ)的困難.

        1 相關(guān)工作

        隨著大數(shù)據(jù)和人工智能時(shí)代的到來(lái), 自動(dòng)術(shù)語(yǔ)抽取技術(shù)作為實(shí)現(xiàn)領(lǐng)域術(shù)語(yǔ)抽取系統(tǒng)的關(guān)鍵技術(shù), 受到了廣泛的關(guān)注和研究. 解決自動(dòng)術(shù)語(yǔ)抽取的主流方法主要有3大類: 基于語(yǔ)言學(xué)方法、基于統(tǒng)計(jì)學(xué)方法、基于深度學(xué)習(xí)方法.

        1.1 基于語(yǔ)言學(xué)方法的術(shù)語(yǔ)抽取

        基于語(yǔ)言學(xué)方法的術(shù)語(yǔ)抽取根據(jù)領(lǐng)域術(shù)語(yǔ)的語(yǔ)言特征規(guī)則, 或與詞典中的術(shù)語(yǔ)相匹配. 首先將文本進(jìn)行分詞和詞性標(biāo)注, 然后對(duì)比分詞結(jié)果和詞法規(guī)則, 匹配一致的內(nèi)容為候選術(shù)語(yǔ). 研究者主要通過(guò)對(duì)行業(yè)領(lǐng)域術(shù)語(yǔ)的構(gòu)詞模式進(jìn)行分析, 實(shí)現(xiàn)不同領(lǐng)域的術(shù)語(yǔ)抽取.曾浩等人[2]制定了4條擴(kuò)展規(guī)則并結(jié)合統(tǒng)計(jì)特征進(jìn)行術(shù)語(yǔ)抽取. 趙志濱等人[3]運(yùn)用句法分析和詞向量技術(shù)對(duì)新詞發(fā)現(xiàn)進(jìn)行研究, 在護(hù)膚品論壇的真實(shí)文本數(shù)據(jù)集上取得了較好的效果. Kafando等人[4]結(jié)合統(tǒng)計(jì)特征和語(yǔ)言學(xué)定性定量規(guī)則分析, 利用BioTex工具抽取生物醫(yī)學(xué)領(lǐng)域組合術(shù)語(yǔ). 基于語(yǔ)言學(xué)方法的術(shù)語(yǔ)抽取需要領(lǐng)域?qū)<业闹R(shí)背景進(jìn)行支撐及維護(hù), 無(wú)法完成領(lǐng)域遷移.

        1.2 基于統(tǒng)計(jì)學(xué)方法的術(shù)語(yǔ)抽取

        基于統(tǒng)計(jì)學(xué)方法的術(shù)語(yǔ)抽取主要采用N-Gram統(tǒng)計(jì)語(yǔ)言模型建模, 結(jié)合擴(kuò)展統(tǒng)計(jì)特征對(duì)術(shù)語(yǔ)進(jìn)行抽取.常見(jiàn)的統(tǒng)計(jì)特征主要有詞頻數(shù)(TF)、凝固度(PMI)、自由度(DF)和C-value等. 目前應(yīng)用統(tǒng)計(jì)學(xué)方法進(jìn)行術(shù)語(yǔ)抽取具有較多工作. Chen等人[5]為有效地確定專利領(lǐng)域新詞的邊界, 引入二元詞的雙向條件概率信息,提取專利領(lǐng)域長(zhǎng)詞. 王煜等人[6]利用改進(jìn)的頻繁模式樹(shù)算法, 結(jié)合DF、PMI和時(shí)間特征, 對(duì)網(wǎng)絡(luò)新聞熱點(diǎn)新詞進(jìn)行了有效識(shí)別. Li等人[7]改進(jìn)PMI并結(jié)合DF特征自動(dòng)抽取未登錄詞. 陳先來(lái)等人[8]采用融入邏輯回歸的凝固度模型提取新詞, 有效地提高了電子病歷文本數(shù)據(jù)分詞準(zhǔn)確率. 基于統(tǒng)計(jì)學(xué)方法的術(shù)語(yǔ)抽取能抽取到高頻且高質(zhì)量的術(shù)語(yǔ), 無(wú)法抽取低頻且稀疏的術(shù)語(yǔ).

        1.3 基于深度學(xué)習(xí)方法的術(shù)語(yǔ)抽取

        隨著機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)的發(fā)展, 推動(dòng)術(shù)語(yǔ)抽取研究產(chǎn)生了各類模型和方法的領(lǐng)域應(yīng)用. Chen等人[9]采用統(tǒng)計(jì)特征提取候選術(shù)語(yǔ), 利用CNN模型生成消費(fèi)品缺陷領(lǐng)域詞典. 基于術(shù)語(yǔ)語(yǔ)義相關(guān)性的思想, 張一帆等人[10]使用TextRank抽取領(lǐng)域種子詞典, 而后計(jì)算候選術(shù)語(yǔ)與種子集的余弦相似度進(jìn)行術(shù)語(yǔ)抽取.Qian等人[11]使用包含詞語(yǔ)信息的Word2Vec詞向量對(duì)N-Gram頻繁字符串候選詞組進(jìn)行剪枝, 無(wú)監(jiān)督地進(jìn)行術(shù)語(yǔ)抽取, 但其并未考慮中文詞語(yǔ)的一詞多義問(wèn)題. 張樂(lè)等人[12]提出將漢字筆畫(huà)知識(shí)和知網(wǎng)中的義原知識(shí)引入Word2Vec詞向量訓(xùn)練, 從而獲得多語(yǔ)義詞向量, 但其針對(duì)社交媒體領(lǐng)域. 近年來(lái), 預(yù)訓(xùn)練語(yǔ)言模型BERT提出后, 在術(shù)語(yǔ)抽取上得到了廣泛應(yīng)用, Choi等人[13]將統(tǒng)計(jì)特征TF-IDF與FastText和BERT模型結(jié)合, 實(shí)現(xiàn)了韓文語(yǔ)料的自動(dòng)術(shù)語(yǔ)抽取.

        上述研究表明, 單一的方法均無(wú)法達(dá)到最佳的術(shù)語(yǔ)抽取效果, 基于統(tǒng)計(jì)學(xué)方法抽取的候選術(shù)語(yǔ)仍需進(jìn)行停用詞過(guò)濾和對(duì)應(yīng)領(lǐng)域的語(yǔ)言規(guī)則過(guò)濾, 基于深度學(xué)習(xí)的方法需要海量的標(biāo)注數(shù)據(jù)來(lái)訓(xùn)練模型, 對(duì)分布稀疏的政策術(shù)語(yǔ)來(lái)說(shuō), 難以達(dá)到抽取效果. 因此, 本文考慮引入預(yù)訓(xùn)練語(yǔ)言模型來(lái)增強(qiáng)語(yǔ)義, 并融合多策略頻繁模式來(lái)提高政策術(shù)語(yǔ)抽取效果, 實(shí)現(xiàn)政策術(shù)語(yǔ)的半自動(dòng)化抽取.

        2 關(guān)鍵技術(shù)研究

        政策術(shù)語(yǔ)抽取系統(tǒng)的半自動(dòng)化實(shí)現(xiàn), 其關(guān)鍵技術(shù)是如何利用人工智能和自然語(yǔ)言處理技術(shù), 嘗試將自動(dòng)術(shù)語(yǔ)抽取與語(yǔ)義知識(shí)相結(jié)合, 高效地構(gòu)建政策領(lǐng)域術(shù)語(yǔ)詞典, 有效提升政策術(shù)語(yǔ)抽取的效果.

        通常政策文本術(shù)語(yǔ)抽取示例如表1所示.

        由表1可知, 政策術(shù)語(yǔ)有如下的特點(diǎn): 1) 復(fù)合短語(yǔ): 由多個(gè)詞語(yǔ)嵌套、復(fù)合、派生組成的固定短語(yǔ);2) 詞性分布: 多為名詞性短語(yǔ)或動(dòng)名詞性短語(yǔ); 3) 長(zhǎng)度分布: 長(zhǎng)度分布于4至15字詞之間; 4) 低頻度: 出現(xiàn)的頻次普遍不高; 5) 時(shí)效性: 政策術(shù)語(yǔ)隨著時(shí)間的推移會(huì)不斷更新.

        表1 政策文本術(shù)語(yǔ)抽取示例

        針對(duì)低頻且稀疏的政策術(shù)語(yǔ)抽取難的問(wèn)題, 本文提出了一種零樣本語(yǔ)義增強(qiáng)的多策略政策術(shù)語(yǔ)抽取方法來(lái)實(shí)現(xiàn)系統(tǒng), 包括多策略頻繁模式抽取算法和語(yǔ)義增強(qiáng)抽取算法.

        2.1 多策略頻繁模式抽取算法

        肖仰華等人[14]指出衡量一個(gè)術(shù)語(yǔ)的質(zhì)量, 主要考慮4個(gè)方面: 高頻率、一致性、信息量和完整性. 高頻率主要指術(shù)語(yǔ)應(yīng)該在給定文檔中出現(xiàn)足夠頻繁; 一致性是指術(shù)語(yǔ)和不同詞之間的搭配是否合理或是否常見(jiàn);信息量主要考慮術(shù)語(yǔ)傳達(dá)的信息, 其應(yīng)當(dāng)表達(dá)一定的主題或者概念; 完整性主要指術(shù)語(yǔ)在特定上下文中是一個(gè)完整的語(yǔ)義單元. 凝固度衡量文本片段中字與字之間的緊密程度, 即術(shù)語(yǔ)的一致性; 自由度衡量一個(gè)文本片段左右兩側(cè)字符組合的豐富度, 即術(shù)語(yǔ)的完整性;C-value衡量候選短語(yǔ)質(zhì)量即術(shù)語(yǔ)的信息量, 通過(guò)有效校正父子嵌套短語(yǔ)重復(fù)統(tǒng)計(jì)帶來(lái)的頻次估計(jì)的偏差,提取多詞嵌套的長(zhǎng)政策術(shù)語(yǔ).

        為了抽取政策文本中內(nèi)部凝結(jié)緊且外部組合自由度高的政策術(shù)語(yǔ), 設(shè)計(jì)了一種多策略頻繁模式抽取算法. 該算法以N-Gram統(tǒng)計(jì)語(yǔ)言模型為基礎(chǔ), 采用綜合詞頻、自由度、凝固度和C-value特征各自優(yōu)勢(shì)的指標(biāo)FPDC來(lái)衡量術(shù)語(yǔ), 結(jié)合停用詞和常用詞前后綴搭配規(guī)則過(guò)濾術(shù)語(yǔ). 算法步驟如下:

        Step 1. 文本預(yù)處理. 對(duì)文本進(jìn)行預(yù)處理, 刪除政策文本中的郵箱、電話號(hào)碼、手機(jī)號(hào)碼、日期、網(wǎng)址等,置換標(biāo)點(diǎn)符號(hào)為空格.

        Step 2. 候選短語(yǔ)生成. 基于N-Gram統(tǒng)計(jì)語(yǔ)言模型對(duì)文本語(yǔ)料進(jìn)行統(tǒng)計(jì), 過(guò)濾詞長(zhǎng)閾值以下的文本片段, 得到候選文本片段.

        Step 3. 術(shù)語(yǔ)質(zhì)量評(píng)分. 首先對(duì)各候選文本片段計(jì)算詞頻tf、凝固度pmi、自由度df和C-value值cval,然后對(duì)各特征進(jìn)行Sigmoid函數(shù)歸一化, 最后融合各特征值計(jì)算指標(biāo)FPDC, 初始化為每個(gè)特征平均分配權(quán)重, 考慮到政策領(lǐng)域多詞嵌套的中心詞, 對(duì)詞頻進(jìn)行了0.15的懲罰, 對(duì)C-value進(jìn)行了0.15的獎(jiǎng)勵(lì), 如式(1)所示. 根據(jù)閾值篩選, 得到候選政策術(shù)語(yǔ).

        其中, c1···cn表示多個(gè)字構(gòu)成的候選文本片段.

        Step 4. 語(yǔ)言規(guī)則過(guò)濾. 對(duì)候選政策術(shù)語(yǔ)進(jìn)行停用詞過(guò)濾和常用詞作為前后綴的語(yǔ)言學(xué)規(guī)則過(guò)濾.

        Step 5. 結(jié)果排序輸出. 按照FPDC指標(biāo)由高到低排序, 輸出政策術(shù)語(yǔ)抽取結(jié)果.

        2.2 語(yǔ)義增強(qiáng)抽取算法

        在零樣本無(wú)監(jiān)督挖掘情況下, 多策略算法可以抽取到大量頻繁、高質(zhì)量的政策術(shù)語(yǔ), 但針對(duì)低頻、稀疏的政策術(shù)語(yǔ)抽取效果仍不夠好. 引入預(yù)訓(xùn)練語(yǔ)言模型來(lái)增強(qiáng)政策領(lǐng)域術(shù)語(yǔ)語(yǔ)義特征匹配, 在多策略算法的基礎(chǔ)上, 設(shè)計(jì)了語(yǔ)義增強(qiáng)抽取算法來(lái)召回低頻術(shù)語(yǔ)新詞. 語(yǔ)義增強(qiáng)抽取算法流程如下所示:

        Step 1. 候選術(shù)語(yǔ)生成. 將現(xiàn)有詞庫(kù)中的政策術(shù)語(yǔ)ngrams_dict和文本語(yǔ)料特征詞集合ngrams_fw特征詞計(jì)算歸一化的C-value指標(biāo), 更新父子嵌套類型術(shù)語(yǔ)的FPDC值, 將其作為Jieba分詞的自定義詞典, 對(duì)原始語(yǔ)料重新分詞, 過(guò)濾不符合詞長(zhǎng)和詞語(yǔ)頻數(shù)要求的文本片段作為候選術(shù)語(yǔ).

        Step 2. 語(yǔ)義向量生成. 從ngrams_fw特征詞中選取FPDC排序前20%的特征詞作為種子詞, 采用RoBERTa預(yù)訓(xùn)練語(yǔ)言模型[15]對(duì)候選術(shù)語(yǔ)和種子詞語(yǔ)義特征向量化, 得出每個(gè)候選術(shù)語(yǔ)和種子詞的語(yǔ)義特征向量表示.

        Step 3. 語(yǔ)義相似度計(jì)算. 從每個(gè)種子詞出發(fā), 計(jì)算每個(gè)種子詞和所有候選術(shù)語(yǔ)的語(yǔ)義向量的歸一化歐式距離相似度. 歐氏距離計(jì)算結(jié)果受到向量長(zhǎng)度以及向量維度的影響, 取值范圍不固定, 采用L2-norm對(duì)候選術(shù)語(yǔ)和種子詞的語(yǔ)義特征向量標(biāo)準(zhǔn)化. 假設(shè)X是n維的語(yǔ)義特征向量 X=(x1,x2,x3,···,xn), 則向量X的L2標(biāo)準(zhǔn)化公式如下:

        向量X和向量Y的歸一化歐式距離計(jì)算公式如下:

        Step 4. 語(yǔ)義特征相似度匹配. 遍歷每個(gè)特征種子詞, 找到與每個(gè)特征詞相似度最大的候選術(shù)語(yǔ), 當(dāng)相似度大于設(shè)定閾值時(shí)認(rèn)為該候選術(shù)語(yǔ)與種子詞相似, 將候選術(shù)語(yǔ)加入結(jié)果術(shù)語(yǔ)集合; 考慮到候選術(shù)語(yǔ)之間的連通性, 對(duì)相似度閾值進(jìn)行指數(shù)衰減法來(lái)將詞與詞分開(kāi). 設(shè)定最小相似度閾值為MinSim, 閾值將隨著詞連通個(gè)數(shù)增大, 指數(shù)衰減法公式如下:

        其中, α為衰減因子, i dx 表示種子詞的序號(hào).

        Step 5. 結(jié)果排序輸出. 通過(guò)每個(gè)特征種子詞與候選術(shù)語(yǔ)的語(yǔ)義特征相似度匹配, 得到相似度匹配結(jié)果,根據(jù)相似度由高到低排序, 輸出最終的政策術(shù)語(yǔ)抽取結(jié)果, 并對(duì)詞庫(kù)進(jìn)行了更新.

        3 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

        3.1 系統(tǒng)架構(gòu)設(shè)計(jì)

        為了解決人工抽取政策術(shù)語(yǔ)的問(wèn)題, 本文設(shè)計(jì)了一套語(yǔ)義增強(qiáng)的多策略政策術(shù)語(yǔ)抽取系統(tǒng). 系統(tǒng)的組織架構(gòu)如圖1所示, 分為數(shù)據(jù)層、模型層、服務(wù)層和應(yīng)用層.

        圖1 系統(tǒng)架構(gòu)圖

        (1) 數(shù)據(jù)層

        數(shù)據(jù)層包括系統(tǒng)中模型使用的停用詞庫(kù)、噪聲詞規(guī)則庫(kù)和政策術(shù)語(yǔ)詞庫(kù).

        停用詞庫(kù)用于過(guò)濾術(shù)語(yǔ)抽取結(jié)果中的垃圾串, 即如果候選術(shù)語(yǔ)中的任意一個(gè)子串包含在停用詞庫(kù)中,則丟棄該候選術(shù)語(yǔ). 該詞庫(kù)初始化為通用的停用詞庫(kù).

        噪聲詞規(guī)則庫(kù)用于過(guò)濾前后綴為常用詞的候選術(shù)語(yǔ). 該規(guī)則庫(kù)中初始化為常與政策術(shù)語(yǔ)作為前后綴進(jìn)行搭配的模式, 如“采用#”“提供#”“#與”和“#如下”等,“#”與常用詞結(jié)合的位置代表該常用詞作為候選政策術(shù)語(yǔ)的前綴或者后綴.

        政策術(shù)語(yǔ)詞庫(kù)用于保存政策術(shù)語(yǔ)抽取結(jié)果. 詞庫(kù)中包含政策術(shù)語(yǔ)、術(shù)語(yǔ)頻次、術(shù)語(yǔ)詞性、術(shù)語(yǔ)類別等信息. 系統(tǒng)提供了對(duì)于詞庫(kù)的增、刪、改、查和詞庫(kù)統(tǒng)計(jì)信息可視化. 詞庫(kù)初始化為空, 通過(guò)設(shè)定或調(diào)整特征指標(biāo)FPDC閾值, 由系統(tǒng)從候選術(shù)語(yǔ)列表中批量增加或更新術(shù)語(yǔ)詞庫(kù).

        (2) 模型層

        模型層是術(shù)語(yǔ)抽取系統(tǒng)所使用的核心模型, 為多策略冷啟動(dòng)服務(wù)和語(yǔ)義增強(qiáng)熱啟動(dòng)服務(wù)提供模型支持, 包括N-Gram統(tǒng)計(jì)語(yǔ)言模型、統(tǒng)計(jì)特征過(guò)濾模型、語(yǔ)言規(guī)則模型、特征種子集生成模型、語(yǔ)義特征表示模型和相似度匹配模型. 以下對(duì)各個(gè)模型的作用進(jìn)行簡(jiǎn)要介紹.

        N-Gram統(tǒng)計(jì)語(yǔ)言模型為初始文本片段生成模型.模型對(duì)文本語(yǔ)料進(jìn)行長(zhǎng)度為1到n的滑動(dòng)窗口操作,形成長(zhǎng)度為1到n的字符片段序列, 按給定的詞長(zhǎng)閾值過(guò)濾字符片段序列, 得到候選文本片段集合.

        統(tǒng)計(jì)特征過(guò)濾模型接收N-Gram模型的輸出, 對(duì)候選文本片段進(jìn)行TF、PMI、DF、C-value特征的統(tǒng)計(jì), 計(jì)算術(shù)語(yǔ)特征融合指標(biāo)FPDC, 按設(shè)定閾值過(guò)濾,輸出高于閾值的候選政策術(shù)語(yǔ).

        語(yǔ)言規(guī)則模型對(duì)候選政策術(shù)語(yǔ)進(jìn)行噪聲過(guò)濾, 分為停用詞庫(kù)過(guò)濾和噪聲詞規(guī)則庫(kù)過(guò)濾, 輸出去噪后的候選政策術(shù)語(yǔ).

        特征種子集生成模型主要生成語(yǔ)料的政策術(shù)語(yǔ)特征種子集. 模型根據(jù)候選術(shù)語(yǔ)和已有政策術(shù)語(yǔ)詞庫(kù)的FPDC值計(jì)算C-value進(jìn)行更新, 選取FPDC值排序前20%的候選術(shù)語(yǔ), 輸出為語(yǔ)料特征種子集.

        語(yǔ)義特征表示模型主要生成候選術(shù)語(yǔ)和特征種子詞的語(yǔ)義特征表示. 模型對(duì)所有候選術(shù)語(yǔ)和特征種子詞利用中文預(yù)訓(xùn)練語(yǔ)言模型生成相應(yīng)的語(yǔ)義特征向量,并對(duì)語(yǔ)義特征向量進(jìn)行L2標(biāo)準(zhǔn)化.

        相似度匹配模型主要利用候選術(shù)語(yǔ)和特征種子詞的相似度挖掘低頻且稀疏的政策術(shù)語(yǔ). 模型遍歷語(yǔ)料特征種子集中的每個(gè)特征種子詞, 計(jì)算所有候選術(shù)語(yǔ)與該詞的語(yǔ)義向量的歸一化歐式距離相似度, 根據(jù)指數(shù)衰減的相似度閾值進(jìn)行連通性匹配, 輸出最終抽取的政策術(shù)語(yǔ)結(jié)果.

        (3) 服務(wù)層

        針對(duì)零樣本的術(shù)語(yǔ)抽取需求, 提供了多策略冷啟動(dòng)服務(wù)和語(yǔ)義增強(qiáng)熱啟動(dòng)服務(wù), 即分別集成了多策略頻繁模式算法和語(yǔ)義增強(qiáng)的多策略術(shù)語(yǔ)抽取算法, 為兩種算法提供RESTful API訪問(wèn)接口.

        多策略冷啟動(dòng)服務(wù)提供無(wú)詞庫(kù)支持的多策略政策術(shù)語(yǔ)抽取服務(wù), 模型使用第2.1節(jié)介紹的算法. 通過(guò)設(shè)定術(shù)語(yǔ)TF閾值、術(shù)語(yǔ)長(zhǎng)度閾值、術(shù)語(yǔ)PMI閾值、術(shù)語(yǔ)DF閾值、C-value閾值以及是否進(jìn)行語(yǔ)言規(guī)則過(guò)濾, 先利用N-Gram統(tǒng)計(jì)語(yǔ)言模型從政策文本中抽取候選文本片段, 接著基于統(tǒng)計(jì)特征過(guò)濾模型和語(yǔ)言規(guī)則模型進(jìn)行候選文本片段分析與過(guò)濾, 最后排序輸出冷啟動(dòng)抽取結(jié)果.

        語(yǔ)義增強(qiáng)熱啟動(dòng)服務(wù)提供有詞庫(kù)支持的語(yǔ)義增強(qiáng)政策術(shù)語(yǔ)抽取服務(wù), 模型使用第2.2節(jié)介紹的算法. 冷啟動(dòng)服務(wù)得到的抽取結(jié)果存在一定的不足, 一方面抽取術(shù)語(yǔ)中帶有噪聲詞匯, 一方面遺漏了低頻數(shù)據(jù). 在冷啟動(dòng)術(shù)語(yǔ)抽取結(jié)果的基礎(chǔ)上, 先利用特征種子集生成模型得到語(yǔ)料特征種子集, 接著依次使用語(yǔ)義特征表示模型和相似度匹配模型去除已抽取噪聲詞和召回未登錄低頻詞, 最后排序輸出熱啟動(dòng)抽取結(jié)果.

        (4) 應(yīng)用層

        應(yīng)用層提供零樣本條件下的交互式政策術(shù)語(yǔ)抽取構(gòu)建詞庫(kù)的功能, 按照術(shù)語(yǔ)抽取的使用場(chǎng)景不同, 分為單篇政策文本術(shù)語(yǔ)抽取和多篇政策文本術(shù)語(yǔ)抽取兩個(gè)場(chǎng)景, 提供政策術(shù)語(yǔ)詞庫(kù)的維護(hù)管理, 包括增加、刪除、修改、查詢等交互功能, 以及統(tǒng)計(jì)可視化功能.

        在單篇政策文本術(shù)語(yǔ)抽取場(chǎng)景下, 用戶可設(shè)定和調(diào)整政策術(shù)語(yǔ)抽取參數(shù)(術(shù)語(yǔ)TF閾值、術(shù)語(yǔ)長(zhǎng)度閾值、術(shù)語(yǔ)PMI閾值、術(shù)語(yǔ)DF閾值、C-value閾值以及是否進(jìn)行語(yǔ)言規(guī)則過(guò)濾、是否加入當(dāng)前詞庫(kù)和相似度閾值)實(shí)現(xiàn)從無(wú)詞庫(kù)冷啟動(dòng)到有詞庫(kù)熱啟動(dòng)半自動(dòng)化的政策術(shù)語(yǔ)抽取.

        在多篇政策文本術(shù)語(yǔ)抽取場(chǎng)景下, 與單篇政策文本術(shù)語(yǔ)抽取不同之處在于, 抽取時(shí)不僅要考慮候選政策術(shù)語(yǔ)在單篇語(yǔ)料中的局部特征, 而且還需考慮其在多篇語(yǔ)料中的全局統(tǒng)計(jì)特征, 實(shí)現(xiàn)對(duì)某類政策文本的全局政策術(shù)語(yǔ)抽取.

        系統(tǒng)整體流程如圖2所示.

        圖2 語(yǔ)義增強(qiáng)的多策略政策術(shù)語(yǔ)抽取流程圖

        3.2 系統(tǒng)實(shí)現(xiàn)與展示

        系統(tǒng)實(shí)現(xiàn)采用Python語(yǔ)言作為程序開(kāi)發(fā)語(yǔ)言, 選用具有強(qiáng)擴(kuò)展性和兼容性的Flask框架作為Web服務(wù)框架, 以Keras框架作為快速加載預(yù)訓(xùn)練語(yǔ)言模型的深度學(xué)習(xí)框架. 系統(tǒng)展示如圖3所示.

        圖3 系統(tǒng)界面效果圖

        系統(tǒng)包括政策術(shù)語(yǔ)詞庫(kù)統(tǒng)計(jì)、政策術(shù)語(yǔ)詞庫(kù)管理和政策術(shù)語(yǔ)抽取3大功能模塊. 系統(tǒng)首頁(yè)為政策術(shù)語(yǔ)詞庫(kù)統(tǒng)計(jì)模塊, 包括政策術(shù)語(yǔ)詞庫(kù)中政策術(shù)語(yǔ)總數(shù)、政策術(shù)語(yǔ)長(zhǎng)度分布、政策術(shù)語(yǔ)類型分布、政策術(shù)語(yǔ)詞性分布、政策術(shù)語(yǔ)頻數(shù)分布. 政策術(shù)語(yǔ)詞庫(kù)管理模塊提供了對(duì)政策術(shù)語(yǔ)詞庫(kù)的增、刪、改、查. 政策術(shù)語(yǔ)抽取模塊, 分為單篇政策文本術(shù)語(yǔ)抽取和多篇政策文本術(shù)語(yǔ)抽取兩部分.

        4 應(yīng)用與結(jié)果分析

        本系統(tǒng)在某公司政務(wù)通平臺(tái)進(jìn)行術(shù)語(yǔ)抽取應(yīng)用驗(yàn)證, 選取數(shù)據(jù)集為1 942篇來(lái)自各省、直轄市或以上行政級(jí)別政府單位所公布的政策文本, 由業(yè)務(wù)人員判斷抽取的術(shù)語(yǔ)是否有用. 抽取效果評(píng)價(jià)指標(biāo)如下:

        (1) 術(shù)語(yǔ)抽取準(zhǔn)確率

        (2) 術(shù)語(yǔ)抽取召回率

        (3) F1值

        4.1 系統(tǒng)方法可行性分析

        為了說(shuō)明系統(tǒng)抽取方法的必要性和可行性, 設(shè)計(jì)了消融實(shí)驗(yàn)探究各個(gè)特定模塊對(duì)抽取結(jié)果的影響, 得出了如表2所示的實(shí)驗(yàn)結(jié)果.

        由表2可知語(yǔ)義增強(qiáng)的多策略算法取得了最好的政策術(shù)語(yǔ)抽取效果, 移除了語(yǔ)義增強(qiáng)、凝固度、自由度、規(guī)則過(guò)濾和C-value特征中的任一策略都使得政策術(shù)語(yǔ)抽取效果變差.

        表2 1 940篇政策文本術(shù)語(yǔ)抽取效果(%)

        4.2 系統(tǒng)結(jié)果有效性分析

        為了說(shuō)明系統(tǒng)抽取結(jié)果的可用性和有效性, 對(duì)驗(yàn)證數(shù)據(jù)集抽取的3 436條術(shù)語(yǔ)進(jìn)行統(tǒng)計(jì)分析, 詞庫(kù)中的低頻長(zhǎng)詞占比為55%, 通過(guò)普通的術(shù)語(yǔ)抽取方法難以抽取得到. 系統(tǒng)抽取的政策術(shù)語(yǔ)示例如表3所示.

        表3 政策術(shù)語(yǔ)抽取結(jié)果示例

        5 結(jié)束語(yǔ)

        本文介紹了語(yǔ)義增強(qiáng)的多策略政策術(shù)語(yǔ)抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn). 該系統(tǒng)針對(duì)政策術(shù)語(yǔ)的時(shí)效性、低頻度和復(fù)合短語(yǔ)等特點(diǎn), 設(shè)計(jì)了一種基于統(tǒng)計(jì)學(xué)方法和語(yǔ)言學(xué)方法的多策略冷啟動(dòng)算法, 并在冷啟動(dòng)得到政策術(shù)語(yǔ)詞庫(kù)后, 利用預(yù)訓(xùn)練語(yǔ)言模型語(yǔ)義增強(qiáng)方式召回低頻且稀疏的政策術(shù)語(yǔ), 提供交互式頁(yè)面對(duì)詞庫(kù)進(jìn)行了循環(huán)更新, 實(shí)現(xiàn)了半自動(dòng)化的政策術(shù)語(yǔ)抽取, 有助于政務(wù)企業(yè)對(duì)政策內(nèi)容的智能解讀, 提升企業(yè)政策精準(zhǔn)推送服務(wù)效果.

        猜你喜歡
        語(yǔ)義特征文本
        語(yǔ)言與語(yǔ)義
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語(yǔ)義模糊
        如何快速走進(jìn)文本
        国产三级av在线精品| 亚洲日本三级| 伊人狠狠色j香婷婷综合| 中文字幕亚洲综合久久久| 久久天天躁狠狠躁夜夜av浪潮 | 在线国人免费视频播放| 国产色在线 | 日韩| 少妇太爽了在线观看| 久久无码中文字幕东京热| 国产高清视频在线不卡一区| 国产成年女人毛片80s网站| 人妻人人澡人人添人人爽人人玩| 亚洲av中文无码乱人伦在线咪咕 | 人妻爽综合网| 日本久久精品视频免费| 最近中文字幕免费完整版| 美女视频一区| 精品视频一区二区杨幂| 午夜视频在线观看一区二区小| 麻豆精品久久久久久久99蜜桃| 久久久久亚洲AV成人网毛片| 少妇特殊按摩高潮对白| 性欧美长视频免费观看不卡| 亚洲av无码专区在线电影| 吃下面吃胸在线看无码| 日韩人妻久久中文字幕| 少妇高潮惨叫久久久久久电影| 欧美成人久久久免费播放| 亚洲女同av一区二区在线观看| 无套内射在线无码播放| 精品久久久久久777米琪桃花| 国产丝袜精品丝袜一区二区| 成年网站在线91九色| 国产尤物av尤物在线观看| 另类一区二区三区| 少妇特殊按摩高潮对白| 国产亚洲精品成人aa片新蒲金| 久久亚洲av永久无码精品| 亚洲av色在线观看网站| 久久综合99re88久久爱| 性欧美大战久久久久久久久|