亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于AMR 與優(yōu)美句識別的博文質(zhì)量評估研究

        2021-04-26 04:12:58喬亞勃高永兵
        科學技術(shù)創(chuàng)新 2021年10期
        關(guān)鍵詞:短文語義語法

        喬亞勃 高永兵 馬 寧

        (內(nèi)蒙古科技大學 信息工程學院,內(nèi)蒙古 包頭014010)

        1 概述

        網(wǎng)絡的用戶數(shù)量隨著互聯(lián)網(wǎng)的普及呈爆發(fā)式增長,數(shù)據(jù)的產(chǎn)生更是以指數(shù)級的速率增長。其中文本信息是關(guān)注的重點,盡管海量的文本數(shù)據(jù)資源支持了文本技術(shù)的發(fā)展與研究,但其價值密度過低,數(shù)據(jù)中包含了大量重復、噪聲和垃圾數(shù)據(jù)。評估短文本的質(zhì)量對于許多應用程序(例如推薦系統(tǒng)和在線搜索,以查找高質(zhì)量的文章過濾掉低質(zhì)量的文章)是一個關(guān)鍵問題。

        2 相關(guān)工作研究

        目前文本質(zhì)量評估大致分為長文本質(zhì)量評估與短文本質(zhì)量評估兩大類。長文本質(zhì)量評估主要針對中英文作文自動評分研究,國外對于自動評估系統(tǒng)的研究較早,目前美國教育考試領(lǐng)域已經(jīng)實用的AES 系統(tǒng)有PEG、IEA、E-rater[1-2]。國內(nèi)涉足此領(lǐng)域的研究較晚,曹亦徽和楊晨使用潛在語義分析方法對漢語作文自動評分進行研究。劉明楊等人通過對作文中排比以及比喻修辭的自動識別,對高考作文進行自動評分研究。付瑞吉[3]等人提出了一種基于CNN 和BiLSTM 的混合網(wǎng)絡結(jié)構(gòu)進行優(yōu)美句識別對高考作文自動評分。用于長文本的評估方法并不能簡單的套用到短文本上。針對處理深度的不同,國內(nèi)對于短文本質(zhì)量評估可分為淺層功能評估與深層功能評估兩類。淺層功能評估,即主要針對文本信息的可信度、準確性、及時性、完整性、真實性等一系列表面特征進行評估。盛宇等人根據(jù)內(nèi)容相關(guān)度、內(nèi)容質(zhì)量、內(nèi)容更新計算出信息質(zhì)量綜合指數(shù),通過統(tǒng)計個人相關(guān)詞表并與公共相關(guān)詞表結(jié)合、去重后得出個人領(lǐng)域相關(guān)詞表,對博文進行質(zhì)量評估。胡媛[4]從微博信源可信度和信息質(zhì)量的雙路徑視角構(gòu)建微博信息質(zhì)量評價指標體系。深層功能評估,Yiru Wang[5]等人提出聯(lián)合模型CoQAN 設計三個子網(wǎng)絡來解耦布局組織、寫作特征和文本語義。其中文本語義子網(wǎng)使用改進的hi-Bert 模型,其包含兩個層級的編碼器依次對文檔進行編碼,分別應用于句子級別和文檔級別,深入學習單詞和句子之間的交互關(guān)系。高永兵等人提出了一種基于AMR 解析的短文本質(zhì)量評估的方法,主要從語法層面對微博短文本進行質(zhì)量評估,根據(jù)語法結(jié)構(gòu)的完整性以及句子序列緊密性對句子進行打分,將句子質(zhì)量分為高、中、低三類。此方法較適用于語法成分比較齊全、句式結(jié)構(gòu)較完整短句,對于語法不齊全、簡約、缺乏上下文信息的優(yōu)美句來說并不能很好的做出評估。

        3 模型

        要實現(xiàn)短文本質(zhì)量評估任務,不僅要分析文本的淺層特征,更重要的是將文本進行解析,從文本的語法、語義、語用等深層特征入手。本文提出一種AMR 解析與優(yōu)美句識別相結(jié)合的模型如圖1所示。針對語法較齊全、結(jié)構(gòu)完整的句子,通過AMR 質(zhì)量評估模型對其進行評分,除以上句式以外的其他句式定義為特殊語句,通過優(yōu)美句識別模型對其進行評估,實現(xiàn)了對優(yōu)美句的精確識別,彌補了AMR 質(zhì)量評估模型存在的缺陷。

        圖1 AMR 與優(yōu)美句識別模型流程圖

        3.1 優(yōu)美句識別模型

        微博中不乏有在語法生動、句式比較靈活、巧用文言詞、古詩詞等某一方面或幾方面有突出之處的有文采的特殊短句,本文稱之為“優(yōu)美句”。這些優(yōu)美句通常語言精練、語句簡短,但語法成分不齊全,句式結(jié)構(gòu)比較特殊。在對數(shù)據(jù)進行評估時,AMR 質(zhì)量評估模型因評估規(guī)則不完善,沒有針對優(yōu)美句識別的相應算法和規(guī)則,模型將優(yōu)美句評估成低質(zhì)量的語句。本文將提取AMR 質(zhì)量打分較低的語句,然后利用優(yōu)美句識別模型對其進行二次評定。最后,綜合AMR 質(zhì)量評估模型與優(yōu)美句識別模型的最終得分對句子進行分類。

        已有實驗表明Bert 網(wǎng)絡模型可以捕獲語言的結(jié)構(gòu)信息。Bert不同的網(wǎng)絡層對特征的編碼也是不同的,較低層學習到的是詞語級別等表面特征,中間層學習到的是語法層面的特征,頂層學習到的是語義特征。Jawahar[6]等人使用十個句子級別的探測任務來評估每層網(wǎng)絡編碼不同類型語言特征的能力,并將這十個任務分為表面層任務、句法層任務、語義層任務,表面層任務用來探測句子長度,句子中單詞的存在;句法層任務用來探測詞序敏感性,語法樹深度,語法樹頂級成分序列;語義層任務用來探測時態(tài)檢查,主語數(shù)量,名詞動詞隨機替換敏感度,協(xié)作分句連詞的隨機交換。

        Bert 模型首先對輸入的句子序列進行預處理,中文是以單個字作為基本處理單位。模型中還加入了特殊字符“[CLS]”作為標記序列的前綴,并在每個句子后綴“[SEP]”。文本分類任務中,Bert 模型最終將整個句子中所有字/詞的語義信息都融合在“[CLS]”中作為整個句子的語義表示。

        圖2 優(yōu)美句識別模型

        3.2 Bert 預訓練與語義相似性

        一個句子序列X1:T=(x1,...,x)T,語言模型將聯(lián)合概率p(x1:T)按自回歸的方式分解為:

        Bert 模型提出的MLM(Mask Language Model)將其分解為:

        4 數(shù)據(jù)集

        目前國內(nèi)外還沒有統(tǒng)一的短文本質(zhì)量評估的語料庫和測試集。從微博中爬取10000 條經(jīng)過篩選與處理后的數(shù)據(jù),其中500 條作為數(shù)據(jù)集A 使用AMR 質(zhì)量評估進行測評,人工標注數(shù)據(jù)集中每句話的質(zhì)量等級類別,因目前中文AMR 解析準確率不高,將數(shù)據(jù)轉(zhuǎn)換成AMR 解析樹后,需要進行人工校正;9500 條數(shù)據(jù)為數(shù)據(jù)集B,作為優(yōu)美句識別模型的數(shù)據(jù)集,人工標注該數(shù)據(jù)集中每個句子優(yōu)美(標記為“1”)或不優(yōu)美(標記為“0”)。

        5 實驗與結(jié)果分析

        首先對數(shù)據(jù)集A 進行AMR 解析并人工校正,經(jīng)AMR 質(zhì)量評估模型打分。通過測試得知,AMR 質(zhì)量評估模型存在一些缺陷,日常中發(fā)現(xiàn)的優(yōu)美句,因其語法不齊全、結(jié)構(gòu)復雜、句式不規(guī)律等諸多因素,造成AMR 質(zhì)量評估模型對優(yōu)美句的質(zhì)量評估并不敏感。如給簡單句子打高分,而給優(yōu)美語句打低分等情況。

        用標注好的數(shù)據(jù)集B 訓練Bert 模型,提取優(yōu)美句相關(guān)特征,并進行微調(diào)。將AMR 質(zhì)量評估模型打分低的語句通過訓練好的Bert模型進行二次評定,最終Bert 模型評估優(yōu)美句準確率達到83.88%。

        本次實驗采用兩組實驗進行對比,實驗一為AMR 質(zhì)量評估模型實驗,實驗二為基于AMR 與優(yōu)美句識別的實驗,對比結(jié)果如表1 所示:

        表1 對比實驗

        通過表中數(shù)據(jù)可以發(fā)現(xiàn),實驗二的準確率明顯高于實驗一的準確率。實驗一是基于AMR 解析基礎(chǔ)之上的,目前AMR 對英文的解析效果比較準確,雖然CAMR 解析器是針對中文的,但其準確率并不是很理想。這是造成AMR 質(zhì)量評估模型準確率低的主要原因。另一個原因是AMR 質(zhì)量評估模型的評估方法相對較少,有待補充。中文語言豐富,句式復雜等因素,很難對句子進行徹底的剖析。

        6 結(jié)論

        本文主要依據(jù)優(yōu)美句的識別來評估短文本的質(zhì)量,提出以AMR 與優(yōu)美句識別相結(jié)合的方法,利用優(yōu)美句識別模型對特殊句式進行二次評估,增加了對短文本質(zhì)量評估的方法,實驗結(jié)果表明,改進的質(zhì)量評估模型與其他單一模型相比在精度上有了提高。通過實驗驗證了該方法的有效性。

        猜你喜歡
        短文語義語法
        語言與語義
        跟蹤導練(二)4
        KEYS
        KEYS
        Keys
        Keys
        Book 5 Unit 1~Unit 3語法鞏固練習
        “上”與“下”語義的不對稱性及其認知闡釋
        認知范疇模糊與語義模糊
        短文改錯
        日本一区二区国产精品| 五月天久久国产你懂的| 久久水蜜桃亚洲av无码精品麻豆| 天堂av在线一区二区| 国产成人自拍视频播放| 妺妺窝人体色www聚色窝仙踪| 国产 国语对白 露脸| 欧洲亚洲色一区二区色99| 国产精品亚洲综合久久| 欧美精品国产综合久久| 国产精品久久久久国产a级| 91福利国产在线观看网站| 亚洲一区中文字幕一区| 国产69精品久久久久app下载| 99精品视频在线观看免费| 亚洲图片第二页| 国产成人自拍视频播放| 久久99精品国产麻豆不卡| 欧美色精品91av| 日本一区二区三区在线视频观看| 久久久精品视频网站在线观看| 亚洲成a v人片在线观看| 99国产精品丝袜久久久久| 亚洲一区二区视频免费看| 综合亚洲伊人午夜网| 亚洲精品无码久久久久av麻豆| av无码一区二区三| 亚洲成人精品在线一区二区| 无码aⅴ免费中文字幕久久| 亚洲综合色一区二区三区另类| 丝袜美腿av免费在线观看| 亚洲一区二区女搞男| 国产精品免费久久久久影院仙踪林| 狼色在线精品影视免费播放| 亚洲中文字幕精品视频| 一本色道久久88综合日韩精品| 婷婷九月丁香| 国产一区二区三区av观看| 伊人久久精品无码二区麻豆| 精品久久无码中文字幕| 黑丝美女喷水在线观看|