亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文本提取分類技術(shù)在海關(guān)資訊中的應(yīng)用研究

        2024-12-16 00:00:00林嘉宜梁曉智張鵬謝俊敏
        中國新技術(shù)新產(chǎn)品 2024年22期
        關(guān)鍵詞:文本分類深度學習

        摘 要:隨著人工智能技術(shù)快速發(fā)展,自然語言標注、識別和提取分類技術(shù)也取得較大進展,基于此類技術(shù)的智能模型應(yīng)用廣泛,但是模型應(yīng)用時的通用性和泛化性仍是技術(shù)難點。為解決目前資訊分析中信息量大、處理過程繁雜、通用性和泛化性不高等問題,本文提出了一種通用的資訊文本信息提取和分類算法,并基于人工智能框架建立模型,將其應(yīng)用于海關(guān)資訊信息分析。試驗證明該模型具有較好的信息提取和分類效果。

        關(guān)鍵詞:文本提?。晃谋痉诸?;深度學習

        中圖分類號:TP 311 " " " " " 文獻標志碼:A

        資訊的來源多樣,包括非結(jié)構(gòu)化的公開新聞、報道、內(nèi)部案情和情報等[1]。其文本也包括風險防控相關(guān)特定領(lǐng)域的有用信息。但是資訊文本存在邏輯復雜、實體嵌套和多層次分類難以識別的問題。傳統(tǒng)算法僅能進行一般的結(jié)構(gòu)化識別和提取,對國內(nèi)海關(guān)資訊文本特征的適配度低,難以達到智能化、精準化分析目標。

        人工智能深度學習技術(shù)的發(fā)展為資訊文本智能化分析帶來了新思路[2]。國內(nèi)、外在此方面進行了不斷研究,利用自然語言處理模型高效、準確地解決了大規(guī)模的生物、化學和醫(yī)療等多個領(lǐng)域文本的實體或關(guān)系抽??;基于生成式路線的基礎(chǔ)模型完成了通用文獻資訊的寫作優(yōu)化和準確化文本分析任務(wù)[3];中國海關(guān)利用國際人工智能框架也進行了有效的通用抽取,例如國家、物品、數(shù)量和日期等??偟膩碚f,人工智能技術(shù)用于文本結(jié)構(gòu)化已成為國內(nèi)、外資訊分析的重要手段。為解決國內(nèi)資訊文本提取的智能化和精準化問題,本文在資訊文本分析中引入國內(nèi)人工智能框架,設(shè)計文本提取和分類模型,將其應(yīng)用于海關(guān)資訊分析,不僅能夠滿足數(shù)據(jù)安全和自主可控要求,還能進行快速分析和風險預警,提升風險研判效能。

        1 融合文本提取與分類技術(shù)的資訊文本分析新方法

        國內(nèi)的人工智能框架在自然語言處理等領(lǐng)域展現(xiàn)出了優(yōu)秀的性能和可控性。該框架與國內(nèi)模型相結(jié)合,具有更好的數(shù)據(jù)隔離、保護機制以及更可控的算法、模型訓練過程。此外,該框架在與國內(nèi)數(shù)據(jù)平臺和安全技術(shù)的集成方面更具優(yōu)勢?;谧匀徽Z言處理的文本提取技術(shù)旨在從大規(guī)模無結(jié)構(gòu)文本中自動提取結(jié)構(gòu)化信息(包括實體、關(guān)系和事件等,其中實體提取是指識別文本中具有特定意義的信息)。文本分類技術(shù)也是一種將文本自動分類到預定義類別的自然語言處理技術(shù),常用于情感分析、主題識別等任務(wù)。

        1.1 資訊文本分析新方法及其模型

        根據(jù)資訊文本既要精準提取知識,又要智能分類文本的分析目標,本文提出的新方法是在使用知識增強的預訓練模型的基礎(chǔ)上進行調(diào)優(yōu),從而形成的文本提取和分類模型。

        1.1.1 主體模型設(shè)計

        本項目模型將基于國內(nèi)人工智能框架的Ernie[4]知識增強預訓練模型作為主體模型,該模型具備多任務(wù)范式間的協(xié)同處理能力。該模型架構(gòu)由通用表示層和特定表示層組成。通用表示層能夠獲取不同任務(wù)范式中相同底層的抽象特征,例如詞匯信息和句法信息等;特定表示層包括自然語言理解(NLU)特定表示模塊和自然語言生成(NLG)特定表示模塊?;谶@種上、下2層架構(gòu),利用較少的訓練語料和時間成本對特定表示層調(diào)優(yōu),就能快速、有效地提升特定任務(wù)的識別效率和適應(yīng)性。

        ERNIE 3.0的通用表示層和任務(wù)特定表示層均將Transformer-XL結(jié)構(gòu)作為主干。本文在新算法模塊的預訓練任務(wù)中采用具有48個transformer層、4 096個隱藏單元和64個注意力頭結(jié)構(gòu)的通用表示層;采用具有12個transformer層、768個隱藏單元和12個注意力頭結(jié)構(gòu)的特定表示層。并使用GeLU激活函數(shù)和Adam優(yōu)化算法。參數(shù)設(shè)置如下:上、下文的最大序列長度為512,語言生成的記憶長度為128,總批量大小為6 144,學習率為1×10-4。通過單詞感知、結(jié)構(gòu)感知和知識感知預訓練任務(wù),使模型具備理解、生成和推理能力。

        1.1.2 模型特定能力泛化

        進行資訊文本分析,需要利用預訓練好的參數(shù)組合來初始化模型,再對預訓練的主體模型的特定表示層進行調(diào)優(yōu),使調(diào)整后的模型獲得寬泛的資訊文本提取和分類能力。

        1.1.2.1 資訊文本提取能力泛化

        傳統(tǒng)的資訊文本提取結(jié)構(gòu)化的信息,不同任務(wù)間的數(shù)據(jù)表示和網(wǎng)絡(luò)均存在差異。本文以多任務(wù)統(tǒng)一建模的方式進行調(diào)優(yōu),借鑒通用信息提取框架范式[5],在輸入層使用基于提示機制的結(jié)構(gòu)模式,指導模型在訓練過程中自適應(yīng)地判別提取目標。知識增強模型編碼層就是主體模型。在輸出層,解碼后的主體模型結(jié)果采用結(jié)構(gòu)化提取語言,將不同任務(wù)的提取結(jié)果表示為統(tǒng)一的形式。利用調(diào)優(yōu),使模型具備不限定行業(yè)領(lǐng)域和抽取目標的關(guān)鍵信息抽取能力。主要過程如圖1所示。

        輸入的表達式如公式(1)所示。

        y=UIE(s⊕x) " " " " " " " " (1)

        式中:y為抽取并生成的結(jié)構(gòu)化結(jié)果;s為定義的結(jié)構(gòu)抽取模式;x為輸入文本。

        文本提取的整體輸入形式如公式(2)所示。

        s⊕x=[s1,s2,...,si,x1,x2,...,xi] " " "(2)

        式中:si為第i個結(jié)構(gòu)抽取模式的組件;xi為第i個原始文本序列內(nèi)容。

        將公式(2)展開,得到最終模型輸入結(jié)果,如公式(3)所示。

        s⊕x=[[spot],sp1,...,[spot],spi,...,[asso],a1,...,[asso],ai,...,[text],x1,...xi] (3)

        式中:[spot]為后面接實體;spi為第i個不同類別實體;[asso]為后面接關(guān)系或事件;ai為第i個不同類別的關(guān)系或事件;[text]為后面接文本內(nèi)容。

        1.1.2.2 資訊文本分類能力泛化

        傳統(tǒng)的資訊文本分類存在不同任務(wù)間的標簽遷移難度大和學習知識不共享的問題。本文采用多任務(wù)統(tǒng)一語義匹配方式進行調(diào)優(yōu),將分類任務(wù)統(tǒng)一建模為標簽與文本間的匹配任務(wù)。知識增強模型編碼層是主體模型,在解碼層采用定向標記鏈接,將輸入內(nèi)容解碼成標簽與文本間的詞對鏈接并計算分數(shù),在輸出層輸出標簽名詞和文本內(nèi)容的關(guān)聯(lián)對。調(diào)優(yōu)后的模型支持不同領(lǐng)域間標簽知識的遷移和眾多“泛分類”任務(wù)。主要過程如圖2所示。

        輸入的表達式如公式(4)所示。

        H=Encoder[l1,l2,...,li,t1,t2,...,ti,M]

        (4)

        式中:li為第i個標簽序列;ti為第i個文本序列;M為掩碼矩陣,用于確定哪些序列對可以相互關(guān)注。

        配對的連接分數(shù)表達式如公式(5)所示。

        S(li,tj)=FFNNlabel(hli)TRj-iFFNNtexthtj

        (5)

        式中:(li,tj)為標簽和文本標記配對的連接;FFNNlabel、FFNNtext分別為前饋神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)會單向傳播且過程中沒有反饋連接;Rj-i為旋轉(zhuǎn)位置嵌入,可注入相對位置信息;hli、htj分別為標簽和文本標記的嵌入表示。

        以上2種模型泛化訓練需要調(diào)節(jié)的超參數(shù)主要包括訓練周期、最大學習率、批量處理大小以及文本最大切分長度等,以使相應(yīng)參數(shù)達到最優(yōu)區(qū)間,提高資訊文本提取和分類的精度。

        1.2 模型評價

        1.2.1 資訊文本提取模型

        通常,文本提取將準確率p、召回率R和F1分數(shù)作為評估指標。在模型優(yōu)化過程中,提高準確率可以減少將實體錯誤識別和將類別錯誤歸類的概率,提高召回率則可以捕捉更多正確的實體并減少遺漏。這2個指標間通常需要進行平衡,應(yīng)在平衡的前提下,將兩者維持在相對較高的水平,以獲得最佳性能。3個指標的表達式分別如公式(6)~公式(8)所示。

        (6)

        (7)

        (8)

        式中:Tp為預測正確實體數(shù);Fp為不是該類實體而被錯誤地預測到該類的實體數(shù);Fn為該類文本被誤預測到其他類別的實體數(shù)。

        1.2.2 資訊文本分類模型

        文本分類評估一般采用Macro F1和Micro F1作為評估指標。Macro F1是F1分數(shù)的宏觀平均,對每個類別的F1分數(shù)取平均值,避免模型性能主要由數(shù)量大的類別主導。Micro F1全面評估模型在所有類別上的總體性能。不斷參數(shù)調(diào)優(yōu),使各種評估指標達到最優(yōu)。指標相關(guān)的表達式分別如公式(9)、公式(10)所示。

        (9)

        (10)

        式中:n為所有類別總數(shù);F1i為第i個類別的F1分數(shù);Psum為所有類別總的準確率;Rsum為所有類別總的召回率。

        2 新方法在海關(guān)資訊文本分析的應(yīng)用研究

        2.1 海關(guān)資訊文本分析模型構(gòu)建

        針對海關(guān)資訊文本行業(yè)背景和專業(yè)術(shù)語特殊的特點,利用上文提出的提取與分類技術(shù)融合的新模型進行資訊文本提取和文本分類模型的優(yōu)化和適配,構(gòu)建查獲資訊智能提取和分類模型,提高海關(guān)資訊分析的準確性和適用性。在海關(guān)緝私和旅檢等場景中,海關(guān)的資訊文本多為進、出口貨物查獲情況信息。應(yīng)用場景為查驗事后分析預警環(huán)節(jié),模型構(gòu)建的數(shù)據(jù)來源為海關(guān)公告、媒體報道、綜合報告和周報等資訊數(shù)據(jù)。選取近一年進、出口貨物查獲資訊作為訓練數(shù)據(jù),數(shù)據(jù)的選取原則為保證樣本集有足夠的多樣性,以覆蓋海關(guān)領(lǐng)域的主要知識點和標簽范圍。將資訊中有效實體定義為29類(可動態(tài)調(diào)整),包括查發(fā)國家/地區(qū)、來源地、目的地和價值等;將資訊分類定義為104類(可動態(tài)調(diào)整),包括現(xiàn)場查驗、貨物夾藏、水運和侵權(quán)風險等,然后根據(jù)自定義的實體標簽和分類標簽進行人工標注,將標注后的貨物查獲記錄轉(zhuǎn)化為詞向量,將其作為模型輸入數(shù)據(jù),有效樣本數(shù)據(jù)約1 100條。

        本文建?;谕ㄓ玫奶崛∨c分類技術(shù)融合的新模型。該模型能夠通過少量的梯度更新適應(yīng)新任務(wù)。模型采用具有12個transformer層、768個隱藏單元和12個注意力頭的結(jié)構(gòu),采用少樣本學習方法,以少量貨物查獲資訊標記數(shù)據(jù)集作為輸入并計算輸出,再以少次訓練迭代,反向傳播優(yōu)化模型中編碼層和解碼層的全量參數(shù)。在不斷的參數(shù)調(diào)整過程中得到貨物查獲實體識別模型和分類識別模型,對海關(guān)資訊中專業(yè)的海關(guān)術(shù)語進行編碼表示;在解碼層針對實體執(zhí)行提取任務(wù),預測海關(guān)資訊實體的起始位置和結(jié)束位置;針對分類任務(wù),預測海關(guān)資訊標簽和文本的連接關(guān)系;最終在輸出層輸出以結(jié)構(gòu)化表示的貨物查獲資訊實體和分類。

        2.2 模型效果

        模型在樣本集和非樣本集的表現(xiàn)見表1。由220個測試樣例驗證模型效果可知,實體識別的結(jié)果是準確率為92.75%,召回率為95.79%,F(xiàn)1分數(shù)為94.25。分類識別的結(jié)果是Macro F1為75.32,Micro F1為74.68。使用全量樣本集進行調(diào)優(yōu)后,2個模型預測準確率分別提高了8.34%和19%,識別效果顯著提升。同時,使用非樣本集共200條新增文本進行預測,實體識別準確率為90.14%,分類識別準確率Macro F1為74.8。與樣本測試集的識別效果相比,準確率下降幅度較小,可見在海關(guān)資訊文本領(lǐng)域,本文模型具有較好的實體提取和分類泛化能力。

        資訊文本提取和分類模型已用于3 374條各種無結(jié)構(gòu)資訊文本的關(guān)鍵信息自動識別,每天預警分析的資訊量由過去人工操作的數(shù)十條提高至1 000多條,夯實了海關(guān)資訊分析工作,能夠?qū)Υ罅课礃擞浐jP(guān)資訊文本進行自動解析/識別、快速檢索分析和風險預警,海關(guān)資訊文本分析實例如圖3所示。模型還不斷進行適配性迭代訓練升級,其智能化和準確度也在逐步提升。

        3 結(jié)論

        本文提出的融合文本提取和分類新算法的模型能夠快速進行資訊文本自動處理和分析,具有通用性和泛化性。該模型在海關(guān)領(lǐng)域的資訊文本分析應(yīng)用中取得了良好效果。實踐表明,經(jīng)過特定領(lǐng)域數(shù)據(jù)集增強訓練后,該模型將具有更好的行業(yè)適配性和更高的識別準確度。

        參考文獻

        [1]鄭彥寧,化柏林.數(shù)據(jù)、信息、知識與情報轉(zhuǎn)化關(guān)系的探討[J].情報理論與實踐,2011,34(7):1-4.

        [2]白如江,陳鑫,任前前.基于供需理論的生成式人工智能賦能情報工作范式模型構(gòu)建與應(yīng)用研究[J].情報理論與實踐,2024,47(1):75-83.

        [3]李廣建,潘佳立.人工智能技術(shù)賦能情報工作的歷程與當前思考[J].信息資源管理學報,2024,14(2):4-20.

        [4]SUN Y,WANG S H,F(xiàn)ENG S K,et al.ERNIE 3.0:large-scale

        knowledge enhanced pre-training for language understanding and generation

        [EB/OL].[2021-07-05].https://arxiv.org/abs/2107.02137.pdf.

        [5]LU Y J,LIU Q,DAI D,et al.Unified structure generation for universal information extraction[EB/OL].[2022-03-23].https://arxiv.

        org/abs/2203.12277.pdf.

        猜你喜歡
        文本分類深度學習
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        基于貝葉斯分類器的中文文本分類
        有體驗的學習才是有意義的學習
        電子商務(wù)中基于深度學習的虛假交易識別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        基于蟻群智能算法的研究文本分類
        深度學習算法應(yīng)用于巖石圖像處理的可行性研究
        軟件導刊(2016年9期)2016-11-07 22:20:49
        基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
        基于K—means算法的文本分類技術(shù)研究
        无码小电影在线观看网站免费| 免费国人成人自拍视频| 中文字幕一区二区区免| 丰满人妻中文字幕一区三区 | 中文字幕乱码高清完整版| 国产自国产自愉自愉免费24区| 成人欧美一区二区三区1314| 大香视频伊人精品75| 亚洲啊啊啊一区二区三区| 亚洲中文字幕精品视频| 亚洲欧美日韩精品久久| 日本午夜免费福利视频| 久久精品国产只有精品96| 亚洲女同一区二区三区| 一本色道久在线综合色| 精品亚洲成a人无码成a在线观看| 久草热8精品视频在线观看| 国产AV高清精品久久| 日韩五码一区二区三区地址| 欧美老熟妇乱xxxxx| 色欲av自慰一区二区三区| 久久国产精99精产国高潮| 91麻豆精品久久久影院| av区无码字幕中文色| 99热久久精里都是精品6| 亚洲av乱码专区国产乱码| 国产亚洲精品综合99久久| 成人影院在线观看视频免费| 国产 麻豆 日韩 欧美 久久 | 日韩成人无码v清免费| 亚洲五码av在线观看| 精品人妻一区二区三区四区在线| 欧美性狂猛xxxxx深喉| 久久久久久免费播放一级毛片| 亚洲禁区一区二区三区天美| 亚洲av无码av在线播放| 激情另类小说区图片区视频区| 国产毛片一区二区日韩| 国产精品第一二三区久久| 国语自产偷拍精品视频偷| 亚洲一区二区久久青草|