亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        LLM在工業(yè)品物料分類場景的應(yīng)用

        2024-01-11 10:23:44
        寶鋼技術(shù) 2023年6期
        關(guān)鍵詞:葉類工業(yè)品微調(diào)

        朱 俊

        (歐冶工業(yè)品股份有限公司,上海 201900)

        1 工業(yè)品領(lǐng)域物料分類技術(shù)現(xiàn)狀及場景落地

        1.1 工業(yè)品領(lǐng)域物料分類任務(wù)的概述

        隨著全球工業(yè)化進(jìn)程的不斷推進(jìn),工業(yè)品領(lǐng)域物料的種類與數(shù)量呈現(xiàn)出爆炸式增長。自21世紀(jì)初以來,全球制造業(yè)產(chǎn)值已經(jīng)翻了一番多[1]。如何對這些物料進(jìn)行有效的分類和管理,已經(jīng)成為企業(yè)降低成本、提高生產(chǎn)效率和市場競爭力的關(guān)鍵問題。采用有效的物料管理系統(tǒng)可以幫助企業(yè)提高生產(chǎn)效率,同時降低庫存成本。因此,研究工業(yè)品領(lǐng)域物料分類技術(shù)具有重要的實(shí)際意義和理論價值。

        1.2 NLP技術(shù)在工業(yè)品領(lǐng)域物料分類中的應(yīng)用及局限性

        近年來,自然語言處理(NLP)技術(shù)在物料分類領(lǐng)域取得了顯著的成果。主要可以概括為基于規(guī)則的分類方法和基于深度學(xué)習(xí)的分類方法。

        基于規(guī)則的分類方法是物料分類技術(shù)的傳統(tǒng)方法,通過人工設(shè)定一系列規(guī)則進(jìn)行分類,例如基于專家經(jīng)驗(yàn)制作關(guān)鍵詞—物料類別對照表。這種方法在物料種類較少、規(guī)則明確的場景下具有一定的實(shí)用性。然而,隨著物料種類的增多,規(guī)則的制定變得越來越復(fù)雜,人工設(shè)定的規(guī)則很難覆蓋所有物料,導(dǎo)致分類效果不理想。

        隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,這類方法在物料分類上也得到了不少應(yīng)用,并具有更好的泛化能力和更高的準(zhǔn)確率[2]。例如DNN、LSTM、BERT等,可以有效地解決基于規(guī)則方法在物料種類繁多、規(guī)則復(fù)雜的情況下的局限性,可以隨著數(shù)據(jù)集的增長和變化不斷優(yōu)化模型性能[3]。

        然而,基于深度學(xué)習(xí)的物料分類方法仍然存在一定的局限性。首先,深度學(xué)習(xí)模型需要大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,而在工業(yè)品實(shí)際場景中,大部分物料數(shù)據(jù)質(zhì)量較差,存在物料屬性數(shù)據(jù)缺失、型號規(guī)格書寫不規(guī)范等問題,獲取高質(zhì)量的標(biāo)注數(shù)據(jù)是一大難題。此外,深度學(xué)習(xí)模型的可解釋性較差,由于工業(yè)領(lǐng)域?qū)?zhǔn)確性的要求較高,這可能導(dǎo)致企業(yè)在實(shí)際應(yīng)用中對模型輸出的結(jié)果產(chǎn)生質(zhì)疑,從而影響模型的推廣應(yīng)用。

        綜上所述,工業(yè)品領(lǐng)域物料分類技術(shù)已經(jīng)取得了一定的成果,但仍然面臨著諸多挑戰(zhàn)。傳統(tǒng)的基于規(guī)則的分類方法在應(yīng)對復(fù)雜物料分類任務(wù)時顯得力不從心,而基于深度學(xué)習(xí)的分類方法雖然具有一定的優(yōu)勢,但也存在數(shù)據(jù)需求高、可解釋性差等問題。

        近期,隨著GPT模型的快速崛起,生成式大語言模型逐漸成為自然語言處理領(lǐng)域的新風(fēng)向,大量任務(wù)引入生成式大語言模型并取得了顯著的效果。因此,在未來的研究中,探討如何將生成式大語言模型與物料分類技術(shù)相結(jié)合,實(shí)現(xiàn)對工業(yè)品領(lǐng)域物料的高效識別和分類,具有重要的研究價值。

        2 生成式大語言模型在工業(yè)品物料分類上的應(yīng)用

        2.1 生成式大語言模型原理

        大語言模型(LLM),如GPT-3和GPT-4(GPT即生成預(yù)訓(xùn)練 Transformer)是基于Transformer架構(gòu)的NLP模型。大語言模型的訓(xùn)練過程基于一個被稱為“自監(jiān)督”的學(xué)習(xí)任務(wù)。在這個任務(wù)中,模型預(yù)測給定一個文本序列中的下一個詞是什么。例如,如果輸入的文本是“今天天氣很好,我打算去公園”,那么模型的任務(wù)可能是預(yù)測“出行”這個意圖。這個任務(wù)要求模型學(xué)習(xí)到大量的語言知識,包括語法、詞匯、習(xí)語,甚至一些世界知識。LLM通過在大量的文本數(shù)據(jù)上進(jìn)行訓(xùn)練來完成這個任務(wù)。訓(xùn)練數(shù)據(jù)可以包括各種類型的文本,比如書籍、文章、網(wǎng)頁等。模型通過這種方式學(xué)習(xí)了大量的語言模式,從而可以生成流暢且自然的文本。

        大語言模型可以應(yīng)用于各種自然語言處理任務(wù),包括但不限于以下幾個方面:

        (1) 文本生成:生成一篇文章,寫一個故事,或者是創(chuàng)作一首詩。

        (2) 機(jī)器翻譯:將文本從一種語言翻譯成另一種語言。

        (3) 問答系統(tǒng):在問答系統(tǒng)中,大語言模型可以用來生成問題的答案。

        (4) 文本摘要:生成文本的摘要或者是概括。

        (5) 情感分析:分析文本的情感傾向,是積極還是消極。

        (6) 代碼生成和代碼理解:理解和生成編程代碼,這對于開發(fā)者幫助和代碼自動完成等場景非常有用。

        (7) 聊天機(jī)器人:用于構(gòu)建能夠與人自然交流的聊天機(jī)器人。

        2.2 工業(yè)品物料分類應(yīng)用場景

        在工業(yè)品采購過程中,基于采購需求的描述,對工業(yè)品詢單物料進(jìn)行分類,有助于精細(xì)化識別用戶需求,推薦最優(yōu)質(zhì)的供應(yīng)商。在該應(yīng)用場景中,分類模型需要根據(jù)非結(jié)構(gòu)化物料文本信息(可能包括物料名稱、型規(guī)、技術(shù)屬性及使用場景),將物料分類到一個具體的葉類,葉類來自于給定的物料葉類體系。本文用于訓(xùn)練的數(shù)據(jù)集是物料庫中的物料數(shù)據(jù),共1 081 488條,每條包括名稱、品牌、型規(guī)、技術(shù)屬性、葉類字段,其中葉類即為預(yù)測目標(biāo),共581個葉類。另外有來自于實(shí)際業(yè)務(wù)場景中的物料數(shù)據(jù)523 897條,不包括所屬類別信息。

        2.3 生成式大語言模型數(shù)據(jù)增強(qiáng)及效果

        針對該場景,使用傳統(tǒng)的規(guī)則方法或深度學(xué)習(xí)方法效果較差。本文提出一種使用大語言生成式模型增強(qiáng)工業(yè)品物料分類的方法,以提高分類的準(zhǔn)確性和魯棒性,并降低算力消耗。

        首先,通過引入生成式大語言模型,分別對訓(xùn)練數(shù)據(jù)進(jìn)行增強(qiáng),以及對多個分類模型進(jìn)行集成,以增強(qiáng)分類模型的表現(xiàn)。作為參考,本文首先設(shè)計(jì)了一個基于關(guān)鍵詞—葉類表的TF-IDF統(tǒng)計(jì)學(xué)分類模型(每個關(guān)鍵詞對每個葉類計(jì)算TF-IDF,形成關(guān)鍵詞—葉類的權(quán)重表),一個基于Word2Vec+LGBM的分類模型[4],以及一個基于微調(diào)后的BERT的分類模型[5],各原始模型分別在測試集上的表現(xiàn)如表1所示。

        表1 原始分類模型效果統(tǒng)計(jì)指標(biāo)Table 1 Statistical metrics for the performance of the original classification model

        本文以BELLE-7B-2M模型[6]為基礎(chǔ),通過物料數(shù)據(jù)庫數(shù)據(jù)對BELLE進(jìn)行微調(diào),對原始數(shù)據(jù)進(jìn)行增強(qiáng)。微調(diào)采用instruct-answer的形式,instruct為“有以下物料信息,{物料名稱、型規(guī)、品牌、技術(shù)屬性的拼接},請問它屬于哪個葉類”。answer為“{葉類名稱}”。微調(diào)數(shù)據(jù)采用平滑分布抽樣[7]后的物料庫數(shù)據(jù)2萬條,并保證每個葉類至少有一條物料數(shù)據(jù)。

        在第一階段,使用生成式大語言模型對數(shù)據(jù)量較少的葉類進(jìn)行數(shù)據(jù)增強(qiáng)。具體實(shí)施步驟見圖1、2。

        圖1 使用原分類器結(jié)合人工審核找到分類效果較差葉類數(shù)據(jù)Fig.1 Finding poorly classified leaf data by the original classifier and manual review

        圖2 使用BELLE對數(shù)據(jù)集進(jìn)行增強(qiáng)Fig.2 Data augmentation with BELLE applied to the dataset

        (1) 在物料數(shù)據(jù)庫中,采用分布平滑抽樣的方法取15%的數(shù)據(jù)作為測試集[7],并確保每個葉類至少有一個測試數(shù)據(jù)。統(tǒng)計(jì)三個模型的測試集結(jié)果,分別統(tǒng)計(jì)結(jié)果中所有葉類的F1值,取在三個模型下F1值均處于后四分之一的葉類作為待增強(qiáng)葉類集合。

        (2) 使用LGBM、BERT和TF-IDF這三個模型分別對物料數(shù)據(jù)進(jìn)行分類,得到三個類別預(yù)測結(jié)果(可以重復(fù))。使用微調(diào)后的BELLE在這三個結(jié)果中進(jìn)行選擇。取結(jié)果屬于待增強(qiáng)葉類的物料并人工審核BELLE的選擇是否正確,篩選后得到共1 362條物料數(shù)據(jù),作為增強(qiáng)樣本。

        (3) 使用BELLE對增強(qiáng)樣本進(jìn)行數(shù)據(jù)增強(qiáng),即通過prompt“生成類似{增強(qiáng)樣本中的物料信息}的物料數(shù)據(jù)”使BELLE生成近似的物料數(shù)據(jù),以1∶10的比例擴(kuò)充增強(qiáng)樣本以解決原數(shù)據(jù)分布不均及稀疏的問題[8]。

        (4) 使用增強(qiáng)樣本繼續(xù)微調(diào)訓(xùn)練LGBM和BERT模型,使其在待增強(qiáng)葉類上的性能得到提升。

        在一階段融合后,LGBM和BERT在同樣的測試集下表現(xiàn)如表2所示。

        表2 一階段加強(qiáng)后分類結(jié)果Table 2 Classification results after first-stage enhancement

        在第二階段,將增強(qiáng)后的LGBM模型、增強(qiáng)后的BERT模型,以及原始的TF-IDF模型在推理階段進(jìn)行集成,從而進(jìn)一步提高工業(yè)品物料分類的準(zhǔn)確性和魯棒性。具體實(shí)施步驟如圖3。

        圖3 使用BELLE對BERT、LGBM和TF-IDF分類進(jìn)行集成Fig.3 Integration of BERT,LGBM,and TF-IDF classifiers using BELLE

        (1) 分別使用增強(qiáng)后的LGBM模型、增強(qiáng)后的BERT模型和原始的TF-IDF模型對測試樣本進(jìn)行推理,得到各自的預(yù)測類別。這一步驟可以提供多種視角的預(yù)測結(jié)果,為后續(xù)的融合打下基礎(chǔ)。在實(shí)際操作中,我們將各模型的輸出結(jié)果進(jìn)行歸一化處理,以消除不同模型預(yù)測概率值之間的差異。

        (2) 使用微調(diào)后的BELLE對這三個預(yù)測類別進(jìn)行判斷。具體而言,微調(diào)后的BELLE模型會將各模型的預(yù)測結(jié)果作為輸入,輸出一個綜合評估后的類別預(yù)測。BELLE模型基于其自身與訓(xùn)練及微調(diào)的結(jié)果,對物料信息及三個模型的分類結(jié)果進(jìn)行理解并選擇,從而使集成后的模型性能更加優(yōu)越。

        通過BELLE進(jìn)行集成學(xué)習(xí)后在同樣的測試集下可以得到表3所示結(jié)果。

        表3 二階段加強(qiáng)后分類結(jié)果Table 3 Classification results after second-stage enhancement

        2.4 試驗(yàn)結(jié)果與分析詳述

        本研究采用了三種模型:TF-IDF統(tǒng)計(jì)分類,LGBM及BERT模型進(jìn)行分類,并采用微調(diào)后的BELLE-7B-2M模型進(jìn)行兩階段的加強(qiáng)。實(shí)驗(yàn)結(jié)果顯示,在使用微調(diào)后的BELLE模型一階段加強(qiáng),對LGBM和BERT進(jìn)行樣本增強(qiáng)和再次訓(xùn)練后,LGBM在精確率0.88、召回率0.87和F1值 0.87上有所提升,BERT在精確率0.87、召回率0.89和F1值 0.88上也有所進(jìn)步。在微調(diào)后的BELLE模型二階段加強(qiáng)后,通過對三個基礎(chǔ)模型的預(yù)測結(jié)果進(jìn)行選擇完成對三個模型結(jié)果的集成,集成后的模型在精確率0.89、召回率0.90和F1值 0.89上相比三個模型獨(dú)立工作取得了進(jìn)一步提升??傮w來說,通過BELLE加強(qiáng)原分類模型的方法在提升模型性能方面取得了成效。

        3 結(jié)語

        本文通過對工業(yè)品領(lǐng)域物料分類技術(shù)的分析,提出了一套結(jié)合生成式大型預(yù)訓(xùn)練模型(如BELLE)和深度學(xué)習(xí)分類器的物料分類方案,并經(jīng)實(shí)驗(yàn)進(jìn)行對比驗(yàn)證了生成式大型預(yù)訓(xùn)練模型能夠?yàn)榉诸惾蝿?wù)帶來有效提升。這套方案充分利用了生成式模型在數(shù)據(jù)預(yù)處理和增強(qiáng)方面的優(yōu)勢,同時結(jié)合領(lǐng)域知識和先進(jìn)的深度學(xué)習(xí)技術(shù),實(shí)現(xiàn)了高準(zhǔn)確率的物料分類。

        猜你喜歡
        葉類工業(yè)品微調(diào)
        淺談葉類蔬菜收獲裝備技術(shù)的現(xiàn)狀及發(fā)展趨勢
        四川省葉類蔬菜機(jī)械化發(fā)展現(xiàn)狀及對策
        工業(yè)品市場營銷模式創(chuàng)新思考分析
        數(shù)字孿生與質(zhì)量評價——基于工業(yè)品電商平臺的創(chuàng)新與實(shí)踐
        我國莖葉類蔬菜有序收獲技術(shù)達(dá)國際領(lǐng)先水平
        中國蔬菜(2019年1期)2019-01-21 12:34:32
        一種新型微調(diào)擠塑模具的設(shè)計(jì)及應(yīng)用
        電線電纜(2018年2期)2018-05-19 02:03:44
        工業(yè)品市場營銷模式創(chuàng)新研究
        北京葉類蔬菜生產(chǎn)現(xiàn)狀及其變動趨勢分析
        靈活易用,結(jié)合自動和手動微調(diào)達(dá)到好效果 StormAudio ISP 3D.16 ELITE/PA 16 ELITE
        全國大部省份結(jié)束2014高考 多地高考模式微調(diào)
        国产乱人精品视频av麻豆网站| 人妻风韵犹存av中文字幕| 青青草免费观看视频免费| 99re6在线视频精品免费下载| 成年免费视频黄网站zxgk| 久久6国产| 国产亚洲精品成人av在线| 亚洲av人片在线观看| 亚洲成a人无码| 东北无码熟妇人妻AV在线| 亚洲中文字幕av一区二区三区人| 麻婆视频在线免费观看| 日本护士xxxx视频| 亚洲av鲁丝一区二区三区| 一区二区三区在线视频免费观看| 男性av天堂一区二区| 亚洲乱亚洲乱妇| 亚洲依依成人综合在线网址| 久久迷青品着产亚洲av网站| 日本人视频国产一区二区三区| 麻豆精品国产精华精华液好用吗| 一本色道久久综合亚洲精品小说 | 日日鲁鲁鲁夜夜爽爽狠狠视频97 | 亚洲国产不卡免费视频| 亚洲av免费手机在线观看| 亚洲精品久久久久久久久av无码| 思思久久96热在精品不卡| 伊人五月亚洲综合在线| 国产午夜手机精彩视频| 国产mv在线天堂mv免费观看| 人妻少妇精品一区二区三区| 国产一级二级三级在线观看av| 亚洲精品熟女国产| 日韩亚洲制服丝袜中文字幕| 亚洲av天堂在线免费观看| 精品伊人久久大线蕉色首页| 婷婷综合久久中文字幕蜜桃三电影 | 午夜丰满少妇性开放视频| 日日噜噜噜夜夜爽爽狠狠视频 | 亚洲欧洲成人a∨在线观看| 精品熟女少妇av免费观看|