亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于fasttext 實(shí)現(xiàn)船舶工況點(diǎn)分類系統(tǒng)研究

        2023-01-24 12:51:54陳浩天劉曉東
        電子設(shè)計(jì)工程 2023年2期
        關(guān)鍵詞:船舶詞匯分類

        陳浩天,劉曉東,2

        (1.武漢郵電科學(xué)研究院,湖北武漢 430070;2.武漢虹旭信息技術(shù)有限責(zé)任公司,湖北 武漢 430070)

        截止到2021 年上半年,船舶領(lǐng)域的語料庫基本缺失,無法在互聯(lián)網(wǎng)、圖書館等公共資源區(qū)域有效獲得船舶領(lǐng)域的相關(guān)語料,也就無法實(shí)現(xiàn)船舶工況點(diǎn)自動匹配。

        現(xiàn)有的文本自動匹配方法研究如傳統(tǒng)的知識工程分類[4],對時(shí)間維度消耗大,不滿足最后的自動化處理需求;基于深度學(xué)習(xí)進(jìn)行分類處理[8]的算法在處理時(shí)對語料要求很大,模型的效果很大程度取決于語料的好壞,人們常用的Logistic算法以及SVM算法[11]都是如此。隨著詞向量的提出,深度學(xué)習(xí)算法逐漸進(jìn)入人們的視野,CBOW 模型[12]以及Skip-Gram 模型都能很好地對分布式詞向量模型進(jìn)行分類。

        為了驗(yàn)證改進(jìn)C-fattext 算法在實(shí)驗(yàn)中可以提升效率,文中針對改進(jìn)C-fasttext 算法和在分類中常用的樸素貝葉斯算法、支持向量機(jī)算法和原始fasttext算法進(jìn)行對比,力求達(dá)到實(shí)驗(yàn)預(yù)期指標(biāo)。

        1 分類算法相關(guān)原理

        1.1 傳統(tǒng)分類步驟

        傳統(tǒng)分類步驟大致可以分為四步,即文本獲取、文本預(yù)處理、特征詞提取、分類器選擇。

        1.1.1 文本獲取

        在船舶領(lǐng)域,目前,互聯(lián)網(wǎng)、圖書館等場所無法獲取有效的船舶資源,這為獲取語料造成了極大的影響,文中通過網(wǎng)絡(luò)爬蟲獲取大量船舶網(wǎng)站的新聞數(shù)據(jù)以及試驗(yàn)數(shù)據(jù),加上公司內(nèi)部船舶資料、船長提供的手冊資料等,將這些資料結(jié)合成為一個(gè)龐大的語料庫,進(jìn)而轉(zhuǎn)換為純文本語料庫。

        1.1.2 文本預(yù)處理

        在文本獲取中得到大量文本數(shù)據(jù)后,不能直接使用原始數(shù)據(jù)進(jìn)行后續(xù)實(shí)驗(yàn),原始文本數(shù)據(jù)中包含了大量垃圾信息與噪聲,這些垃圾信息與噪聲對后續(xù)需要進(jìn)行的分類工作沒有任何幫助,甚至在一定程度會起到相反的作用,對分類的速度、準(zhǔn)確率造成不同程度的干擾,導(dǎo)致試驗(yàn)分類結(jié)果不佳。因此,使用分詞、去停用詞、同義詞轉(zhuǎn)換等方法處理文本信息。

        1.2 特征詞提取

        一個(gè)工況點(diǎn)的主要內(nèi)容可以由其特征詞匯決定,通過這些特征詞匯完成工況點(diǎn)分類。目前特征提取算法已經(jīng)呈現(xiàn)多元化發(fā)展,例如TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文本頻率指數(shù))算法、TextRank 算法(基于圖的用于關(guān)鍵詞抽取和文檔摘要的排序算法)、互信息算法、信息熵算法等,這些算法都能滿足特征提取需求。文中選用TF-IDF 算法實(shí)現(xiàn)工況點(diǎn)分類任務(wù)的特征詞提取。

        1.3 分類器選擇

        文中使用fasttext 分類器,fasttext 分類器采用分層softmax 提高訓(xùn)練速度,在大量文本中取得更好的評分效果,其因速度快、準(zhǔn)確率高而被廣泛應(yīng)用在文本分類領(lǐng)域。

        2 分類算法改進(jìn)

        2.1 TF-IDF算法

        詞頻TF 表示文本某個(gè)詞在前文本中出現(xiàn)的次數(shù)或者頻率,計(jì)算公式為:

        逆文檔頻率IDF 代表一個(gè)詞在詞庫中出現(xiàn)的詞條的頻率:

        TF-IDF 算法的核心思路為詞頻和逆文檔頻率的乘積:

        2.2 TF-IDF算法改進(jìn)

        為了避免因?yàn)槭褂肐DF 逆文檔頻率直接表示文本外部特征帶來的負(fù)面影響,可以在分詞之后,將處于設(shè)備部分,并且出現(xiàn)可以直接代表分類結(jié)果的詞匯,直接匹配上分類結(jié)果。例如,在分類“主機(jī)”類別時(shí),形如“No.1 主機(jī)轉(zhuǎn)速”在分詞之后會出現(xiàn)“主機(jī)”詞匯,可以直接將此工況點(diǎn)分類至“主機(jī)”類別中;在后續(xù)通過模型訓(xùn)練出類別后,可以使用此規(guī)則得到的結(jié)果直接覆蓋,提升因?yàn)槟P驼`差、參數(shù)設(shè)計(jì)不合理等因素造成的分類失誤。

        在傳統(tǒng)的TF-IDF 算法中,增加一個(gè)能夠表示船舶的特定工況點(diǎn)庫,如果待對比工況點(diǎn)數(shù)據(jù)出現(xiàn)在此特定工況點(diǎn)庫中,則記錄系數(shù)ci,表示工況點(diǎn)中是否出現(xiàn)了符合特定工況的情況。如果出現(xiàn)在特定工況點(diǎn)庫中,則按照工況點(diǎn)中記錄的ci系數(shù)同式(3)中的Wi,j相乘,同時(shí)需要考慮到特征詞在同一類別,但不同文章之間的分布情況。在傳統(tǒng)的TFIDF 算法中,如果一個(gè)詞匯在某類別的文章中和另外一個(gè)詞匯出現(xiàn)在此類別的文章中的次數(shù)是相同的,則這兩個(gè)詞匯會獲得相同的TF-IDF 系數(shù)。然而,可能前面的詞匯在同種文章中的分布是均勻的,后者卻在小部分文章中大量出現(xiàn),那么前者詞匯的系數(shù)應(yīng)當(dāng)大于后者的系數(shù)。為了解決上述可能出現(xiàn)的情形,同步對對式(3)進(jìn)行更新,新增類內(nèi)系數(shù)aci,計(jì)算如下:

        式中,tfij表示詞j在文檔i中的頻率,N表示文檔總數(shù)目,nj表示詞j出現(xiàn)的總文檔數(shù),nci表示詞j在類別c文檔中出現(xiàn)的文檔數(shù)目。通過對輸入文本的每個(gè)詞都進(jìn)行更改后的TF-IDF 算法計(jì)算,將其命名為C-TF-IDF 算法。

        另外,單純添加一個(gè)系數(shù)仍然無法避免低頻詞條刪除問題,因?yàn)樵趬嚎s文檔時(shí),低頻向量詞條可能會被刪除,這樣就可能會忽略掉出現(xiàn)頻率不高,但是代表性、專業(yè)性很強(qiáng)的詞匯,使得改進(jìn)的C-TF-IDF算法性能在某些情況下大打折扣。

        為使得對權(quán)重的處理更加合理,使用歸一化處理,以達(dá)到簡化計(jì)算的目的。使用歸一化作用于每個(gè)詞向量,標(biāo)準(zhǔn)化高頻詞匯和低頻詞匯權(quán)重,避免出現(xiàn)某詞匯出現(xiàn)次數(shù)過多或者過少而產(chǎn)生分布失衡的現(xiàn)象,同時(shí)也避免出現(xiàn)詞頻相差過大而影響分類效果。如此更改對權(quán)重的處理將更加有意義,再結(jié)合fasttext 算法,將C-fasttext 算法進(jìn)行更新。

        C-fasttext 算法的計(jì)算步驟如下:

        1)規(guī)則索引;

        2)語料庫的收集以及文本預(yù)處理;

        3)在原始詞序列中增加N-gram 特征;

        4)使用創(chuàng)新后的C-TF-IDF 算法計(jì)算單個(gè)工況點(diǎn)結(jié)果aij;

        5)根據(jù)得到的結(jié)果aij對目標(biāo)工況點(diǎn)權(quán)重進(jìn)行更新迭代計(jì)算;

        6)進(jìn)行模型運(yùn)算。

        2.3 fasttext算法

        fasttext 算法原理從word2vec 順延而來,它們都擁有CBOW 模型類似的結(jié)構(gòu),即分為三層:①輸入層,主要為文本詞向量的輸入、特征的輸入等;②隱藏層,進(jìn)行相關(guān)參數(shù)計(jì)算、迭代;③輸出層,與word2cev不同的是,fasttext 算法是通過上下文預(yù)測類別,其輸出的是最終判斷的類別可能性。

        2.4 fasttext算法改進(jìn)

        fasttext 算法可以理解為帶監(jiān)督的分類模型,輸入的數(shù)據(jù)可以認(rèn)為是帶有參數(shù)系數(shù)的詞向量信息,在輸入之前加入一層憑借層,此層的主要作用是將得到的信息整合,刪除無用信息,保證數(shù)據(jù)的完整性與可靠程度。憑借層網(wǎng)絡(luò)拓?fù)鋱D如圖1 所示。

        圖1 憑借層網(wǎng)絡(luò)拓?fù)鋱D

        由于文中的應(yīng)用領(lǐng)域?yàn)榇邦I(lǐng)域,結(jié)合前文對于算法的改進(jìn),最終選擇的損失函數(shù)是交叉熵?fù)p失函數(shù):

        一個(gè)批次中的損失函數(shù)計(jì)算公式如式(7)所示:

        式中,yi表示實(shí)際類別的標(biāo)記,表示模型預(yù)測的類別標(biāo)記。

        可以得出改進(jìn)后fasttext 算法實(shí)現(xiàn)流程如圖2所示。

        圖2 改進(jìn)后fasttext算法實(shí)現(xiàn)流程圖

        3 實(shí)驗(yàn)及分析

        3.1 實(shí)驗(yàn)環(huán)境

        文中試驗(yàn)環(huán)境為本地Windows10 家庭版操作系統(tǒng),Intel Core i5 處理器,使用的語言為Python3.7,實(shí)驗(yàn)采用的評判指標(biāo)為文本分類準(zhǔn)確率、召回率、F值,用于對比顯示結(jié)果。

        3.2 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)使用數(shù)據(jù)集為船舶領(lǐng)域數(shù)據(jù)庫中已經(jīng)擁有的2 123 條工況點(diǎn)數(shù)據(jù),驗(yàn)證數(shù)據(jù)集為新船中選取的1 000 條工況點(diǎn),訓(xùn)練集中數(shù)據(jù)格式如圖3 所示。

        圖3 訓(xùn)練集數(shù)據(jù)格式

        3.3 評價(jià)方法

        在自然語言領(lǐng)域,通常使用三種評估指標(biāo),分別為準(zhǔn)確率、召回率和F 值。

        準(zhǔn)確率:準(zhǔn)確率表示模型預(yù)測為正樣本且實(shí)際為正樣本的比例,計(jì)算公式為:

        召回率:召回率表示模型準(zhǔn)確預(yù)測為正樣本的數(shù)量占所有正樣本數(shù)量的比例,計(jì)算公式為:

        F 值:可以理解為P和R的加權(quán)調(diào)和平均,計(jì)算公式為:

        3.4 實(shí)驗(yàn)結(jié)果分析

        為驗(yàn)證改進(jìn)的C-fasttext算法的分類能力,使用實(shí)驗(yàn)數(shù)據(jù)進(jìn)行測試,同時(shí)選擇樸素貝葉斯算法、SVM 算法、傳統(tǒng)fasttext算法同改進(jìn)的C-fasttext算法進(jìn)行對比。

        為了數(shù)據(jù)能夠更加直觀顯示,使用折線圖表示不同類別工況點(diǎn)數(shù)目,如圖4 所示。

        圖4 不同類別工況點(diǎn)數(shù)目

        圖4 表明,在船舶領(lǐng)域中,六大主要類別出現(xiàn)概率差距不大,沒有出現(xiàn)某種類別過多或者過少的情況,其中壓載類工況點(diǎn)數(shù)目少是因?yàn)閴狠d類一般出現(xiàn)在其他類別的輔助類中,原始數(shù)據(jù)中單獨(dú)出現(xiàn)壓載類的情況并不多。在數(shù)據(jù)集中,每個(gè)類別占有總數(shù)據(jù)的比例為:主機(jī)類26.45%,艙室類18.14%,鍋爐類9.85%,氣缸類10.40%,壓載類5.03%,電力類30.12%。在分類判決中,實(shí)際還有一個(gè)其他類,其他類擁有出現(xiàn)極少或者特殊情況的工況點(diǎn),在分類階段暫時(shí)剔除,以免對分類結(jié)果產(chǎn)生影響。

        圖5 給出了改進(jìn)C-fasttext 算法在船舶領(lǐng)域六大類中的分類結(jié)果。

        圖5 改進(jìn)C-fasttext算法分類結(jié)果圖

        四種分類方法準(zhǔn)確率結(jié)果如圖6 所示。

        圖6 四種分類方法準(zhǔn)確率結(jié)果圖

        由圖6 可知,文中提出的改進(jìn)C-fasttext 算法準(zhǔn)確率最高,高達(dá)91.59%;傳統(tǒng)的fasttext 分類算法的平均準(zhǔn)確率也處于領(lǐng)先地位,為88.27%;支持向量機(jī)算法處在較低水平,準(zhǔn)確率只有59.98%;樸素貝葉斯方法在準(zhǔn)確率上達(dá)到76.19%??梢钥闯?,對比樸素貝葉斯算法、支持向量機(jī)算法和原始fasttext 算法,改進(jìn)C-fasttext 算法在二分類任務(wù)中獲得了較好的評分,說明改進(jìn)是成功的。

        在錯(cuò)誤控制方面,隨機(jī)抽取100 條數(shù)據(jù),查看分類結(jié)果,發(fā)現(xiàn)誤報(bào)率為3%,語料覆蓋率為97%,滿足最初控制誤報(bào)率不超過5%、語料庫覆蓋率超過95%的需求,得出基于fasttext 的船舶工況點(diǎn)分類研究算法滿足項(xiàng)目要求結(jié)論。

        4 結(jié)論

        為解決船舶領(lǐng)域工況點(diǎn)對比分類問題,提出基于fasttext 的改進(jìn)C-fasttext 算法,對特征提取方法中的TF-IDF 算法做出改進(jìn),使其在權(quán)重設(shè)置上更加符合工況點(diǎn)分類要求;對fasttext 算法在輸入層做出創(chuàng)新,指出其在應(yīng)用于工況點(diǎn)分類中的不足之處,提出的C-fasttext 算法在原有基礎(chǔ)之上進(jìn)行了改進(jìn),從而節(jié)省大量人力資源,匹配準(zhǔn)確率為91.59%,語料覆蓋率為97%,提出的C-fasttext 算法能夠完善對工況點(diǎn)的分類效果,滿足需求。

        猜你喜歡
        船舶詞匯分類
        計(jì)算流體力學(xué)在船舶操縱運(yùn)動仿真中的應(yīng)用
        《船舶》2022 年度征訂啟事
        船舶(2021年4期)2021-09-07 17:32:22
        分類算一算
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        船舶!請加速
        本刊可直接用縮寫的常用詞匯
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        免费人成毛片乱码| 青青草手机在线免费观看视频| 91精品久久久中文字幕| 国产精品天干天干综合网| 色伦专区97中文字幕| 91久久精品无码人妻系列| 国模少妇一区二区三区| 日韩毛片在线看| 久久婷婷国产精品香蕉| 日韩亚洲精选一区二区三区| 中文字幕久久波多野结衣av不卡| 午夜福利理论片在线观看| 精品少妇人妻av免费久久久| 久久亚洲精品成人AV无码网址 | 中国农村熟妇性视频| 日本动态120秒免费| 激情综合网缴情五月天| 国产三级精品av在线| 久久人妻少妇嫩草av无码专区| 精品无码专区久久久水蜜桃| 国产亚洲精品国产福利在线观看| 亚洲av精品一区二区三| 国产一区二区三区成人| 国产三级a三级三级| 俺来也俺去啦最新在线| 精品无人区无码乱码大片国产| 久久国产精品免费久久久| 国模91九色精品二三四| 乱子伦在线观看| 精品一级毛片| 99久久无色码中文字幕鲁信| 成人高清在线播放视频| 国产aⅴ无码专区亚洲av| 日本午夜免费福利视频| 精品国产你懂的在线观看| 亚洲成a人一区二区三区久久| 色综合久久蜜芽国产精品| 亚洲中文字幕无码爆乳app| 国产女女精品视频久热视频| 麻豆国产AV网站| 久久av不卡人妻出轨一区二区|