亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Word2vec的鐵路工程地質(zhì)語(yǔ)料庫(kù)構(gòu)建與詞嵌入

        2022-12-22 06:07:40戴均豪
        科技創(chuàng)新與應(yīng)用 2022年35期
        關(guān)鍵詞:分詞工程地質(zhì)語(yǔ)料

        戴均豪

        (中鐵第一勘察設(shè)計(jì)院集團(tuán)有限公司,西安 710043)

        大量的高質(zhì)量、多類型的鐵路工程地質(zhì)文字資料隨著各地鐵路工程勘察設(shè)計(jì)、建設(shè)施工等工作的進(jìn)行而快速積累[1]。然而,文字資料的利用效率普遍較低,文字資料中蘊(yùn)含著的大量信息還有待挖掘。

        在鐵路工程地質(zhì)領(lǐng)域信息化、智能化的背景下,圖件、數(shù)據(jù)和模型等內(nèi)容逐步實(shí)現(xiàn)了高效獲取、自動(dòng)分析等[2],而文字資料的智能化進(jìn)展較慢。

        自然語(yǔ)言處理(Natural Language Processing,NLP)是計(jì)算機(jī)問(wèn)世之后,人們?cè)噲D探索以自動(dòng)的方式對(duì)自然語(yǔ)言進(jìn)行加工的方法,NLP本身是一個(gè)融會(huì)貫通了計(jì)算機(jī)科學(xué)、人工智能、語(yǔ)言科學(xué)、邏輯學(xué)和心理學(xué)等多領(lǐng)域知識(shí)與成果的跨學(xué)科研究[3]。NLP技術(shù)在語(yǔ)義分析、詞性標(biāo)注、實(shí)體識(shí)別、機(jī)器翻譯及情感分析等方面已取得一定進(jìn)展,并具有廣闊的探索空間[4]。語(yǔ)料庫(kù)和詞向量是NLP的先導(dǎo)工作,也是文檔資料智能處理的基礎(chǔ)。

        目前存在的語(yǔ)料庫(kù)及語(yǔ)言模型大多面向通用領(lǐng)域,如維基百科、新聞和微博等。國(guó)內(nèi)外針對(duì)特定領(lǐng)域的語(yǔ)料庫(kù)也逐步開(kāi)展研究,如國(guó)防、醫(yī)學(xué)、新聞與航空等[5-8]。而通用語(yǔ)料和其他領(lǐng)域語(yǔ)料難以適應(yīng)鐵路工程地質(zhì)工作需要。因此,構(gòu)建面向鐵路工程地質(zhì)的語(yǔ)料庫(kù)、訓(xùn)練領(lǐng)域內(nèi)的語(yǔ)言模型十分必要。

        1 Word2vec模型

        Word2vec模型等詞嵌入方法誕生之前,自然語(yǔ)言處理過(guò)程通常將詞匯表示成單一的、離散的編號(hào),如獨(dú)熱碼表示法(One-hot Representation),其將詞語(yǔ)表示成0、1構(gòu)成的高維向量,維度大小即語(yǔ)料中詞匯量的大小,每個(gè)詞在它的特定維度值為1,其余位置填0。顯然,這種方法不能完全表達(dá)語(yǔ)義信息,且在計(jì)算過(guò)程中會(huì)造成維度爆炸。

        Word2vec將語(yǔ)料的獨(dú)熱碼作為輸入和輸出,用神經(jīng)網(wǎng)絡(luò)模型的隱藏層參數(shù)當(dāng)作當(dāng)前詞語(yǔ)的分布式表征(詞向量)時(shí),能夠很好地獲取詞語(yǔ)之間的語(yǔ)義關(guān)系或語(yǔ)義相似度[9]。Word2vec包括CBOW和Skip-gram 2種詞嵌入模型,2個(gè)模型都包含輸入層、投影層和輸出層。其中,CBOW模型訓(xùn)練原理是在已知當(dāng)前詞的上下文的前提下預(yù)測(cè)當(dāng)前詞,而Skip-gram模型的訓(xùn)練原理是在己知當(dāng)前詞的前提下預(yù)測(cè)其上下文[10](圖1)。

        圖1 Word2vec模型結(jié)構(gòu)示意圖

        2 語(yǔ)料庫(kù)構(gòu)建

        為訓(xùn)練面向鐵路工程地質(zhì)的Word2vec模型,需要構(gòu)建粒度為“詞”的語(yǔ)料庫(kù)。流程如圖2所示。

        圖2 語(yǔ)料庫(kù)搭建流程圖

        2.1 語(yǔ)料收集

        本文針對(duì)鐵路工程地質(zhì)領(lǐng)域,收集了如下幾方面的語(yǔ)料:①領(lǐng)域相關(guān)的文獻(xiàn)300篇;②相關(guān)規(guī)范及工作手冊(cè)23冊(cè);③各環(huán)節(jié)程序文件105份;④教材和專著等11部。

        2.2 預(yù)處理

        以上各方面語(yǔ)料需統(tǒng)一為.txt文本格式以便于輸入計(jì)算機(jī)處理,隨后統(tǒng)一存放、利用Python中的os函數(shù)庫(kù)對(duì)路徑下的全部文件進(jìn)行讀寫(xiě)合并,形成生語(yǔ)料。將上述語(yǔ)料刪除亂碼、空行、特殊字符與字母數(shù)字等難以利用的文本。另外,將與文本語(yǔ)義無(wú)關(guān)的語(yǔ)氣詞、介詞、連詞、定語(yǔ),以及停用詞刪除。經(jīng)過(guò)上述2方面的文本清洗工作,隨后將語(yǔ)料利用Jiaba中文分詞函數(shù)庫(kù)進(jìn)行分詞。

        Jiaba函數(shù)庫(kù)可以對(duì)日常用語(yǔ)進(jìn)行分詞操作,但是對(duì)于專業(yè)名詞繁多的地質(zhì)文本的分詞效果不好,此時(shí)需要準(zhǔn)備《地質(zhì)辭典》中的詞匯供Jiaba讀取,來(lái)提升分詞效果。另外,需要將工程地質(zhì)學(xué)、巖土工程勘察及鐵路工程施工等各分支學(xué)科下的復(fù)雜專業(yè)名詞匯總到地質(zhì)詞典中。

        分詞后形成了可以輸入Word2vec的訓(xùn)練語(yǔ)料。但其中難免有個(gè)別專有名詞沒(méi)有被詞典收錄,需要根據(jù)分詞結(jié)果文件,挑選未分詞、誤分詞的詞語(yǔ),加入已有詞典。重復(fù)分詞、挑選分詞瑕疵,如此往復(fù),以尋求分詞效果的最大化,以獲得質(zhì)量最佳的語(yǔ)料庫(kù)(圖2)。最終獲得的語(yǔ)料庫(kù)總詞數(shù)為4 192 189詞,并完善鐵路工程地質(zhì)詞典37 975詞。

        2.3 詞頻統(tǒng)計(jì)

        為了實(shí)現(xiàn)快速理解語(yǔ)料主要概述內(nèi)容,對(duì)構(gòu)建的語(yǔ)料庫(kù)進(jìn)行詞頻統(tǒng)計(jì),可以繪制“詞云”圖、對(duì)語(yǔ)料庫(kù)做簡(jiǎn)單的關(guān)鍵詞提取[11]。由圖3可知,文字比例越大表示其重要度越高,“工程”“結(jié)構(gòu)”“地質(zhì)”“形變”等詞匯重要性最高。

        圖3 鐵路工程地質(zhì)語(yǔ)料庫(kù)詞云

        3 詞嵌入

        3.1 詞向量訓(xùn)練

        本文選用Word2vec模型中的Skip-gram模型來(lái)進(jìn)行詞嵌入。Skip-gram是一種簡(jiǎn)單卻實(shí)用的詞嵌入模型。在輸入層輸入該詞的獨(dú)熱碼,在第一個(gè)隱層,輸入該編碼的線性映射W*x+b(x即為該詞的獨(dú)熱編碼,W、b為參數(shù)),第三層可以看成分類器,使用Softmax回歸。訓(xùn)練樣本是當(dāng)前詞和上下文詞的One-hot編碼,模型的輸出為輸入詞的上下文取詞窗口中出現(xiàn)詞匯表中各詞匯的概率[10]。

        依照上述方法,對(duì)前述工作中形成的語(yǔ)料庫(kù)輸入Skip-gram詞嵌入模型進(jìn)行訓(xùn)練,規(guī)定batch-size、詞嵌入維度、上下文取詞窗口大小及負(fù)采樣樣本數(shù)量等超參數(shù),獲取詞嵌入文件。此處詞嵌入初始維度為300維,即每個(gè)詞語(yǔ)映射在300維的向量空間中。

        3.2 降維可視化

        對(duì)于訓(xùn)練好的300維詞向量,由于維度過(guò)高,不便于理解和觀察,可以利用t分布隨機(jī)近鄰嵌入(t-SNE)算法進(jìn)行降維可視化[12]。本文隨機(jī)抽取所有詞向量中的500條詞向量,由300維投影至二維,即可在平面直角坐標(biāo)上刻畫(huà)各條詞嵌入的結(jié)果。由圖4可知,在向量空間中距離相近的詞語(yǔ)蘊(yùn)含著較高的語(yǔ)義相似度,如“不良地質(zhì)”“地質(zhì)災(zāi)害”“滑坡”“泥石流”等詞匯語(yǔ)義相似度較高。

        圖4 鐵路工程地質(zhì)詞向量降維可視化

        3.3 語(yǔ)義相似度計(jì)算

        詞向量在高維空間中的歐氏距離,可以表達(dá)詞與詞之間的語(yǔ)義相似度。利用Gensim庫(kù)中的Similarity函數(shù)可以計(jì)算詞向量之間的語(yǔ)義相似度[13]。為檢驗(yàn)訓(xùn)練的詞向量的有效性,可選取具有連續(xù)性規(guī)律的地質(zhì)名詞來(lái)計(jì)算語(yǔ)義相似度。本文選取“侏羅系”來(lái)計(jì)算其和其他年代地層名詞來(lái)完成有效性驗(yàn)證。由圖5可知,隨著地質(zhì)年代關(guān)系越遠(yuǎn),語(yǔ)義相似度也越低。

        圖5 年代地層名詞間語(yǔ)義相似度

        3.4 聚類

        為檢驗(yàn)所訓(xùn)練的語(yǔ)言模型能否有效區(qū)分2類鐵路工程地質(zhì)詞匯,將年代地層名詞與巖性名詞的詞向量進(jìn)行聚類后可視化。由圖6可知,2類詞匯的詞向量投影位置有著較為明顯的區(qū)分,絕大部分都聚類正確。

        圖6 年代地層與巖性名詞聚類可視化

        4 結(jié)論

        利用NLP技術(shù),針對(duì)鐵路工程地質(zhì)領(lǐng)域開(kāi)展語(yǔ)料庫(kù)構(gòu)建和詞向量訓(xùn)練,得到以下結(jié)論。

        (1)本文完善了1套構(gòu)建鐵路工程地質(zhì)語(yǔ)料庫(kù)的方法流程,構(gòu)建了4 192 189詞的語(yǔ)料庫(kù),完善了37 975詞的地質(zhì)詞典。

        (2)本文在語(yǔ)料庫(kù)基礎(chǔ)上訓(xùn)練了Word2vec模型,獲取的詞向量能夠準(zhǔn)確表達(dá)語(yǔ)義,為后續(xù)鐵路工程地質(zhì)文本語(yǔ)義分析、實(shí)體識(shí)別等應(yīng)用完成前期基礎(chǔ)。

        猜你喜歡
        分詞工程地質(zhì)語(yǔ)料
        繼往開(kāi)來(lái) 守正創(chuàng)新——河北省水文工程地質(zhì)勘查院
        結(jié)巴分詞在詞云中的應(yīng)用
        水文地質(zhì)在工程地質(zhì)勘察中的有效應(yīng)用
        ABAQUS軟件在工程地質(zhì)勘察中的應(yīng)用
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        值得重視的分詞的特殊用法
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語(yǔ)料
        國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
        工程地質(zhì)勘察中常見(jiàn)問(wèn)題與解決措施
        河南科技(2014年18期)2014-02-27 14:15:14
        av在线资源一区二区| 国产成人涩涩涩视频在线观看| 午夜丰满少妇性开放视频| 综合无码综合网站| 日本黄色高清视频久久| 亚洲精一区二区三av| 日日碰狠狠添天天爽| 国产伦精品一区二区三区视| 91国产自拍视频在线 | 日本熟女人妻一区二区| 自愉自愉产区二十四区| 日日摸夜夜添夜夜添无码免费视频 | 加勒比hezyo黑人专区| 国产乱人伦av在线a| 手机色在线| 一区二区三区观看视频在线| 无码国产精品一区二区av| av天堂久久天堂av色综合| 成人午夜免费福利| av天堂网手机在线观看| 国产综合精品一区二区三区| 久草热8精品视频在线观看| 亚洲乱码一区AV春药高潮| 蜜桃视频第一区免费观看| 久热国产vs视频在线观看| 久久99欧美| 亚洲综合天堂av网站在线观看| 亚洲av无码国产精品色| 国产成人亚洲精品无码mp4| 国产精品久久久一本精品| 精品高清一区二区三区人妖| 99久久精品国产一区二区| 无码中文字幕加勒比一本二本| 成人综合亚洲国产成人| 中文字幕一区二区人妻秘书| 性生交大全免费看| 久久天天躁狠狠躁夜夜中文字幕| 国产免费成人自拍视频| 少妇愉情理伦片高潮日本| 四虎精品成人免费观看| 国产精品亚洲最新地址|