亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于遷移學(xué)習(xí)的裝備領(lǐng)域詞向量訓(xùn)練方法研究

        2022-09-16 10:00:44祖月芳凌海風(fēng)
        火力與指揮控制 2022年8期
        關(guān)鍵詞:中心詞語(yǔ)料向量

        祖月芳,凌海風(fēng)

        (1.陸軍工程大學(xué)野戰(zhàn)工程學(xué)院,南京 210004;2.解放軍96761 部隊(duì),河南 三門(mén)峽 472100)

        0 引言

        分布式語(yǔ)義表示方法之所以受到青睞,是源于2013 年Tomas Mikolov 等推出了一款用于獲取word vector 的工具包Word2vec,它是在深度學(xué)習(xí)的基礎(chǔ)上獲取的一種詞向量的分布式表達(dá)。騰訊AI Lab 開(kāi)源了包含800 多萬(wàn)中文詞匯的公開(kāi)詞向量,其在覆蓋率、新鮮度及準(zhǔn)確性上大幅提高,在自然語(yǔ)言處理領(lǐng)域帶來(lái)了顯著的效能提升。雖然騰訊詞向量廣受大眾追捧,但在裝備領(lǐng)域其對(duì)一些專業(yè)術(shù)語(yǔ)涵蓋不是很全面,這導(dǎo)致在運(yùn)用騰訊詞向量表示一些特定專業(yè)領(lǐng)域的文本時(shí)受限?;谶@樣的情況,本文結(jié)合騰訊詞向量的優(yōu)勢(shì),基于遷移學(xué)習(xí)的思想以騰訊詞向量作為初始向量進(jìn)行了訓(xùn)練,獲得了裝備領(lǐng)域的詞向量。

        1 基于Gensim 實(shí)現(xiàn)裝備領(lǐng)域詞向量的增量訓(xùn)練

        1.1 詞向量訓(xùn)練的方法

        隨著自然語(yǔ)言處理技術(shù)的發(fā)展,可以進(jìn)行詞向量訓(xùn)練的模型有很多種,比如目前使用較多的Word2vec 模型和Bert 模型。本文在進(jìn)行裝備領(lǐng)域詞向量訓(xùn)練時(shí)選擇了Word2vec 模型,舍棄了現(xiàn)在更火的Bert 模型;原因是在訓(xùn)練詞向量是Bert 模型的基本單位是字,而Word2vec 模型的基本單位是詞語(yǔ),結(jié)合裝備領(lǐng)域相關(guān)專業(yè)術(shù)語(yǔ)的特點(diǎn),使用以詞為基本單位的Word2vec 模型更符合本文的需求。其中,gensim 包提供了Word2vec 的python 接口。

        Word2vec 主要有CBOW 模型(Continuous Bagof-Words Model) 和Skip-gram 模 型(Continuous Skip-gram Model)兩個(gè)詞嵌入模型。兩個(gè)模型都包含3 層:輸入層、投影層和輸出層。如圖1 所示,CBOW 模型是在已知當(dāng)前詞ω的上下文ω,ω,ω,ω的前提下預(yù)測(cè)當(dāng)前詞ω,訓(xùn)練完成后,每個(gè)詞都會(huì)作為中心詞把周圍詞的詞向量進(jìn)行調(diào)整來(lái)獲得所有詞的詞向量。

        圖1 CBOW 模型

        Skip-gram 模型與之相反,它是在已知當(dāng)前詞ω的前提下,預(yù)測(cè)其上下文ω,ω,ω,ω,所有文本遍歷完畢后,也就得到了文本所有詞的詞向量,如圖2 所示。

        圖2 Skip-gram 模型

        可以看出,CBOW 模型預(yù)測(cè)行為的次數(shù)跟整個(gè)文本的詞數(shù)幾乎是相等的,復(fù)雜度大概是O(V);而Skip-gram 進(jìn)行預(yù)測(cè)的次數(shù)是要多余CBOW 的,因?yàn)槊總€(gè)詞作為中心詞時(shí),都要使用周圍詞預(yù)測(cè)一次。這樣相當(dāng)于比CBOW 方法多進(jìn)行了K 詞(假設(shè)K 為窗口大小),因此,時(shí)間的復(fù)雜度為O(KV)。但是在Skip-gram 中每個(gè)詞都要受到周圍詞的影響,每個(gè)詞作為中心詞時(shí)都要進(jìn)行K 次預(yù)測(cè)、調(diào)整,因此,對(duì)于裝備領(lǐng)域文本數(shù)據(jù)量不大、相關(guān)專業(yè)詞匯出現(xiàn)次數(shù)較少的情況,本文選擇使用Skip-gram模型進(jìn)行詞向量的訓(xùn)練。

        1.2 基于騰訊詞向量實(shí)現(xiàn)裝備領(lǐng)域的詞向量增量訓(xùn)練

        詞向量模型的增量式訓(xùn)練方法,通過(guò)對(duì)新增文本中出現(xiàn)的新詞進(jìn)行初始化更新,和基于歷史詞表的采樣對(duì)詞向量模型進(jìn)行動(dòng)態(tài)更新,完成向量模型對(duì)新增文本text 進(jìn)行增量式學(xué)習(xí)。這種方法能夠避免對(duì)歷史數(shù)據(jù)進(jìn)行重復(fù)性學(xué)習(xí),大幅減少計(jì)算復(fù)雜度,保持了較高的學(xué)習(xí)率。由于各個(gè)領(lǐng)域都有一些專業(yè)術(shù)語(yǔ),要保證一次或幾次訓(xùn)練的詞向量能涵蓋所有的領(lǐng)域幾乎是不可能的。不同領(lǐng)域的語(yǔ)料庫(kù)中的數(shù)據(jù)是動(dòng)態(tài)變化的,為了避免在海量數(shù)據(jù)情況下的重復(fù)學(xué)習(xí),對(duì)裝備領(lǐng)域的詞向量進(jìn)行增量訓(xùn)練是十分必要的。

        本文訓(xùn)練詞向量的目的主要是應(yīng)用于裝備故障診斷領(lǐng)域。如圖3 所示,通過(guò)利用對(duì)外公開(kāi)的《解放軍報(bào)》、軍事類百科全書(shū)、機(jī)械領(lǐng)域詞典以及裝備領(lǐng)域故障數(shù)據(jù)庫(kù)等海量的數(shù)據(jù)文件,以裝備和與軍事領(lǐng)域相關(guān)數(shù)據(jù)作為數(shù)據(jù)集,基于遷移學(xué)習(xí)的思想采用預(yù)訓(xùn)練好的16 G 騰訊詞向量作為初始向量,使用Word2vec 詞嵌入模型在詞向量數(shù)據(jù)集上進(jìn)行裝備領(lǐng)域詞向量的增量訓(xùn)練。

        圖3 word2vec 模型的增量訓(xùn)練過(guò)程

        2 實(shí)驗(yàn)數(shù)據(jù)

        2.1 數(shù)據(jù)集介紹

        本文使用的數(shù)據(jù)集包括開(kāi)源的數(shù)據(jù)集以及裝備和軍事領(lǐng)域相關(guān)的語(yǔ)料數(shù)據(jù)。其中,開(kāi)源數(shù)據(jù)集是由騰訊AI 實(shí)驗(yàn)室公開(kāi)的包含800 多萬(wàn)中文詞匯的一個(gè)大規(guī)模、高質(zhì)量的中文詞向量數(shù)據(jù)集;裝備及軍事領(lǐng)域相關(guān)的語(yǔ)料庫(kù)是由收集整理的66.6 M軍事類百科全書(shū)、393 M 中國(guó)大百科全書(shū)、在網(wǎng)頁(yè)爬取的從2016 年1 月至2021 年5 月1 日的435 M《解放軍報(bào)》的新聞數(shù)據(jù),以及在裝備管理信息系統(tǒng)、裝備履歷書(shū)、裝備維修手冊(cè)以及大項(xiàng)任務(wù)中出現(xiàn)的55 936 條故障數(shù)據(jù)組成的。

        2.2 數(shù)據(jù)預(yù)處理

        由于騰訊詞向量是在下載后不聯(lián)網(wǎng)的情況下使用,所以裝備領(lǐng)域詞向量的訓(xùn)練不存在涉密問(wèn)題。在開(kāi)始進(jìn)行詞向量訓(xùn)練之前,需要先對(duì)收集的數(shù)據(jù)進(jìn)行預(yù)處理工作。首先,收集語(yǔ)料數(shù)據(jù)。語(yǔ)料庫(kù)主要有兩部分來(lái)源,一是利用正則匹配的方法從《解放軍報(bào)》和軍事類百科全書(shū)等網(wǎng)頁(yè)爬取最新語(yǔ)料的內(nèi)容并除去兩端的<contect>標(biāo)簽;二是收集整理在裝備管理信息系統(tǒng)、裝備履歷書(shū)、裝備維修手冊(cè)以及大項(xiàng)任務(wù)中存在的故障數(shù)據(jù)。其次,對(duì)語(yǔ)料數(shù)據(jù)進(jìn)行清洗。主要分為兩步:一是要對(duì)一些多余的空行、符號(hào)以及無(wú)關(guān)緊要的字詞進(jìn)行處理;另外還要對(duì)文章中包含的如日期、長(zhǎng)串?dāng)?shù)字以及一些英文名稱等進(jìn)行泛化處理。通過(guò)將語(yǔ)料庫(kù)中連續(xù)的數(shù)字和英文字母替換成<NUM>和<ENG>來(lái)減少文本的噪聲,提高訓(xùn)練速度。二是分詞。中文和英文的語(yǔ)言特點(diǎn)不同,英文句子中的單詞之間是通過(guò)空格來(lái)分開(kāi)的,不同于英文的是,中文句子中沒(méi)有詞的界限,而word2vec 的工作本身是以詞語(yǔ)為基礎(chǔ)的,這就需要先對(duì)中文語(yǔ)料做分詞處理工作。本文采用了開(kāi)源的jieba 中文分詞工具,它是基于Unigram 和隱馬爾可夫(HMM)的分詞模型,具有分詞準(zhǔn)確率高、模型簡(jiǎn)單易用的特點(diǎn),還可以依據(jù)相關(guān)領(lǐng)域的特征,通過(guò)jieba 分詞載入用戶自定義字典,使得用戶自定義的詞典中含有的詞語(yǔ)不被分開(kāi),從而可以獲得裝備或軍事領(lǐng)域所需的分詞效果。

        3 實(shí)驗(yàn)及結(jié)果分析

        3.1 參數(shù)設(shè)置

        使用Word2Vec 中的Skip-gram 方法對(duì)裝備領(lǐng)域詞向量進(jìn)行訓(xùn)練,需要對(duì)詞向量維度(size),窗口大小(window),min-count 等幾個(gè)可能影響訓(xùn)練速度和質(zhì)量的參數(shù)進(jìn)行設(shè)置。其中,詞向量維度]是Word2Vec 將單詞映射到的N 維空間的維數(shù),N就是說(shuō)用N 個(gè)特征來(lái)表示這個(gè)詞向量。設(shè)定較大的值需要更多的訓(xùn)練數(shù)據(jù),但可以產(chǎn)生更準(zhǔn)確的模型。合理的值在10~1 000 之間,默認(rèn)值是100。min-count 表示最低詞頻訓(xùn)練閾值,這個(gè)一般根據(jù)語(yǔ)料庫(kù)的大小進(jìn)行設(shè)置,通常設(shè)置min-count=5。窗口大小是指詞向量訓(xùn)練時(shí)上下文掃描的窗口大小,一般為防止增加噪音信息不宜設(shè)置過(guò)長(zhǎng),窗口是5 就是考慮前5 個(gè)詞和后5 個(gè)詞。本節(jié)根據(jù)語(yǔ)料特點(diǎn)以及在詞向量訓(xùn)練中實(shí)驗(yàn)運(yùn)行的內(nèi)存、運(yùn)算耗時(shí)等情況,將min-count 和window 的值均設(shè)定為5,詞向量的維度經(jīng)過(guò)實(shí)驗(yàn)對(duì)比設(shè)定為200 更能滿足要求。

        3.2 評(píng)價(jià)指標(biāo)

        當(dāng)前詞向量的評(píng)價(jià)方式往往可以分為兩大類,包括定量評(píng)價(jià)和定性評(píng)價(jià)。定量評(píng)價(jià)是通過(guò)一些實(shí)際任務(wù)的指標(biāo)來(lái)評(píng)價(jià);定性評(píng)價(jià)是通過(guò)一些可視化的方法進(jìn)行直觀上的評(píng)估。本節(jié)訓(xùn)練的裝備領(lǐng)域詞向量將結(jié)合定量分析和定性分析兩種方法進(jìn)行評(píng)價(jià)。

        詞向量的定量評(píng)價(jià)常用到的兩種方法是類比評(píng)價(jià)和相似度評(píng)價(jià)。類比評(píng)價(jià)是一種較為經(jīng)典的詞向量評(píng)價(jià)方法,是假設(shè)已知一對(duì)詞語(yǔ)a 和b 的關(guān)系,同時(shí)給定另一個(gè)詞語(yǔ)c,通過(guò)類比的方法推理出另一個(gè)相關(guān)的詞語(yǔ)d,例如經(jīng)典的類比任務(wù)King-Queen=Man-Wan。這種方法的缺點(diǎn)是需要有比較成熟的相關(guān)數(shù)據(jù)集,裝備領(lǐng)域的類比數(shù)據(jù)還不夠完善,所以該方法并不適用于本文。相似度評(píng)價(jià)是基于已經(jīng)訓(xùn)練好的詞向量,通過(guò)計(jì)算給定兩兩單詞的相似度來(lái)作比較,來(lái)判斷它的效果怎樣。其中,判斷詞語(yǔ)相似度最常用的方法包括歐氏距離和余弦相似度。向量的夾角余弦值可以體現(xiàn)兩個(gè)向量在方向上的差異,余弦相似度就是把一個(gè)向量空間中兩個(gè)夾角的余弦值作為衡量?jī)蓚€(gè)個(gè)體之間差異的大小。

        本節(jié)主要采用余弦相似度評(píng)價(jià)和空間可視化相結(jié)合的方法,對(duì)裝備領(lǐng)域的詞向量進(jìn)行評(píng)估。

        3.3 結(jié)果分析

        依據(jù)現(xiàn)有的實(shí)驗(yàn)條件和語(yǔ)料庫(kù)數(shù)據(jù)情況,主要從自主訓(xùn)練和基于騰訊詞向量訓(xùn)練詞向量?jī)蓚€(gè)方面進(jìn)行了實(shí)驗(yàn)。自主訓(xùn)練詞向量不同于基于遷移學(xué)習(xí)的訓(xùn)練,兩種訓(xùn)練方法的本質(zhì)區(qū)別在于是否受語(yǔ)料數(shù)據(jù)的規(guī)模的影響,有沒(méi)有穩(wěn)定的模型參數(shù)做支撐。詞向量訓(xùn)練效果的評(píng)價(jià)主要從3 個(gè)方面進(jìn)行分析:1)自主訓(xùn)練詞向量實(shí)驗(yàn)效果分析;2)自主訓(xùn)練與基于騰訊詞向量訓(xùn)練結(jié)果對(duì)比分析;3)可視化分析。

        3.3.1 自主訓(xùn)練詞向量實(shí)驗(yàn)效果分析

        在自主訓(xùn)練詞向量過(guò)程中,為了獲得較理想的詞匯語(yǔ)義表征效果,通過(guò)自主訓(xùn)練的方法分別得到了50 維、100 維、150 維、200 維和300 維詞向量的訓(xùn)練模型,并運(yùn)用余弦相似度計(jì)算輸出了與中心詞最相似的前10 個(gè)詞語(yǔ),得到結(jié)果如表1 所示,這里僅展示以“電臺(tái)”為中心詞輸出的結(jié)果。

        通過(guò)對(duì)表1 分析,橫向比較可知,采用50 維來(lái)表達(dá)裝備領(lǐng)域的詞語(yǔ)含義效果不明顯,即使像“3”“不能”以及“不”等這樣與“電臺(tái)”關(guān)聯(lián)度不明顯的詞語(yǔ)相似度竟然超過(guò)了“A 型”“保險(xiǎn)絲”之類的詞語(yǔ),且相似度在80%以上。產(chǎn)生這種現(xiàn)象的原因是50 維的詞向量模型的空間維度較低,很難在低維的向量空間中綜合表達(dá)并區(qū)分涵蓋語(yǔ)料豐富的信息內(nèi)容,因此,運(yùn)用50 維的詞向量模型不能滿足裝備領(lǐng)域詞語(yǔ)的表達(dá)需求??v向比較可得,從100 維到300 維的詞向量模型表示同一詞語(yǔ)的相似度在逐漸下降,造成這樣結(jié)果的原因是隨著向量空間的增大,每個(gè)詞語(yǔ)在每一維上的表達(dá)更加精確,相似度值的區(qū)分也更加明顯,而且當(dāng)向量維度增加到200維以上時(shí),出現(xiàn)了“發(fā)射機(jī)”“接收機(jī)”等與“電臺(tái)”關(guān)聯(lián)度更高的詞語(yǔ);但同時(shí)也發(fā)現(xiàn)運(yùn)用200 維的詞向量模型已經(jīng)達(dá)到了一定的對(duì)裝備領(lǐng)域詞語(yǔ)表達(dá)效果,用300 維的空間表示比較浪費(fèi)、存在信息冗余,也大大增加了后續(xù)計(jì)算的工作量。綜合分析比較,將向量維度設(shè)定為200 維對(duì)裝備領(lǐng)域詞語(yǔ)的語(yǔ)義信息有一定的表征效果,但自主訓(xùn)練的詞語(yǔ)關(guān)聯(lián)度還不夠凸顯。

        表1 自主訓(xùn)練詞向量相似度對(duì)比分析

        3.3.2 自主訓(xùn)練與基于騰訊詞向量訓(xùn)練結(jié)果對(duì)比分析

        由于騰訊詞向量對(duì)裝備領(lǐng)域的一些類似“斷殼”之類的專有名詞涵蓋不全面,所以不直接使用騰訊詞向量對(duì)裝備故障文本進(jìn)行表示。針對(duì)騰訊詞向量模型參數(shù)穩(wěn)定、覆蓋詞語(yǔ)領(lǐng)域廣泛成熟的優(yōu)勢(shì)以及裝備領(lǐng)域語(yǔ)料不足夠大的特點(diǎn),將詞向量維度設(shè)置為200 維,基于gensim 包運(yùn)用騰訊詞向量模型對(duì)裝備領(lǐng)域的詞向量進(jìn)行了增量訓(xùn)練,得到了裝備領(lǐng)域的詞向量模型。這里以“電臺(tái)”為中心詞,隨機(jī)抽取與“電臺(tái)”一詞關(guān)聯(lián)度高的以及關(guān)聯(lián)度不高的部分詞語(yǔ),運(yùn)用基于騰訊詞向量訓(xùn)練生成的詞向量模型和自主訓(xùn)練生成的200 維的詞向量模型,分析比較同一類詞語(yǔ)之間余弦相似度差異,其結(jié)果如下頁(yè)表2 所示。

        表2 自主訓(xùn)練與基于騰訊詞向量訓(xùn)練的詞向量相似度對(duì)比

        通過(guò)對(duì)比分析發(fā)現(xiàn),自主訓(xùn)練的詞向量模型受語(yǔ)料庫(kù)量的限制,在計(jì)算與“電臺(tái)”一詞相關(guān)和不相關(guān)的詞語(yǔ)時(shí)區(qū)分度不高,且出現(xiàn)了與“電臺(tái)”一詞關(guān)聯(lián)度不高的“底盤(pán)”“發(fā)動(dòng)機(jī)”等詞的相似度遠(yuǎn)超過(guò)了與“電臺(tái)”關(guān)聯(lián)度較密切的“調(diào)頻電臺(tái)”“調(diào)頻”等詞語(yǔ)的現(xiàn)象。與之形成鮮明的對(duì)比的是,在計(jì)算與“電臺(tái)”關(guān)聯(lián)較高的一類詞如“調(diào)頻電臺(tái)”“天線”“接收機(jī)”“發(fā)射機(jī)”“調(diào)頻”時(shí),運(yùn)用基于騰訊詞向量訓(xùn)練得到的詞向量模型其計(jì)算結(jié)果都在0.5 以上,且詞語(yǔ)之間彼此的區(qū)分度明顯;在計(jì)算與“電臺(tái)”關(guān)聯(lián)不太高的“發(fā)動(dòng)機(jī)”“底盤(pán)”“電源”“電纜”“連接”等詞時(shí),其相似度都在0.3 左右浮動(dòng),且詞語(yǔ)之間與電臺(tái)的關(guān)聯(lián)度也能較好地區(qū)分出來(lái)。所以,采用基于騰訊詞向量模型訓(xùn)練裝備領(lǐng)域詞向量更符合人們的主觀判斷。

        3.3.3 可視化分析

        運(yùn)用基于騰訊詞向量模型訓(xùn)練和自主訓(xùn)練兩種方法分別生成了528 969 和297 130 個(gè)200 維的詞向量,由于詞向量文件比較大,全部可視化就什么都看不見(jiàn)了,所以將兩種訓(xùn)練方法得到的詞向量模型隨機(jī)抽取部分進(jìn)行可視化展示,效果如圖4 所示。

        圖4 兩種訓(xùn)練方法得到詞向量的二維投影

        通過(guò)向量可視化結(jié)果可知,圖4(a)基于騰訊詞向量訓(xùn)練得到的裝備領(lǐng)域詞向量存在關(guān)聯(lián)關(guān)系的大部分詞語(yǔ)有明顯的聚類特征,語(yǔ)義相似或存在明顯關(guān)聯(lián)關(guān)系的詞會(huì)有相近的分布,只有少量詞語(yǔ)由于語(yǔ)料數(shù)據(jù)規(guī)模導(dǎo)致關(guān)聯(lián)關(guān)系不明顯;而圖4(b)自主訓(xùn)練的詞向向量呈現(xiàn)分布均勻,詞向量之間的語(yǔ)義關(guān)聯(lián)關(guān)系不明顯,沒(méi)有明顯的聚類特征。產(chǎn)生這樣的訓(xùn)練效果,一方面是由于語(yǔ)料庫(kù)的數(shù)據(jù)量不夠大,僅自主訓(xùn)練沒(méi)有達(dá)到較好的效果,另一方面是騰訊詞向量模型本身參數(shù)已經(jīng)較穩(wěn)定,訓(xùn)練的效果更有說(shuō)服力。顯然,基于騰訊詞向量訓(xùn)練的裝備領(lǐng)域詞向量涵蓋詞語(yǔ)全面、同一類詞語(yǔ)之間存在一定的關(guān)聯(lián)關(guān)系,更符合裝備領(lǐng)域詞向量訓(xùn)練應(yīng)達(dá)到的效果。

        在表3 中,對(duì)3 種詞向量模型采用余弦相似度分別計(jì)算并找出了與給定中心詞距離最相近的5個(gè)詞。從計(jì)算結(jié)果發(fā)現(xiàn),在數(shù)據(jù)集相同的情況下不同的訓(xùn)練方法產(chǎn)生了不同的訓(xùn)練結(jié)果。在騰訊詞向量模型中,中心詞和鄰近詞之間只是在詞性語(yǔ)義方面相近,中心詞與鄰近詞不存在“偏好”。運(yùn)用同一語(yǔ)料數(shù)據(jù),進(jìn)行自主訓(xùn)練和基于騰訊詞向量訓(xùn)練后發(fā)現(xiàn),自主訓(xùn)練的中心詞和鄰近詞存在一定關(guān)聯(lián)關(guān)系但詞性語(yǔ)義有所區(qū)別;而基于騰訊詞向量訓(xùn)練的中心詞不僅詞性語(yǔ)義相近且對(duì)裝備領(lǐng)域的詞語(yǔ)有一定的“偏好”。通過(guò)這一現(xiàn)象表明,運(yùn)用裝備領(lǐng)域的語(yǔ)料基于騰訊詞向量模型訓(xùn)練得到的裝備領(lǐng)域的詞向量,具備一定的特殊性和針對(duì)性。

        表3 不同模型下部分詞與其鄰近的5 個(gè)詞

        4 結(jié)論

        基于騰訊詞向量訓(xùn)練得到的裝備領(lǐng)域詞向量,無(wú)論是在相似度匹配效果方面還是在詞向量可視化方面,表征效果都明顯要比自主訓(xùn)練的效果好,而且受裝備領(lǐng)域語(yǔ)料的限制,基于騰訊詞向量模型得到的領(lǐng)域詞向量表征效果更穩(wěn)定,更能體現(xiàn)出語(yǔ)義之間的關(guān)聯(lián)關(guān)系。實(shí)驗(yàn)表明,基于騰訊詞向量訓(xùn)練的裝備領(lǐng)域詞向量,較自主訓(xùn)練提高了詞性語(yǔ)義的關(guān)聯(lián)性,較騰訊詞向量具備裝備領(lǐng)域的針對(duì)性,更適用于裝備故障案例的統(tǒng)一知識(shí)表達(dá)。

        猜你喜歡
        中心詞語(yǔ)料向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        Why I ride
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        同位語(yǔ)從句與中心詞的句法關(guān)系
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語(yǔ)料
        國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
        久久中文字幕国产精品| 国产日韩欧美亚洲精品中字| 亚洲AV无码成人精品区网页| 少妇高潮太爽了免费网站| 亚洲av网站在线观看一页| 粗大的内捧猛烈进出视频| h国产视频| 91麻豆精品一区二区三区| 亚洲最近中文字幕在线| 成人国内精品久久久久一区| 精品五月天| 综合图区亚洲偷自拍熟女| 日本道色综合久久影院| 色哟哟网站在线观看| 成人午夜视频一区二区无码| 国产不卡av一区二区三区| 男人的天堂中文字幕熟女人妻| 麻豆高清免费国产一区| 精品久久杨幂国产杨幂| 国产久色在线拍揄自揄拍| 国产乱妇无乱码大黄aa片| 国产欧美日韩在线观看| 国产精品亚洲一区二区三区正片 | 亚洲无线码一区在线观看| 中文字幕有码在线人妻| 欧美四房播播| 久久精品波多野结衣中文字幕 | 日韩av免费一区二区| 亚洲av无码一区二区三区天堂古代 | 黄色视频在线免费观看| 91综合久久婷婷久久| 国产黄久色一区2区三区| 国产成+人欧美+综合在线观看 | 一级片久久| 久久精品国产福利亚洲av| 国产suv精品一区二区四| 亚洲av无码一区二区三区在线| 日日噜噜夜夜狠狠久久av| 国产桃色一区二区三区| 久久久久亚洲av片无码v| 韩国一级成a人片在线观看|