亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Word2Vec詞嵌入和聚類模型的安全生產(chǎn)事故文本案例分類①

        2021-01-22 05:42:30吳德平
        關(guān)鍵詞:分詞聚類編碼

        吳德平,華 鋼

        1(中國(guó)礦業(yè)大學(xué) 信息與控制工程學(xué)院,徐州 221008)

        2(江蘇安全技術(shù)職業(yè)學(xué)院 網(wǎng)絡(luò)與信息安全學(xué)院,徐州 221011)

        安全生產(chǎn)事關(guān)生命財(cái)產(chǎn)安全.通過(guò)對(duì)安全生產(chǎn)事故劃分,對(duì)安全生產(chǎn)事故發(fā)生的行業(yè)、時(shí)間、地域、原因、教訓(xùn)等多個(gè)維度展開(kāi)大數(shù)據(jù)分析,采用語(yǔ)義分析技術(shù),從客觀的數(shù)據(jù)中挖掘安全生產(chǎn)事故的特點(diǎn)與規(guī)律,為安全生產(chǎn)的應(yīng)急管理提供科學(xué)決策具有重要技術(shù)意義和參考價(jià)值.本文旨在通過(guò)NLP 技術(shù)實(shí)現(xiàn)安全生產(chǎn)事故大數(shù)據(jù)分析.圖1是安全生產(chǎn)事故分類的實(shí)現(xiàn)流程,通過(guò)該流程實(shí)現(xiàn)安全生產(chǎn)事故的分類.準(zhǔn)備大量的安全生產(chǎn)案例作為語(yǔ)料,jieba分詞工具實(shí)現(xiàn)語(yǔ)料分詞,將分詞后的單元輸入Word2Vec模型獲得詞向量,通過(guò)K-means 聚類對(duì)詞向量實(shí)現(xiàn)聚類實(shí)現(xiàn)安全生產(chǎn)事故的分類[1].

        圖1 安全生產(chǎn)事故分類實(shí)現(xiàn)流程

        1 文本表示

        文本表示是把字詞處理成向量或矩陣,以便計(jì)算機(jī)能進(jìn)行處理.文本表示是自然語(yǔ)言處理的開(kāi)始環(huán)節(jié).目前常用的文本表示模型有:詞袋模型、主題模型和詞嵌入模型等.詞袋模型主要有One-Hot (獨(dú)熱編碼)、n-gram、TF-IDF.本例采用One-Hot 編碼.

        One-Hot 編碼,又稱一位有效編碼,其方法是使用N位狀態(tài)寄存器來(lái)對(duì)N個(gè)狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都有它獨(dú)立的寄存器位,并且在任意時(shí)候,其中只有一位有效.本質(zhì)上是用一個(gè)只含一個(gè)1,其他都是0 的向量來(lái)唯一表示詞語(yǔ).表1中安全生產(chǎn)事故性質(zhì)分類為例(僅考慮死亡人數(shù)),死亡人數(shù)1-9 的一種One-Hot 編碼如表1.

        表1 One-Hot 編碼示意

        2 利用Word2Vec 實(shí)現(xiàn)詞向量

        2.1 分詞

        分詞是實(shí)現(xiàn)中文文本詞性標(biāo)注、關(guān)鍵詞抽取等功能.jieba 分詞包是Python 中很好的分詞組件,通過(guò)加載大量安全生產(chǎn)案例的文本文件,先基于詞典分詞,然后進(jìn)行詞性標(biāo)注和發(fā)現(xiàn)新詞,同時(shí)進(jìn)行關(guān)鍵詞提取完成分詞.同時(shí)可使用jieba.suggest_freq(‘事故’,True)調(diào)節(jié)單個(gè)詞語(yǔ)的詞頻,使“事故”能被分出來(lái),提高分詞效果[2-5].

        2.2 CBOW 模型和負(fù)采樣

        Word2Vec 是Google 推出的用于獲取詞向量的工具包.Word2Vec 作為神經(jīng)概率語(yǔ)言模型,采用兩種模型(CBOW 和Skip-gram) 與兩種方法(Hierarchical Softmax 和Negative Sampling)的組合.CBOW 是根據(jù)某個(gè)詞前面的N個(gè)詞或前后N個(gè)詞計(jì)算某個(gè)詞概率的模型,其模型如圖2.Skip-gram 是根據(jù)某個(gè)詞計(jì)算它前后出現(xiàn)某幾個(gè)詞的各個(gè)概率.

        圖2 CBOW 模型

        CBOW 模型一般采用3 層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),分為輸入層,隱藏層(嵌入層)和輸出層(Softmax 層).CBOW模型輸入上下文詞的One-Hot 編碼,然后連接一個(gè)全連接層,再連接若干個(gè)層,最后接Softmax 分類器,再通過(guò)梯度優(yōu)化和反向傳播讓模型逼近最小誤差就可以得到詞向量.由于神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練中生成的詞匯往往數(shù)萬(wàn)以上,這大大降低了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度,本例選用CBOW+負(fù)采樣提高訓(xùn)練速度,該組合具有運(yùn)算快的特點(diǎn).任何采樣算法應(yīng)該保證頻次越高的樣本越容易被采樣出來(lái).負(fù)采樣的本質(zhì)就是每次讓一個(gè)訓(xùn)練樣本更新神經(jīng)網(wǎng)絡(luò)的部分權(quán)重.CBOW 模型中詞向量的數(shù)量大,神經(jīng)網(wǎng)絡(luò)則有龐大的權(quán)重?cái)?shù),不同于原本每個(gè)訓(xùn)練樣本更新所有的權(quán)重,負(fù)采樣每次讓一個(gè)訓(xùn)練樣本僅僅更新一部分的權(quán)重,其他權(quán)重全部固定,這樣即可以減少計(jì)算量,同時(shí)在一定程度上增加隨機(jī)性,降低了損失值.具體代碼中l(wèi)oss 函數(shù)定義如下:

        loss=tf.reduce_mean(tf.nn.nce_loss(weights=nce_we ights,biases=nce_biases,labels=train_labels,inputs=embed,num_sampled=num_sampled,num_classes=words_size)).

        train_inputs 是中心詞,train_label 是該中心詞在滑動(dòng)窗口內(nèi)的上下文詞.train_inputs 中會(huì)有連續(xù)n-1(n為滑動(dòng)窗口大小)個(gè)元素是相同的.即同一中心詞.embddings 是要學(xué)習(xí)的詞向量的存儲(chǔ)矩陣[6-13].

        2.3 利用Gensim 實(shí)現(xiàn)Word2Vec

        Gensim 是一款開(kāi)源的第3 方Python 工具包,用于無(wú)監(jiān)督地學(xué)習(xí)到文本隱層的主題向量表達(dá).主要用于主題建模和文檔相似性處理,在獲取單詞的詞向量等任務(wù)中非常有用.Gensim 中集成有CBOW+負(fù)采樣算法,Word2Vec 相關(guān)的API 都在包gensim.models.Word2Vec 中.本例中設(shè)置的主要參數(shù)如表2.

        表2 Gensim 模型主要參數(shù)設(shè)定

        2.4 詞向量實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)基于Tensorflow 和Python3.7,取樣1000 個(gè)安全生產(chǎn)案例,對(duì)100 個(gè)詞向量可視化結(jié)果如圖3.不難看出這些詞向量以安全生產(chǎn)為主題.主題擬合較好,如發(fā)生、事故、經(jīng)過(guò)、事故、原因等;同義詞檢測(cè)如年月日時(shí)語(yǔ)義相似度很高,數(shù)字的一致性檢查很好.

        圖3 安全生產(chǎn)案例詞向量可視化

        3 K-means 聚類

        3.1 K-means 聚類算法

        K-means 算法是一種迭代型無(wú)監(jiān)督學(xué)習(xí)聚類算法,采用距離作為相似性指標(biāo),從而發(fā)現(xiàn)給定數(shù)據(jù)集中的K個(gè)類,且每個(gè)類的中心是根據(jù)類中所有值的均值得到,每個(gè)類用聚類中心來(lái)描K-means 算法是一個(gè)重復(fù)移動(dòng)類中心點(diǎn)的過(guò)程,把類的中心點(diǎn),移動(dòng)到其包含成員的平均位置,然后重新劃分其內(nèi)部成員.K是算法計(jì)算出的超參數(shù),表示類的數(shù)量;K-means 可以自動(dòng)分配樣本到不同的類,但是不能決定究竟要分幾個(gè)類,K必須是一個(gè)比訓(xùn)練集樣本數(shù)小的正整數(shù).對(duì)于詞向量集D={X1,X2,···,Xm},K-means 算法針對(duì)聚類的分類C={C1,C2,···,Ck}最小化平方誤差為

        其中,μi是第K個(gè)聚類的均值向量.每個(gè)類的畸變程度等于該類重心與其內(nèi)部成員位置距離的平方和.若類內(nèi)部的成員彼此間越緊湊則類的畸變程度越小,反之,若類內(nèi)部的成員彼此間越分散則類的畸變程度越大.求解成本函數(shù)最小化的參數(shù)就是一個(gè)重復(fù)配置每個(gè)類包含的觀測(cè)值,并不斷移動(dòng)類重心的過(guò)程.其算法如圖4.

        3.2 半監(jiān)督學(xué)習(xí)初始化聚類中心

        由于安全生產(chǎn)事故分類,如重大事故指死亡10 人以上,30 人以下或重傷50 以上,100 以下;或直接經(jīng)濟(jì)損失5000 萬(wàn)以上,1 億元以下.分類中死亡、重傷人數(shù),特別是財(cái)產(chǎn)損失數(shù)值范圍很大,特征空間會(huì)變得非常稀疏.為了解決這個(gè)問(wèn)題,可通過(guò)線性回歸模型,利用半監(jiān)督學(xué)習(xí),即用已有的詞向量確定傷害與死亡、重傷較少人數(shù)(取30 人以下)的關(guān)聯(lián)度X1i、X2i和作為標(biāo)簽,令相應(yīng)的權(quán)重值分別為W1i、W2i,把經(jīng)濟(jì)損失與傷害人數(shù)關(guān)聯(lián)度Bi視為偏移量,線性回歸的預(yù)測(cè)函數(shù)為:

        利用已有的樣本訓(xùn)練式(2)可確定相應(yīng)的學(xué)習(xí)參數(shù),如表3.如對(duì)于特大事故,利用學(xué)習(xí)好的參數(shù)W1i、W2i,再利用預(yù)測(cè)函數(shù)(2)和大量樣本確定X1n、X1n和Bn[14-16].

        圖4 K-means 聚類算法流程圖

        表3 事故性質(zhì)與關(guān)聯(lián)參數(shù)

        對(duì)4 類安全事故,聚類簇?cái)?shù)K=4,算法開(kāi)始均值向量取值如下:

        將μ1、μ2、μ3、μ4作為初始化聚類中心,然后按照?qǐng)D4中算法計(jì)算,得到最終分類.

        3.3 K-means 算法實(shí)驗(yàn)結(jié)果

        取1000 個(gè)安全生產(chǎn)事故為樣本,把樣本的詞向量作為聚類的輸入,按照上述實(shí)驗(yàn),圖示化結(jié)果如圖5.圖中,綠色為特大事故,藍(lán)色為重大事故,黃色為較大事故,紅色為一般事故。通過(guò)得到的詞向量和上述聚類算法,較好的實(shí)現(xiàn)安全生產(chǎn)事故分類.在樣本數(shù)萬(wàn)時(shí),分類正確率達(dá)93%以上.同時(shí)該模型對(duì)安全生產(chǎn)事故開(kāi)展多個(gè)維度數(shù)據(jù)分析也有很好的借鑒意義.

        圖5 安全生產(chǎn)事故分類圖

        猜你喜歡
        分詞聚類編碼
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
        《全元詩(shī)》未編碼疑難字考辨十五則
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        結(jié)巴分詞在詞云中的應(yīng)用
        Genome and healthcare
        基于DBSACN聚類算法的XML文檔聚類
        值得重視的分詞的特殊用法
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        午夜亚洲www湿好爽| 久久伊人精品中文字幕有尤物| 神马影院午夜dy888| 欧美日韩色另类综合| 中文毛片无遮挡高潮| 国产成人高清精品亚洲一区| 可免费观看的av毛片中日美韩| 久久香蕉国产线熟妇人妻| 亚洲AV无码精品蜜桃| 少妇裸淫交视频免费看| 国产一区国产二区亚洲精品| 区二区三区玖玖玖| 国产无线乱码一区二三区| 午夜精品一区二区三区av免费| 蜜桃传媒免费在线播放| 黑人巨大跨种族video| 日本午夜国产精彩| 手机免费在线观看日韩av| 激情综合五月| 亚洲av综合色区无码一二三区 | 国语精品视频在线观看不卡| 亚洲女同免费在线观看| av狠狠色丁香婷婷综合久久| 国产成人无码aⅴ片在线观看| 国产天堂av手机在线| 日本一区二区在线高清观看| 人人妻人人爽人人澡人人| 亚洲精品美女久久久久久久| 精品色老头老太国产精品| 波多野结衣中文字幕一区二区三区| a级国产乱理论片在线观看| 国产91在线|亚洲| 加勒比婷婷色综合久久 | 免青青草免费观看视频在线| 精品熟女视频一区二区三区国产 | 曰韩无码无遮挡a级毛片| 99精品视频69V精品视频| 国产天堂网站麻豆| 男子把美女裙子脱了摸她内裤| 亚洲乱码中文字幕在线| 天干天干啦夜天干天2017|