亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于人工智能技術(shù)的內(nèi)容分類仿真實(shí)驗(yàn)平臺(tái)

        2023-05-30 01:22:38李凱毛文卉孫晶晶劉雅琴吳馳
        電子技術(shù)與軟件工程 2023年6期
        關(guān)鍵詞:分類特征文本

        李凱 毛文卉 孫晶晶 劉雅琴 吳馳

        (華中科技大學(xué)網(wǎng)絡(luò)與計(jì)算中心 湖北省武漢市 430074)

        隨著深度學(xué)習(xí)、機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,人工智能實(shí)驗(yàn)課程是計(jì)算機(jī)相關(guān)專業(yè)的必修課程[1],文本處理以及內(nèi)容分類是人工智能領(lǐng)域的一個(gè)重要研究方向,通常文本數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)非結(jié)構(gòu)化、數(shù)據(jù)之間無邏輯聯(lián)系等特點(diǎn)。而內(nèi)容分類算法構(gòu)建,一種是基于機(jī)器學(xué)習(xí)方式以KNN、SVM 分類算法為代表,通過人工方式建立文本特征進(jìn)行內(nèi)容分類,當(dāng)面對(duì)樣本量大且樣本特征不均衡時(shí)采用機(jī)器學(xué)習(xí)方式進(jìn)行會(huì)導(dǎo)致計(jì)算量大、預(yù)測(cè)偏差等問題;另一種是基于深度學(xué)習(xí)的分類算法主要是基于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建分類模型,使用單一的神經(jīng)網(wǎng)絡(luò)構(gòu)建分類模型隨著網(wǎng)絡(luò)層數(shù)的增加會(huì)帶來學(xué)習(xí)周期長(zhǎng)、收斂速度變慢等一系列問題[2]。為了使學(xué)生在實(shí)驗(yàn)過程中充分理解文本表達(dá)、內(nèi)容分類算法晦澀知識(shí)點(diǎn),本實(shí)驗(yàn)將理論同實(shí)際應(yīng)用結(jié)合,語(yǔ)料庫(kù)采用華中科技大學(xué)網(wǎng)站集群[3-4]內(nèi)容作為實(shí)驗(yàn)教學(xué)語(yǔ)料,此集群匯集了超過800 個(gè)校內(nèi)站點(diǎn),網(wǎng)頁(yè)數(shù)量有25868個(gè),信息內(nèi)容達(dá)到3TB。實(shí)驗(yàn)包括數(shù)據(jù)預(yù)處理、文本表達(dá)、文本降維、分類模型構(gòu)建以及實(shí)例仿真5 個(gè)部分,此實(shí)驗(yàn)有助于學(xué)生對(duì)文本處理、機(jī)器學(xué)習(xí)分類算法、深度學(xué)習(xí)分類算法原理的理解以及應(yīng)用。

        1 實(shí)驗(yàn)設(shè)計(jì)

        實(shí)驗(yàn)設(shè)計(jì)采取功能邏輯分層的設(shè)計(jì)思路,在文本獲取方面,利用網(wǎng)站集群的標(biāo)準(zhǔn)數(shù)據(jù)接口獲取非結(jié)構(gòu)化的內(nèi)容數(shù)據(jù);在文本表達(dá)與降維方面,采用詞袋模型[5]構(gòu)建文本表達(dá)向量,并采取PCA 方式對(duì)文本表達(dá)矩陣降維表達(dá);在模型建立方面,從上下文關(guān)聯(lián)語(yǔ)義與文本特征提取兩個(gè)維度構(gòu)建組合模型,并比較KNN 模型、BILSTM 模型、CNN 模型以及組合模型的差異。實(shí)驗(yàn)平臺(tái)分為展示層、仿真層、模型層、中間層以及數(shù)據(jù)層,實(shí)驗(yàn)架構(gòu)如圖1所示。

        圖1:實(shí)驗(yàn)架構(gòu)圖

        數(shù)據(jù)層是對(duì)內(nèi)容數(shù)據(jù)進(jìn)行集中管理,中間層是對(duì)內(nèi)容數(shù)據(jù)進(jìn)行二次加工結(jié)構(gòu)化處理以及降維,模型層是通過建立算法模型對(duì)內(nèi)容數(shù)據(jù)進(jìn)行處理加工,仿真層是利用模型層輸出結(jié)果對(duì)算法進(jìn)行參數(shù)設(shè)定以及基于測(cè)試語(yǔ)料運(yùn)行算法,展示層是向?qū)嶒?yàn)用戶展示分類效果。

        2 關(guān)鍵技術(shù)與實(shí)現(xiàn)

        2.1 數(shù)據(jù)預(yù)處理與準(zhǔn)備

        內(nèi)容數(shù)據(jù)獲取一般有2 種方式,一種是用爬蟲算法對(duì)需要的網(wǎng)頁(yè)內(nèi)容進(jìn)行爬取,另一種是根據(jù)內(nèi)容數(shù)據(jù)所在的平臺(tái)通過接口調(diào)用方式獲取。本文利用高校信息化建設(shè)成果,使用學(xué)校網(wǎng)站集群平臺(tái)通過接口調(diào)用方式,選擇了黨建、科研、教學(xué)、招生、學(xué)工、就業(yè)、校友、對(duì)外交流這8 個(gè)垂直領(lǐng)域,每個(gè)領(lǐng)域提供文章語(yǔ)料作為訓(xùn)練模型數(shù)據(jù),同時(shí)內(nèi)容語(yǔ)料覆蓋理科、工科、文科、醫(yī)科多個(gè)學(xué)科。由于中文文本信息多數(shù)是無結(jié)構(gòu)化的,并且使用自然語(yǔ)言,很難被計(jì)算機(jī)處理,因此需要將中文文章轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別的內(nèi)容[6]。

        2.2 中文分詞與文本表達(dá)

        本實(shí)驗(yàn)采用jieba 分詞對(duì)文章進(jìn)行分詞處理,jieba分詞支持3 鐘分詞模式,分別是:精確模式、全模式、搜索引擎模式[7-8]。由于實(shí)驗(yàn)主要是對(duì)文本進(jìn)行分析,所以采用精確模式進(jìn)行分詞可以達(dá)到效果。

        一篇文章分詞后需要提取特征后用向量形式對(duì)文章進(jìn)行表達(dá),本文將用詞袋模型來對(duì)文章進(jìn)行向量化表示,詞袋模型是將所有詞語(yǔ)裝進(jìn)一個(gè)袋子里,不考慮其詞法和語(yǔ)序的問題,即每個(gè)詞語(yǔ)都是獨(dú)立的,每篇文章就用詞袋里面的詞語(yǔ)進(jìn)行向量化表示[9-10]。簡(jiǎn)而言之一個(gè)文本,用一個(gè)向量表示該文本的語(yǔ)義,向量的每一維對(duì)應(yīng)一個(gè)單詞,其數(shù)值是該單詞在該文本中出現(xiàn)的TFIDF。那么每個(gè)文本就是一個(gè)向量,特征數(shù)量為所有文本中的單詞總數(shù)。而文本集合中的所有文本的向量就會(huì)構(gòu)成一個(gè)單詞-文本矩陣,元素為特征詞的TF-IDF。在實(shí)驗(yàn)中給定為n(n=40000)個(gè)文本的集合D={d1,d2,d3,……,dn},以及在所有文本中出現(xiàn)的m 個(gè)單詞的集合W={W1,W2,W3,……,Wm},特征詞在文本中出現(xiàn)的TFIDF 的值用一個(gè)單詞-文本矩陣表示計(jì)做X。

        公式(1)每一行為一篇文章的向量,每一列為詞袋模型中的特征詞,每個(gè)元素的值為特

        征詞對(duì)應(yīng)的TF-IDF 的值。本文中訓(xùn)練集合中一共40000 篇語(yǔ)料,所有語(yǔ)料通過分詞計(jì)算共獲取到49205個(gè)特征詞,那么一篇語(yǔ)料形成向量即有49205 個(gè)特征值,即公式(4)中m 的取值為49205,所以單詞-文本矩陣是一個(gè)40000*49205 的矩陣,矩陣中每個(gè)元素的值即為對(duì)應(yīng)特征詞的TF-IDF 值。

        2.3 單詞-文本矩陣降維

        通過公式(1)可知單詞-文本矩陣是一個(gè)40000*49205 的矩陣,相當(dāng)于對(duì)于一個(gè)語(yǔ)料文本有49205 個(gè)特征維度,為了方便后續(xù)通過深度學(xué)習(xí)算法對(duì)文本進(jìn)行分類,所以需要對(duì)特征

        值進(jìn)行降維處理,去除冗余特征。本文采用PCA降維方法主成分分析法,是最常用的線性降維方法,它的目標(biāo)是通過某種線性投影,將高維的數(shù)據(jù)映射到低維的空間中表示,即把原先的n 個(gè)特征用數(shù)目更少的m 個(gè)特征取代,新特征是舊特征的線性組合[11]。采用PCA降低新聞文本維度流程如下:

        第一步:計(jì)算每個(gè)特征項(xiàng)的平均值

        meanVal = mean(dataMat,axis=0)

        第二步:對(duì)40000 個(gè)向量減平均值

        meanRemove = dataMat- meanVal

        第三步:計(jì)算協(xié)方差矩陣

        covMat= cov(meanRemove,rowvar=0)

        第四步:依據(jù)協(xié)方差矩陣獲取特征值與特征向量

        eigvals,eigvects = linalg.eig(mat(covMat))

        第五步:特征值排序

        eigIndx = argsort(eigvals)

        第六步:對(duì)保留的特征進(jìn)行主成分分析,相當(dāng)于特征維度降維到280 個(gè)特征維度,累計(jì)方差為99.99%,所以通過降維將單詞-文本40000*49205 的矩陣降維到40000*280,保存前280 個(gè)特征,eigIndx = eigIndx[:-(topNfeat + 1):-1]

        第七步:將數(shù)據(jù)轉(zhuǎn)化到新的空間

        lowDataMat=meanRemove * redEigVec

        reconmat=(lowDataMat * redEigVec.T)+meanVal

        2.4 分類模型構(gòu)建

        傳統(tǒng)的文本分類模型一般采用簡(jiǎn)單直接的KNN 算法進(jìn)行構(gòu)建,此算法是一種基于數(shù)據(jù)之間的距離來實(shí)現(xiàn)類別的判定的一種分類方法。算法的核心思想是,如果一個(gè)樣本在特征空間中的K 個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,并具有

        這個(gè)類別上樣本的特性,但遇到大樣本數(shù)據(jù)時(shí)KNN 方式不是最佳的分類建模方式。

        深度神經(jīng)網(wǎng)絡(luò)Bi-LSTM 和CNN 都是構(gòu)建文本分類模型比較好的選擇,Bi-LSTM 是基于RNN 神經(jīng)元結(jié)構(gòu)進(jìn)行改進(jìn)的雙向循環(huán)神經(jīng)網(wǎng)絡(luò),有效解決了RNN 結(jié)構(gòu)在信息傳輸過程中出現(xiàn)的梯度消失問題,Bi-LSTM 在原有RNN 結(jié)構(gòu)上新加了記憶門、輸入門、遺忘門以及輸出門,這樣保證了有效信息在神經(jīng)元中進(jìn)行傳輸并保存,無用信息在神經(jīng)元中進(jìn)行丟棄。

        LSTM 的結(jié)構(gòu)如圖2所示,LSTM 各個(gè)參數(shù)更新公式如下:

        圖2:LSTM 神經(jīng)元結(jié)構(gòu)

        公式(3)是遺忘門,根據(jù)輸入的文本信息函數(shù)ft對(duì)無用的信息進(jìn)行丟棄同時(shí)決定保存哪些

        信息,公式(2)與公式(4)代表了輸入門,通過激活函數(shù)tanh 與sigmoid 的輸出與遺忘門結(jié)果利用公式(6)可以更新神經(jīng)元狀態(tài),公式(5)與公式(7)代表了輸出門,將輸出結(jié)果輸入到SoftMax 函數(shù),根據(jù)SoftMax 反饋的概率統(tǒng)計(jì)分布,最后得出分類結(jié)果,其中Wi、Wo、Wf 依次為輸入門、輸出門和遺忘門的權(quán)重矩陣。一般用BI-LSTM 構(gòu)建分類模型采用多對(duì)一結(jié)構(gòu),即將分詞后的N 個(gè)詞語(yǔ)向量作為輸入,輸出得到一個(gè)分類結(jié)果。LSTM 模型對(duì)長(zhǎng)序列關(guān)系獲取比較擅長(zhǎng),對(duì)一個(gè)輸入的長(zhǎng)文本信息,LSTM 模型可以很好學(xué)習(xí)到文本前后的依賴關(guān)系,而CNN 卷積神經(jīng)網(wǎng)絡(luò)對(duì)局部特征的獲取十分有效,通過不同大小的卷積核在文本上進(jìn)行移動(dòng),從而獲取文本特征。以一個(gè)句子為例,經(jīng)過分詞后分為n 個(gè)詞,那么第i 個(gè)詞為xi,詞語(yǔ)xi 經(jīng)過CNN 的embedding 后xi 為k 維向量,則一個(gè)句子為X1:n,這個(gè)句子相當(dāng)于一個(gè)n*k 的矩陣,如公式(8):

        假設(shè)卷積核大小為h,即卷積核長(zhǎng)度包含h 個(gè)詞,那么卷積核filter 為一個(gè)h*k 的矩陣設(shè)定為W。那么通過filter 從句子頭到句子尾移動(dòng)n-h+1 次獲取n-h+1 個(gè)特征,特征記為ci,如公式(9),通過公式(9)計(jì)算得到c=[c1,c2,…,cn ?h+1],其中f 為激活函數(shù)。

        公式(9)是經(jīng)過一個(gè)卷積核得到的向量,將此向量輸入到池化層進(jìn)行max pooling,得到,如果有K 個(gè)卷積核,則通過一層卷積、一層池化后可以得到一個(gè)長(zhǎng)度為K 的向量如公式(10)。

        最后將向量M 輸入到全連接層得到每個(gè)類別的概率完成文本分類模型的建立。

        本實(shí)驗(yàn)為了充分結(jié)合Bi-LSTM 與CNN 模型各自的優(yōu)勢(shì)與特點(diǎn),使學(xué)生對(duì)深度學(xué)習(xí)算法有更直觀的理解,利用Bi-LSTM 可以很好獲取長(zhǎng)文本之間的依賴關(guān)系,而CNN 模型依據(jù)不同大小的卷積核可以更好提取文本特征,整合上下文關(guān)聯(lián)語(yǔ)義提取模塊與文本特征提取模塊,構(gòu)建混合模型。

        2.4.1 上下文關(guān)聯(lián)語(yǔ)義提取模塊

        首先將輸入文本進(jìn)行向量化表示,由于Bi-LSTM有記憶門,那么雙向的循環(huán)神經(jīng)網(wǎng)絡(luò)可以捕獲句子中前后方向上語(yǔ)義的信息,這里Bi-LSTM 的輸出相當(dāng)于一個(gè)句子的特征,比如一個(gè)正文內(nèi)容,經(jīng)過分詞后形成N 個(gè)詞語(yǔ),每個(gè)詞語(yǔ)用詞袋模型表示,假設(shè)embedding size 為M,那么這個(gè)正文內(nèi)容即是一個(gè)N*M 的矩陣,在Bi-LSTM 模型中每個(gè)神經(jīng)元會(huì)輸出到這個(gè)詞語(yǔ)為止前面句子的特征,從而形成句子特征的矩陣,由于句子特征矩陣中包含了長(zhǎng)距離詞語(yǔ)之間的語(yǔ)義關(guān)系,在將此輸入到卷積神經(jīng)網(wǎng)絡(luò)用不同的卷積核來做卷積進(jìn)一步提取文本特征,然后將提取的特征輸入到池化層,經(jīng)過池化層后文本特征進(jìn)一步降維,進(jìn)而獲取上下文關(guān)聯(lián)語(yǔ)義。

        2.4.2 文本特征提取模塊

        本實(shí)驗(yàn)采用3層CNN卷積神經(jīng)網(wǎng)絡(luò)提取文本特征,卷積層是CNN 的核心,通過對(duì)分詞后的單詞進(jìn)行卷積計(jì)算可以提取文本更高級(jí)的特征,將提取的特征輸入不同尺寸窗口卷積核經(jīng)過非線性激活函數(shù)Ot = f( WX + a)處理后輸出本層要輸出的特征,其中W 為卷積核,a 為偏移量,X 為文本向量,f 為激活函數(shù)Sigmoid。在多層網(wǎng)絡(luò)結(jié)構(gòu)中,為了避免特征在層與層之間傳輸丟失,將每一層的輸出與第一層輸入結(jié)果進(jìn)行拼接,這樣有效保證原始特征的保留與重用。

        最后在融合層融合Bi-LSTM 和CNN 兩個(gè)不同網(wǎng)絡(luò)輸出的詞向量矩陣進(jìn)行計(jì)算,將其融合結(jié)果輸入到全連接層將特征重新擬合,使用 Dropout 防止過擬合,最后利用Softmax 函數(shù)輸出文本的概率分布,從而到達(dá)文本分類的效果。

        通過將實(shí)驗(yàn)步驟按照功能進(jìn)行拆分,可以使學(xué)生更直觀理解機(jī)器學(xué)習(xí)、深度學(xué)習(xí)針對(duì)內(nèi)容文本的處理標(biāo)準(zhǔn)化流程以及對(duì)分類算法原理的理解。

        3 實(shí)驗(yàn)仿真

        3.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)后臺(tái)采用Django2.2.1 框架,新聞?wù)故厩岸瞬捎肂ootstrap 框架,并運(yùn)用Python3.6 進(jìn)行文本處理以及用TensorFlow1.13 進(jìn)行深度學(xué)習(xí)分類模型搭建,實(shí)驗(yàn)數(shù)據(jù)字段包含文章序號(hào)、文章標(biāo)題、文章內(nèi)容、文章分詞、文章類別5 個(gè)字段。

        3.2 實(shí)驗(yàn)評(píng)價(jià)與參數(shù)設(shè)置

        文本分類模型評(píng)估標(biāo)準(zhǔn):準(zhǔn)確度、召回率與f1 值,其中準(zhǔn)確度計(jì)算公式為:預(yù)測(cè)正確的類別個(gè)數(shù)/該類別預(yù)測(cè)的所有個(gè)數(shù);召回率計(jì)算公式為:預(yù)測(cè)正確的類別個(gè)數(shù)/該類別實(shí)際的所有個(gè)數(shù);f1 值公式為精確率和召回率的加權(quán)調(diào)和平均值。本實(shí)驗(yàn)對(duì)比KNN 機(jī)器學(xué)習(xí)分類模型、Bi-LSTM 模型、CNN 模型以及本文提出的Bi-LSTM+CNN 混合模型的性能,主要參數(shù)如表1所示。

        表1:實(shí)驗(yàn)仿真參數(shù)

        3.3 實(shí)驗(yàn)結(jié)果與運(yùn)行效果

        各個(gè)模型分類運(yùn)行結(jié)果如表2所示,表格中列出了4 個(gè)模型中所有8 個(gè)分類的分類準(zhǔn)確度的值,其中機(jī)器學(xué)習(xí)算法建立的KNN 模型分類效果相對(duì)其他3 個(gè)模型是最差的,KNN 模型訓(xùn)練時(shí)間也是最長(zhǎng)的。從表格中可知混合模型分類效果最好,因?yàn)榇四P徒Y(jié)合了Bi-LSTM 與CNN 的優(yōu)勢(shì),但是由于組合了兩個(gè)模型,故混合模型在時(shí)間復(fù)雜度上會(huì)差一些。

        表2:分類模型運(yùn)行結(jié)果

        4 結(jié)語(yǔ)

        本實(shí)驗(yàn)平臺(tái)從機(jī)器學(xué)習(xí)、深度學(xué)習(xí)兩個(gè)方面,針對(duì)主流的分類模型分析了KNN 分類模型、雙向循環(huán)網(wǎng)絡(luò)神經(jīng)模型以及卷積神經(jīng)網(wǎng)絡(luò)模型,同時(shí)結(jié)合單獨(dú)模型的優(yōu)勢(shì)將Bi-LSTM 模型與CNN 模型組合使用,并基于高校內(nèi)容語(yǔ)料庫(kù)建立內(nèi)容分類實(shí)驗(yàn)平臺(tái),實(shí)現(xiàn)了從文本分詞、內(nèi)容表達(dá)、內(nèi)容降維、分類模型構(gòu)建到數(shù)據(jù)仿真的閉環(huán)實(shí)踐。

        猜你喜歡
        分類特征文本
        分類算一算
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        男女做爰高清免费视频网站| 日本一道高清在线一区二区| 国产91极品身材白皙| 一本久久a久久精品综合| 亚洲日本一区二区三区四区| 在线免费观看一区二区| 国产探花在线精品一区二区| 欧美精品在线一区| 国产特黄1区2区3区4区| 日韩亚洲精品国产第二页| 色一情一区二区三区四区| 亚洲色婷婷免费视频高清在线观看| 国产精品亚洲ΑV天堂无码| 国产一区二区三区尤物| 日本一卡二卡3卡四卡免费观影2022| 欧美成人一区二区三区| 有码精品一二区在线| 国产亚洲三级在线视频| 国产亚洲精品品视频在线 | 国产一区二区三区av观看| 日韩欧美一区二区三区免费观看| 婷婷丁香五月激情综合| 国产成人无码a区在线观看视频 | 久久综合丝袜日本网| 久久精品中文字幕第23页| 免费在线观看视频专区| 日韩女同视频在线网站| av香港经典三级级 在线| 97久久久久国产精品嫩草影院| 草青青在线视频免费观看| 色综合久久久久综合99| 男人扒开女人双腿猛进女人机机里| 久久久婷婷综合亚洲av| 国产一级一级内射视频| 欧美video性欧美熟妇| 欧美激情区| 国产三级精品三级在线| 精品卡一卡二卡3卡高清乱码| 日韩精品一区二区亚洲av| 丝袜欧美视频首页在线| 亚洲精品不卡av在线免费|