亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的招聘信息文本分類研究

        2023-11-29 03:08:08任濟(jì)洲
        關(guān)鍵詞:分類深度文本

        任濟(jì)洲

        (澳大利亞國立大學(xué) 計(jì)算機(jī)與控制學(xué)院,堪培拉 ACT2601)

        文本分類是計(jì)算機(jī)處理自然語言的一項(xiàng)基本任務(wù),廣泛應(yīng)用于垃圾郵件過濾、輿情分析、情感分析和新聞分類等領(lǐng)域[1]。在海量信息的當(dāng)下,如何有效地分類和解析企業(yè)招聘信息文本,提高招聘效率和實(shí)現(xiàn)求職者與職位的精準(zhǔn)匹配具有重要的現(xiàn)實(shí)意義。

        傳統(tǒng)文本分類方法依賴于人工提取的特征和基于統(tǒng)計(jì)的模型。人工提取的特征通常包含詞性和詞頻,樸素貝葉斯和最大熵模型是常用的統(tǒng)計(jì)學(xué)模型。例如,徐軍等[2]使用樸素貝葉斯和最大熵模型進(jìn)行情感分類,但這種模型在大數(shù)據(jù)場景下效果有限。隨著深度學(xué)習(xí)的發(fā)展和計(jì)算能力的提升,新的算法和模型不斷出現(xiàn)。徐逸等[3]將分層式卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合,解決了長文本的語義分布問題。Zhang Y等[4]通過多通道卷積神經(jīng)網(wǎng)絡(luò)和過采樣技術(shù),解決了樣本不平衡問題。王勇等[5]將層次Softmax與CNN結(jié)合,顯著加速了模型訓(xùn)練。Liu P等[6]應(yīng)用RNN于多任務(wù)學(xué)習(xí),提高了分類性能。梁志劍等[7]將BiGRU與樸素貝葉斯結(jié)合,解決了GRU的長依賴和梯度消失問題。王偉等[8]提出了融合注意力機(jī)制和BiGRU模型,高效地完成了情感分類。

        詞嵌入技術(shù)作為自然語言處理的核心,近些年來取得了新的突破。Bengio Y等[9]使用神經(jīng)網(wǎng)絡(luò)解決了傳統(tǒng)語言模型數(shù)據(jù)的稀疏性和上下文忽略的局限性。Mikolo T等[10]提出Word2Vec,通過簡化模型和優(yōu)化算法,顯著改進(jìn)了詞的嵌入表示。Pennington J等[11]推出GloVe模型,更全面捕獲詞的共現(xiàn)信息。Busta M等[12]利用FastText模型解決詞形變化和未登錄詞的問題。Devlin J等[13]發(fā)布了適用于多種下游任務(wù)的BERT模型,為NLP任務(wù)提供預(yù)訓(xùn)練詞向量。

        盡管現(xiàn)有研究已經(jīng)推出了多種文本分類模型,但這些模型多數(shù)采用單一的網(wǎng)絡(luò)架構(gòu),且未考慮不同詞嵌入技術(shù)對分類性能的影響,這限制了模型在不同場景下的泛化能力和靈活性。本文旨在研究不同的詞嵌入技術(shù)和網(wǎng)絡(luò)結(jié)構(gòu)在招聘信息文本分類任務(wù)上的性能表現(xiàn),包括Word2Vec-CNN,Word2Vec-LSTM,Bert-CNN和Bert-LSTM。在此基礎(chǔ)上,構(gòu)造了Bert-CBM混合模型。其融合了CNN,BiLSTM以及多層感知機(jī)(Multilayer Perceptron,MLP)的優(yōu)勢。實(shí)驗(yàn)結(jié)果表明,該混合模型在當(dāng)前任務(wù)中展現(xiàn)出了較優(yōu)性能。

        1 相關(guān)技術(shù)

        1.1 基于Word2vec的文本表示

        Word2Vec是Google開發(fā)的一種分布式詞向量訓(xùn)練工具,包含了Skip-gram和CBOW模型。本文采用Skip-gram模型訓(xùn)練的詞向量,模型結(jié)構(gòu)如圖1所示。

        圖1 Skip-gram模型結(jié)構(gòu)示意

        該模型由輸入層、隱藏層和輸出層組成,層與層之間是全連接方式。在訓(xùn)練時(shí),輸入字Wt,預(yù)測上下文單詞。對于長度為T的文本,上下文窗口大小為m,該模型的最大似然函數(shù)M和損失函數(shù)L如式(1)和式(2):

        (1)

        (2)

        其中,t表示第t個詞,Wt和Wt+j分別表示中心詞和中心詞的上下文詞匯;P(Wt+j|Wt) 表示給定中心詞Wt時(shí),上下文位置為t+j的詞Wt+j出現(xiàn)的概率。

        1.2 基于BERT的文本表示

        BERT是一種融合Transformer中的編碼器和嵌入層的雙向語言模型。編碼器主要由多頭注意力和前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成,嵌入層包含位置編碼。BERT模型結(jié)構(gòu)如圖2所示。

        1.2.1 嵌入層BERT的嵌入層由詞嵌入、片段嵌入和位置嵌入構(gòu)成,結(jié)構(gòu)如圖3所示。

        (3)

        1.2.2 多頭自注意力機(jī)制多頭自注意力機(jī)制對原始輸入通過多組自注意力進(jìn)行處理,核心在于通過計(jì)算,查詢向量Q、鍵向量K和值向量V來計(jì)算最后的輸出O。自注意力計(jì)算過程參見圖4。

        假設(shè)原始輸入為矩陣X,則自注意力的計(jì)算如式(4):

        (4)

        BERT使用多頭注意力機(jī)制解決了自注意力機(jī)制對文本句子某一方面的過度關(guān)注問題。多頭注意力機(jī)制結(jié)構(gòu)如圖5所示。

        假設(shè)多頭注意力有h個頭。首先將查詢、鍵和值向量通過線性變換分為h個部分;然后在每個頭內(nèi)分別計(jì)算注意力分?jǐn)?shù);最后將各頭的結(jié)果拼接并輸入到線性層。計(jì)算過程如式(5)和式(6):

        (5)

        MultiHead(Q,K,V)=Concat(head1,…,headh)Wo

        (6)

        1.3 基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型

        CNN可以通過不同大小的卷積核來自動提取n元語法,捕捉句子的長期依賴和語義關(guān)系,還通過池化層降維,以緩解”維度災(zāi)難”問題。以CNN為基礎(chǔ)的文本分類模型如圖6所示。詞嵌入層將使用Word2Vec和BERT。

        圖6 TextCNN模型架構(gòu)示意

        在TextCNN中,使用大小不同的矩形卷積核處理模型輸入。卷積核寬與詞嵌入矩陣寬度相同,高度是超參數(shù)。卷積核僅在垂直方向滑動,以確保每次移動都能覆蓋完整的詞。假設(shè)詞嵌入矩陣為X∈(n,d), 其中n是詞匯量,d是詞嵌入維度;卷積核為W∈(k,d),其中k表示卷積核高度。則卷積后的特征圖Y可由式(7)計(jì)算。

        Y[i]=f(W·X[i:i+k,:]+b)

        (7)

        其中f表示激活函數(shù),Y[i]表示輸出矩陣的第i個元素,b是偏置項(xiàng)。

        下一步將特征圖輸入到池化層中進(jìn)行降維,得到特征向量P;最后把P輸入到輸出層。輸出層由全連接和Softmax函數(shù)組成。具體計(jì)算如式(8-10):

        P(Y[i])=maxjYj[i]

        (8)

        L=WL·P+bL

        (9)

        (10)

        1.4 基于長短期記憶單元的文本分類模型

        圖7 LSTM單元示意

        It=σ(Wi·[Ht-1,Xt]+bi)

        (11)

        Ft=σ(Wf·[Ht-1,Xt]+bf)

        (12)

        Ot=σ(Wo·[Ht-1,Xt]+bo)

        (13)

        (14)

        (15)

        Ht=Ottanh(Ct)

        (16)

        式(11-16)中Xt是當(dāng)前時(shí)刻輸入,Ht-1是上一時(shí)刻隱藏層狀態(tài),表示逐元素乘積,σ和tanh分別表示sigmoid和tanh激活函數(shù),W和b是可學(xué)習(xí)權(quán)重和偏置參數(shù)。

        1.4.2 基于LSTM的文本分類模型為了解決LSTM只能捕獲文本自前向后信息的局限性,本文通過BiLSTM構(gòu)建TextLSTM模型。結(jié)構(gòu)如圖8所示。

        1.5 基于CNN和LSTM的混合文本分類模型

        基于上述模型,本文構(gòu)建了一個融合CNN,BiLSTM和MLP的混合模型BERT-CBM,其架構(gòu)如圖9所示。該模型的卷積塊由三個高度不同的卷積核和最大池化層堆疊而成,以此捕獲不同長度的短語和詞組的信息。BiLSTM用于提取文本的全局特征。隨后,將兩組特征拼接,形成一個融合的特征向量。最后,把融合特征向量輸入到MLP。該MLP包含兩個全連接層和ReLU激活函數(shù),可以增加模型的非線性表達(dá)能力。

        2 實(shí)驗(yàn)與分析

        2.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集

        本實(shí)驗(yàn)主要運(yùn)行環(huán)境:CPU為12th Gen Intel(R) Core(TM) i9-12900H 2.50 GHz,GPU為NVIDIA GeForce RTX 3070Ti,內(nèi)存為32GB,操作系統(tǒng)為Windows11,深度學(xué)習(xí)框架為Pytorch2.0,編程語言為Python3.8。

        本數(shù)據(jù)來自BOSS直聘網(wǎng)和獵聘網(wǎng),共19 649條,覆蓋了10個不同的類別。具體類別和對應(yīng)的樣本數(shù)量如表1所示。數(shù)據(jù)集按3∶1∶1的比例劃分為訓(xùn)練集11 789條,驗(yàn)證集3 930條和測試集3 930條。數(shù)據(jù)集字段包含崗位類別,崗位要求和崗位地址。崗位類別是模型訓(xùn)練的標(biāo)簽;崗位要求是模型訓(xùn)練的主要輸入,包含崗位職責(zé)、要求和任職資格等信息;崗位地址提供了招聘信息鏈接。部分?jǐn)?shù)據(jù)集樣本如圖10所示。

        表1 數(shù)據(jù)集不同類別及其對應(yīng)樣本數(shù)量

        圖10 部分?jǐn)?shù)據(jù)集樣本截圖

        2.2 模型參數(shù)設(shè)置

        本文采用的Word2Vec的詞向量維度為d=300。BERT采用hugging-face預(yù)訓(xùn)練的BERT-base-chinese。BERT、TextCNN和TextLSTM模型參數(shù)如表2所示。BERT-CBM模型參數(shù)和訓(xùn)練參數(shù)如表3所示。

        表2 BERT、TextCNN和TextLSTM模型參數(shù)

        表3 BERT-CBM模型和訓(xùn)練參數(shù)

        在模型訓(xùn)練過程中,本文選用交叉熵作為損失函數(shù),并采用自適應(yīng)矩估計(jì)法 Adam(Adaptive Moment Estimation)作為優(yōu)化算法。 Adam是深度學(xué)習(xí)中最常用的優(yōu)化算法之一,結(jié)合了Momentum和RMSprop的優(yōu)點(diǎn),可以自適應(yīng)地調(diào)整參數(shù)的學(xué)習(xí)率,克服梯度下降中的局部最小值和鞍點(diǎn)。

        交叉熵是一種用于評估模型預(yù)測值與真實(shí)值之間差異的損失函數(shù),設(shè)為Z。對于多分類問題,交叉熵?fù)p失定義如式(17):

        (17)

        2.3 評價(jià)指標(biāo)

        2.4 實(shí)驗(yàn)結(jié)果

        為了對比上述模型基于該數(shù)據(jù)集的表現(xiàn),進(jìn)一步引入了RNN和GRU。同時(shí),添加了傳統(tǒng)機(jī)器學(xué)習(xí)算法以驗(yàn)證深度學(xué)習(xí)模型在該任務(wù)上是否具有優(yōu)勢。機(jī)器學(xué)習(xí)模型包括樸素貝葉斯NB(Naive Bayes)、k-近鄰算法KNN(k-Nearest Neighbors)和決策樹DT(Decision Tree)。實(shí)驗(yàn)結(jié)果如表4所示。

        表4 文本分類模型宏平均指標(biāo)對比

        以下對結(jié)果進(jìn)行分析與總結(jié)。

        1)在傳統(tǒng)機(jī)器學(xué)習(xí)模型中,樸素貝葉斯在該任務(wù)上性能較好,但與深度學(xué)習(xí)模型相比性能較弱。這主要是因?yàn)闄C(jī)器學(xué)習(xí)模型采用TF-IDF特征,而TF-IDF假設(shè)詞語之間是相互獨(dú)立的,忽略了詞語的上下文關(guān)系。

        2)在深度學(xué)習(xí)模型中,BERT-CBM的性能有提升,其準(zhǔn)確率、召回率和F1值均超過92%。這主要得益于該模型混合了多層次的特征提取機(jī)制。模型中的卷積塊有效地識別了句子的局部特征,LSTM層捕捉了句子長距離的語義依賴關(guān)系。最后,通過MLP層進(jìn)行非線性映射,進(jìn)一步地提煉特征。

        3)在所述模型中,基于BERT的模型在所有指標(biāo)上都明顯優(yōu)于基于Word2Vec和傳統(tǒng)機(jī)器學(xué)習(xí)的模型。首先,是因?yàn)锽ERT在預(yù)訓(xùn)練時(shí)使用了Masked Language Model和Next Sentence Prediction,能夠生成豐富的上下文相關(guān)詞嵌入;其次,基于Transformer的架構(gòu)使BERT更擅長理解復(fù)雜句子結(jié)構(gòu)和長距離的語義依賴。

        3 結(jié)束語

        本文旨在研究招聘信息的自動化分類,通過對比Word2Vec與BERT兩種詞嵌入技術(shù)并探討它們與不同深度學(xué)習(xí)模型(如TextCNN,TextLSTM)結(jié)合使用的效果,以分析它們的性能差異。實(shí)驗(yàn)結(jié)果顯示,在數(shù)據(jù)集較大的情況下,深度學(xué)習(xí)模型展示出更出色的分類性能,特別是BERT-CBM模型在該分類任務(wù)表現(xiàn)較優(yōu)。因此,深度學(xué)習(xí)模型在招聘信息文本分類任務(wù)上能夠?qū)崿F(xiàn)自動化和高精度分類。

        不過,在廣泛運(yùn)用模型之前,需要解決若干潛在的局限性。首先,模型的性能和泛化能力高度依賴于數(shù)據(jù)集的規(guī)模,增大樣本容量有助于提高模型的可靠性。其次,訓(xùn)練混合模型需要大量的計(jì)算資源,未來研究可專注于模型優(yōu)化。最后,針對模型內(nèi)部工作機(jī)制的不透明性,未來研究應(yīng)考慮引入深度學(xué)習(xí)的可解釋性技術(shù)。在解決上述問題后,BERT-CBM模型有望更好地應(yīng)用于個性化職業(yè)推薦和人力資源管理。其高精度的分類能力可以用于職位匹配和自動篩選簡歷,從而提高招聘效率。

        猜你喜歡
        分類深度文本
        分類算一算
        深度理解一元一次方程
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        深度觀察
        深度觀察
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        深度觀察
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        久久久久久久性潮| 日本加勒比精品一区二区视频| 亚洲AVAv电影AV天堂18禁 | 免费看男女啪啪的视频网站| 亚洲中文字幕高清在线视频一区| 人妻少妇不满足中文字幕| 国产精品久久久久9999赢消| 国产综合无码一区二区色蜜蜜| 久久综合成人网| 久9热免费精品视频在线观看| 国产精品视频白浆免费看| 国产精品亚洲一区二区三区| 国产精品沙发午睡系列990531| 巨爆乳中文字幕爆乳区| 看大陆男女真人草逼视频| 久久精品国产亚洲夜色av网站| 国产精品毛片久久久久久久| 全免费a级毛片免费看| 国产精品一区成人亚洲| 国产熟妇一区二区三区网站| 青青草 视频在线观看| 人妻少妇久久久久久97人妻| 久久精品国产久精国产| 欧美在线播放一区二区| 美女人妻中文字幕av| 欧美熟妇另类久久久久久多毛| 男人扒开女人下面狂躁小视频| 丰满人妻无套中出中文字幕| 91亚洲免费在线观看视频| 久久综合狠狠综合久久综合88| 国产成人精品午夜福利| 日韩女人毛片在线播放| 97女厕偷拍一区二区三区| 免费在线观看av不卡网站| 精品国产一区av天美传媒| 国内精品一区二区2021在线| 亚洲第一女优在线观看| 亚洲精品~无码抽插| 污污污污污污污网站污| 一本加勒比hezyo无码视频| 成人做爰黄片视频蘑菇视频|