亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于混合機(jī)器學(xué)習(xí)模型的短文本語義相似性度量算法

2023-04-29 17:53:06韓開旭袁淑芳

吉林大學(xué)學(xué)報(bào)(理學(xué)版) 2023年4期

韓開旭　袁淑芳

摘要：為提高短文本語義相似性度量準(zhǔn)確性，設(shè)計(jì)一種基于混合機(jī)器學(xué)習(xí)模型的短文本語義相似性度量算法. 先對短文本實(shí)施預(yù)處理，基于混合機(jī)器學(xué)習(xí)模型構(gòu)建短文本的字詞向量模型，對短文本進(jìn)行特征擴(kuò)展；然后組合短文本的多樣度量特征，對多樣度量特征進(jìn)行維度規(guī)約；最后通過構(gòu)建一個(gè)集成學(xué)習(xí)模型，計(jì)算語義相似性結(jié)果，實(shí)現(xiàn)語義相似性的度量. 使用“Quora Question Pairs”比賽數(shù)據(jù)集測試該方法的性能，測試結(jié)果表明，該方法的準(zhǔn)確性較高，對數(shù)損失和度量均方差均較低，說明該方法的相似性度量準(zhǔn)確性較高.

關(guān)鍵詞：混合機(jī)器學(xué)習(xí)模型；短文本；文本分詞；語義相似性；卡方檢驗(yàn)；相似性度量

中圖分類號(hào)： TP391 文獻(xiàn)標(biāo)志碼： A 文章編號(hào)： 1671-5489（2023）04-0909-06

Short Text Semantic Similarity Measurement Algorithm Based on Hybrid Machine Learning Model

HAN Kaixu1， YUAN Shufang2

（1. College of Electronics and Information Engineering， Beibu Gulf University，

Qinzhou 535011， Guangxi Zhuang Autonomous Region， China;

2. College of Sciences， Beibu Gulf University， Qinzhou 535011， Guangxi Zhuang Autonomous Region， China）

Abstract： In order to improve the accuracy of short text semantic similarity measurement， we designed a short text semantic similarity measurement algorithm based on a hybrid machine learning model. Firstly， we preprocessed the short text， constructed a word vector model of the short text based on the hybrid machine learning model， and extended the? features of the short text. Secondly， we? combined the various metric features of the short text， implemented dimensional reduction on the various metric features. Finally， we constructed an ensemble learning? model to calculate the semantic similarity results and achieve the? semantic similarity measurement. We tested the performance of the method by using the “Quora Question Pairs” competition dataset， the test results show that the accuracy of the? method is high， the logarithmic loss， and the measurement mean square error are both low， indicating that the similarity measurement accuracy of the method is high.

Keywords： hybrid machine learning model; short text; text segmentation; semantic similarity; Chi-square test; similarity measurement

短文本雖然文本較短，但其內(nèi)容能容納很微妙的語言表達(dá)，在很多實(shí)際應(yīng)用中，都需要批量處理短文本數(shù)據(jù)［1］. 但對于大規(guī)模數(shù)據(jù)，通常難以分辨短文本的語義相似性，基于該背景對短文本語義相似性度量問題進(jìn)行研究.

在自然語言處理技術(shù)中，文本相似性度量一直是研究重點(diǎn). 文本相似性度量的傳統(tǒng)算法更適合在長文本上應(yīng)用，對于短文本常無法取得滿意的效果，因此需要對短文本相似性度量進(jìn)行專門研究. 目前，關(guān)于該問題的研究已有許多成果. 石彩霞等［2］提出了一種準(zhǔn)確率較高的短文本語義相似性度量算法，從短文本的稀疏特性出發(fā)，通過多重檢驗(yàn)加權(quán)融合實(shí)現(xiàn)相似性度量，并取得了合理準(zhǔn)確的計(jì)算結(jié)果. 本文應(yīng)用混合機(jī)器學(xué)習(xí)模型對該問題進(jìn)行研究，設(shè)計(jì)一種基于混合機(jī)器學(xué)習(xí)模型的短文本語義相似性度量算法，以實(shí)現(xiàn)更準(zhǔn)確的相似性度量.

1 算法設(shè)計(jì)

1.1 短文本預(yù)處理

2.3 實(shí)驗(yàn)結(jié)果與分析

首先將數(shù)據(jù)集中的數(shù)據(jù)平均分成5份，在每份數(shù)據(jù)中隨機(jī)劃分出80%作為訓(xùn)練集，剩下的數(shù)據(jù)作為測試集. 在不同的提取特征數(shù)量下分別對訓(xùn)練集和測試集的Accuracy數(shù)值進(jìn)行測試，測試結(jié)果如圖4所示. 由圖4可見，在不同的提取特征數(shù)下，本文方法的Accuracy數(shù)值都較高，說明該方法的短文本語義相似性度量準(zhǔn)確率較高. 在提取特征數(shù)為3時(shí)，訓(xùn)練集和測試集的Accuracy數(shù)值最高.

其次分別對訓(xùn)練集和測試集的Log loss數(shù)值進(jìn)行測試，測試結(jié)果如圖5所示. 由圖5可見，本文方法訓(xùn)練集和測試集的Log loss數(shù)值均較低，說明該方法在語義相似性度量中的對數(shù)損失較低，度量性能較好.

最后對設(shè)計(jì)方法的度量均方差進(jìn)行測試，測試結(jié)果列于表2. 由表2可見，通過該方法進(jìn)行短文本語義相似性度量后，訓(xùn)練集和測試集的度量均方差都較低，表明本文方法的度量準(zhǔn)確率較高.

綜上所述，本文在對短文本語義相似性度量問題進(jìn)行研究的過程中，應(yīng)用了混合卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型和全連接神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型的混合機(jī)器學(xué)習(xí)模型，設(shè)計(jì)了一種基于混合機(jī)器學(xué)習(xí)模型的短文本語義相似性度量算法，經(jīng)過測試其在Accuracy，Log loss和度量均方差3個(gè)指標(biāo)上均較優(yōu)，提高了短文本相似性度量準(zhǔn)確率，有一定的應(yīng)用價(jià)值.

參考文獻(xiàn)

［1］鄭志蘊(yùn)，吳建萍，李鈍，等. 一種基于短文本相似度計(jì)算的知識(shí)子圖融合方法［J］. 小型微型計(jì)算機(jī)系統(tǒng)， 2020， 41（1）： 6-11. （ZHENG Z Y， WU J P， LI D， et al. A Knowledge Subgraph Fusion Method Based on Short Text Similarity Calculation ［J］. Small Microcomputer Systems， 2020， 41（1）： 6-11.）

［2］石彩霞，李書琴，劉斌. 多重檢驗(yàn)加權(quán)融合的短文本相似度計(jì)算方法［J］. 計(jì)算機(jī)工程， 2021， 47（2）： 95-102. （SHI C X， LI S Q， LIU B. Short Text Similarity Calculation Method Based on Weighted Fusion of Multiple Tests ［J］. Computer Engineering， 2021， 47（2）： 95-102.）

［3］趙雅欣，鄭明洪，石林鑫，等. 面向電力審計(jì)領(lǐng)域的兩階段短文本分類方法研究［J］. 西南大學(xué)學(xué)報(bào)（自然科學(xué)版）， 2020， 42（10）： 1-7. （ZHAO Y X， ZHENG M H， SHI L X， et al. Research on Two-Stage Short Text Classification Method for Electric Power Auditing ［J］. Journal of Southwest University （Natural Science Edition）， 2020， 42（10）： 1-7.）

［4］寇菲菲，杜軍平，石巖松，等. 面向搜索的微博短文本語義建模方法［J］. 計(jì)算機(jī)學(xué)報(bào)， 2020， 43（5）： 781-795. （KOU F F， DU J P， SHI Y S， et al. A Search-Oriented Approach to Semantic Modeling of Microblog Short Texts ［J］. Chinese Journal of Computers， 2020， 43（5）： 781-795.）

［5］唐善成，張雪，張鏷月，等. 融合中文字形和字義的字向量表示方法［J］. 科學(xué)技術(shù)與工程， 2021， 21（32）： 13787-13792. （TANG S C， ZHANG X， ZHANG P Y， et al. A Word Vector Representation Method Integrating Chinese Character Shape and Character Meaning ［J］. Science Technology and Engineering， 2021， 21（32）： 13787-13792.）

［6］陶玥，余麗，吳振新. CoTransH：科技文獻(xiàn)知識(shí)圖譜中語義關(guān)系預(yù)測的翻譯模型［J］. 情報(bào)理論與實(shí)踐， 2021， 44（11）： 187-196. （TAO Y， YU L， WU Z X. CoTransH： A Translation Model for Semantic Relationship Prediction in Knowledge Graphs of Scientific and Technological Documents ［J］. Information Theory and Practice， 2021， 44（11）： 187-196.）

［7］葉俊民，羅達(dá)雄，陳曙. 基于短文本情感增強(qiáng)的在線學(xué)習(xí)者成績預(yù)測方法［J］. 自動(dòng)化學(xué)報(bào)， 2020， 46（9）： 1927-1940. （YE J M， LUO D X， CHEN S. Online Learner Performance Prediction Method Based on Short Text Sentiment Enhancement ［J］. Journal of Automation， 2020， 46（9）： 1927-1940.）

［8］高云龍，吳川，朱明. 基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的短文本分類模型［J］. 吉林大學(xué)學(xué)報(bào)（理學(xué)版）， 2020， 58（4）： 923-930. （GAO Y L， WU C， ZHU M. Short Text Classification Model Based on Improved Convolutional Neural Network ［J］. Journal of Jilin University （Science Edition）， 2020， 58（4）： 923-930.）

［9］湯凌燕，熊聰聰，王嫄，等. 基于深度學(xué)習(xí)的短文本情感傾向分析綜述［J］. 計(jì)算機(jī)科學(xué)與探索， 2021， 15（5）： 794-811. （TANG L Y， XIONG C C， WANG Y， et al. A Review of Short Text Sentiment Analysis Based on Deep Learning ［J］. Computer Science and Exploration， 2021， 15（5）： 794-811.）

［10］饒毓和，凌志浩. 一種結(jié)合主題模型與段落向量的短文本聚類方法［J］. 華東理工大學(xué)學(xué)報(bào)（自然科學(xué)版）， 2020， 46（3）： 419-427. （RAO Y H， LING Z H. A Short Text Clustering Method Combining Topic Model and Paragraph Vector ［J］. Journal of East China University of Science and Technology （Natural Science Edition）， 2020， 46（3）： 419-427.）

［11］劉嬌，李艷玲，林民. 膠囊網(wǎng)絡(luò)用于短文本多意圖識(shí)別的研究［J］. 計(jì)算機(jī)科學(xué)與探索， 2020， 14（10）： 1735-1743. （LIU J， LI Y L， LIN M. Research on Capsule Networks for Multi-intent Recognition of Short Texts ［J］. Computer Science and Exploration， 2020， 14（10）： 1735-1743.）

［12］繆亞林，姬怡純，張順，等. CNN-BiGRU模型在中文短文本情感分析的應(yīng)用［J］. 情報(bào)科學(xué)， 2021， 39（4）： 85-91. （MIAO Y L， JI Y C， ZHANG S， et al. Application of CNN-BiGRU Model in Sentiment Analysis of Chinese Short Texts ［J］. Information Science， 2021， 39（4）： 85-91.）

［13］張博，孫逸，李孟穎，等. 基于遷移學(xué)習(xí)和集成學(xué)習(xí)的醫(yī)學(xué)短文本分類［J］. 山西大學(xué)學(xué)報(bào)（自然科學(xué)版）， 2020， 43（4）： 947-954. （ZHANG B， SUN Y， LI M Y， et al. Classification of Medical Short Texts Based on Transfer Learning and Ensemble Learning ［J］. Journal of Shanxi University （Natural Science Edition）， 2020， 43（4）： 947-954.）

［14］孫洋，粟栗，張星，等. 基于子語義空間的挖掘短文本策略方法［J］. 電信科學(xué)， 2020， 36（3）： 83-92. （SUN Y， SU L， ZHANG X， et al. Strategy Method for Mining Short Text Based on Sub-semantic Space ［J］. Telecommunications Science， 2020， 36（3）： 83-92.）

［15］宋明，劉彥隆. Bert在微博短文本情感分類中的應(yīng)用與優(yōu)化［J］. 小型微型計(jì)算機(jī)系統(tǒng)， 2021， 42（4）： 714-718. （SONG M， LIU Y L. Application and Optimization of Bert in Microblog Short Text Sentiment Classification ［J］. Small Microcomputer System， 2021， 42（4）： 714-718.）

［16］王生生，張航，潘彥岑. 改進(jìn)的和積網(wǎng)絡(luò)自動(dòng)編碼器及短文本情感分析應(yīng)用［J］. 哈爾濱工程大學(xué)學(xué)報(bào)， 2020， 41（3）： 411-419. （WANG S S， ZHANG H， PAN Y C. Improved Sum-Product Network Autoencoder and Short Text Sentiment Analysis Application ［J］. Journal of Harbin Engineering University， 2020， 41（3）： 411-419.）

（責(zé)任編輯：韓嘯）

收稿日期： 2022-04-15.

第一作者簡介：韓開旭（1984—），男，漢族，博士，講師，從事機(jī)器學(xué)習(xí)和自然語言處理的研究， E-mail： frog0696@163.com. 通信作者簡介：袁淑芳（1988—），女，漢族，碩士，助理研究員，從事機(jī)器學(xué)習(xí)的研究， E-mail： ysf20210605@126.com.

基金項(xiàng)目：國家自然科學(xué)基金面上項(xiàng)目（批準(zhǔn)號(hào)： 61374127）和廣西高校中青年教師科研基礎(chǔ)能力提升項(xiàng)目（批準(zhǔn)號(hào)： 2021KY0434； 2020KY10019）.

吉林大學(xué)學(xué)報(bào)(理學(xué)版)2023年4期

吉林大學(xué)學(xué)報(bào)(理學(xué)版)的其它文章: 基于改進(jìn)遺傳算法的物聯(lián)網(wǎng)鏈路負(fù)載均衡控制方法; 一種針對異構(gòu)設(shè)備和環(huán)境變化的室內(nèi)定位算法; 基于聚類質(zhì)量的兩階段集成算法; 基于無錨的輕量化孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法; 基于壓縮表示的實(shí)例分割方法; 基于YOLOX-S的車窗狀態(tài)識(shí)別算法