亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合機器學(xué)習(xí)模型的短文本語義相似性度量算法

        2023-04-29 00:00:00韓開旭袁淑芳

        摘要: 為提高短文本語義相似性度量準(zhǔn)確性, 設(shè)計一種基于混合機器學(xué)習(xí)模型的短文本語義相似性度量算法. 先對短文本實施預(yù)處理, 基于混合機器學(xué)習(xí)模型構(gòu)建短文本的字詞向量模型, 對短文本進行特征擴展; 然后組合短文本的多樣度量特征, 對多樣度量特征進行維度規(guī)約; 最后通過構(gòu)建一個集成學(xué)習(xí)模型, 計算語義相似性結(jié)果, 實現(xiàn)語義相似性的度量. 使用“Quora Question Pairs”比賽數(shù)據(jù)集測試該方法的性能, 測試結(jié)果表明, 該方法的準(zhǔn)確性較高, 對數(shù)損失和度量均方差均較低, 說明該方法的相似性度量準(zhǔn)確性較高.

        關(guān)鍵詞: 混合機器學(xué)習(xí)模型; 短文本; 文本分詞; 語義相似性; 卡方檢驗; 相似性度量

        中圖分類號: TP391 文獻標(biāo)志碼: A 文章編號: 1671-5489(2023)04-0909-06

        Short Text Semantic Similarity Measurement Algorithm Based on Hybrid Machine Learning Model

        HAN Kaixu1, YUAN Shufang2

        (1. College of Electronics and Information Engineering, Beibu Gulf University,

        Qinzhou 535011, Guangxi Zhuang Autonomous Region, China;

        2. College of Sciences, Beibu Gulf University, Qinzhou 535011, Guangxi Zhuang Autonomous Region, China)

        Abstract: In order to improve the accuracy of short text semantic similarity measurement, we designed a short text semantic similarity measurement algorithm based on a hybrid machine learning model. Firstly, we preprocessed the short text, constructed a word vector model of the short text based on the hybrid machine learning model, and extended the" features of the short text. Secondly, we" combined the various metric features of the short text, implemented dimensional reduction on the various metric features. Finally, we constructed an ensemble learning" model to calculate the semantic similarity results and achieve the" semantic similarity measurement. We tested the performance of the method by using the “Quora Question Pairs” competition dataset, the test results show that the accuracy of the" method is high, the logarithmic loss, and the measurement mean square error are both low, indicating that the similarity measurement accuracy of the method is high.

        Keywords: hybrid machine learning model; short text; text segmentation; semantic similarity; Chi-square test; similarity measurement

        短文本雖然文本較短, 但其內(nèi)容能容納很微妙的語言表達, 在很多實際應(yīng)用中, 都需要批量處理短文本數(shù)據(jù)[1]. 但對于大規(guī)模數(shù)據(jù), 通常難以分辨短文本的語義相似性, 基于該背景對短文本語義相似性度量問題進行研究.

        在自然語言處理技術(shù)中, 文本相似性度量一直是研究重點. 文本相似性度量的傳統(tǒng)算法更適合在長文本上應(yīng)用, 對于短文本常無法取得滿意的效果, 因此需要對短文本相似性度量進行專門研究. 目前, 關(guān)于該問題的研究已有許多成果. 石彩霞等[2]提出了一種準(zhǔn)確率較高的短文本語義相似性度量算法, 從短文本的稀疏特性出發(fā), 通過多重檢驗加權(quán)融合實現(xiàn)相似性度量, 并取得了合理準(zhǔn)確的計算結(jié)果. 本文應(yīng)用混合機器學(xué)習(xí)模型對該問題進行研究, 設(shè)計一種基于混合機器學(xué)習(xí)模型的短文本語義相似性度量算法, 以實現(xiàn)更準(zhǔn)確的相似性度量.

        1 算法設(shè)計

        1.1 短文本預(yù)處理

        2.3 實驗結(jié)果與分析

        首先將數(shù)據(jù)集中的數(shù)據(jù)平均分成5份, 在每份數(shù)據(jù)中隨機劃分出80%作為訓(xùn)練集, 剩下的數(shù)據(jù)作為測試集. 在不同的提取特征數(shù)量下分別對訓(xùn)練集和測試集的Accuracy數(shù)值進行測試, 測試結(jié)果如圖4所示. 由圖4可見, 在不同的提取特征數(shù)下, 本文方法的Accuracy數(shù)值都較高, 說明該方法的短文本語義相似性度量準(zhǔn)確率較高. 在提取特征數(shù)為3時, 訓(xùn)練集和測試集的Accuracy數(shù)值最高.

        其次分別對訓(xùn)練集和測試集的Log loss數(shù)值進行測試, 測試結(jié)果如圖5所示. 由圖5可見, 本文方法訓(xùn)練集和測試集的Log loss數(shù)值均較低, 說明該方法在語義相似性度量中的對數(shù)損失較低, 度量性能較好.

        最后對設(shè)計方法的度量均方差進行測試, 測試結(jié)果列于表2. 由表2可見, 通過該方法進行短文本語義相似性度量后, 訓(xùn)練集和測試集的度量均方差都較低, 表明本文方法的度量準(zhǔn)確率較高.

        綜上所述, 本文在對短文本語義相似性度量問題進行研究的過程中, 應(yīng)用了混合卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型和全連接神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型的混合機器學(xué)習(xí)模型, 設(shè)計了一種基于混合機器學(xué)習(xí)模型的短文本語義相似性度量算法, 經(jīng)過測試其在Accuracy,Log loss和度量均方差3個指標(biāo)上均較優(yōu), 提高了短文本相似性度量準(zhǔn)確率, 有一定的應(yīng)用價值.

        參考文獻

        [1]鄭志蘊, 吳建萍, 李鈍, 等. 一種基于短文本相似度計算的知識子圖融合方法 [J]. 小型微型計算機系統(tǒng), 2020, 41(1): 6-11. (ZHENG Z Y, WU J P, LI D, et al. A Knowledge Subgraph Fusion Method Based on Short Text Similarity Calculation [J]. Small Microcomputer Systems, 2020, 41(1): 6-11.)

        [2]石彩霞, 李書琴, 劉斌. 多重檢驗加權(quán)融合的短文本相似度計算方法 [J]. 計算機工程, 2021, 47(2): 95-102. (SHI C X, LI S Q, LIU B. Short Text Similarity Calculation Method Based on Weighted Fusion of Multiple Tests [J]. Computer Engineering, 2021, 47(2): 95-102.)

        [3]趙雅欣, 鄭明洪, 石林鑫, 等. 面向電力審計領(lǐng)域的兩階段短文本分類方法研究 [J]. 西南大學(xué)學(xué)報(自然科學(xué)版), 2020, 42(10): 1-7. (ZHAO Y X, ZHENG M H, SHI L X, et al. Research on Two-Stage Short Text Classification Method for Electric Power Auditing [J]. Journal of Southwest University (Natural Science Edition), 2020, 42(10): 1-7.)

        [4]寇菲菲, 杜軍平, 石巖松, 等. 面向搜索的微博短文本語義建模方法 [J]. 計算機學(xué)報, 2020, 43(5): 781-795. (KOU F F, DU J P, SHI Y S, et al. A Search-Oriented Approach to Semantic Modeling of Microblog Short Texts [J]. Chinese Journal of Computers, 2020, 43(5): 781-795.)

        [5]唐善成, 張雪, 張鏷月, 等. 融合中文字形和字義的字向量表示方法 [J]. 科學(xué)技術(shù)與工程, 2021, 21(32): 13787-13792. (TANG S C, ZHANG X, ZHANG P Y, et al. A Word Vector Representation Method Integrating Chinese Character Shape and Character Meaning [J]. Science Technology and Engineering, 2021, 21(32): 13787-13792.)

        [6]陶玥, 余麗, 吳振新. CoTransH: 科技文獻知識圖譜中語義關(guān)系預(yù)測的翻譯模型 [J]. 情報理論與實踐, 2021, 44(11): 187-196. (TAO Y, YU L, WU Z X. CoTransH: A Translation Model for Semantic Relationship Prediction in Knowledge Graphs of Scientific and Technological Documents [J]. Information Theory and Practice, 2021, 44(11): 187-196.)

        [7]葉俊民, 羅達雄, 陳曙. 基于短文本情感增強的在線學(xué)習(xí)者成績預(yù)測方法 [J]. 自動化學(xué)報, 2020, 46(9): 1927-1940. (YE J M, LUO D X, CHEN S. Online Learner Performance Prediction Method Based on Short Text Sentiment Enhancement [J]. Journal of Automation, 2020, 46(9): 1927-1940.)

        [8]高云龍, 吳川, 朱明. 基于改進卷積神經(jīng)網(wǎng)絡(luò)的短文本分類模型 [J]. 吉林大學(xué)學(xué)報(理學(xué)版), 2020, 58(4): 923-930. (GAO Y L, WU C, ZHU M. Short Text Classification Model Based on Improved Convolutional Neural Network [J]. Journal of Jilin University (Science Edition), 2020, 58(4): 923-930.)

        [9]湯凌燕, 熊聰聰, 王嫄, 等. 基于深度學(xué)習(xí)的短文本情感傾向分析綜述 [J]. 計算機科學(xué)與探索, 2021, 15(5): 794-811. (TANG L Y, XIONG C C, WANG Y, et al. A Review of Short Text Sentiment Analysis Based on Deep Learning [J]. Computer Science and Exploration, 2021, 15(5): 794-811.)

        [10]饒毓和, 凌志浩. 一種結(jié)合主題模型與段落向量的短文本聚類方法 [J]. 華東理工大學(xué)學(xué)報(自然科學(xué)版), 2020, 46(3): 419-427. (RAO Y H, LING Z H. A Short Text Clustering Method Combining Topic Model and Paragraph Vector [J]. Journal of East China University of Science and Technology (Natural Science Edition), 2020, 46(3): 419-427.)

        [11]劉嬌, 李艷玲, 林民. 膠囊網(wǎng)絡(luò)用于短文本多意圖識別的研究 [J]. 計算機科學(xué)與探索, 2020, 14(10): 1735-1743. (LIU J, LI Y L, LIN M. Research on Capsule Networks for Multi-intent Recognition of Short Texts [J]. Computer Science and Exploration, 2020, 14(10): 1735-1743.)

        [12]繆亞林, 姬怡純, 張順, 等. CNN-BiGRU模型在中文短文本情感分析的應(yīng)用 [J]. 情報科學(xué), 2021, 39(4): 85-91. (MIAO Y L, JI Y C, ZHANG S, et al. Application of CNN-BiGRU Model in Sentiment Analysis of Chinese Short Texts [J]. Information Science, 2021, 39(4): 85-91.)

        [13]張博, 孫逸, 李孟穎, 等. 基于遷移學(xué)習(xí)和集成學(xué)習(xí)的醫(yī)學(xué)短文本分類 [J]. 山西大學(xué)學(xué)報(自然科學(xué)版), 2020, 43(4): 947-954. (ZHANG B, SUN Y, LI M Y, et al. Classification of Medical Short Texts Based on Transfer Learning and Ensemble Learning [J]. Journal of Shanxi University (Natural Science Edition), 2020, 43(4): 947-954.)

        [14]孫洋, 粟栗, 張星, 等. 基于子語義空間的挖掘短文本策略方法 [J]. 電信科學(xué), 2020, 36(3): 83-92. (SUN Y, SU L, ZHANG X, et al. Strategy Method for Mining Short Text Based on Sub-semantic Space [J]. Telecommunications Science, 2020, 36(3): 83-92.)

        [15]宋明, 劉彥隆. Bert在微博短文本情感分類中的應(yīng)用與優(yōu)化 [J]. 小型微型計算機系統(tǒng), 2021, 42(4): 714-718. (SONG M, LIU Y L. Application and Optimization of Bert in Microblog Short Text Sentiment Classification [J]. Small Microcomputer System, 2021, 42(4): 714-718.)

        [16]王生生, 張航, 潘彥岑. 改進的和積網(wǎng)絡(luò)自動編碼器及短文本情感分析應(yīng)用 [J]. 哈爾濱工程大學(xué)學(xué)報, 2020, 41(3): 411-419. (WANG S S, ZHANG H, PAN Y C. Improved Sum-Product Network Autoencoder and Short Text Sentiment Analysis Application [J]. Journal of Harbin Engineering University, 2020, 41(3): 411-419.)

        (責(zé)任編輯: 韓 嘯)

        收稿日期: 2022-04-15.

        第一作者簡介: 韓開旭(1984—), 男, 漢族, 博士, 講師, 從事機器學(xué)習(xí)和自然語言處理的研究, E-mail: frog0696@163.com. 通信作者簡介: 袁淑芳(1988—), 女, 漢族, 碩士, 助理研究員, 從事機器學(xué)習(xí)的研究, E-mail: ysf20210605@126.com.

        基金項目: 國家自然科學(xué)基金面上項目(批準(zhǔn)號: 61374127)和廣西高校中青年教師科研基礎(chǔ)能力提升項目(批準(zhǔn)號: 2021KY0434; 2020KY10019).

        中日无码精品一区二区三区| 另类老妇奶性生bbwbbw| 精品久久亚洲中文无码| 国产亚洲精品自在久久77| 日本免费三片在线播放| 亚洲一区二区三区四区精品在线| 免费黄色影片| 国内精品久久久久久久久齐齐| 国产呦系列呦交| 狼狼色丁香久久女婷婷综合| 欧洲熟妇色xxxx欧美老妇性 | 日本视频一中文有码中文| 日本最新免费二区三区| 亚洲av无码片一区二区三区| 国产亚洲日韩AV在线播放不卡| 精品国产亚洲一区二区三区四区| 人人妻人人澡人人爽欧美一区双 | 加勒比hezyo黑人专区| 亚洲欧美国产国产综合一区| 99视频一区| 久久精品国产视频在热| 91精品国产综合久久久密臀九色| 久久久久久曰本av免费免费| 国产精品刺激好大好爽视频| 亚洲视频在线观看青青草| 亚洲一区二区在线观看免费视频 | 亚洲综合一区二区三区久久| 无套内内射视频网站| 最新国产av无码专区亚洲| 免费视频成人 国产精品网站| 日本一区二区不卡二区| 亚洲欧美色一区二区三区| 99久久久无码国产精品9| 日韩在线精品视频观看| 日本av一区二区三区视频| 亚洲乱码中文字幕综合| 美女超薄透明丝袜美腿| 熟女一区二区国产精品| 欧美精品videosex极品| 日本一本久道| 一区二区黄色素人黄色|