亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機器學(xué)習(xí)的自然語言處理和傳輸技術(shù)研究

        2023-12-31 00:00:00賀鑫
        電腦迷 2023年16期

        【摘" 要】 隨著信息技術(shù)的飛速發(fā)展,各類信息技術(shù)及應(yīng)用軟件層出不窮,越來越多的人開始利用電腦進行工作。但由于沒有專門的計算機技術(shù),一般人很難和這個系統(tǒng)進行互動并得到一些有用的信息。近年來,人們對信息技術(shù)進行大量的理論和實驗研究,并對其進行深入的探討。本文探討了基于機器學(xué)習(xí)的自然語言分析方法。針對該問題,本項目擬研究一種新的詞嵌入向量構(gòu)建方法,將現(xiàn)有詞匯矢量與現(xiàn)有詞嵌入向量集進行整合,從而得到一個更好的詞嵌入向量集。

        【關(guān)鍵詞】 機器學(xué)習(xí);自然語言處理;傳輸技術(shù)

        隨著信息技術(shù)的飛速發(fā)展,其已經(jīng)能夠?qū)①Y料以不同的方式上傳、傳遞與利用。據(jù)微博2022年用戶發(fā)展報告統(tǒng)計,2022年總營收18.36億,而目前的9月,月活躍用戶數(shù)為5.84億、日均活躍用戶數(shù)為2.53億。這樣便捷的信息交流與分享方式,正在為人類的生存帶來一場革命。比如人們可以在家上網(wǎng)學(xué)習(xí),或者在網(wǎng)上進行遠距離工作和購物。但是,由于缺少專門的計算機技術(shù),一般人很難和這個系統(tǒng)進行互動,從而得到一些有用的信息。而且,在現(xiàn)實生活中,許多問題并不是單純地統(tǒng)計運算就能得到解答的,因此,對數(shù)據(jù)的分析與處理提出了更高的要求。近年來,人們對計算機技術(shù)進行大量的理論和實驗研究,并對其進行深入探討。為了適應(yīng)人類對自然語言理解的要求,各種新的方法被提出。

        一、研究意義

        (一)詞嵌入學(xué)習(xí)

        詞嵌入技術(shù)在名稱實體識別、詞性標、信息檢索和文本分類等多個自然語言處理領(lǐng)域具有非常重要的應(yīng)用前景,已有的研究主要基于大規(guī)模語料中單詞的空間分布,通過訓(xùn)練獲得單詞內(nèi)嵌的向量集合。例如,從谷歌新聞?wù)Z料中進行學(xué)習(xí),獲得word2Vec向量集,從維基百科(Wikipedia Body)和英語 Gigaword (英語)語料中進行學(xué)習(xí),獲得Glo Ve (Glo Ve)向量集,基于魯特英語新聞數(shù)據(jù)庫,Mnih等通過對HLBL向量集合進行學(xué)習(xí)而獲得。通過對不同神經(jīng)網(wǎng)絡(luò)進行建模,通過對向量集的分析,可以獲得對詞匯特征的不同刻畫,從而對詞匯特征進行分類。因而,充分發(fā)揮詞向量集合間的互補作用,實現(xiàn)對詞向量集合的一體化學(xué)習(xí)成為可能,也是必然的。

        (二)英語學(xué)習(xí)系統(tǒng)中的個性化推薦方法

        隨著計算機技術(shù)的發(fā)展以及互聯(lián)網(wǎng)的普及,使在線教學(xué)成為可能。隨著在線教學(xué)資源數(shù)量的增加,可供選擇的教學(xué)內(nèi)容越來越多。針對每一位使用者所使用的資訊,因其層次與利益之差異而有所差異。因此,如何在浩如煙海的網(wǎng)絡(luò)環(huán)境下,針對不同的使用者特征,為使用者提供適合自己的、有針對性的教學(xué)素材是有待解決的問題。目前,推薦方法大致可以分為三大類:以內(nèi)容為基礎(chǔ)的推薦、協(xié)同過濾的推薦、復(fù)合的推薦。在此基礎(chǔ)上,提出一種新的面向?qū)ο蟮膫€性化推薦算法。本文研究基于用戶個性化的在線課程推薦算法,以提供一種針對學(xué)生個體需要而制訂個體化電子課程的適應(yīng)性產(chǎn)生方法,并利用協(xié)作篩選技術(shù),通過對相同用戶的使用習(xí)慣進行有效資源推薦,提出一種基于社會網(wǎng)絡(luò)中朋友信息的推薦方法,這兩種方法結(jié)合在一起。同時,在個人興趣、人際興趣相似性和人際影響力的基礎(chǔ)上,給出一種基于個人興趣、人際興趣相似性和人際影響力的個性化推薦算法。

        二、國內(nèi)外研究現(xiàn)狀

        (一)詞表示技術(shù)現(xiàn)狀

        自然語言與符號有著緊密的聯(lián)系,一句話是由許多字的符號構(gòu)成的,一段文字或?qū)υ捯彩怯稍S多字的符號構(gòu)成的。所以,對自然語言的理解就建立在對這些標志的認識之上。在傳統(tǒng)的計算語言學(xué)中,研究人員采用的是本地表達,這個辦法用非常稀疏的高維向量來表達一個符號。這個向量的尺寸與這個系統(tǒng)的數(shù)目相等,一般為幾十萬或幾百萬個。對于一群正負號D,一個本地代表把正負號D內(nèi)的正負號對應(yīng)成一個正負號Rn內(nèi)的正負號 ei,這里n為正負號的正負號。所以,i個單元矢量代表i個正負號。而局部表示法則是對這些符號進行變換的一種十分直觀和便利的方法,但是,隨著字符個數(shù)的增加,區(qū)域表達的有效性會降低。同時,這種本地化表達方式也不能很好地表達出符號間的關(guān)系。與局域表達法相比,分布式表達法是在測度空間上用密集的向量來表達符號。分散表現(xiàn)的信息以多個要素的形式分配,其中的每一個要素都對總體的信息作出貢獻。與傳統(tǒng)的局域表達相比,分布式表達更具優(yōu)勢,即更加高效,能夠充分反映測度空間中各要素之間的差異。目前,針對大規(guī)模文本數(shù)據(jù),提出三種新的詞匯內(nèi)嵌算法:矩陣化算法、帶窗算法、整體對數(shù)—回歸算法。矩陣分解法通過對數(shù)據(jù)進行低秩逼近,對數(shù)據(jù)進行有效的降維處理,以獲取數(shù)據(jù)中的數(shù)據(jù)。該研究可分為兩類:一類是基于隱語義的語義解析,另一類是基于超空間的仿真語言。該算法采用“詞—文件”的模式,每行都有一個詞或者一個詞,每個欄都有一個詞。與此相反,超空間模擬語言采用“詞—詞(term-term)”類型的矩陣,也就是行和列與一個給定詞語和另一個給定詞語出現(xiàn)在同一情境中的次數(shù)相對應(yīng)。基于隱語義的研究以及基于跨空間的語言關(guān)聯(lián)研究,存在著一些高頻詞匯所包含的信息不多等問題。舉例來說,“the”這個詞與“and”這個詞經(jīng)常同時使用,但它們之間沒有任何聯(lián)系。

        (二)在線學(xué)習(xí)中的推薦技術(shù)現(xiàn)狀

        按照推薦方式,推薦系統(tǒng)主要有三種類型:基于內(nèi)容的推薦方法、協(xié)作過濾方法和混合方法。在此基礎(chǔ)上,提出一種新的智能產(chǎn)品推薦算法。如利用神經(jīng)網(wǎng)絡(luò)對參考文獻進行推薦,按照使用者的需要建議該內(nèi)容。比如提供一種卷積神經(jīng)網(wǎng)絡(luò)(current negative model)模型,其用于識別目標用戶的消費意向。在社會網(wǎng)絡(luò)中建立一個以用戶之間的聯(lián)系為基礎(chǔ)的推薦系統(tǒng)。該復(fù)合式建議系統(tǒng)綜合以上兩項技術(shù),如提出一種將個人興趣、好友興趣相似度和人際影響力等因素綜合起來的個性化推薦系統(tǒng)。按照建議的內(nèi)容,網(wǎng)上的教育建議體系主要有:閱讀資料建議、單詞建議等。在知識工程的基礎(chǔ)上,提出一種以讀者的個人喜好和能力為讀者推薦閱讀資料的方法。在這一點上,還給出一種個體化的手機閱讀資料的推薦方式,這種方式是將使用者的閱讀喜好進行采集,然后在手機上向使用者提供與使用者的喜好和能力相一致的閱讀資料。

        三、基于詞嵌入向量集和語義知識庫的集成學(xué)習(xí)方法

        (一)集成詞嵌入學(xué)習(xí)方法

        正如前面提到的,不管是整合多個詞嵌入向量集合,還是引入附加的語義知識庫,都能夠充分發(fā)揮不同的詞語嵌入向量集合的優(yōu)勢,從而產(chǎn)生出更高的詞嵌入向量集合。在本節(jié)中,將引入一種綜合模式 EGM,可以將多個字內(nèi)嵌向量集合與一個意義知識基結(jié)合起來。本項目提出的融合算法要求:在融合空間中,目前單詞在融合空間中的詞矢量盡量接近該單詞在融合空間中的詞向量。在整合空間中,當前單詞與該單詞在該知識基中有著類似情境的單詞與單詞矢量類似。在此,單詞的背景是單詞與其在一個意義上的知識基礎(chǔ)有聯(lián)系的單詞。本文對詞嵌入向量集及詞匯間的關(guān)聯(lián)進行了初步研究。在此基礎(chǔ)上,提出從詞嵌入向量集中提取詞匯的方法,同時提出一種基于 EGM的綜合模式學(xué)習(xí)算法(如圖1)。

        (二)實驗所用數(shù)據(jù)集

        這一部分將描述該整合模式所需的資料組,其中包含兩個部分,分別為詞嵌入向量集與字語義關(guān)系知識庫。其中,提出的詞嵌入向量集:該模式采用的開放來源單詞內(nèi)嵌向量集合有HLBL18、GloVel17。HLBL向量集的一個訓(xùn)練模式是一個具有一定概率的線性神經(jīng)網(wǎng)絡(luò)模式,該算法給出一個ngram,然后根據(jù)n-1個字的詞向量來預(yù)測后面一個字的詞向量。在此基礎(chǔ)上,將所預(yù)測的詞語與目前的真實詞語間的相似度轉(zhuǎn)化為一種可能性。共有246122個單詞,每一個單詞有100個單詞,一個單詞的單詞矢量為RCV1(Renters英語新聞1996.081997.08)作為一個訓(xùn)練詞匯。本文提出一種新的詞嵌入向量集的訓(xùn)練方法,即將詞嵌入向量集的局部與整體特性結(jié)合起來形成詞匯矢量的神經(jīng)網(wǎng)絡(luò)模型。在此基礎(chǔ)上,提出一種基于焦點詞及其語境的分類方法,并將其分類為一分,將焦點詞及其語境的分類方法轉(zhuǎn)化為一分,最終的總得分是兩項得分之和。

        四、基于樹匹配的語法問題檢索方法

        (一)語法MCQ檢索問題分析

        題目由一題干組成,四道選擇題,其中只能選擇一道題的正確答案。在題目中,用“*”標記出空白區(qū)域,即必須填寫的地方。舉例來說,在Qi的題目主語是“The w ai tess* we thougltdeservres aS ervice Qualityawad has esignel.”而A項中的“wlom”才是Qn的正確選擇。問:“ whon?”是什么意思?將題目后面的話補全,使之成為“The w aitres wlomwe thought deserves a Service Quality aw and has les igned.”本文提出的基于文法的MCQ檢索方法,可提供兩種形式的MCQ,即不完備的和完備的。本文提出的文法MCQ搜索方法,旨在尋找與其所要搜索的MCQ有類似文法知識的文法問題。

        (二)語法問題檢索系統(tǒng)框架

        這一章提供兩個MCQ的形式:僅有題目;包括題目、選項和正確答案。在未完成的情況下,基于 MCQ問題的題目干,產(chǎn)生一個新的parekey樹。在此基礎(chǔ)上,提出一種基于POS分類的聚類算法,并采用基于模糊聚類算法的聚類算法(如圖2)。最終,利用聚類分析方法對 MCQ進行分類。若使用者填寫全部問題,則會依據(jù)所提供之信息,以提升搜尋的精確性。首先,在產(chǎn)生parse-hey前,把正確的答案填充到題目中,使它成為一句話。接著,一個完全的查詢就會在此全句的基礎(chǔ)上產(chǎn)生一個關(guān)鍵字。在此基礎(chǔ)上,對兩種不同類型的問題進行回答相似度分析,其中回答相似度包括單詞嵌入相似度、單詞類型相似度以及文字相似度。

        (三)parse-key 樹的構(gòu)建

        人們發(fā)現(xiàn)現(xiàn)有的樹構(gòu)建無法表達文法 MCQ中的文法知識要點,為此,本文給出一種新的基于parse-key樹的構(gòu)建方法。所提出的包括一個文法樹的一個子樹和一個位置信息。與完整的句法樹比較,采用子樹形的句法樹可以有效降低噪音的干擾,同時,保持句法樹所要求的句法樹的特點。根據(jù)題目中的空白對文法的理解程度有很大影響,把空白的空間位置信息嵌入到“子樹形”中。在討論如何構(gòu)造parse-key樹以前,要先來看一下構(gòu)造parse-key樹需要的兩個要素:文法樹和單詞空白距離。另外,匹配算法。在前一部分,討論如何構(gòu)造parse-key樹的構(gòu)建。在 MCQ中,采用pars-key樹的構(gòu)建表達文法中的知識要點。在本節(jié)中,將給出兩個用于計算parse-key樹間的結(jié)構(gòu)相似性與順序相似性的核子——模糊樹與 POS排序核子。

        五、結(jié)語

        總之,本文著重對機器學(xué)習(xí)進行探討,在NLP領(lǐng)域,本項目將研究一種新的基于整合詞匯的語義表達方法,并將其推廣至多個NLP領(lǐng)域。同時,在自然語言信息傳遞方面,本項目將研究利用深度神經(jīng)網(wǎng)絡(luò)進行信息傳遞的方法,并從多個角度對天然信息處理中的問題進行深入探討。今后,還會有更多的研究。在此基礎(chǔ)上,通過分析不同類型的文本、句法等文本中所蘊含的語義、語義等特點,設(shè)計具有較強魯棒性的文本自動生成算法。在未來研究中,還可以結(jié)合自然語言自身的特點,設(shè)計更具針對性的傳輸模型。

        參考文獻:

        [1] 葉莉莉,陳亞盛. 基于自然語言處理和機器學(xué)習(xí)的長期股權(quán)投資分類模型[J]. 管理會計研究,2022(05):12-19.

        [2] 王思麗,劉巍,楊恒,等. 基于自然語言處理和機器學(xué)習(xí)的實體關(guān)系抽取方法研究[J]. 圖書館學(xué)研究,2021(18):39-48.

        [3] 濮澤堃. 基于機器學(xué)習(xí)的電商評論情感分析系統(tǒng)[D]. 南京:南京郵電大學(xué),2020.

        [4] 楊夕. 基于融合學(xué)習(xí)模型的文本描述刑事犯罪行為自動分類的研究[D]. 南寧:廣西師范大學(xué),2020.

        女人下边被添全过视频| 亚洲视频不卡免费在线| 丝袜美腿一区在线观看| 丰满人妻熟妇乱又仑精品| 男女性高爱潮免费网站| 国产精品99久久久精品免费观看| 久久久精品国产亚洲av网不卡| 中文有码人妻字幕在线| 少妇被粗大的猛烈进出免费视频 | 少妇中文字幕乱码亚洲影视| 一道久在线无码加勒比| 免费在线日韩| 国产三级不卡视频在线观看| 午夜男女很黄的视频| 亚洲人成人影院在线观看| 国产 在线播放无码不卡| 久亚洲精品不子伦一区| 国产农村熟妇videos| 日本a天堂| 日本久久一区二区三区高清| 爆操丝袜美女在线观看| 国产精品无码久久久久久久久久| 亚洲国产A∨无码影院| 麻豆av毛片在线观看| 国产精品天干天干| 爽爽午夜影视窝窝看片| 欧美h久免费女| 在线播放国产自拍av| 狠狠色综合7777久夜色撩人ⅰ| 国内精品大秀视频日韩精品| 精品人妻一区二区三区蜜臀在线| 午夜少妇高潮在线观看| 亚洲av成人无码网站…| 日韩在线观看网址| 美女免费观看一区二区三区| 欧美精品亚洲精品日韩专区| 国产亚洲欧美日韩综合一区在线观看 | 久久久久AV成人无码网站| 亚洲熟女少妇精品综合| 黄网站欧美内射| 中文字幕乱偷乱码亚洲|