亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合BERT 與LDA 的在線課程評論關(guān)鍵詞提取方法

        2022-03-25 03:11尼格拉木買斯木江艾孜爾古麗玉素甫
        現(xiàn)代電子技術(shù) 2022年6期
        關(guān)鍵詞:向量文本算法

        尼格拉木·買斯木江,艾孜爾古麗·玉素甫,2

        (1.新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054;2.新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 國家語言資源監(jiān)測與研究少數(shù)民族語言中心,北京 100814)

        0 引 言

        隨著信息技術(shù)的迅猛發(fā)展,“互聯(lián)網(wǎng)+教育”得到了市場的青睞和追捧,但當(dāng)前的慕課平臺還有一些不足,如存在教學(xué)視頻延遲、教學(xué)資源不完整等問題。由于數(shù)據(jù)量太大,使得手工統(tǒng)計(jì)和分析難以實(shí)施,所以迫切需要一種方法能夠從大量的信息源中快速有效地提取出真正需要的信息,并充分展示分析結(jié)果。因此,需要對在線課程評論關(guān)鍵詞進(jìn)行提取。

        關(guān)鍵字提取使人們能夠以簡潔的方式表示文本文檔。文檔的關(guān)鍵詞在文本自動(dòng)索引等任務(wù)及相關(guān)應(yīng)用場景中有相應(yīng)表現(xiàn)。目前,關(guān)鍵字提取主要基于最頻繁度量的關(guān)鍵字提取、詞頻反轉(zhuǎn)文本頻率的關(guān)鍵字提取等方法。隨著關(guān)鍵詞提取技術(shù)的提高,一些學(xué)者優(yōu)化算法,利用節(jié)點(diǎn)信息進(jìn)行關(guān)鍵詞處理,如通過TextRank 調(diào)整邊的轉(zhuǎn)移權(quán)值以取得較好的效果。Abilhoa W D 通過隱含的Diricre 分布主題模型構(gòu)建主題特征LDA 的獎(jiǎng)勵(lì)函數(shù)計(jì)算詞,構(gòu)建關(guān)鍵詞抽取模型。Nagarajan R 等通過將句法特征結(jié)合到詞的表示中來獲得比N-Gram 更高的準(zhǔn)確性。Abdelhaq H 等通過LDA 和TextRank 算法聯(lián)合提取關(guān)鍵詞。顧益軍等為了提高學(xué)習(xí)算法的有效性及秉持對基于統(tǒng)計(jì)關(guān)鍵詞提取方法的評價(jià),對基本的學(xué)習(xí)算法和常用的Set 算法進(jìn)行了比較。郭慶用文本分類問題思路解決了文本主題詞挖掘問題,提取關(guān)鍵詞用了支持向量機(jī)(SVM)。Khalil M 認(rèn)為在提取關(guān)鍵詞時(shí)要考慮句子的影響程度?;谝陨戏椒ǎ梢赃M(jìn)一步提高關(guān)鍵詞處理的效率。

        隨著人工智能技術(shù)的發(fā)展,關(guān)鍵詞提取得到越來越多的重視,洪成杰通過BERT 和TextRank 處理關(guān)鍵詞。王亞坤利用融合算法提取關(guān)鍵詞。韋強(qiáng)申通過PageRank 和神經(jīng)短語嵌入算法對關(guān)鍵詞進(jìn)行提取和排序。薛清福等構(gòu)建詞向量并與主題挖掘技術(shù)TextRank 相結(jié)合,增添了文本語義與TextRank 的相關(guān)性。肖倩等提出一種新的詞向量聚類和TextRank 方法,利用BERT 詞之間的相似度關(guān)系,提高了關(guān)鍵詞處理效率。李德新等優(yōu)化了關(guān)鍵詞提取,但仍存在準(zhǔn)確性不高的問題。

        基于上述研究,本文提出了一種融合BERT(Bidirectional Encoder Representations from Transformer)和模型LDA 隱含狄利克雷分布(Latent Dirichlet Allocation)的在線課程評論關(guān)鍵詞提取方法。該方法可以根據(jù)語義信息的影響,濃縮在線課程的特點(diǎn)評論信息和關(guān)鍵詞的覆蓋率和差異。利用訓(xùn)練后的BERT 模型獲得候選詞的詞向量;再利用LDA 主題模型得到候選關(guān)鍵詞差異的影響程度以及在主題與文本候選關(guān)鍵詞間的語義相關(guān)性;最后在主題與語義關(guān)聯(lián)性及TextRank算法基礎(chǔ)上對實(shí)驗(yàn)所選出來的關(guān)鍵詞進(jìn)行排序。通過本文提出的方法可以完善慕課平臺的建設(shè)與改進(jìn),同時(shí)也有助于提供更好的用戶體驗(yàn)。

        1 一種融合BERT 與LDA-TextRank 的在線課程評論關(guān)鍵詞提取方法

        近幾年在線課程的發(fā)展,使用戶和平臺管理者能夠從繁雜的用戶評論中獲取更多有價(jià)值的信息。在選擇和改進(jìn)過程中得以實(shí)現(xiàn)是目前在線課程評論的研究熱點(diǎn)。本文提出一種基于BERT LDA-TextRank 的關(guān)鍵詞提取方法。第一步獲取候選關(guān)鍵詞,在候選關(guān)鍵詞之前對爬取的課程評語進(jìn)行預(yù)處理,再通過BERT 模型訓(xùn)練得到慕課網(wǎng)在線評語的詞向量;然后利用LDA 主題模型得到候選關(guān)鍵詞的主題分布;最后結(jié)合TextRank 算法計(jì)算出各主題的關(guān)系詞,并生成候選關(guān)鍵詞進(jìn)行主題挖掘。

        1.1 詞向量構(gòu)建模塊

        一些學(xué)者采用分布式方法對詞進(jìn)行處理,該方法有相關(guān)性更強(qiáng)的優(yōu)點(diǎn),能更好地反映詞與詞之間的緊密關(guān)系。Mikolov 等人提出了一種詞表示模型,通過分布式方法突出詞語的相關(guān)性。本文則通過谷歌開源工具包BERT 模型訓(xùn)練慕課平臺語料庫上的詞表示模型。為了得到待測文本候選關(guān)鍵詞,本文首先對在線課程評論進(jìn)行預(yù)處理并選取評論主題的特點(diǎn);再基于針對網(wǎng)絡(luò)課程的候選關(guān)鍵詞,在現(xiàn)有的數(shù)據(jù)集上進(jìn)行文本表示,在得到BERT 模型訓(xùn)練好的詞向量之后,進(jìn)一步得到文本評論向量。

        圖1 BERT 模型圖

        1.2 主題差異性挖掘模塊

        關(guān)鍵詞不僅需包含網(wǎng)絡(luò)課程評論的主要框架,而且要有主題差異和文本覆蓋。如果考慮不周,則提取的關(guān)鍵詞有效率會下降,因此,關(guān)鍵詞不僅重要,而且具有差異度和覆蓋度。

        為了表征關(guān)鍵詞之間的差異和覆蓋范圍,本文重點(diǎn)關(guān)注了候選關(guān)鍵詞重要屬性,利用LDA 主題模型分析候選關(guān)鍵詞主題差異的關(guān)系。

        LDA 主題模型認(rèn)為一個(gè)文檔由幾個(gè)主題組成,同時(shí)每個(gè)主題由幾個(gè)單詞組成,分別代表個(gè)文檔的個(gè)特征詞及其主題。主題模型是一種識別和聚類文檔中潛在主題的算法,可用于識別文本中隱含的主題信息。現(xiàn)流行的主題概率模型是隱含狄利克雷分布,即LDA,簡稱基于向量模型。這個(gè)模型是一個(gè)基于生產(chǎn)的概率模型,其中包含文件、話題和文字。該模型運(yùn)用先驗(yàn)分布解決了主題挖掘任務(wù)中向量過度擬合問題。LDA 概率模型基于貝葉斯算法,具體計(jì)算過程如圖2所示。

        圖2 LDA 概率模型

        圖2 中LDA 的各實(shí)驗(yàn)變量參考釋義如表1 所示。

        表1 主題模型中各參數(shù)含義

        從主題模型生成單詞的LDA 過程如下:

        1)根據(jù)先驗(yàn)實(shí)驗(yàn)概率從多個(gè)備選文檔中選擇一個(gè)文檔;

        2)從Dirichlet 分布中抽樣,并且生成主題分布;

        3)主題多項(xiàng)式分布樣本的底部單詞,生成主題的文檔z;

        4)與主題對應(yīng)的單詞分布由Dirichlet 分布生成;

        5)生成詞w從詞的多項(xiàng)式分布采樣中得到;

        6)參數(shù)計(jì)算可以采用Gibbs 算法,即:

        1.3 基于TextRank 的主題摘要生成模塊

        關(guān)鍵詞能體現(xiàn)文本的基本信息,隨著人工智能的發(fā)展,各種技術(shù)和理論被應(yīng)用到關(guān)鍵詞處理中。BERT 在這些技術(shù)中脫穎而出。

        基于TextRank 的主題摘要生成是指主要評論中的某個(gè)評論語句和其他相似度較高的評論,如有兩個(gè)句子ss,t表示評語候選關(guān)鍵詞,相似度公式如下:

        式中,若兩個(gè)給定句子相似度高于給定的值,在該模型中被認(rèn)定為這兩個(gè)句子具有語義相關(guān)性并且會將s,s連接起來,作為候選評論語句的重要語句根據(jù)相關(guān)權(quán)重計(jì)算抽取出重要度高的個(gè)句子,得到主題摘要。

        1.4 BERT-LDA 模型整體框架

        本文以BERT 的模型為基礎(chǔ),構(gòu)建LDA-Text Rank課程評價(jià)的主題提取模型。與傳統(tǒng)主題模型的輸入語料庫相比,該模型使用BERT 語言模型減少了輸入語料庫,大大提高了模型提取的效率,使主題提取的分布更好。BERT-LDA-TextRank 模型操作過程為:對爬取的課程評語進(jìn)行預(yù)處理,預(yù)處理語料庫用輸入到BERT 模型獲得減少維度的詞向量表示;再通過LDA 模型對數(shù)據(jù)進(jìn)行主題挖掘,挖掘熱門話題和相應(yīng)的主題關(guān)鍵字;最后運(yùn)用TextRank 算法提取各關(guān)鍵評論語句的主題摘要。本文方法在更深的層面上提取隱含的主題中包含情感信息的課程評價(jià)。

        2 實(shí) 驗(yàn)

        2.1 數(shù)據(jù)預(yù)處理和參數(shù)設(shè)置

        本文以最大的IT 網(wǎng)絡(luò)學(xué)習(xí)平臺慕課(MOOC)網(wǎng)作為數(shù)據(jù)來源,通過開源爬取框架Scrapy 爬取了前100 門熱門課程評論信息共51 977 條數(shù)據(jù)記錄。同時(shí)采用結(jié)巴分詞系統(tǒng)對數(shù)據(jù)進(jìn)行了去重、過濾、去停用詞等文本預(yù)處理。圖3 為在線評論主題挖掘算法流程。實(shí)驗(yàn)中數(shù)據(jù)集按3∶1 的比例分割,并使用BERT+LDA+TextRank 模型,參數(shù)設(shè)置如表2、表3 所示。

        圖3 在線評論主題挖掘算法流程

        表2 Bert 模型參數(shù)設(shè)置

        表3 LDA 模型參數(shù)設(shè)置

        2.2 實(shí)驗(yàn)評價(jià)指標(biāo)與實(shí)驗(yàn)環(huán)境

        為了驗(yàn)證本文模型的性能,在本實(shí)驗(yàn)效果評價(jià)上使用了困惑度(Perplexity)對比實(shí)驗(yàn)。困惑度是用來度量概率分布的重合程度和預(yù)測樣本的指標(biāo),也可以用來表示兩個(gè)概率分布或概率模型,在主題模型中低困惑度的概率分布預(yù)測樣本能力更高。困惑度計(jì)算公式如下所示:

        式中()指的是每個(gè)單詞的出現(xiàn)頻率。根據(jù)式(3)可求得相應(yīng)文檔中不同主題出現(xiàn)的概率。

        實(shí)驗(yàn)環(huán)境為X86 平臺,Intel CPU,內(nèi)存16 GB,硬盤100 GB,GPU-v100,操作系統(tǒng)為Windows 10,Pycharm 2017。使用基于TensorFlow 的深度學(xué)習(xí)庫Keras 進(jìn)行測試。

        2.3 實(shí)驗(yàn)結(jié)果與分析

        為了對提出模型性能進(jìn)行測試,開展了兩組對比實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)在對主題提取效果進(jìn)行驗(yàn)證的基礎(chǔ)上測試了各模型性能,同時(shí)驗(yàn)證不同主題數(shù)下模型的性能,并為實(shí)驗(yàn)選擇最有效的主題數(shù)。第二個(gè)實(shí)驗(yàn)是驗(yàn)證不同數(shù)量的Gibbs 迭代次數(shù)對模型的影響。第三個(gè)實(shí)驗(yàn)基于TextRank 的主題詞分布研究。

        2.3.1 基于慕課在線課程評語主題提取效果對比

        本文選擇了慕課網(wǎng)中最熱門的50 門課程。根據(jù)大量文獻(xiàn)將參數(shù)設(shè)置為0.2,將設(shè)置為0.1,兩個(gè)參數(shù)都為超參數(shù)。下一步將初始Gibbs 樣本的迭代次數(shù)初始值設(shè)置為300。因?yàn)锽ERT-LDA-TextRank 模板的第一層為文本表示模型,第二層為主題挖掘?qū)?,所以模板的參?shù)也是超級參數(shù),以人為設(shè)置為主。通過調(diào)整主體數(shù)量來調(diào)整主題提取影響度,因此值分別為2,4,6,8,10,12,14 在各主題數(shù)基礎(chǔ)下確定實(shí)驗(yàn)最佳性能,對比實(shí)驗(yàn)如下:

        1)LDA:此模型是Ml構(gòu)建的原始LDA 主題模型,直接使用LDA 主題模型進(jìn)行主題提取實(shí)驗(yàn)。

        2)CBOW-LDA:該模型類似于BERT-LDA 模型,通過CBOW 算法對文本進(jìn)行降維,最后將降維后的實(shí)驗(yàn)語料集輸入LDA 主題模型進(jìn)行主題抽取實(shí)驗(yàn)。

        3)LDA-TextRank:模型第一次使用LDA-TextRank算法將降維語料庫輸入LDA 主題模型主題提取實(shí)驗(yàn),最后用TextRank 算法挖掘各主題。

        4)BERT-LDA-TextRank:為本文提出的模型。實(shí)驗(yàn)?zāi)P褪鞘褂肂ERT 訓(xùn)練在線課程評語的候選評語并生成評論向量,然后將語料集輸入LDA 主題模型,最后與實(shí)驗(yàn)3)類似,用TextRank 算法計(jì)算主題分布。

        這四個(gè)模型的混淆度隨著主題的增加而明顯。通常,降維模型的LDA 模型混亂程度都不優(yōu)于本文提出的BERT-LDA-TextRank 方法,其中單純的LDA 模型主題提取能力最差;本文模型混亂程度最低,對比CBOW-LDA,添加文本表示模型對文本向量化,訓(xùn)練語料有了很明顯的提高。

        對比CBOW-LDA,添加BERT 主題模型的混亂效果優(yōu)于添加CBOW-LDA,因?yàn)锽ERT 模型考慮上下文語義信息和詞序關(guān)系,以及在訓(xùn)練和文本中的單詞出現(xiàn)的次數(shù),因此CBOW 提取的特征不如BERT。本文還進(jìn)行了LDA-TextRank 和BERT-LDA-TextRank 對比實(shí)驗(yàn)。在本文的數(shù)據(jù)集上BERT-LDA-TextRank 模型略優(yōu)于LDA-TextRank 模型。通過實(shí)驗(yàn)不難發(fā)現(xiàn),當(dāng)主題數(shù)=6 時(shí),被試的困惑程度最低,所以主題模型中的主題數(shù)為6。

        圖4 模型結(jié)果對比圖

        2.3.2 Gibbs 迭代次數(shù)對模型影響研究

        為了確定吉布斯抽樣的最優(yōu)迭代數(shù),本文在保持其他參數(shù)不變的情況下,進(jìn)行BERT-LDA-TextRank 迭代數(shù)混淆度實(shí)驗(yàn),分別將吉布斯抽樣迭代數(shù)設(shè)置為50,100,150,200,250,300,以觀察其混淆度隨迭代數(shù)的變化。設(shè)定迭代次數(shù)時(shí),吉布斯認(rèn)為迭代次數(shù)越高實(shí)驗(yàn)效果越好,但增加迭代次數(shù)也會影響計(jì)算機(jī)硬件配置,所以配置迭代次數(shù)時(shí),應(yīng)根據(jù)實(shí)際實(shí)驗(yàn)條件來設(shè)置參數(shù)。

        通過圖5 可知,Gibbs 迭代次數(shù)從0~250 的困惑度值差距較大,主題提取精度在迭代次數(shù)為250 時(shí)為最佳并保持不變。因此,在本模型中Gibbs 參數(shù)設(shè)置為250。

        圖5 迭代次數(shù)對實(shí)驗(yàn)結(jié)果影響圖

        2.3.3 基于TextRank 主題詞分布研究

        為了能更清楚地研究各主題評論內(nèi)容,本研究利用第1.3 節(jié)所講解的TextRank 算法生成主題摘要和關(guān)鍵詞語,限于文章篇幅,表4 給出部分產(chǎn)品的主題摘要和關(guān)鍵詞語。

        從表4 中可以看出:第1 個(gè)主題與程序語言學(xué)習(xí)相關(guān),用戶在評論中都體現(xiàn)了一些主題信息,“C++”這個(gè)詞語出現(xiàn)的概率較高;第2 個(gè)主題是基于機(jī)器學(xué)習(xí)的,因?yàn)椤癝VM”這個(gè)詞出現(xiàn)的頻率相對較高;第5 個(gè)主題是關(guān)于各種框架學(xué)習(xí)等。除此之外,從主題詞分布中能夠掌握用戶的關(guān)注點(diǎn),比如Java 課程中,機(jī)器學(xué)習(xí)主題主要關(guān)注一些模型,而用戶關(guān)注框架和語法問題。同時(shí),實(shí)驗(yàn)結(jié)果表明,用戶對相關(guān)課程和平臺管理者的建議以及主觀情感態(tài)度也會表現(xiàn)在評語中,比如慕課用戶對語言類科恒“Java”的授課老師、內(nèi)容以及授課方式給出了比較客觀的評價(jià),對JS 課程的授課內(nèi)容很滿意,對第4 個(gè)主題的課程評價(jià)比較卡頓,對管理者提出了相應(yīng)的改進(jìn)方案。

        表4 主題詞分布表

        通過主題挖掘,能夠從更深的層面上提取隱含的主題中包含情感信息、對學(xué)習(xí)者及有利于平臺管理者的課程評價(jià),有助于完善慕課平臺的建設(shè)與改進(jìn),同時(shí)也有助于提供更好的用戶體驗(yàn)。

        3 結(jié) 語

        本文提出一種結(jié)合BERT 和LDA-TextRank 差異的簡單有效的關(guān)鍵詞提取方法,該方法考慮了候選關(guān)鍵詞的語義重要性、覆蓋范圍和差異。該方法通過LDA 主題模型、BERT 詞表示模型提升候選關(guān)鍵詞的差異敏感度,結(jié)合TextRank 算法生成了主題摘要和關(guān)鍵詞語。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的關(guān)鍵詞提取方法相比,文中方法的困惑度有明顯降低。下一步就是根據(jù)不同語料庫信息高度集中的特點(diǎn),整合外部知識信息,提高關(guān)鍵詞提取的質(zhì)量,擴(kuò)充語料完善實(shí)驗(yàn)。

        猜你喜歡
        向量文本算法
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        基于MapReduce的改進(jìn)Eclat算法
        在808DA上文本顯示的改善
        Travellng thg World Full—time for Rree
        進(jìn)位加法的兩種算法
        基于doc2vec和TF-IDF的相似文本識別
        一種改進(jìn)的整周模糊度去相關(guān)算法
        向量垂直在解析幾何中的應(yīng)用
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        久久尤物av天堂日日综合| 真人做爰试看120秒| 精品国产一区二区三区2021| 日韩av无码精品一二三区| 国产伦精品一区二区三区| 99久久综合狠狠综合久久| ZZIJZZIJ亚洲日本少妇| 在线观看视频日本一区二区三区 | 色综合久久蜜芽国产精品| 成人国产精品一区二区网站公司| 无套内射无矿码免费看黄| 狠狠爱无码一区二区三区| 国产亚洲午夜精品| 久久久精品人妻一区二区三区免费| 久久久精品国产免费看| 97一期涩涩97片久久久久久久| 97久久草草超级碰碰碰| 久久精品人妻一区二区三区| 亚洲VA中文字幕欧美VA丝袜| 亚洲香蕉av一区二区蜜桃| 黄色潮片三级三级三级免费| 日本黑人亚洲一区二区| 色综合久久中文娱乐网| 亚洲日本中文字幕天天更新| 欧美第五页| 亚洲视频精品一区二区三区| 午夜精品久久99蜜桃| 亚洲av日韩av永久无码下载| 成人激情五月天| 久久国产精品99精品国产987| 亚洲女同av一区二区在线观看| 国产黄久色一区2区三区| 加勒比hezyo黑人专区| 久久精品娱乐亚洲领先| 国产精品视频流白浆免费视频| 日本高清一区二区三区视频| 精品精品国产三级av在线| 久久人人爽av亚洲精品| 最近最新中文字幕| 精品国偷自产在线不卡短视频| 国产精品亚洲av无人区一区蜜桃|