亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多源數(shù)據(jù)處理技術(shù)的智能學(xué)習(xí)質(zhì)量分析方法研究

        2023-12-09 02:55:38朱琪
        電子設(shè)計(jì)工程 2023年23期
        關(guān)鍵詞:特征提取文本質(zhì)量

        朱琪

        (西安航空職業(yè)技術(shù)學(xué)院,陜西西安 710089)

        近年來,大數(shù)據(jù)理論與人工智能技術(shù)的興起推動(dòng)了教育領(lǐng)域的不斷革新,教育信息化逐漸成為新的發(fā)展趨勢。而大學(xué)慕課等在線學(xué)習(xí)平臺(tái)的興起與發(fā)展,也產(chǎn)生了海量的相關(guān)學(xué)習(xí)數(shù)據(jù)。如何對這類數(shù)據(jù)進(jìn)行挖掘及處理,進(jìn)而依據(jù)這些數(shù)據(jù)對學(xué)生的在線學(xué)習(xí)質(zhì)量情況實(shí)現(xiàn)分析和研究,是一個(gè)需要深入研究的課題[1-3]。

        現(xiàn)階段常見的在線學(xué)習(xí)質(zhì)量分析方法主要有三個(gè)研究方向:基于傳統(tǒng)概率的分析、基于機(jī)器學(xué)習(xí)技術(shù)(Machine Learning,ML)的分析與基于深度學(xué)習(xí)技術(shù)(Deep Learning,DL)的分析[4-6]。文中基于深度學(xué)習(xí)框架,使用TextRank 對線上平臺(tái)的多源數(shù)據(jù)集進(jìn)行文本處理,再將得到的詞向量輸入至CNN-BiGRU模型中進(jìn)行行為數(shù)據(jù)分析,最終實(shí)現(xiàn)對學(xué)習(xí)質(zhì)量的預(yù)測。

        1 算法設(shè)計(jì)

        1.1 改進(jìn)的TextRank文本處理模型

        TextRank[7]由PageRank 算法[8]發(fā)展而來,是一種基于圖排序的文本處理模型。該算法的核心思想是將文本和圖進(jìn)行轉(zhuǎn)換,使文本與圖論中的節(jié)點(diǎn)相對應(yīng)。若對應(yīng)的兩個(gè)文本數(shù)據(jù)相似度較高,則認(rèn)為這兩個(gè)節(jié)點(diǎn)間有一條無向線段,且線段的權(quán)值即為句子的相似度。最終將所得到的句子相似度權(quán)重進(jìn)行排序,從而得到關(guān)鍵詞。

        對于在線學(xué)習(xí)質(zhì)量評估而言,學(xué)習(xí)者發(fā)表的評論、提出的問題等均為關(guān)鍵指標(biāo),而這些關(guān)鍵指標(biāo)都是通過文本來實(shí)現(xiàn)的。因此使用TextRank 模型對文本進(jìn)行關(guān)鍵字處理,能夠更好地幫助后續(xù)模型完成特征學(xué)習(xí)。

        但原始TextRank 算法并未考慮到文本之間的聯(lián)系,而文段中的文本有其自身的邏輯。因此若將句子的特征與詞語進(jìn)行合理地融合,訓(xùn)練結(jié)果便會(huì)更加全面、準(zhǔn)確。改進(jìn)后的TextRank 算法流程如圖1所示。

        圖1 改進(jìn)的TextRank算法流程

        TextRank 算法關(guān)鍵處理過程如下所示:

        1)相似語句合并去重

        首先對文本中的語句進(jìn)行詞向量整理,可將文本看做為詞向量集合W={s1,s2,…,si,sj},而si和sj表示文本中的語句。語句相似度可表示為:

        式中,wk為語句中的詞向量。當(dāng)Sim(si,sj)>1 時(shí),表明si、sj的相似度高;而當(dāng)Sim(si,sj)≤1 時(shí),則表明si、sj的相似度較低。

        根據(jù)上式可對相似語句進(jìn)行合并,則相似度α的計(jì)算公式為:

        2)文本語義處理

        在中文文本中,詞語或句子語義的不同可表現(xiàn)在詞出現(xiàn)的位置、標(biāo)題含義及特殊文本等。通常文本的首句詞語更具有重要性,且總結(jié)性的話語也較為關(guān)鍵。因此,需賦予這類重點(diǎn)數(shù)據(jù)更高的權(quán)重。

        3)文本權(quán)重值計(jì)算

        使用圖論(Graph Theory)方法計(jì)算句子權(quán)重值。假設(shè)圖中的兩頂點(diǎn)關(guān)系用w表示,頂點(diǎn)為Vi,指向該頂點(diǎn)的向量用Vi(in)表示,而該頂點(diǎn)指出的向量使用Vi(out)表示,則權(quán)重的計(jì)算如下所示:

        其中,d為概率系數(shù)。

        4)文本摘要向量獲取

        根據(jù)式(3)獲取詞向量的權(quán)重,作為后續(xù)模型的輸入數(shù)據(jù)。

        1.2 基于CNN-BiGRU的學(xué)習(xí)行為特征提取模型

        門控循環(huán)單元結(jié)構(gòu)(Gate Recurrent Unit,GRU)模型[9-10]是一種基于門結(jié)構(gòu)的時(shí)間序列數(shù)據(jù)訓(xùn)練模型。在工作過程中其能夠?qū)?shù)進(jìn)行持續(xù)遞歸,并將所有時(shí)刻隱藏狀態(tài)的輸出數(shù)據(jù)全部反饋至數(shù)據(jù)輸入端,從而完成不斷的學(xué)習(xí)。GRU 單元的結(jié)構(gòu)如圖2 所示。該單元由更新門zt、重置門rt、相關(guān)的記憶單元及隱藏層組成。

        圖2 GRU單元結(jié)構(gòu)示意圖

        GRU單元結(jié)構(gòu)相關(guān)運(yùn)算過程如式(4)-(7)所示:

        式(4)為重置門rt的輸出函數(shù)??梢姡刂瞄T能對t-1 時(shí)刻的隱藏層輸出進(jìn)行控制。其中,Wr和br為函數(shù)系數(shù)。式(5)表示狀態(tài)函數(shù),可對記憶單元的狀態(tài)進(jìn)行描述。而式(6)為更新門zt的輸出函數(shù),且Wz和bz為函數(shù)系數(shù)。式(7)為最終隱藏層的輸出狀態(tài)。

        原始GRU 模型和其他同類型RNN 模型[11-12]相同,均為單向模型。而在學(xué)習(xí)行為特征提取模型中,除了要了解當(dāng)前的行為外,還需對過去與后期的行為加以分析。因此,文中使用了雙向GRU(BiGRU)模型,其模型結(jié)構(gòu)如圖3 所示。

        圖3 雙向GRU模型結(jié)構(gòu)

        由圖3 可知,該模型是將兩層GRU 模型進(jìn)行結(jié)合,并分別處理前向與后向的時(shí)間數(shù)據(jù)。

        BiGRU 模型可對行為數(shù)據(jù)加以分析,但學(xué)生的行為數(shù)據(jù)較為復(fù)雜,且受多種情況影響,因此需對各特征賦予權(quán)重,再進(jìn)行關(guān)鍵特征分析,而注意力機(jī)制(ATT)能較好地復(fù)制特征權(quán)重。文中將TextRank模型處理完畢的節(jié)點(diǎn)特征數(shù)據(jù)使用fa與fb來表示,eab表示節(jié)點(diǎn)數(shù)據(jù)之間的關(guān)聯(lián)性,βab表示注意力參數(shù),W為權(quán)重系數(shù),則節(jié)點(diǎn)數(shù)據(jù)間關(guān)聯(lián)性的計(jì)算可表示為:

        而βab的值可由分類器得到,具體計(jì)算公式如下:

        上文中的TextRank 模型分析了關(guān)鍵性的短語,但GRU 模型的全局性較強(qiáng),局部特性卻較弱。因此,還需加入CNN[13-14]補(bǔ)齊模型的局部特征,同時(shí)也可減少注意力機(jī)制[15-16]所引入的全局噪音。

        CNN 能夠利用大小可選的卷積學(xué)習(xí)詞向量的局部特征,而文中采用了臨近策略的CNN 模型。其通過計(jì)算目標(biāo)詞周圍關(guān)鍵詞的位置,以增強(qiáng)模型學(xué)習(xí)的準(zhǔn)確性。首先計(jì)算關(guān)鍵詞的相關(guān)性ri,則有:

        式中,m為詞向量長度,M為預(yù)設(shè)閾值,i為詞向量序號,l為詞向量的索引值。最終的特征提取模型如圖4 所示。

        圖4 特征提取模型

        1.3 基于行為分析的學(xué)習(xí)質(zhì)量預(yù)測模型

        該文的整體系統(tǒng)架構(gòu)如圖5 所示。首先,對線上平臺(tái)學(xué)習(xí)者的學(xué)習(xí)行為及發(fā)表的文本信息進(jìn)行統(tǒng)計(jì);然后,通過模型進(jìn)行數(shù)據(jù)分析;最終,便可得到學(xué)習(xí)者的學(xué)習(xí)質(zhì)量預(yù)測結(jié)果。

        圖5 整體系統(tǒng)架構(gòu)

        該模型共有三層結(jié)構(gòu):1)數(shù)據(jù)輸入模型,在線學(xué)習(xí)平臺(tái)獲得的信息通過TextRank 模型分解為具有權(quán)重值的詞向量,該向量值即可作為模型的輸入部分;2)行為分析模塊,數(shù)據(jù)輸入至CNN 且?guī)в凶⒁饬C(jī)制的BiGRU 模型中進(jìn)行訓(xùn)練,以得到行為特征數(shù)據(jù);3)學(xué)習(xí)質(zhì)量預(yù)測模型,訓(xùn)練完畢的數(shù)據(jù)進(jìn)入Softmax模型中完成評分,最終即可獲得學(xué)習(xí)質(zhì)量的評估值。

        2 算法測試與結(jié)果分析

        2.1 實(shí)驗(yàn)條件

        該文選擇某線上教育平臺(tái)的學(xué)習(xí)者行為信息作為數(shù)據(jù)集,并分為理科、工科及文科數(shù)據(jù),且在所有課程中均設(shè)有討論區(qū)和作業(yè)回答區(qū)。通過將這些文本進(jìn)行整理,得到的實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集參數(shù)如表1所示。

        表1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集參數(shù)

        2.2 分詞性能測試

        完成帶有情感分析的TextRank 分詞算法后,對分詞效果進(jìn)行性能評估。評估指標(biāo)為雙語評估替補(bǔ)(Bilingual Evaluation Understudy,BLEU),該指標(biāo)可對分詞的質(zhì)量加以評估,且其值越接近1 越好。對比算法則使用詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF)、TextCNN 及TextRank 原始算法。各算法所得結(jié)果如表2 所示。

        由表2 可知,原始TextRank 算法在分詞性能上稍遜于其他對比算法。而該文算法由于增加了情感分析與上下文分析算法(Context Analysis),因此其性能有所提高,且相較TextRank 原始算法提升了約0.05,在對比算法中為最優(yōu)。

        2.3 算法性能測試

        性能測試首先需進(jìn)行消融實(shí)驗(yàn),以驗(yàn)證算法改進(jìn)后的效果。對比算法使用了GRU、BiGRU 和BiGRUATT,同時(shí)采用了與上文一致的數(shù)據(jù)集及運(yùn)行環(huán)境,測試指標(biāo)則選擇了精確率及F1 值。實(shí)驗(yàn)結(jié)果如表3所示。

        從表3 中可以看到,該文提出的CNN-BiGRU 模型在數(shù)據(jù)集的訓(xùn)練中取得了最佳的效果。其在BiGRU-ATT 算法的基礎(chǔ)上精確率提升約0.024,F(xiàn)1值提升約0.03。這表明,該文算法使用CNN 進(jìn)行文本情感分析能夠提升算法的整體性能。

        此外,還與其他同類型算法進(jìn)行性能對比,對比算法選擇了雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)、隨機(jī)存取存儲(chǔ)器(Random Access Memory,RAM)及SynATT(Syn-Attention)算法。各類算法的精確率及F1 值結(jié)果如表4 所示。

        表4 同類算法對比實(shí)驗(yàn)結(jié)果

        由表4 可知,該文算法的精確率與F1 值均較優(yōu)。雖然精確率低于RAM 算法,但RAM 算法的網(wǎng)絡(luò)層數(shù)較多且結(jié)構(gòu)復(fù)雜,故其訓(xùn)練速度過慢,F(xiàn)1 值也相對較差。因此總體而言,該文算法具有較大優(yōu)勢。

        3 結(jié)束語

        相比線下教學(xué),線上教學(xué)難以有效把握學(xué)生的學(xué)習(xí)質(zhì)量?;诖耍闹袑€上教學(xué)平臺(tái)的學(xué)習(xí)者行為數(shù)據(jù)加以分析,并建立深度學(xué)習(xí)模型對數(shù)據(jù)進(jìn)行訓(xùn)練,最后實(shí)現(xiàn)對學(xué)習(xí)者學(xué)習(xí)質(zhì)量的評估。實(shí)驗(yàn)結(jié)果表明,所提分詞模型的性能良好,且特征提取模型的精確率及F1 值兩項(xiàng)指標(biāo)在對比算法中均為最優(yōu)。

        猜你喜歡
        特征提取文本質(zhì)量
        “質(zhì)量”知識(shí)鞏固
        質(zhì)量守恒定律考什么
        在808DA上文本顯示的改善
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        做夢導(dǎo)致睡眠質(zhì)量差嗎
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
        質(zhì)量投訴超六成
        汽車觀察(2016年3期)2016-02-28 13:16:26
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        国产午夜在线观看视频| 亚洲∧v久久久无码精品| 亚洲精品456| 国产午夜av一区二区三区| 日本黄色影院一区二区免费看| 国产私人尤物无码不卡| 日本护士吞精囗交gif| 中文字幕亚洲无线码高清| 亚洲中文字幕高清在线视频一区| 久久精品一区午夜视频| 乱色熟女综合一区二区三区| 日韩区在线| 丰满少妇一区二区三区专区| 青青草高中生在线视频| 性裸交a片一区二区三区| 亚洲成人免费网址| 亚洲中文字幕熟女五十| 在线日本看片免费人成视久网| 免费看黄a级毛片| 亚洲国产一区二区三区网| 人妻熟女妇av北条麻记三级| 电驱蚊液可以插一晚上吗| 欧美黑人xxxx又粗又长| 91精品国产91久久久无码95| 亚洲av国产精品色a变脸| 青春草在线视频观看| 国产99久久久久久免费看| 国产视频在线一区二区三区四区| 在线视频自拍视频激情| 夜夜躁狠狠躁日日躁视频| 亚洲综合色成在线播放| 狠狠亚洲超碰狼人久久老人| 手机久草视频福利在线观看| √新版天堂资源在线资源| 91av在线播放| 91亚洲国产成人久久精品网站| 国产一区二区黄色录像| 国产精品亚洲二区在线观看| 亚洲欧美另类日本久久影院| 九七青青草视频在线观看| 成人精品视频一区二区三区尤物|