亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        視頻學習資源中關鍵詞的抽取方法研究①

        2022-06-27 03:57:12沈林豪
        關鍵詞:文本資源課程

        許 睿, 唐 海, 沈林豪

        (湖北汽車工業(yè)學院電氣與信息工程學院,湖北 十堰 442002)

        0 引 言

        網(wǎng)絡學習資源包括視頻文件、音頻文件、多媒體課件、光盤、計算機系統(tǒng)、網(wǎng)絡平臺討論區(qū)等,具有多媒體、超文本、友好交互、虛擬仿真、遠程共享等特性[1]。網(wǎng)絡學習過程中,大量學習資源在豐富學習者體驗的同時,它們的零散性和無序性也會增加學習者負擔,造成學習者的 “知識迷航”現(xiàn)象[2]。同時,以視頻學習資源為例,視頻拍攝的效果、主講教師的表現(xiàn)力、視頻后期的剪輯和制作等因素也會影響學習者的學習效果[3]。

        為了提高學習者的學習效率,將資源中的知識結構進行可視化展示,可以清晰地反映出各知識點之間的聯(lián)系。同時依據(jù)聯(lián)通主義的理論,知識結構可視化還能促進學習者進行有意義學習、長時間記憶以及對知識的主動構建、遷移[4]。 知識圖譜(Knowledge Graph)是典型的可視化表示方式,關鍵技術包括實體抽取、關系抽取、屬性抽取等。實體抽取也稱為命名實體識別(Named Entity Recognition),指從原始語料中自動識別出命名實體[5],是構建知識圖譜的第一步。

        在教育領域,從原始語料中抽取的實體通常是知識點或者知識元,又可稱為關鍵詞。在關鍵詞抽取研究初期,對于關鍵詞的標注由專家完成,優(yōu)點是精度高,但是效率較低,無法在短時間內標注大量資源,因此需要采用自動標注的方式。目前,關鍵詞的提取技術分為有監(jiān)督和無監(jiān)督兩種。前者的精度較高,但是需要足量的人工標注樣本進行訓練,后者不需要訓練集,但需要針對實際應用場景進行算法優(yōu)化。常見的無監(jiān)督關鍵詞提取算法有以下幾種:基于統(tǒng)計特征的TF-IDF算法[6],基于主題模型的LDA 算法[7],基于圖模型的Text Rank算法[8]。

        TF-IDF算法是依據(jù)關鍵詞的詞頻和逆文本頻率衡量其重要程度。當某個詞在某個文本中出現(xiàn)頻率高,在其他文本中出現(xiàn)少甚至不出現(xiàn),則這個詞具有很好的類別區(qū)分能力,重要程度高,可選取為關鍵詞。

        LDA 算法是根據(jù)一定量的文本集,推理出每個文本的 “文本-主題”分布以及每個主題的 “主題-詞語”分布,出現(xiàn)在主要主題中的主要詞語被識別成關鍵詞的概率更高。

        Text Rank算法來源于谷歌公司的PageRank算法,其核心思想是將文本分割成多個單元,建立單元之間的圖模型,利用投票機制對各個單元進行分值計算與排序,投票者的分值越高,數(shù)量越多,單元排名就會越靠前。優(yōu)點是不需要進行訓練,從單一文本就能直接提取其中的關鍵詞并根據(jù)重要程度進行排序。

        許多研究者對Text Rank算法進行了深入研究與改良。夏天[9]考慮到候選關鍵詞對相鄰結點的影響力不同,將候選關鍵詞的詞頻、位置、覆蓋范圍等因素轉化為權重,由此提升了算法準確率;徐立[10]在總結以往權重研究的基礎上,提出了OPW-Text Rank算法,通過量化影響關鍵詞的因素與相關系數(shù),提高了準確率,并找到改進算法的最優(yōu)滑動窗口值;除了調整候選關鍵詞的權重,還有一些研究人員[11-12]通過構建新的概率轉移矩陣,提高了Text Rank算法的準確率。

        目前關鍵詞抽取技術的研究對象主要是文本資源,例如論文、新聞報道和文本數(shù)據(jù)集等,相比之下,以視頻與音頻為對象進行內容特征提取較為困難[13],但是在當前的學習系統(tǒng)中,視頻與音頻學習資源是不可或缺的并且占據(jù)主體地位。因此,本文研究重點是從視頻、音頻中抽取關鍵詞,為后續(xù)自動構建學科知識圖譜提供必要的基礎。

        1 抽取方法

        一門視頻課程通常包含多個視頻,每段視頻的時間長短不一,每段視頻所包含的關鍵詞數(shù)量也不同。從主講教師的角度來說,重要的內容往往會花費更多的篇幅和時間,相同詞頻的不同關鍵詞,出現(xiàn)在長視頻中的關鍵詞會更重要。因此,提出改進算法TW-Text Rank,以此來衡量關鍵詞在視頻、音頻類學習資源中的重要性。

        由于視頻、音頻不能直接進行文本關鍵詞抽取,仍需將其轉化為文本形式,經(jīng)過文本預處理后進入TW-TextRank 算法處理步驟,最終將得到的結果取前N個,作為文本關鍵詞,流程如圖1所示。

        圖1 處理流程圖

        1.1 視頻資源爬取及預處理

        視頻學習資源爬取自中國大學MOOC 平臺,通過Python中的urllib庫對視頻資源進行爬取,以目錄樹的形式進行保存。

        視頻-文本轉換是將獲得的學習資源視頻進行音頻抽取,再將音頻文件轉化為文本文件的過程。主要通過Python中的MoviePy庫與Speech Recognition模塊實現(xiàn),但由于音頻轉文本的過程中存在語音識別正確率無法達到100%的問題,以及后續(xù)操作要求,需要對文本進行預處理。

        文本預處理主要包括文本清洗、句子切詞與去除停用詞。文本清洗的目的是將常見的語音識別錯誤進行更正,比如將 “整形變量”替換為 “整型變量”、“單晶度”替換為 “單精度”等。傳統(tǒng)Text Rank算法以文本中的詞為單元構建圖模型,在英文中,構建圖模型的單元是各單詞,它們之間有空格進行分離,但中文句子不存在天然的分隔符,所以需要將清洗后的文本分解成一個個詞語,并以分隔符進行分離。常見的分詞工具有jieba分詞,Han LP,ICTCLAS,LTP等,處理后得到文本中詞的集合。去除停用詞則是構建一個通用詞庫,包含 “啊”、“吧”、“偶爾”、“然后”等對關鍵詞沒有貢獻的語氣詞、連詞、數(shù)字以及一些特殊字符,再將文本中出現(xiàn)在停用詞庫中的進行操作。常見的停用詞庫有哈工大停用詞表(767個詞)、百度停用詞表(1395個詞)、四川大學機器智能實驗室停用詞表(976個詞)等。

        1.2 TW-Text Rank算法

        傳統(tǒng)的Text Rank 算法將文本看成是詞的集合T={W1,W2,…,Wn},構建圖模型G=(V,E),其中V =W1∪W2∪… ∪Wn。 引入滑動窗口概念,當兩個結點共現(xiàn)于一個滑動窗口時,則結點之間有邊,反之無邊,為了避免圖模型的邊稠密;滑動窗口一般取值為5。依據(jù)詞之間的共現(xiàn)關系來建立權重轉移概率矩陣。其中結點的得分由式(1)迭代計算得出,收斂極限值取0.0001,迭代次數(shù)取1000次。

        Score(Wi)指結點i的分值,In(Wi)是指向結點i的其他結點的集合;Out(Wj)是結點j指向的結點集合;d是阻尼系數(shù),初始含義指從當前頁面繼續(xù)向后跳轉頁面的概率,在Text Rank算法中代表當前結點向其他任意結點跳轉的概率,便于計算結果的迭代收斂,通常取值為0.85。

        為從視頻學習資源中抽取關鍵詞,提出改進的TW-Text Rank算法,引入實體在視頻資源中的時長因素T(Wi),重新計算各結點的分值,優(yōu)化排序后的結果。表達式如式(2)所示。

        其中,T(Wi)是候選關鍵詞在當前學習資源中的時長權重,可以表示為

        其中ti代表候選關鍵詞所在的視頻時長,t代表每一段視頻的時長,N代表視頻總數(shù)。 圖2表示TW-Text Rank算法流程。

        圖2 TW-TextRank算法流程圖

        與詞頻因素不同,時長因素在同一文本多次出現(xiàn)時不會被重復計數(shù),衡量的是關鍵詞在此門課程中視頻中所占的篇幅長度。若某個詞時長權重大,說明此詞在多處視頻出現(xiàn),與其它關鍵詞具有更高的共現(xiàn)概率,在時長權重大的章節(jié)中出現(xiàn)的詞,會比時長權重小的章節(jié)中的詞重要。

        1.3 結點時長權重計算

        計算結點的T(Wi)值是本算法的關鍵步驟,首先獲取每一段視頻的時長,獲取時長常用的Python 庫 有re 庫 和subprocess 庫、MoviePy 庫、opencv-python庫。將獲取的視頻時長存儲到視頻名稱-時長表T中。

        獲得結點分值的具體算法如下:

        算法1 求結點分值

        輸入:視頻名稱-時長表T,分詞后的文本集合D;

        輸出:key為結點,value為T(Wi)的字典;

        步驟一:計算每個視頻時長與總時長的比值r,寫入表T;

        步驟二:對文本集合D進行遍歷,獲取文本文件名,與表T中的視頻名稱進行匹配;

        步驟三:構建每個文本的關鍵詞字典dict,key=關鍵詞i,value=r;

        步驟四:合并所有的字典dict,合并時如key相同,則更新value=r1+r2。

        根據(jù)相應的T(Wi)代入式(2)進行迭代計算。

        2 實驗結果及分析

        2.1 實驗設計

        實驗環(huán)境:AMD Ryzen5 3600+16G 內存+win10專業(yè)版;

        編程平臺:Py Charm + Python3.6;

        數(shù)據(jù)集:中國大學MOOC 平臺中隨機選擇的8門C語言相關課程,平均時長32.18h,轉化后的文本平均大小為615KB;

        評價指標:準確率P,召回率R,F值,如式(4)-(6):

        式(4)-(6)中:X為正確抽到的關鍵詞數(shù);Y為錯誤抽到的關鍵詞數(shù);Z為屬于關鍵詞但未被抽到的詞數(shù)。

        2.2 實驗結果及分析

        運用TW-Text Rank算法,對文本處理后的部分結果如表1所示。

        表1 前20位關鍵字及其分值

        根據(jù)排序的關鍵詞結果依照評價指標進行計算,其結果如表2所示。

        表2 兩種算法結果對比

        TW-TextRank 0.64 0.388 0.483西安郵電大學 Text Rank 0.60 0.305 0.404 TW-TextRank 0.58 0.369 0.451

        由表2的實驗結果可知,傳統(tǒng)Text Rank方法的F值均值為0.413,TW-Text Rank 算法的F值均值為0.455,總體的結果優(yōu)于傳統(tǒng)Text Rank方法。

        由圖3可知,兩種方法對各門課程的抽取準確率都在0.60左右,是由于選擇的課程都是C 語言的基礎課,大部分內容基本相同,在進行關鍵詞抽取時,一些常見的知識點會以相差不大的分值進行排序。同樣地由于每個老師的教學計劃存在差異,不同學校的教學視頻資源抽取的關鍵詞數(shù)量也不同,導致最終的準確率在0.55~0.65之間波動。

        圖3 各門課程P值折線圖

        由圖4與圖5可知,F值的提高主要與召回率相關,說明與傳統(tǒng)算法相比,TW-Text Rank算法可以提高出現(xiàn)頻次較低,但出現(xiàn)在重要章節(jié)的關鍵詞的分值。

        圖4 各門課程R 值折線圖

        圖5 各門課程F值折線圖

        3 結 語

        提出的TW-Text Rank算法充分考慮了關鍵詞在視頻資源中的時長權重,雖然改進后的算法會增加一些存儲開銷,但是在提高抽取關鍵詞的F值與召回率方面效果明顯。該算法在視頻資源的關鍵詞抽取以及知識圖譜構建的場景下有一定的應用價值。

        此外在進行文本預處理時,去除停用詞需要更多的考慮語言習慣,對常見的停用詞庫進行一定量的擴充,抽取效果會比較好。

        研究對象是同一門課程的不同視頻資源。針對同一學科體系下的不同課程,是否還具有類似的提升效果,需要進行進一步的實驗和研究。

        猜你喜歡
        文本資源課程
        基礎教育資源展示
        數(shù)字圖像處理課程混合式教學改革與探索
        軟件設計與開發(fā)實踐課程探索與實踐
        計算機教育(2020年5期)2020-07-24 08:53:38
        一樣的資源,不一樣的收獲
        為什么要學習HAA課程?
        在808DA上文本顯示的改善
        資源回收
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        資源再生 歡迎訂閱
        資源再生(2017年3期)2017-06-01 12:20:59
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        亚洲av日韩av高潮潮喷无码 | 久久国产亚洲中文字幕| 国产乱人伦真实精品视频| 人妻精品一区二区三区视频| 亚洲AV无码一区二区水蜜桃| 国产一区二区三区在线爱咪咪| 中文文精品字幕一区二区| 噜噜中文字幕一区二区| 久久久亚洲av成人网站| 乱码午夜-极国产极内射 | 人妻aⅴ中文字幕| 国产精品久久久久国产精品| 亚洲女同精品一区二区久久| 亚洲影院在线观看av| 国产精品一区二区av麻豆日韩| 色哟哟最新在线观看入口| 亚洲精品无码久久久久av麻豆| 国产精品白浆视频免费观看| 国产一区二区三区资源在线观看| 色小姐在线视频中文字幕| 91久久综合精品久久久综合 | 亚洲av无码偷拍在线观看| 亚洲av日韩aⅴ无码色老头| 特级毛片a级毛片在线播放www| 中文字幕一区二区三区四区在线| 欧美综合自拍亚洲综合百度| 人妻精品一区二区三区蜜桃| 免费日本一区二区三区视频| 欧美xxxx做受欧美| 精品无码中文字幕在线| 欧美人与动牲交片免费| 国产精品亚洲精品日产久久久| 中文字幕中文字幕人妻黑丝| 亚洲综合视频一区二区| 日韩国产精品无码一区二区三区| 激情另类小说区图片区视频区| 一本一道久久a久久精品综合蜜桃| 亚洲第一网站免费视频| 亚洲av无码国产精品色午夜洪| 护士奶头又白又大又好摸视频| 日本第一区二区三区视频|