亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于詞向量的個(gè)性化學(xué)科內(nèi)容推薦方法

        2019-11-06 07:06:46周琪云曲彥文
        關(guān)鍵詞:學(xué)科知識文檔向量

        孟 俊,周琪云,曲彥文

        (江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,江西 南昌 330022)

        0 引言

        個(gè)性化內(nèi)容推薦服務(wù),在諸多領(lǐng)域已有應(yīng)用,如電商平臺[1],教育領(lǐng)域同樣如此?;ヂ?lián)網(wǎng)中知識內(nèi)容日益繁雜,學(xué)習(xí)者很難快速定位想要的知識內(nèi)容,為此研究通過優(yōu)化各種信息推薦算法使得信息更加快速準(zhǔn)確到達(dá)學(xué)習(xí)者手中,實(shí)現(xiàn)學(xué)習(xí)資源個(gè)性化推薦。有效個(gè)性化學(xué)習(xí)內(nèi)容將提高學(xué)習(xí)者學(xué)習(xí)效果[2]。目前個(gè)性化推薦算法主要分為:基于內(nèi)容過濾的推薦算法與協(xié)同過濾推薦算法?;趦?nèi)容過濾的推薦算法依據(jù)“用戶—資源”關(guān)系決定推薦內(nèi)容,通過分析用戶過去對教學(xué)資源選擇、訪問或評價(jià)的情況,獲取用戶感興趣的內(nèi)容,并向用戶推薦同類教學(xué)資源;協(xié)同過濾推薦算法依據(jù)“用戶—用戶”關(guān)系決定推薦內(nèi)容,根據(jù)用戶興趣的相似性,把其他用戶感興趣的教學(xué)資源推薦給該用戶。這兩種方法各有優(yōu)缺點(diǎn)?;趦?nèi)容過濾的推薦算法注重用戶當(dāng)前興趣,協(xié)同過濾推薦算法則能夠?yàn)橛脩舭l(fā)現(xiàn)新的、潛在的感興趣的資源,所以在實(shí)踐中將這兩種算法結(jié)合使用,會取得較好效果,但這種方法并不能快速查找適合學(xué)習(xí)者需求的內(nèi)容。

        為學(xué)習(xí)者快速推薦符合需求的內(nèi)容,節(jié)約在線查找時(shí)間是在線學(xué)習(xí)系統(tǒng)未來發(fā)展趨勢。本文提出基于詞向量的學(xué)科學(xué)習(xí)內(nèi)容推薦方法,該方法用于解決學(xué)習(xí)者學(xué)科內(nèi)容知識學(xué)習(xí)的不足,彌補(bǔ)學(xué)習(xí)者學(xué)習(xí)盲點(diǎn)?;谠~向量的學(xué)科內(nèi)容推薦方法對大量學(xué)科文本進(jìn)行詞向量訓(xùn)練。詞向量是一種能夠有效體現(xiàn)文本特征的表示方法,同時(shí)詞向量也可作為計(jì)算文檔關(guān)鍵詞的基礎(chǔ)數(shù)據(jù)。文檔關(guān)鍵詞計(jì)算完成后,將學(xué)習(xí)者的學(xué)習(xí)需求(學(xué)習(xí)內(nèi)容、知識點(diǎn)等)設(shè)計(jì)成關(guān)鍵詞——學(xué)科知識文檔算法(KeyWords-to-documents)。

        KeyWords-to-documents算法設(shè)計(jì)過程可描述為:①獲取學(xué)習(xí)者學(xué)習(xí)需求,將學(xué)習(xí)需求使用文本詞向量表征;②計(jì)算學(xué)科知識文檔的詞向量關(guān)鍵詞,依據(jù)關(guān)鍵詞匹配相似學(xué)習(xí)需求文檔詞向量;③使用top-n關(guān)鍵詞與文檔的匹配方法,將學(xué)科知識文檔推薦給學(xué)習(xí)者。

        1 基于詞向量的知識內(nèi)容推薦方法

        1.1 學(xué)科內(nèi)容推薦流程

        在線學(xué)習(xí)過程中,眾多學(xué)習(xí)平臺都會留下學(xué)習(xí)者的學(xué)習(xí)足跡,使研究者能夠跟蹤學(xué)習(xí)者學(xué)習(xí)內(nèi)容,了解學(xué)習(xí)者學(xué)習(xí)需求。本文根據(jù)學(xué)習(xí)者學(xué)習(xí)內(nèi)容及學(xué)習(xí)者需要了解的知識點(diǎn),基于詞向量提出知識內(nèi)容推薦流程,如圖1所示。

        圖1 學(xué)科內(nèi)容推薦流程

        1.2 獲取學(xué)習(xí)者學(xué)習(xí)需求

        學(xué)習(xí)者學(xué)習(xí)的知識及搜索過的知識點(diǎn),這些關(guān)鍵內(nèi)容成為學(xué)習(xí)者的原始需求。無論是大段知識文本內(nèi)容還是簡潔知識點(diǎn)總結(jié),其內(nèi)在的學(xué)習(xí)要點(diǎn)都在于關(guān)鍵詞。因此,本文以學(xué)習(xí)資源文檔的關(guān)鍵詞為核心,實(shí)現(xiàn)基于關(guān)鍵詞的學(xué)習(xí)資源文檔推薦方法。

        1.3 詞向量與關(guān)鍵詞提取

        本文使用深度學(xué)習(xí)工具Word2vec[3]將文本向量化,文本中所有詞匯用多維向量表征。Word2vec是基于數(shù)學(xué)的概率模型,結(jié)合神經(jīng)網(wǎng)絡(luò)模型,根據(jù)當(dāng)前詞匯計(jì)算出上下文詞匯概率,或者根據(jù)上下文詞匯計(jì)算出當(dāng)前詞匯概率,計(jì)算公式見式(1),其中f(*)為神經(jīng)網(wǎng)絡(luò)函數(shù)。

        P(Wn│W1,…,Wn-1)=f(W1,…,Wn-1,Wn)

        (1)

        經(jīng)過Word2vec工具訓(xùn)練后的詞向量,每一個(gè)詞匯對應(yīng)唯一的向量,向量與向量之間通過余弦值計(jì)算得到兩個(gè)向量間的距離,并且向量間通過運(yùn)算實(shí)現(xiàn)文本上下文的語義連接。如訓(xùn)練大量文本詞匯之后:vector("King")-vector("Man")+vector("Woman")≈vector("Queen")。

        Word2vec共有兩種訓(xùn)練模型,分別為CBOW模型與SKip-gram模型,如圖2所示。

        圖2 Word2vec CBOW與SKip-gram模型

        其中CBOW模型是使用上下文預(yù)測當(dāng)前詞,SKip-gram是利用當(dāng)前詞預(yù)測上下文詞匯。如“公民享有的權(quán)利與義務(wù)是統(tǒng)一的”,使用CBOW模型:對于每一個(gè)Word,使用該Word周圍的Word預(yù)測當(dāng)前Word生成概率,如使用“公民、享有、權(quán)利、義務(wù)”生成“統(tǒng)一”;使用SKip-gra模型:對于每一個(gè)Word,使用該Word本身預(yù)測生成其它Word的概率,如使用“統(tǒng)一”生成“公民、享有、權(quán)利、義務(wù)”中的每個(gè)Word。

        基于Python機(jī)器學(xué)習(xí)包gensim包中的Word2Vec工具,先對文本進(jìn)行詞向量訓(xùn)練,再取出單詞WK的編碼路徑,根據(jù)詞向量計(jì)算路徑中每個(gè)節(jié)點(diǎn)概率,得到文本中詞匯概率,最終找出關(guān)鍵詞。

        1.4 學(xué)科資源推薦算法

        本文提出基于關(guān)鍵詞的學(xué)科資源文檔匹配算法:KW-to-doc(KeyWords-to-documents)。KW-to-doc算法是基于學(xué)科文本內(nèi)容,使用Word2vec詞向量工具計(jì)算出學(xué)科知識內(nèi)容的多維詞向量。KW-to-doc主要包含3個(gè)步驟:

        (1)計(jì)算出學(xué)科文本的詞向量,并依據(jù)詞向量計(jì)算詞匯概率,找出學(xué)習(xí)文檔關(guān)鍵詞內(nèi)容,并保存文檔關(guān)鍵詞。

        (2)通過詞向量,從文本中抽取能體現(xiàn)主題的關(guān)鍵詞,依據(jù)需求關(guān)鍵詞,計(jì)算出與學(xué)科知識文檔關(guān)鍵詞間的相似性。如果文檔中包含該需求關(guān)鍵詞,則推薦包含該關(guān)鍵詞的學(xué)科資源文檔。然后采取搜索鄰近關(guān)鍵詞策略,即選取最鄰近top-n關(guān)鍵詞,推薦包含鄰近關(guān)鍵詞的學(xué)科資源文檔。

        (3)如果文檔中不包含需求關(guān)鍵詞,則直接采用搜索鄰近關(guān)鍵詞策略,循環(huán)一遍步驟(2),最后得到學(xué)習(xí)者所需要的推薦文檔。

        Kw-to-doc算法描述如下:

        輸入:RKw(需求關(guān)鍵詞),Doc(學(xué)科知識文檔)

        輸出:DocId(符合要求的文檔id)

        function searchDocId(input=Kw):

        KeyWords, allDocId=computeKeyWords(Doc)

        For Word, DocId∈KeyWords,allDocId:

        if Word=Kw:

        return DocId

        end if

        end function

        DocId=searchDocId(input=Kw)

        if DocId=null

        simKeyWords=similarKeyWord(KeyWords)

        for KeyWords∈simKeyWords

        DocId=searchDocId(input=KeyWords)

        end for

        end if

        其中computeKeyWords(*)表示計(jì)算文檔的關(guān)鍵字,similarKeyWord(*)表示計(jì)算得到相似的關(guān)鍵字。

        2 實(shí)驗(yàn)

        本文基于小學(xué)五、六年級思想品德學(xué)科知識內(nèi)容,檢驗(yàn)所提出的學(xué)科知識內(nèi)容推薦方法的有效性。

        2.1 數(shù)據(jù)收集

        選取在線學(xué)習(xí)資源平臺中學(xué)學(xué)科資源網(wǎng)(http://www.zxxK.com/)作為學(xué)科內(nèi)容資源來源,該網(wǎng)站收錄了大量小學(xué)學(xué)科資源,其學(xué)習(xí)資源被廣泛應(yīng)用于一線教學(xué)。實(shí)驗(yàn)通過設(shè)計(jì)相應(yīng)爬蟲程序,獲取多個(gè)學(xué)科學(xué)習(xí)資源內(nèi)容,包括多個(gè)年級的語文、品德、科學(xué)、美術(shù)、體育、音樂、信息技術(shù)7類學(xué)科資源內(nèi)容。共包含學(xué)科學(xué)習(xí)資源9 099篇,涵蓋知識點(diǎn)的講解文檔、教案、課件等。由于收集文檔中含有大量特殊字符以及與文檔無關(guān)的標(biāo)點(diǎn)符號,為提高實(shí)驗(yàn)效率,筆者對這些文檔做特殊字符清理的預(yù)處理工作,并將所有類別文檔轉(zhuǎn)化為文本文件(txt.)格式。各學(xué)科資源文本類型及數(shù)量如圖3所示。

        圖3 學(xué)科資源類別數(shù)量

        各學(xué)科資源占比如圖4所示,語文、美術(shù)、品德3門學(xué)科類別獲取的學(xué)習(xí)資源占比79%,因此本實(shí)驗(yàn)選定學(xué)科學(xué)習(xí)資源語文、美術(shù)、品德作為實(shí)驗(yàn)關(guān)鍵詞驗(yàn)證科目。

        圖4 學(xué)科資源數(shù)量占比

        2.2 關(guān)鍵詞提取

        對上述文檔預(yù)處理之后,采用基于Word2vec的Python包gensim訓(xùn)練詞向量,并根據(jù)每個(gè)文檔計(jì)算文檔關(guān)鍵字。關(guān)鍵字提取方法是使用Python軟件包Gensim機(jī)器學(xué)習(xí)包,利用Word2vec工具詞向量計(jì)算文本中詞匯概率,然后得到文本中的關(guān)鍵詞。格式如下:

        人教版思想品德八下第一單元《權(quán)利義務(wù)伴我行》

      1. 法律保障體制
      2. 為了驗(yàn)證實(shí)驗(yàn)中學(xué)習(xí)資源關(guān)鍵詞生成的準(zhǔn)確性,在實(shí)驗(yàn)中采用前top-10原則進(jìn)行人工驗(yàn)證,即對學(xué)習(xí)資源內(nèi)容前10個(gè)關(guān)鍵詞準(zhǔn)確性進(jìn)行驗(yàn)證,最后人工驗(yàn)證結(jié)果如圖5所示,橫坐標(biāo)表示選取的關(guān)鍵詞數(shù),縱坐標(biāo)表示準(zhǔn)確率。

        圖5 關(guān)鍵詞準(zhǔn)確率變化

        由圖5可以看出,經(jīng)過人工驗(yàn)證,在選取的關(guān)鍵次數(shù)為5時(shí),學(xué)科資源內(nèi)容關(guān)鍵詞準(zhǔn)確率可達(dá)81%。

        2.3 實(shí)驗(yàn)結(jié)果

        由于本文方法主要應(yīng)用于在線學(xué)習(xí)系統(tǒng),因此在實(shí)驗(yàn)中,筆者模擬在線學(xué)習(xí)過程,搜索想要的學(xué)科知識點(diǎn)或記錄下已經(jīng)學(xué)習(xí)過的內(nèi)容。實(shí)驗(yàn)流程如圖6所示。

        圖6 實(shí)驗(yàn)流程

        實(shí)驗(yàn)結(jié)果如表1所示。

        表1 推薦準(zhǔn)確率判斷邏輯

        從表1可以看出,實(shí)驗(yàn)人員經(jīng)過多次測試之后,基于詞向量的學(xué)習(xí)內(nèi)容推薦方法準(zhǔn)確率可達(dá)82.1%,本文所提方法能夠滿足學(xué)習(xí)者對所學(xué)內(nèi)容的需求。

        3 結(jié)語

        因目前在線學(xué)習(xí)平臺學(xué)科知識內(nèi)容推薦準(zhǔn)確率有限,本文提出了基于詞向量的個(gè)性化學(xué)科知識內(nèi)容的推薦方法。該方法針對學(xué)科知識內(nèi)容,抽取文本中包含的關(guān)鍵字,結(jié)合學(xué)習(xí)者學(xué)習(xí)需求關(guān)鍵字設(shè)計(jì)相應(yīng)學(xué)科知識文檔推薦算法。實(shí)驗(yàn)證明,本文所提出的方法能夠有效滿足學(xué)習(xí)者對學(xué)習(xí)內(nèi)容的需求,提高了學(xué)習(xí)效率。

        猜你喜歡
        學(xué)科知識文檔向量
        高校圖書館學(xué)科化知識服務(wù)模式研究
        參花(上)(2023年2期)2023-03-06 03:54:09
        向量的分解
        品讀
        有人一聲不吭向你扔了個(gè)文檔
        聚焦“向量與三角”創(chuàng)新題
        學(xué)校德育要植根于學(xué)科知識的意蘊(yùn)之中
        中國德育(2017年17期)2017-09-15 22:00:23
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        向量垂直在解析幾何中的應(yīng)用
        基于本體的學(xué)科知識門戶語義服務(wù)機(jī)制研究
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      3. 一区二区三区日本美女视频| 亚洲国产精品成人无码区| 色狠狠一区二区三区香蕉| 色欲AV成人无码精品无码| 欧美亚洲另类自拍偷在线拍| 自拍偷拍另类三级三色四色| 男性av天堂一区二区| 性做久久久久久免费观看| 婷婷色香五月综合激激情| 黄色a级国产免费大片| 久久无码人妻一区=区三区| 国产人成在线成免费视频| 视频一区视频二区自拍偷拍 | 五月激情综合婷婷六月久久| 国产青榴视频在线观看| 成人免费视频在线观看| 太大太粗太爽免费视频| 在线观看人成网站深夜免费| 人妖国产视频一区二区| 日韩精品无码一区二区三区| 欧美又粗又长又爽做受| 中文字幕一区二区人妻性色| 98在线视频噜噜噜国产| 男女干逼视频免费网站| 日本免费一区二区久久久 | 国产精品无码a∨精品影院| 无码 制服 丝袜 国产 另类| 日韩av不卡一二三区| 亚洲中文字幕精品视频| 国产亚av手机在线观看| 嗯啊哦快使劲呻吟高潮视频| 91福利国产在线观一区二区| 日本福利视频免费久久久| 国产伦理一区二区久久精品| av影院手机在线观看| 免费黄色影片| 亚洲天堂2017无码中文| 视频一区中文字幕亚洲| 极品少妇人妻一区二区三区| 久久久久亚洲av成人片| 五月婷婷俺也去开心|