亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞向量的英文教育文本推薦技術(shù)

        2018-12-28 10:53:10李浩孫媛
        關(guān)鍵詞:文本方法模型

        李浩 孫媛

        摘 要:文本是常用的一種信息獲取方式,但是互聯(lián)網(wǎng)上的英文教學(xué)文本資源十分龐大,由于語言障礙,學(xué)習(xí)者往往不能很好地在短時間選取。為了解決這個問題,文章用到了word2vec技術(shù),通過模型生成文本的詞向量。文本向量通過兩種方法生成:一種是用文本所有詞的詞向量的平均值表示;另一種是利用tf-idf計算出關(guān)鍵詞,用關(guān)鍵詞的平均向量來表示。進而通過計算文本向量之間的距離來表示文本相似度。得出關(guān)鍵詞的方法的結(jié)果更優(yōu),從而解決了英文教育文本的推薦問題。

        關(guān)鍵詞:文本相似度;詞向量;Word2vec;教育文本

        中圖分類號:TP391 文獻標(biāo)志碼:A 文章編號:1673-8454(2018)20-0091-03

        教學(xué)資源不再僅僅局限于紙質(zhì)文本和黑板板書的方式來呈現(xiàn),而是利用到了計算機技術(shù),以Word、PDF、PowerPoint等方式呈現(xiàn),使得“教”與“學(xué)”兩個過程更加方便。但教學(xué)資源如何優(yōu)質(zhì)共享是一個亟待解決的困難[1]。教育文本種類繁多,很多學(xué)習(xí)者不能快速準(zhǔn)確地判斷是否為自己所需,這就需要一個能精準(zhǔn)推薦的技術(shù)。

        一、相關(guān)研究

        隨著英文信息處理技術(shù)的發(fā)展,無論是在字詞信息處理研究,還是在信息處理應(yīng)用開發(fā)方面,眾多科研人員進行了不懈的努力和有益的探索。在基本完成以“詞”為單位的研究內(nèi)容后,以“句”、“段”、“篇”為主的研究也發(fā)展十分迅速。

        要想進行自然語言相關(guān)方面的研究,首先需要將人類語言數(shù)字化[2]。首先提出的是詞袋表示方法,但此模型向量的維度與詞典的大小成線性關(guān)系,會造成維度災(zāi)難。所以提出了詞向量模型,它是一種分布式詞向量[3]的表達方式,同時在分布式表達時常用的有NNLM模型、C&W;模型。NNLM模型求解由于其softmax層,復(fù)雜度很高,C&W;模型排序目標(biāo)函數(shù)不用計算復(fù)雜的softmax了,但仍然保留了全連接的隱藏層,這部分也要消耗不少計算資源。Google 的Mikolov 提出一種簡單的語言模型word2vector模型,就是簡單地把上面復(fù)雜模型中的非線性隱層去掉了。

        文本推薦技術(shù)的重點在于文本相似度的計算,在一些郵件、網(wǎng)頁文本等推薦技術(shù)中,大多數(shù)都是用經(jīng)典分類算法,它們是用傳統(tǒng)向量空間模型來表示文本。

        1.向量空間模型

        向量空間模型以空間上的相似度表達語義的相似度。但是因為這種模型向量的維度與詞典的大小成線性關(guān)系,所以當(dāng)詞典數(shù)量大時,會造成維度災(zāi)難。同時,對于一些少量詞語的文本會造成高度稀疏問題。當(dāng)兩個文本沒有共同詞語時,通過模型計算,會得出兩篇文檔相似度為0,這對于一些相同語義、不同表達的文章進行比較,顯然是不合理的。

        2.詞向量模型

        鑒于one-hot形式模型的缺點,出現(xiàn)了另外一種詞向量表示方式——分布式詞向量。它的基本思想是:通過大規(guī)模的語料的訓(xùn)練,將一篇文檔中的每個詞語映射成一個維度預(yù)先設(shè)定的向量,一般可以為50維或100維,每個向量看成向量空間中的一個點,然后計算這些點在向量空間上的“距離”,通過距離的大小來判斷對應(yīng)詞語之間的句法和語義的相似性。

        二、英文文本向量的構(gòu)建

        1.word2vec技術(shù)構(gòu)建詞向量

        word2vec可以根據(jù)給定的語料庫,通過模型快速地將一個詞語表達成向量形式。其算法有兩種重要模型:Skip-gram(Continuous Skip-gram Model)與CBOW(Continuous Bag-of-Words Model)[4]。

        此研究采用基于word2vec項目給出的googleNews語料得到詞匯向量,采用word2vec預(yù)訓(xùn)練的單詞向量模型。此訓(xùn)練語料庫大小為30億個單詞,訓(xùn)練出來的向量為300萬個300維的英文單詞向量。

        2.文本向量構(gòu)建

        本研究中文本向量的表示基于兩種方法:

        (1)所有詞均值方法:求出該文檔所有詞對應(yīng)的詞向量的均值

        此方法求出每篇文檔所有詞對應(yīng)的詞向量的均值,利用np.mean()函數(shù)計算出文檔向量的表示。mean()函數(shù)的功能為求取算術(shù)平均值。

        numpy.mean(a,axis=None,dtype=None,out=None,keepdims=False)

        其中a為一個數(shù)組,經(jīng)常操作的參數(shù)為axis,此研究中函數(shù)的具體用法為np.mean(word_vecs, axis=0),我們需要得到的文本向量為一行多列的向量,word_vecs為一個行數(shù)為一篇文檔的單詞數(shù),列為300的矩陣。所以將word_vecs壓縮行,對各列求平均值,返回了一個1*300的矩陣,以此來代表一篇文章的向量表示。

        (2)關(guān)鍵詞表示法:求出文章關(guān)鍵詞的詞向量的均值

        利用TF-IDF方法[5]求出每篇文檔的前10個關(guān)鍵詞。TF-IDF的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率高,并且在其它文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。詞頻(Term Frequency)指的是某一個給定的詞語在該文件中出現(xiàn)的頻率,即詞w在文檔d中出現(xiàn)的次數(shù)count(w, d)和文檔d中總詞數(shù)size(d)的比值,計算公式為:

        tf(w,d)=count(w,d)/size(d)公式1

        逆向文件頻率(Inverse Document Frequency)是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到。即文檔總數(shù)n與詞w所出現(xiàn)文件數(shù)docs(w, D)比值的對數(shù),計算公式如為:

        將公式1、2代入公式3中,計算出每篇文檔tfidf前10的詞作為此文本的關(guān)鍵詞。以這10個關(guān)鍵詞的詞向量的平均值來表示文本向量。

        3.文本相似度計算

        將文本數(shù)據(jù)化表示后,便可通過其在向量空間上的表示來計算向量之間的距離來代表文本之間的相似度。本文采用余弦相似度的方法[6],利用向量的余弦夾角來計算相似度,余弦值越大,相關(guān)性越大。源文檔的文本向量表示為ti,目標(biāo)文檔的文本向量表示為tj。計算公式為:

        三、實驗結(jié)果及分析

        1.實驗數(shù)據(jù)來源

        本文用谷歌發(fā)布的word2vec的訓(xùn)練模型(googlenews_model)預(yù)先訓(xùn)練的詞向量。其中訓(xùn)練語料為基于GoogleNews的300萬個英文單詞。利用網(wǎng)絡(luò)爬蟲,從新聞網(wǎng)站爬取語料作為測試語料。具體如表1所示。

        2.實驗結(jié)果分析

        分別將每種文本類型的第1篇作為源文件與其它14篇測試語料文本進行比較,計算其文本相似度,在模型一用全部詞向量的平均值作為文本向量的方法中,分析結(jié)果,將與源文本相似度前4的文本及模型的估計評分值輸出來得出結(jié)果如表2所示。

        對于一些有明確二分喜好的用戶系統(tǒng),評價指標(biāo)可以用到分類準(zhǔn)確度指標(biāo)[7]。此實驗中,以源文本的類別為參照,將推薦的4篇文檔進行類別對比,作為用戶對推薦的二分喜好。在推薦的這4個文檔中,對于一個未曾被用戶選擇或評分的文本,最終結(jié)果有4種,即系統(tǒng)推薦且屬于源文檔同一類別,系統(tǒng)推薦不屬于同一類別,系統(tǒng)未推薦且屬于同一類別,系統(tǒng)未推薦且不屬于同一類別,分別對應(yīng)的數(shù)目為Ntp、Nfp、Nfn、Ntn。其推薦準(zhǔn)確率為推薦的L個文本中用戶認(rèn)為正確的所占的比例,公式為:

        其中M為總測試數(shù),u為個體。系統(tǒng)推薦的相對應(yīng)的4篇文章,讓10名真實用戶給其推薦打分(設(shè)定為0-1),平均分如表3所示。

        在模型二中,將與源文本相似度最高的前4篇文本輸出來得出結(jié)果如表4所示。系統(tǒng)推薦的相對應(yīng)的4篇文章,讓10名真實用戶給其推薦打分(設(shè)定為0-1),平均分如表5所示。得出模型的評價指標(biāo)數(shù)據(jù)如表6所示。計算其平均絕對誤差MAE,公式為:

        四、總結(jié)和展望

        本實驗基于word2vec項目,得到項目給出的通過大規(guī)模的GoogleNews語料訓(xùn)練出的詞匯向量,進而求出文本向量,通過余弦相似度方法計算向量之間的距離。在文本向量的表示中用到了兩種方法并進行比較,得出提取文檔關(guān)鍵詞的詞向量求平均的方法效果更好,相比傳統(tǒng)的關(guān)鍵詞推薦技術(shù)和VSM模型推薦技術(shù),此方法在詞向量表示時加入了語義信息,能更準(zhǔn)確地進行文本推薦。將此法應(yīng)用到英文教育文本推薦技術(shù)中,能很好地對文本進行分類處理,大大提高了學(xué)習(xí)者學(xué)習(xí)效率,使其能快速準(zhǔn)確地學(xué)習(xí)到相關(guān)文章,同時教學(xué)者能快速準(zhǔn)確地找到教學(xué)所需資源,更好地進行備課,使得“教”與“學(xué)”的過程更加便利。

        參考文獻:

        [1]高鐵剛,張佳,馬鑒.基礎(chǔ)教育信息化教學(xué)資源共享模式研究[J].中國電化教育,2009(6):70-74.

        [2]張嘉偉.關(guān)于計算機理解自然查詢語言的研究[J].信息技術(shù)與信息化,2016(4):116-118.

        [3]M. Gareth Gaskell William,D.Marslen-Wilson. Integrating Form and Meaning: A Distributed Model of Speech Perception[J].Language and Cognitive Processes,1997,12(5-6).

        [4]JianqiangLi,JingLi,XianghuaFu,et al.Learning distributed word representation with multi-contextual mixed embedding[J].Knowledge-Based Systems,2016,106.

        [5]施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J].計算機應(yīng)用,2009,29(S1):167-170+180.

        [6]Chen Erjing,Jiang Enbo. Research Review of Text Similarity Calculation Methods[J].Data Analysis and Knowledge Discovery,2017,1(6):1-11.

        [7]朱郁筱,呂琳媛.推薦系統(tǒng)評價指標(biāo)綜述[J].電子科技大學(xué)學(xué)報,2012,41(2):163-175.(編輯:魯利瑞)

        猜你喜歡
        文本方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        日本在线精品一区二区三区| 亚洲色www无码| 人妻风韵犹存av中文字幕| 中文字幕国产亚洲一区| 波多野结衣爽到高潮大喷| 九九99无码精品视频在线观看| 久久青青草原国产精品最新片| 成人全部免费的a毛片在线看| 色综合天天综合网国产成人网| 熟女人妇交换俱乐部| 无码中文av有码中文av| 91精品啪在线观看国产色| 极品嫩模大尺度av在线播放| 国产成人精品123区免费视频| 久久亚洲国产中v天仙www| 一道本中文字幕在线播放| 亚洲国产色一区二区三区| 777午夜精品免费观看| 亚洲中文欧美日韩在线人| 久久精品国产亚洲av日韩精品| 精品无人区无码乱码毛片国产| 亚洲av国产精品色午夜洪2| 色www亚洲| 精品不卡视频在线网址| 欧美大屁股xxxx高潮喷水| 国产在线精品一区二区三区不卡| 国产日韩久久久久69影院| 桃色一区一区三区蜜桃视频| 成人免费直播| 国产羞羞视频在线观看| 亚洲视频一区二区蜜桃| 国产精品毛片无遮挡高清| 国产成人精品999在线观看| 亚洲九九夜夜| 在线免费观看蜜桃视频| 欧洲美女黑人粗性暴交| 青春草国产视频| 水蜜桃在线观看一区二区国产 | 中文字幕一区二区三区精品在线| 免费a级毛片高清在钱| 色翁荡息又大又硬又粗又视频图片|