亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Word2Vec模型和K-Means算法的信息技術(shù)文檔聚類研究?

        2020-04-27 08:53:58毛郁欣邱智學(xué)
        中國信息技術(shù)教育 2020年8期
        關(guān)鍵詞:means算法

        毛郁欣 邱智學(xué)

        摘要:互聯(lián)網(wǎng)上與信息技術(shù)相關(guān)的文檔和學(xué)習(xí)資料較為分散,而且會隨著信息技術(shù)的發(fā)展而動態(tài)更新。作者提出了一種基于Word2Vec模型和K-Means算法的聚類方法,能夠?qū)崿F(xiàn)對與信息技術(shù)相關(guān)的網(wǎng)絡(luò)文檔的聚類,并對不同來源和主題的技術(shù)文檔自動分類,此方法對構(gòu)建信息技術(shù)知識庫和在線學(xué)習(xí)平臺具有較強(qiáng)的支撐作用。

        關(guān)鍵詞:文本聚類;Word2Vec;K-Means算法;領(lǐng)域本體

        中圖分類號:G434? 文獻(xiàn)標(biāo)識碼:A? 論文編號:1674-2117(2020)08-0099-03

        引言

        隨著互聯(lián)網(wǎng)的發(fā)展,各個(gè)技術(shù)領(lǐng)域在網(wǎng)上都產(chǎn)生了大量的專業(yè)文檔和技術(shù)資料,且較為分散,再加上信息技術(shù)本身發(fā)展和迭代非常迅速,相應(yīng)的文檔也會隨之不斷地動態(tài)更新,對應(yīng)的文檔主題和內(nèi)容呈現(xiàn)出較為明顯的動態(tài)性。例如,CSDN(信息技術(shù)社區(qū))上的技術(shù)文章,基本上是按照網(wǎng)站設(shè)定好的固定類別(如游戲開發(fā)、人工智能、Python等)進(jìn)行分類,同時(shí)允許作者添加一系列個(gè)性化標(biāo)簽。但是隨著文章數(shù)量的增多,有限的固定類別顯然無法滿足精細(xì)化的文章分類需求,只能進(jìn)行粗略、大概的歸類,而作者添加的標(biāo)簽又帶有很強(qiáng)的主觀性和隨意性,不能完全作為分類的依據(jù)。因此,運(yùn)用更加有效和準(zhǔn)確的方法對互聯(lián)網(wǎng)上不同來源、不同主題的信息技術(shù)文檔進(jìn)行研究和分析,具有十分現(xiàn)實(shí)的意義?;ヂ?lián)網(wǎng)上與信息技術(shù)相關(guān)的文檔屬于無結(jié)構(gòu)文本,因此運(yùn)用文本挖掘技術(shù)進(jìn)行量化處理和分析是比較可行的方法。

        總體來看,雖然目前關(guān)于Web文檔聚類或分類的研究已經(jīng)比較多[1-2],但是直接針對信息技術(shù)文檔的研究還不多,而結(jié)合深度學(xué)習(xí)模型進(jìn)行文本挖掘的研究也比較缺乏。為此,本文研究并提出一種基于Word2Vec模型[3]和K-Means算法的聚類方法,能夠?qū)崿F(xiàn)對與信息技術(shù)相關(guān)的網(wǎng)絡(luò)文檔的聚類。該方法實(shí)現(xiàn)了對不同來源和主題的信息技術(shù)文檔的自動分類,對于構(gòu)建信息技術(shù)知識庫和在線學(xué)習(xí)平臺具有較強(qiáng)的支撐作用。

        信息技術(shù)文檔的特征處理

        要實(shí)現(xiàn)對互聯(lián)網(wǎng)上多來源、多主題的信息技術(shù)文檔的自動分類或聚類,首先必須對文檔進(jìn)行特征處理,本研究提出的特征處理流程如下頁圖1所示。

        對于采集到的信息類網(wǎng)絡(luò)文檔,利用開源分詞工具進(jìn)行分詞,完成文本預(yù)處理。文本預(yù)處理之后會產(chǎn)生很多的特征詞,如果直接使用預(yù)處理后的特征詞進(jìn)行挖掘,不但會造成特征表示上的維度災(zāi)難,而且也得不到高質(zhì)量的聚類結(jié)果。[4]因此,需要進(jìn)一步開展特征提取,從而為后續(xù)的挖掘以及最終的聚類帶來更好的效果。

        本研究使用詞頻-逆文檔頻率TF-IDF[5]來計(jì)算信息類文檔中特征詞的權(quán)值,按權(quán)值大小排序,并選擇TF-IDF值超過特定閾值的特征詞作為初始特征。此外,由于同一個(gè)特征詞在不同的技術(shù)文檔中會重復(fù)出現(xiàn)且權(quán)值不同,故同一個(gè)特征詞取最大的TF-IDF值作為權(quán)值,并進(jìn)行去重處理形成初始特征集。

        點(diǎn)互信息PMI是從信息論里的互信息概念衍生而來的[6],這個(gè)指標(biāo)常常用來衡量兩個(gè)事物之間的相關(guān)性,如兩個(gè)詞。本研究使用PMI算法將信息類文檔預(yù)處理語料作為輸入,先通過頻率計(jì)算詞語的共現(xiàn)概率,然后再計(jì)算詞語共現(xiàn)的標(biāo)準(zhǔn)化互信息值NMI,最后返回符合NMI閾值的特征詞列表及PMI特征詞共現(xiàn)列表。最終通過人工篩選初始特征詞和PMI算法過濾得到的特征詞,形成信息技術(shù)文本的特征集,完成特征提取工作。

        Word2Vec是能把詞語轉(zhuǎn)化為多維詞向量的模型,根據(jù)詞語的上下文預(yù)測詞向量。詞向量由多維實(shí)數(shù)表示,雖然不能說明每一維度的實(shí)際含義,但它卻蘊(yùn)含了豐富的信息。由于訓(xùn)練時(shí)會根據(jù)前后就近位置預(yù)測詞語,考慮了詞語間的共現(xiàn),所以它保持了同義詞之間強(qiáng)的相關(guān)性。運(yùn)用Word2Vec詞向量模型訓(xùn)練信息類文檔的文本語料,可以將其中的信息領(lǐng)域特征詞轉(zhuǎn)化為多維實(shí)數(shù)向量。與傳統(tǒng)的空間向量模型相比,它考慮了詞與詞之間的共現(xiàn),同義詞所對應(yīng)的詞向量在多維空間中會更加接近,為后續(xù)更準(zhǔn)確的挖掘工作做好了鋪墊。

        Word2Vec中有兩個(gè)重要的算法模型:Skip-gram模型和CBOW模型。這兩個(gè)模型都包含了三層,即輸入層、投影層和輸出層。CBOW模型是通過輸入特征詞上下文來預(yù)測特征詞的空間向量;而Skip-gram模型則是通過輸入特征詞來預(yù)測特征詞上下文的空間向量。[7]Skip-gram模型訓(xùn)練時(shí)間比CBOW模型要長,但在Skip-gram模型中,每個(gè)詞都要受到周圍詞的影響,每個(gè)詞在作為中心詞的時(shí)候,都要進(jìn)行次的預(yù)測、調(diào)整,這種多次的調(diào)整會使得詞向量相對更加準(zhǔn)確。因此,在對信息技術(shù)文檔進(jìn)行文本挖掘的過程中,選擇Skip-gram模型進(jìn)行詞的向量化訓(xùn)練。

        Skip-gram模型是將一個(gè)詞語作為輸入,來預(yù)測它周圍的上下文。假設(shè)有一個(gè)句子結(jié)構(gòu)為,Skip-gram模型就是通過輸入來預(yù)測 的詞向量。

        基于K-Means和本體映射的信息技術(shù)文檔聚類

        K-Means是經(jīng)典的劃分聚類算法,算法的優(yōu)點(diǎn)是時(shí)間復(fù)雜度低,聚類效果較好。因此,利用K-Means算法對經(jīng)過向量化的特征詞進(jìn)行聚類,步驟如下:

        ①隨機(jī)選擇個(gè)簇類中心點(diǎn);

        ②遍歷所有數(shù)據(jù)點(diǎn),把數(shù)據(jù)點(diǎn)劃分到距離最近的一個(gè)簇類中;

        ③劃分之后就有個(gè)簇,計(jì)算每個(gè)簇類中點(diǎn)的平均值作為新的簇類中心點(diǎn);

        ④重復(fù)步驟②和③,直到聚類中心不再發(fā)生變化,或是迭代次數(shù)達(dá)到設(shè)定的值。

        對K-Means聚類中的值的選擇,可以依據(jù)基于誤差平方和SSE的手肘法,計(jì)算公式如下:

        其中,是第個(gè)簇,是中的樣本點(diǎn),是的質(zhì)心即中所有樣本的均值,SSE是所有樣本的聚類誤差,代表了聚類效果的好壞。在確定的取值后,使用K-Means聚類算法對從信息技術(shù)文檔中提取出的特征進(jìn)行聚類。

        同時(shí),通過整理和分析信息技術(shù)領(lǐng)域的基本概念及其相互關(guān)系,初步構(gòu)建一個(gè)面向信息技術(shù)領(lǐng)域的本體。其中,本體的部分概念結(jié)構(gòu)如上頁圖2所示。

        利用聚類算法對特征聚類,得到一系列的特征簇類,進(jìn)一步對簇類進(jìn)行整理和分析,將簇類及其特征詞映射到事先構(gòu)建好的信息技術(shù)領(lǐng)域本體上(如圖3)。

        結(jié)束語

        針對互聯(lián)網(wǎng)上存在的大量與信息技術(shù)相關(guān)的專業(yè)文檔,本研究提出一種基于Word2Vec模型和K-Means算法的聚類方法,能夠?qū)崿F(xiàn)對信息技術(shù)相關(guān)的網(wǎng)絡(luò)文檔的聚類。對經(jīng)過預(yù)處理的文本,利用相對成熟的特征提取算法提取和過濾特征集合,然后利用Word2Vec模型進(jìn)行特征詞向量化處理,在此基礎(chǔ)之上利用K-Means算法進(jìn)行聚類。該方法實(shí)現(xiàn)了對互聯(lián)網(wǎng)上不同來源和主題的技術(shù)文檔的自動分類,對構(gòu)建信息技術(shù)知識庫和在線學(xué)習(xí)平臺具有較強(qiáng)的支撐作用。

        參考文獻(xiàn):

        [1]喬少杰,韓楠,金澈清,等.基于Multi-Agent的分布式文本聚類模型[J].計(jì)算機(jī)學(xué)報(bào),2018(08):19-31.

        [2]宋凱,李秀霞,趙思喆.基于CTM模型與K-means算法融合的文本聚類研究[J].情報(bào)理論與實(shí)踐,2017(11):135-138.

        [3]周練.Word2vec的工作原理及應(yīng)用探究[J].圖書情報(bào)導(dǎo)刊,2015(02):145-148.

        [4]Chandrashekar G,Sahin F. A survey on feature selection methods[J].Computers & Electrical Engineering,2014(01):16-28.

        [5]Salton G. The SMART retrieval system-experiments in automatic document processing[M].Prentice-hall,Inc Upper Saddle River,1971.

        [6]Vergara J R,Estevez P A. A review of feature selection methods based on mutual information[J].Neural computing and applications,2014,24(01):175-186.

        [7]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word rep-resentations in vector space[J].Computer Science,2013.

        基金項(xiàng)目:浙江省高?!笆濉眱?yōu)勢專業(yè)建設(shè)項(xiàng)目(120801,電子商務(wù)),浙江工商大學(xué)2019年度校高等教育研究課題(xgy19024)資助。

        猜你喜歡
        means算法
        應(yīng)用K—means聚類算法劃分曲面及實(shí)驗(yàn)驗(yàn)證
        K—Means算法及其在卷煙零售門店庫存聚類分析中的應(yīng)用
        SIFT算法在木材紋理分類上的應(yīng)用
        基于K—Means聚類算法入侵檢測系統(tǒng)研究
        基于聚類算法的DNS攻擊檢測
        基于譜聚類的網(wǎng)絡(luò)入侵檢測算法研究
        基于Weka的Apriori算法在原油產(chǎn)量預(yù)測中的應(yīng)用
        基于HSI顏色空間的小麥粉精度自動識別研究
        基于聚類的Web日志挖掘
        基于百度地圖的改進(jìn)的K—means算法研究
        軟件(2016年1期)2016-03-08 18:48:49
        国产精品美女主播一区二区| 国产成人啪精品视频免费软件| 国产老熟女狂叫对白| 成 人 免 费 黄 色| 国产高清一区二区三区视频| 九九精品无码专区免费| 国产好片日本一区二区三区四区| 久久国产精品亚洲我射av大全| 日韩在线观看入口一二三四| 国产午夜激无码av毛片不卡| 国产又色又爽又黄的| 男女车车的车车网站w98免费| 亚洲AV秘 无码一区二p区三区| 手机在线中文字幕国产| 91亚洲国产成人久久精品网站| 日本一区二区三区不卡在线| 最好看的亚洲中文字幕| 国产成人av综合色| 国产内射在线激情一区| 国产精品日日摸夜夜添夜夜添| 精品国产自拍在线视频| 国产一区三区二区视频在线观看 | 日本www一道久久久免费榴莲| 中文人妻av大区中文不卡| 中文字幕乱码一区在线观看| 久久精品成人一区二区三区| 欧美aaaaaa级午夜福利视频| 在线观看日本一区二区| h动漫尤物视频| 免费观看在线一区二区| 久久精品国产亚洲av成人文字| 精品高朝久久久久9999| 亚洲成av人片天堂网| 熟妇人妻av无码一区二区三区| 国产成人福利在线视频不卡 | 欧美xxxxx在线观看| 先锋影音av最新资源| 麻豆国产人妻欲求不满| 日本熟妇精品一区二区三区| 中文字幕人妻互换av| 乱码av麻豆丝袜熟女系列|