亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于領(lǐng)域本體的文本語義挖掘方法現(xiàn)狀分析

        2018-02-01 15:04:16
        時代農(nóng)機(jī) 2018年3期
        關(guān)鍵詞:語義分類文本

        劉 鋒

        (黑龍江工業(yè)學(xué)院,黑龍江 雞西 158100)

        語料庫技術(shù)又分為兩種方法,分別為主題建模和文本分類。主題模型用于發(fā)現(xiàn)隱藏大型數(shù)據(jù)模型,該技術(shù)可以有效降低語料庫的維度;文本分類在組織大量無序文本中起著至關(guān)重要的作用。

        1 主題建模方法研究

        主體建模方法主要分為潛在語義分析(蘊(yùn)SA)和概率潛在語義分析(P蘊(yùn)SA)。

        蘊(yùn)SA通常被用于信息檢索,在該方法中,主要是分析和管理大數(shù)據(jù),從而提高了算法的效率。利用該方法可以創(chuàng)建多語言語義空間,不需要經(jīng)過查詢翻譯機(jī)制,就可以直接使用另一種語言編寫的文檔,同時在多個數(shù)據(jù)集上實(shí)現(xiàn)了該系統(tǒng),取得了良好的效果。為了進(jìn)一步查看語料庫,引入可視化技術(shù),在該技術(shù)中使用一個二維文件圖冊,這種文件圖冊可以更好地使數(shù)據(jù)進(jìn)行可視化。針對較低維度的語義空間又該如何描述呢?這是可以引入多維文檔分析方法,方法包括一個訓(xùn)練集的樣本協(xié)方差矩陣,這有助于從文檔中有效地挖掘本地信息,并使用術(shù)語關(guān)聯(lián)和空間分布,該分析模型在精度和計算效率方面效果明顯。在目前的情況下,許多研究人員使用蘊(yùn)SA進(jìn)行特征提取,針對質(zhì)量和參與數(shù)量分別進(jìn)行特征提取。但是由于參與人數(shù)太多,產(chǎn)生了信息超載。這種特征提取的方法只能有效解決其中一個問題。

        概率潛在語義分析(P蘊(yùn)SA)使用生成潛在類模型來執(zhí)行概率混合分解,這一模型可以應(yīng)用于各個領(lǐng)域,但有些人認(rèn)為該方法對不同類型的文本搜索的有效性產(chǎn)生了質(zhì)疑,最后通過實(shí)驗(yàn)結(jié)果表明P蘊(yùn)SA的性能優(yōu)于標(biāo)準(zhǔn)蘊(yùn)SA方法。為了解決新的問題,P蘊(yùn)SA方法也在不斷改進(jìn),當(dāng)前有兩個問題是比較嚴(yán)峻的,其一是如何使用GPU上有限的內(nèi)存來處理較大的文本數(shù)據(jù),其二是如何使用GPU的功能加速。可以采用正樣的方法來進(jìn)行解決:首先使用矩陣向量乘法加速算法;其次,采用同樣的過程以節(jié)省空間和降低復(fù)雜度;最后使用并發(fā)執(zhí)行加速進(jìn)程。

        2 文本分類技術(shù)

        支持向量機(jī)(SVM)該方法的總體思路是將輸入向量映射到高維特征向量空間,并構(gòu)造一個線性決策面。通過支持向量機(jī)試圖找到解決兩組分類問題的方法,其中為了能夠有效的分離一組對象,引入了超平面,該模型解釋了該方法可以減少在標(biāo)準(zhǔn)歸納和轉(zhuǎn)換設(shè)置中標(biāo)記訓(xùn)練實(shí)例的需要,用一個版本空間概念給出了算法的理論解釋,在實(shí)驗(yàn)驗(yàn)證中,用一個個低次多項(xiàng)式數(shù)據(jù),并嘗試映射和檢測實(shí)現(xiàn)問題,經(jīng)過采用了快速線性SVM方法,進(jìn)行集中于快速訓(xùn)練和測試,實(shí)驗(yàn)結(jié)果表明這對某些大型數(shù)據(jù)集是有用的。針對上述問題,有些學(xué)者提出了一種基于SVM的先進(jìn)多類實(shí)例選擇方法,該方法提高了SVM的熟練度和準(zhǔn)確性,通過仿真實(shí)驗(yàn)結(jié)果表明,該模型提高了支持向量機(jī)的分類精度,比基于鄰域的模式選擇(NPPS)算法更好。同時也有學(xué)者推薦了一種將SVM集成到基于上下文相關(guān)和上下文無關(guān)的用戶首選項(xiàng)分組的策略,該策略支持向量機(jī),有助于提高建議的準(zhǔn)確性,并給出更精確的預(yù)測結(jié)果,對實(shí)際服務(wù)數(shù)據(jù)進(jìn)行了實(shí)驗(yàn)研究,驗(yàn)證了模型的有效性。

        最近鄰居(KNN)法是一種新的降維方法。利用矢量聚合物理論和特征提取方法,減少了空間的維數(shù)。由于web中的文檔分布不均勻,為了解決不均勻的問題,有些學(xué)者提出了基于密度的最近鄰居法,該方法對大量非結(jié)構(gòu)化分布式文檔具有更好的效果。也可以采用加權(quán)法進(jìn)行文本分類,以分類的速度、準(zhǔn)確性和質(zhì)量作為評價的依據(jù),基于用戶的行為,通過點(diǎn)擊流數(shù)據(jù)而形成的自動實(shí)時推薦系統(tǒng),而在實(shí)施過程中,他們還訓(xùn)練識別并匹配數(shù)據(jù)集市中類似類的點(diǎn)擊流數(shù)據(jù),并引入了一個叫做粗糙集的新概念,將數(shù)據(jù)集劃分為兩個文本向量空間,即特定的和不確定的區(qū)域。對于某些部分,他們直接判斷其類別,對于不確定的區(qū)域,它們通過基于關(guān)聯(lián)分析的KNN來確定向量的類型,通過該方法的驗(yàn)證,表明該算法提高了文本分類的效率。

        樸素貝葉斯(NB)方法解決了系統(tǒng)問題以及與多項(xiàng)式模型相關(guān)的問題。通過對樸素貝葉斯方法的研究,提出了一些改建意見,如文本轉(zhuǎn)換,解決不均勻訓(xùn)練數(shù)據(jù)的問題,規(guī)范分類權(quán)重等。這種方法以機(jī)器學(xué)習(xí)為基礎(chǔ),采用樸素貝葉斯分類器來預(yù)測基因。該模型使用樸素貝葉斯分類器對每個讀取進(jìn)行分類,并為每個讀取提供完整的分類,有助于用戶檢查數(shù)據(jù)集的分類組合,并在合理的時間內(nèi)使用和運(yùn)行整個數(shù)據(jù)集得到了良好的預(yù)測效果。

        3 分析結(jié)論

        通過對分類算法和主題建模方法的分析,對潛在語義分析、概率潛在語義分析、向量機(jī)、最近鄰居法和樸素貝葉斯等文本分類算法的分析,可以幫助人們了解和得到最合適的算法和方法。

        猜你喜歡
        語義分類文本
        分類算一算
        語言與語義
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語義模糊
        婷婷一区二区三区在线| 精品无码国产一区二区三区av| 激情内射亚州一区二区三区爱妻| 99国产超薄丝袜足j在线播放| 偷拍一区二区三区在线观看| 亚洲精品国产成人久久av| 亚洲av无码一区二区三区乱子伦| 少妇厨房愉情理伦片bd在线观看 | 五月天精品视频在线观看| 狠狠色欧美亚洲综合色黑a| 精品极品一区二区三区| 国产精品毛片一区二区三区| 99亚洲精品久久久99| 久久久久亚洲AV无码去区首| 性生大片免费观看性少妇| 亚洲色成人网站www永久| 84pao强力打造免费视频34 | 欧美精品在线一区| 国产成人高清精品亚洲一区| 亚洲精品1区2区在线观看| 粉嫩虎白女毛片人体| 97福利视频| 国产自拍成人在线免费视频| 99久久精品免费看国产一区二区三区| 在教室伦流澡到高潮hgl视频| 国产精品国产三级国产av创| 男女啪啪啪的高清视频| 99久久亚洲精品日本无码| 18禁男女爽爽爽午夜网站免费 | 成人影院视频在线播放| 久久久久国产精品| 老熟女毛茸茸浓毛| av资源吧首页在线观看| 丰满人妻熟妇乱又仑精品| 人妻影音先锋啪啪av资源 | 五月天激情婷婷婷久久| 无码高清视频在线播放十区| 国产视频激情视频在线观看| 免费人成视频x8x8入口| 国产女精品| 中文字幕亚洲综合久久久|