亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機器學(xué)習(xí)算法在文本信息挖掘中的應(yīng)用

        2016-02-07 02:37:54◆劉
        關(guān)鍵詞:數(shù)據(jù)挖掘均值向量

        ◆劉 昆

        (中國礦業(yè)大學(xué)徐海學(xué)院 江蘇 221008)

        機器學(xué)習(xí)算法在文本信息挖掘中的應(yīng)用

        ◆劉 昆

        (中國礦業(yè)大學(xué)徐海學(xué)院 江蘇 221008)

        隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和進步,其已經(jīng)在電子政務(wù)、電子商務(wù)、金融證券、電力通信等行業(yè)得到廣泛使用,提高了社會信息化水平,也使人類社會進入到“互聯(lián)網(wǎng)+”時代,積累了海量的信息資源。文本是網(wǎng)絡(luò)文件的一種重要格式文件,百度、搜狐、搜狗、谷歌等搜索引擎多采用文本搜索模式,以便獲取人們期望的信息,因此需要提高挖掘文本信息的準(zhǔn)確度,進一步滿足人們對信息檢索的期望。本文詳細地分析了支持向量機、BP神經(jīng)網(wǎng)絡(luò)、K均值等機器學(xué)習(xí)算法,分析了這些算法在文本數(shù)據(jù)挖掘中的應(yīng)用效果及優(yōu)勢,以提升互聯(lián)網(wǎng)利用文本數(shù)據(jù)的水平。

        K均值;文本數(shù)據(jù);BP神經(jīng)網(wǎng)絡(luò);支持向量機

        0 引言

        文本信息挖掘是當(dāng)前機器學(xué)習(xí)和模式識別研究的一個重點,其可以為互聯(lián)網(wǎng)信息搜索提供強大的支撐和接口,滿足人們的信息搜索需求[1]。經(jīng)過多年的發(fā)展和應(yīng)用,文本信息挖掘已經(jīng)誕生了許多先進算法,可以大幅度提升文本信息挖掘的準(zhǔn)確度[2]。但是,隨著光線互聯(lián)網(wǎng)、移動通信網(wǎng)絡(luò)的快速發(fā)展和進步,電力、金融、政務(wù)、商務(wù)、教育等領(lǐng)域均引入了先進的信息化系統(tǒng),這些系統(tǒng)運行時積累了海量的數(shù)據(jù)資源,這些數(shù)據(jù)資源大部分為文本信息,因此文本信息挖掘面臨著海量數(shù)據(jù),維度和屬性的增多,非常容易造成文本信息挖掘陷入到局部最優(yōu)化,降低了算法的準(zhǔn)確度[3]。

        1 互聯(lián)網(wǎng)時代文本信息挖掘的應(yīng)用

        互聯(lián)網(wǎng)時代,文本信息挖掘已經(jīng)在搜索引擎、商品推薦、科學(xué)研究、醫(yī)療衛(wèi)生和網(wǎng)上教育等領(lǐng)域得到廣泛普及和使用,取得了顯著的應(yīng)用成效[4]。

        (1)搜索引擎。搜索引擎是文本信息挖掘的重要領(lǐng)域,百度、谷歌、搜狗等公司一直致力于文本信息挖掘研究,根據(jù)用戶輸入的信息進行搜索時能夠更加準(zhǔn)確地獲取期望內(nèi)容,搜索引擎面臨的信息較多,并且也是信息搜索的重要基礎(chǔ)[5]。

        (2)商品推薦。目前,京東商城、天貓商城、蘇寧云商等大中型互聯(lián)網(wǎng)商務(wù)網(wǎng)站迅速崛起,其包括數(shù)以萬計的商品,因此在人們搜索商品的過程中,為了提高瀏覽的準(zhǔn)確度,可以根據(jù)人們的歷史瀏覽記錄、購買記錄等自動化推薦商品,這樣就可以更好地縮短人們?yōu)g覽商品的時間,提高商品瀏覽的效率。

        (3)科學(xué)研究。科學(xué)研究面臨著海量的文獻資源,這些文獻資料在搜索時非常繁瑣,因此利用文本信息挖掘可以實時搜索科技文獻,便于為知網(wǎng)、萬方、維普等多個文獻數(shù)據(jù)庫的信息檢索提供輔助支撐,具有重要的作用和意義。

        (4)醫(yī)療衛(wèi)生。當(dāng)前我國信息化得到了深入應(yīng)用,醫(yī)療衛(wèi)生改革的重要途徑就是引入信息化模型,開發(fā)智能醫(yī)療系統(tǒng)。醫(yī)療診斷過程中,為了能夠更好地為患者提供服務(wù),可以結(jié)合患者的病歷及診斷療效建立一個系統(tǒng)模型,構(gòu)建一種精準(zhǔn)醫(yī)療模式,將患者、主治醫(yī)師關(guān)聯(lián)起來,提供更好的醫(yī)療服務(wù)水平。

        (5)網(wǎng)上教育。目前,教育行業(yè)開發(fā)了許多的系統(tǒng),比如教務(wù)管理系統(tǒng)、圖書館管理系統(tǒng)、學(xué)籍管理系統(tǒng)、科研管理系統(tǒng)和成績管理系統(tǒng),這些系統(tǒng)運行積累了海量的文本數(shù)據(jù),人們?yōu)榱颂岣呔W(wǎng)絡(luò)教育智能化水平,利用數(shù)據(jù)挖掘構(gòu)建智能教育模型,將名師、問題、學(xué)生關(guān)聯(lián)起來,提供一個網(wǎng)上教育渠道。

        2 機器學(xué)習(xí)算法在文本信息挖掘中的應(yīng)用

        2.1 K均值

        K均值是一種無監(jiān)督學(xué)習(xí)算法,其可以將網(wǎng)絡(luò)上數(shù)以億計的文本劃分為N個簇,每一個簇都包含一個簇心,用戶輸入相關(guān)的信息之后,可以計算該文本與N個簇心的距離,選擇一個距離最近的簇與文本合并到一起。經(jīng)過多年的應(yīng)用,K均值在文本信息挖掘中得到了極大的改進,比如引入模糊數(shù)學(xué)理論優(yōu)化目標(biāo)函數(shù),提出了模糊K均值算法,將硬劃分模式改為軟劃分,這樣就可以更加準(zhǔn)確地劃分文本類別;引入模擬退火思想,可以自行向下將所有的文本進行劃分,利用層次分析模式,構(gòu)建一個樹型文本分類結(jié)構(gòu)實現(xiàn)文本挖掘,具有重要的作用[6]。

        2.2 支持向量機

        支持向量機是一種有監(jiān)督學(xué)習(xí)算法,其采用統(tǒng)計學(xué)習(xí)理論,采用結(jié)構(gòu)風(fēng)險最小化原則,適當(dāng)?shù)剡x擇函數(shù)子集以及判別函數(shù),這樣就可以使學(xué)習(xí)機器承受的風(fēng)險達到最小化程度,因此可以使文本數(shù)據(jù)挖掘的學(xué)習(xí)訓(xùn)練樣本達到最佳程度,并且能夠保證結(jié)構(gòu)圖集的誤差處于最小化。具體地,支持向量機在文本數(shù)據(jù)挖掘中可劃分為兩個關(guān)鍵類型,具體描述如下。

        (1)線性可分情況。原始解空間可以劃分為兩種類別,分別是兩個超平面,此時就可以直接對空間進行劃分和學(xué)習(xí)。

        (2)線性不可分情況。如果原始解空間線性不可分,此時需要在支持向量機中加入松弛變量,利用非線性映射關(guān)系將低維信息映射到高維空間中,這樣就可以將線性不可分轉(zhuǎn)變?yōu)榫€性可分,從而實現(xiàn)文本分類挖掘。

        2.3 BP神經(jīng)網(wǎng)絡(luò)

        BP神經(jīng)網(wǎng)絡(luò)又被稱為連接機模型,采用了心理學(xué)、神經(jīng)學(xué)、網(wǎng)絡(luò)學(xué)和傳感器等學(xué)科的知識,整合了生物神經(jīng)網(wǎng)絡(luò)系統(tǒng)活動的整個過程,能夠模仿人類學(xué)習(xí)的過程和大腦神經(jīng)系統(tǒng)活動的規(guī)律,建立一種計算模式,將一個個的神經(jīng)單元連接在一起,形成一個互聯(lián)網(wǎng)學(xué)習(xí)和分類系統(tǒng),具有自行學(xué)習(xí)、組織和并發(fā)處理的優(yōu)點,在語音分析、計算機視覺、圖像識別等眾多方面具有突出的貢獻。近來一段時間,人工神經(jīng)網(wǎng)絡(luò)技術(shù)得到跨越式的發(fā)展,成為了模式識別的主要工具。在文本信息挖掘領(lǐng)域,BP神經(jīng)網(wǎng)絡(luò)具有很多的應(yīng)用優(yōu)勢:

        (1)自行學(xué)習(xí)和適應(yīng)能力:BP神經(jīng)網(wǎng)絡(luò)具有較強的自學(xué)習(xí)能力,能夠?qū)W(xué)習(xí)到的網(wǎng)絡(luò)結(jié)構(gòu)保存起來,便于輸入數(shù)據(jù)進行訓(xùn)練,同時也可以根據(jù)系統(tǒng)數(shù)據(jù)的輸入情況,動態(tài)地調(diào)整神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程,動態(tài)更新學(xué)習(xí)網(wǎng)絡(luò)模型。

        (2)泛化能力:泛化能力即為在設(shè)計模式分類器的時候,要同時考慮兩個方面,一方面要對分類對象的正確性有所保證,另一方面是注意對未處理過或未碰見過的模式是否能正確分類??梢夿P神經(jīng)網(wǎng)絡(luò)具有把學(xué)習(xí)的成果應(yīng)用于新領(lǐng)域的能力。

        (3)容錯能力:即為BP神經(jīng)網(wǎng)絡(luò)在部分網(wǎng)絡(luò)遭到破壞時候,對整體的操作不造成大的影響,通俗地講就是系統(tǒng)部分破壞還能正常工作。所以BP神經(jīng)網(wǎng)絡(luò)有著強大的容錯能力。

        (4)非線性映射能力:BP神經(jīng)網(wǎng)絡(luò)本質(zhì)上有著從輸入到輸出的映射功能,其能任意精度靠近所有非線性連續(xù)函數(shù)。這就為求解內(nèi)部機制復(fù)雜的問題提供了強有力的技術(shù)支持。

        2.4 其他機器學(xué)習(xí)算法

        隨著文本挖掘算法的提出和改進,人們在K均值、BP神經(jīng)網(wǎng)絡(luò)和支持向量機算法誕生之后又提出了許多的算法,比如貝葉斯理論、信息論、遺傳算法等,這些算法也可以大幅度提升文本信息數(shù)據(jù)挖掘的準(zhǔn)確度。信息論利用率失真理論可以對數(shù)據(jù)進行壓縮和分析,將海量的數(shù)據(jù)集劃分到幾個簇中,然后根據(jù)率失真代價函數(shù)進行優(yōu)化,實現(xiàn)數(shù)據(jù)集分類。遺傳算法可以利用生物進化模型,引入選擇算子、變異算子、交換算子等,提高生物進化群體的多樣化。遺傳算法在文本信息挖掘領(lǐng)域中,提高了文本信息挖掘的性能,具有重要的作用。

        3 結(jié)束語

        文本挖掘是當(dāng)前最為重要的互聯(lián)網(wǎng)搜索內(nèi)容,其可以為用戶提供強大的信息檢索能力,已經(jīng)在搜索引擎、文獻分類、醫(yī)療衛(wèi)生等領(lǐng)域得到廣泛普及和使用,取得了顯著的應(yīng)用成效。論文基于筆者的學(xué)習(xí)實踐和經(jīng)驗,詳細探討了K均值、支持向量機、BP神經(jīng)網(wǎng)絡(luò)等算法的應(yīng)用原理及成效,可以為提升文本信息挖掘的準(zhǔn)確度提供支撐。

        [1]孫師堯,妙全興.基于改進SVM和HMM的文本信息抽取算法[J].計算機應(yīng)用與軟件,2015.

        [2]文平,劉淵,張春瑞.基于后綴樹的半監(jiān)督自適應(yīng)多密度文本聚類算法[J].小型微型計算機系統(tǒng),2016.

        [3]吐爾地·托合提,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉.語義詞特征提取及其在維吾爾文文本分類中的應(yīng)用[J].中文信息學(xué)報,2014.

        [4]徐健鋒,許園,許元辰等.基于語義理解和機器學(xué)習(xí)的混合的中文文本情感分類算法框架[J].計算機科學(xué),2015.

        [5]王生生,玄雪花.基于定性空間推理的中文文本空間關(guān)系識別[J].吉林大學(xué)學(xué)報(理學(xué)版),2016.

        圖1 過濾型特征選擇流程

        過濾型特征選擇方式在使用上較為簡單,但是由于選擇的數(shù)據(jù)是比較特殊的特征子集,雖然提高了計算的準(zhǔn)確率,但是不能包含全部的數(shù)據(jù)簇,針對不同數(shù)據(jù)集的魯棒性和適應(yīng)性方面存在缺陷。

        3.2 封裝型選擇算法

        封裝型特征選擇方式是依靠具體的分類器進行選擇,這種算法可以大大提高數(shù)據(jù)分類的精度。但是在計算的過程中,分類器的性能直接決定分類結(jié)果,所以效率較低,不適合數(shù)據(jù)龐大的數(shù)據(jù)集或高維數(shù)據(jù)的運算,但是比較適合小眾的數(shù)據(jù)選擇,比如小語種學(xué)科數(shù)據(jù)集的選擇。封裝型選擇方式如圖2所示:

        圖2 封裝型選擇方式

        4 結(jié)束語

        由此可知,在數(shù)據(jù)挖掘的過程中,利用特征加權(quán)與特征選擇算法可以有效地抑制高維數(shù)據(jù)和數(shù)據(jù)過于龐大的問題,幫助工程技術(shù)人員及用戶能夠快速有效地將潛在重要數(shù)據(jù)搜索出來,并進行合理的分配。

        參考文獻:

        [1]鄧文韜.基于幾何特征加權(quán)和選擇的數(shù)據(jù)空間聚類算法研究[J].信息技術(shù)與信息化,2014.

        [2]鄧瑩,楊雙遠,劉菡.基于可變加權(quán)的高維數(shù)據(jù)子空間聚類算法研究[J].微型機與應(yīng)用,2009.

        猜你喜歡
        數(shù)據(jù)挖掘均值向量
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        均值不等式失效時的解決方法
        向量垂直在解析幾何中的應(yīng)用
        均值與方差在生活中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        關(guān)于均值有界變差函數(shù)的重要不等式
        在线观看欧美精品| 亚洲精品无码永久中文字幕| 猫咪av成人永久网站在线观看| 天堂一区人妻无码| 国产欧美曰韩一区二区三区 | 国精产品一区一区三区| 国产精品无码成人午夜电影| 亚洲精品中国国产嫩草影院美女| 亚洲一区二区三区乱码在线| 精品视频在线观看日韩| 亚洲av日韩精品久久久久久久| 91spa国产无码| 麻美由真中文字幕人妻| 中文有码人妻字幕在线| 爆乳熟妇一区二区三区霸乳 | 日本a在线看| 国产日产免费在线视频| 亚洲中文字幕舔尻av网站| 99久久国产综合精品五月天| 亚洲aⅴ无码国精品中文字慕| 一区二区三区在线观看精品视频| 国产精品久久久福利| 亚洲一区二区三区成人网站| 91精品日本久久久久久牛牛| av网站不卡的av在线| 女人色熟女乱| 国产黄色片在线观看| 亚洲国产精品色一区二区| 人妻少妇中文字幕在线| 国产精品嫩草影院av| 偷拍网日本一区二区三区| 水蜜桃视频在线观看入口| 日本另类αv欧美另类aⅴ| 尤物yw无码网站进入| 成年人男女啪啪网站视频| 精品国产一区二区三区三| 欧洲极品少妇| 天天中文字幕av天天爽| 国产精品性色av麻豆| 亚洲国产欧美日韩欧美特级 | 日本亚洲色大成网站www久久|