亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

機器學(xué)習(xí)算法在文本信息挖掘中的應(yīng)用

2016-02-07 02:37:54◆劉昆

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2016年11期

關(guān)鍵詞：數(shù)據(jù)挖掘均值向量

◆劉昆

（中國礦業(yè)大學(xué)徐海學(xué)院江蘇 221008）

機器學(xué)習(xí)算法在文本信息挖掘中的應(yīng)用

◆劉昆

（中國礦業(yè)大學(xué)徐海學(xué)院江蘇 221008）

隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和進步，其已經(jīng)在電子政務(wù)、電子商務(wù)、金融證券、電力通信等行業(yè)得到廣泛使用，提高了社會信息化水平，也使人類社會進入到“互聯(lián)網(wǎng)+”時代，積累了海量的信息資源。文本是網(wǎng)絡(luò)文件的一種重要格式文件，百度、搜狐、搜狗、谷歌等搜索引擎多采用文本搜索模式，以便獲取人們期望的信息，因此需要提高挖掘文本信息的準(zhǔn)確度，進一步滿足人們對信息檢索的期望。本文詳細地分析了支持向量機、BP神經(jīng)網(wǎng)絡(luò)、K均值等機器學(xué)習(xí)算法，分析了這些算法在文本數(shù)據(jù)挖掘中的應(yīng)用效果及優(yōu)勢，以提升互聯(lián)網(wǎng)利用文本數(shù)據(jù)的水平。

K均值；文本數(shù)據(jù)；BP神經(jīng)網(wǎng)絡(luò)；支持向量機

0 引言

文本信息挖掘是當(dāng)前機器學(xué)習(xí)和模式識別研究的一個重點，其可以為互聯(lián)網(wǎng)信息搜索提供強大的支撐和接口，滿足人們的信息搜索需求[1]。經(jīng)過多年的發(fā)展和應(yīng)用，文本信息挖掘已經(jīng)誕生了許多先進算法，可以大幅度提升文本信息挖掘的準(zhǔn)確度[2]。但是，隨著光線互聯(lián)網(wǎng)、移動通信網(wǎng)絡(luò)的快速發(fā)展和進步，電力、金融、政務(wù)、商務(wù)、教育等領(lǐng)域均引入了先進的信息化系統(tǒng)，這些系統(tǒng)運行時積累了海量的數(shù)據(jù)資源，這些數(shù)據(jù)資源大部分為文本信息，因此文本信息挖掘面臨著海量數(shù)據(jù)，維度和屬性的增多，非常容易造成文本信息挖掘陷入到局部最優(yōu)化，降低了算法的準(zhǔn)確度[3]。

1 互聯(lián)網(wǎng)時代文本信息挖掘的應(yīng)用

互聯(lián)網(wǎng)時代，文本信息挖掘已經(jīng)在搜索引擎、商品推薦、科學(xué)研究、醫(yī)療衛(wèi)生和網(wǎng)上教育等領(lǐng)域得到廣泛普及和使用，取得了顯著的應(yīng)用成效[4]。

（1）搜索引擎。搜索引擎是文本信息挖掘的重要領(lǐng)域，百度、谷歌、搜狗等公司一直致力于文本信息挖掘研究，根據(jù)用戶輸入的信息進行搜索時能夠更加準(zhǔn)確地獲取期望內(nèi)容，搜索引擎面臨的信息較多，并且也是信息搜索的重要基礎(chǔ)[5]。

（2）商品推薦。目前，京東商城、天貓商城、蘇寧云商等大中型互聯(lián)網(wǎng)商務(wù)網(wǎng)站迅速崛起，其包括數(shù)以萬計的商品，因此在人們搜索商品的過程中，為了提高瀏覽的準(zhǔn)確度，可以根據(jù)人們的歷史瀏覽記錄、購買記錄等自動化推薦商品，這樣就可以更好地縮短人們?yōu)g覽商品的時間，提高商品瀏覽的效率。

（3）科學(xué)研究。科學(xué)研究面臨著海量的文獻資源，這些文獻資料在搜索時非常繁瑣，因此利用文本信息挖掘可以實時搜索科技文獻，便于為知網(wǎng)、萬方、維普等多個文獻數(shù)據(jù)庫的信息檢索提供輔助支撐，具有重要的作用和意義。

（4）醫(yī)療衛(wèi)生。當(dāng)前我國信息化得到了深入應(yīng)用，醫(yī)療衛(wèi)生改革的重要途徑就是引入信息化模型，開發(fā)智能醫(yī)療系統(tǒng)。醫(yī)療診斷過程中，為了能夠更好地為患者提供服務(wù)，可以結(jié)合患者的病歷及診斷療效建立一個系統(tǒng)模型，構(gòu)建一種精準(zhǔn)醫(yī)療模式，將患者、主治醫(yī)師關(guān)聯(lián)起來，提供更好的醫(yī)療服務(wù)水平。

（5）網(wǎng)上教育。目前，教育行業(yè)開發(fā)了許多的系統(tǒng)，比如教務(wù)管理系統(tǒng)、圖書館管理系統(tǒng)、學(xué)籍管理系統(tǒng)、科研管理系統(tǒng)和成績管理系統(tǒng)，這些系統(tǒng)運行積累了海量的文本數(shù)據(jù)，人們?yōu)榱颂岣呔W(wǎng)絡(luò)教育智能化水平，利用數(shù)據(jù)挖掘構(gòu)建智能教育模型，將名師、問題、學(xué)生關(guān)聯(lián)起來，提供一個網(wǎng)上教育渠道。

2 機器學(xué)習(xí)算法在文本信息挖掘中的應(yīng)用

2.1 K均值

K均值是一種無監(jiān)督學(xué)習(xí)算法，其可以將網(wǎng)絡(luò)上數(shù)以億計的文本劃分為N個簇，每一個簇都包含一個簇心，用戶輸入相關(guān)的信息之后，可以計算該文本與N個簇心的距離，選擇一個距離最近的簇與文本合并到一起。經(jīng)過多年的應(yīng)用，K均值在文本信息挖掘中得到了極大的改進，比如引入模糊數(shù)學(xué)理論優(yōu)化目標(biāo)函數(shù)，提出了模糊K均值算法，將硬劃分模式改為軟劃分，這樣就可以更加準(zhǔn)確地劃分文本類別；引入模擬退火思想，可以自行向下將所有的文本進行劃分，利用層次分析模式，構(gòu)建一個樹型文本分類結(jié)構(gòu)實現(xiàn)文本挖掘，具有重要的作用[6]。

2.2 支持向量機

支持向量機是一種有監(jiān)督學(xué)習(xí)算法，其采用統(tǒng)計學(xué)習(xí)理論，采用結(jié)構(gòu)風(fēng)險最小化原則，適當(dāng)?shù)剡x擇函數(shù)子集以及判別函數(shù)，這樣就可以使學(xué)習(xí)機器承受的風(fēng)險達到最小化程度，因此可以使文本數(shù)據(jù)挖掘的學(xué)習(xí)訓(xùn)練樣本達到最佳程度，并且能夠保證結(jié)構(gòu)圖集的誤差處于最小化。具體地，支持向量機在文本數(shù)據(jù)挖掘中可劃分為兩個關(guān)鍵類型，具體描述如下。

（1）線性可分情況。原始解空間可以劃分為兩種類別，分別是兩個超平面，此時就可以直接對空間進行劃分和學(xué)習(xí)。

（2）線性不可分情況。如果原始解空間線性不可分，此時需要在支持向量機中加入松弛變量，利用非線性映射關(guān)系將低維信息映射到高維空間中，這樣就可以將線性不可分轉(zhuǎn)變?yōu)榫€性可分，從而實現(xiàn)文本分類挖掘。

2.3 BP神經(jīng)網(wǎng)絡(luò)

BP神經(jīng)網(wǎng)絡(luò)又被稱為連接機模型，采用了心理學(xué)、神經(jīng)學(xué)、網(wǎng)絡(luò)學(xué)和傳感器等學(xué)科的知識，整合了生物神經(jīng)網(wǎng)絡(luò)系統(tǒng)活動的整個過程，能夠模仿人類學(xué)習(xí)的過程和大腦神經(jīng)系統(tǒng)活動的規(guī)律，建立一種計算模式，將一個個的神經(jīng)單元連接在一起，形成一個互聯(lián)網(wǎng)學(xué)習(xí)和分類系統(tǒng)，具有自行學(xué)習(xí)、組織和并發(fā)處理的優(yōu)點，在語音分析、計算機視覺、圖像識別等眾多方面具有突出的貢獻。近來一段時間，人工神經(jīng)網(wǎng)絡(luò)技術(shù)得到跨越式的發(fā)展，成為了模式識別的主要工具。在文本信息挖掘領(lǐng)域，BP神經(jīng)網(wǎng)絡(luò)具有很多的應(yīng)用優(yōu)勢：

（1）自行學(xué)習(xí)和適應(yīng)能力：BP神經(jīng)網(wǎng)絡(luò)具有較強的自學(xué)習(xí)能力，能夠?qū)W(xué)習(xí)到的網(wǎng)絡(luò)結(jié)構(gòu)保存起來，便于輸入數(shù)據(jù)進行訓(xùn)練，同時也可以根據(jù)系統(tǒng)數(shù)據(jù)的輸入情況，動態(tài)地調(diào)整神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程，動態(tài)更新學(xué)習(xí)網(wǎng)絡(luò)模型。

（2）泛化能力：泛化能力即為在設(shè)計模式分類器的時候，要同時考慮兩個方面，一方面要對分類對象的正確性有所保證，另一方面是注意對未處理過或未碰見過的模式是否能正確分類?？梢夿P神經(jīng)網(wǎng)絡(luò)具有把學(xué)習(xí)的成果應(yīng)用于新領(lǐng)域的能力。

（3）容錯能力：即為BP神經(jīng)網(wǎng)絡(luò)在部分網(wǎng)絡(luò)遭到破壞時候，對整體的操作不造成大的影響，通俗地講就是系統(tǒng)部分破壞還能正常工作。所以BP神經(jīng)網(wǎng)絡(luò)有著強大的容錯能力。

（4）非線性映射能力：BP神經(jīng)網(wǎng)絡(luò)本質(zhì)上有著從輸入到輸出的映射功能，其能任意精度靠近所有非線性連續(xù)函數(shù)。這就為求解內(nèi)部機制復(fù)雜的問題提供了強有力的技術(shù)支持。

2.4 其他機器學(xué)習(xí)算法

隨著文本挖掘算法的提出和改進，人們在K均值、BP神經(jīng)網(wǎng)絡(luò)和支持向量機算法誕生之后又提出了許多的算法，比如貝葉斯理論、信息論、遺傳算法等，這些算法也可以大幅度提升文本信息數(shù)據(jù)挖掘的準(zhǔn)確度。信息論利用率失真理論可以對數(shù)據(jù)進行壓縮和分析，將海量的數(shù)據(jù)集劃分到幾個簇中，然后根據(jù)率失真代價函數(shù)進行優(yōu)化，實現(xiàn)數(shù)據(jù)集分類。遺傳算法可以利用生物進化模型，引入選擇算子、變異算子、交換算子等，提高生物進化群體的多樣化。遺傳算法在文本信息挖掘領(lǐng)域中，提高了文本信息挖掘的性能，具有重要的作用。

3 結(jié)束語

文本挖掘是當(dāng)前最為重要的互聯(lián)網(wǎng)搜索內(nèi)容，其可以為用戶提供強大的信息檢索能力，已經(jīng)在搜索引擎、文獻分類、醫(yī)療衛(wèi)生等領(lǐng)域得到廣泛普及和使用，取得了顯著的應(yīng)用成效。論文基于筆者的學(xué)習(xí)實踐和經(jīng)驗，詳細探討了K均值、支持向量機、BP神經(jīng)網(wǎng)絡(luò)等算法的應(yīng)用原理及成效，可以為提升文本信息挖掘的準(zhǔn)確度提供支撐。

[1]孫師堯，妙全興．基于改進SVM和HMM的文本信息抽取算法[J]．計算機應(yīng)用與軟件，2015．

[2]文平，劉淵，張春瑞．基于后綴樹的半監(jiān)督自適應(yīng)多密度文本聚類算法[J]．小型微型計算機系統(tǒng)，2016．

[3]吐爾地·托合提，艾克白爾·帕塔爾，艾斯卡爾·艾木都拉．語義詞特征提取及其在維吾爾文文本分類中的應(yīng)用[J]．中文信息學(xué)報，2014．

[4]徐健鋒，許園，許元辰等．基于語義理解和機器學(xué)習(xí)的混合的中文文本情感分類算法框架[J]．計算機科學(xué)，2015．

[5]王生生，玄雪花．基于定性空間推理的中文文本空間關(guān)系識別[J]．吉林大學(xué)學(xué)報（理學(xué)版），2016．

圖1 過濾型特征選擇流程

過濾型特征選擇方式在使用上較為簡單，但是由于選擇的數(shù)據(jù)是比較特殊的特征子集，雖然提高了計算的準(zhǔn)確率，但是不能包含全部的數(shù)據(jù)簇，針對不同數(shù)據(jù)集的魯棒性和適應(yīng)性方面存在缺陷。

3.2 封裝型選擇算法

封裝型特征選擇方式是依靠具體的分類器進行選擇，這種算法可以大大提高數(shù)據(jù)分類的精度。但是在計算的過程中，分類器的性能直接決定分類結(jié)果，所以效率較低，不適合數(shù)據(jù)龐大的數(shù)據(jù)集或高維數(shù)據(jù)的運算，但是比較適合小眾的數(shù)據(jù)選擇，比如小語種學(xué)科數(shù)據(jù)集的選擇。封裝型選擇方式如圖2所示：

圖2 封裝型選擇方式

4 結(jié)束語

由此可知，在數(shù)據(jù)挖掘的過程中，利用特征加權(quán)與特征選擇算法可以有效地抑制高維數(shù)據(jù)和數(shù)據(jù)過于龐大的問題，幫助工程技術(shù)人員及用戶能夠快速有效地將潛在重要數(shù)據(jù)搜索出來，并進行合理的分配。

參考文獻：

[1]鄧文韜．基于幾何特征加權(quán)和選擇的數(shù)據(jù)空間聚類算法研究[J]．信息技術(shù)與信息化，2014．

[2]鄧瑩，楊雙遠，劉菡．基于可變加權(quán)的高維數(shù)據(jù)子空間聚類算法研究[J]．微型機與應(yīng)用，2009．