◆劉 昆
(中國礦業(yè)大學(xué)徐海學(xué)院 江蘇 221008)
機器學(xué)習(xí)算法在文本信息挖掘中的應(yīng)用
◆劉 昆
(中國礦業(yè)大學(xué)徐海學(xué)院 江蘇 221008)
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和進步,其已經(jīng)在電子政務(wù)、電子商務(wù)、金融證券、電力通信等行業(yè)得到廣泛使用,提高了社會信息化水平,也使人類社會進入到“互聯(lián)網(wǎng)+”時代,積累了海量的信息資源。文本是網(wǎng)絡(luò)文件的一種重要格式文件,百度、搜狐、搜狗、谷歌等搜索引擎多采用文本搜索模式,以便獲取人們期望的信息,因此需要提高挖掘文本信息的準(zhǔn)確度,進一步滿足人們對信息檢索的期望。本文詳細地分析了支持向量機、BP神經(jīng)網(wǎng)絡(luò)、K均值等機器學(xué)習(xí)算法,分析了這些算法在文本數(shù)據(jù)挖掘中的應(yīng)用效果及優(yōu)勢,以提升互聯(lián)網(wǎng)利用文本數(shù)據(jù)的水平。
K均值;文本數(shù)據(jù);BP神經(jīng)網(wǎng)絡(luò);支持向量機
文本信息挖掘是當(dāng)前機器學(xué)習(xí)和模式識別研究的一個重點,其可以為互聯(lián)網(wǎng)信息搜索提供強大的支撐和接口,滿足人們的信息搜索需求[1]。經(jīng)過多年的發(fā)展和應(yīng)用,文本信息挖掘已經(jīng)誕生了許多先進算法,可以大幅度提升文本信息挖掘的準(zhǔn)確度[2]。但是,隨著光線互聯(lián)網(wǎng)、移動通信網(wǎng)絡(luò)的快速發(fā)展和進步,電力、金融、政務(wù)、商務(wù)、教育等領(lǐng)域均引入了先進的信息化系統(tǒng),這些系統(tǒng)運行時積累了海量的數(shù)據(jù)資源,這些數(shù)據(jù)資源大部分為文本信息,因此文本信息挖掘面臨著海量數(shù)據(jù),維度和屬性的增多,非常容易造成文本信息挖掘陷入到局部最優(yōu)化,降低了算法的準(zhǔn)確度[3]。
互聯(lián)網(wǎng)時代,文本信息挖掘已經(jīng)在搜索引擎、商品推薦、科學(xué)研究、醫(yī)療衛(wèi)生和網(wǎng)上教育等領(lǐng)域得到廣泛普及和使用,取得了顯著的應(yīng)用成效[4]。
(1)搜索引擎。搜索引擎是文本信息挖掘的重要領(lǐng)域,百度、谷歌、搜狗等公司一直致力于文本信息挖掘研究,根據(jù)用戶輸入的信息進行搜索時能夠更加準(zhǔn)確地獲取期望內(nèi)容,搜索引擎面臨的信息較多,并且也是信息搜索的重要基礎(chǔ)[5]。
(2)商品推薦。目前,京東商城、天貓商城、蘇寧云商等大中型互聯(lián)網(wǎng)商務(wù)網(wǎng)站迅速崛起,其包括數(shù)以萬計的商品,因此在人們搜索商品的過程中,為了提高瀏覽的準(zhǔn)確度,可以根據(jù)人們的歷史瀏覽記錄、購買記錄等自動化推薦商品,這樣就可以更好地縮短人們?yōu)g覽商品的時間,提高商品瀏覽的效率。
(3)科學(xué)研究。科學(xué)研究面臨著海量的文獻資源,這些文獻資料在搜索時非常繁瑣,因此利用文本信息挖掘可以實時搜索科技文獻,便于為知網(wǎng)、萬方、維普等多個文獻數(shù)據(jù)庫的信息檢索提供輔助支撐,具有重要的作用和意義。
(4)醫(yī)療衛(wèi)生。當(dāng)前我國信息化得到了深入應(yīng)用,醫(yī)療衛(wèi)生改革的重要途徑就是引入信息化模型,開發(fā)智能醫(yī)療系統(tǒng)。醫(yī)療診斷過程中,為了能夠更好地為患者提供服務(wù),可以結(jié)合患者的病歷及診斷療效建立一個系統(tǒng)模型,構(gòu)建一種精準(zhǔn)醫(yī)療模式,將患者、主治醫(yī)師關(guān)聯(lián)起來,提供更好的醫(yī)療服務(wù)水平。
(5)網(wǎng)上教育。目前,教育行業(yè)開發(fā)了許多的系統(tǒng),比如教務(wù)管理系統(tǒng)、圖書館管理系統(tǒng)、學(xué)籍管理系統(tǒng)、科研管理系統(tǒng)和成績管理系統(tǒng),這些系統(tǒng)運行積累了海量的文本數(shù)據(jù),人們?yōu)榱颂岣呔W(wǎng)絡(luò)教育智能化水平,利用數(shù)據(jù)挖掘構(gòu)建智能教育模型,將名師、問題、學(xué)生關(guān)聯(lián)起來,提供一個網(wǎng)上教育渠道。
2.1 K均值
K均值是一種無監(jiān)督學(xué)習(xí)算法,其可以將網(wǎng)絡(luò)上數(shù)以億計的文本劃分為N個簇,每一個簇都包含一個簇心,用戶輸入相關(guān)的信息之后,可以計算該文本與N個簇心的距離,選擇一個距離最近的簇與文本合并到一起。經(jīng)過多年的應(yīng)用,K均值在文本信息挖掘中得到了極大的改進,比如引入模糊數(shù)學(xué)理論優(yōu)化目標(biāo)函數(shù),提出了模糊K均值算法,將硬劃分模式改為軟劃分,這樣就可以更加準(zhǔn)確地劃分文本類別;引入模擬退火思想,可以自行向下將所有的文本進行劃分,利用層次分析模式,構(gòu)建一個樹型文本分類結(jié)構(gòu)實現(xiàn)文本挖掘,具有重要的作用[6]。
2.2 支持向量機
支持向量機是一種有監(jiān)督學(xué)習(xí)算法,其采用統(tǒng)計學(xué)習(xí)理論,采用結(jié)構(gòu)風(fēng)險最小化原則,適當(dāng)?shù)剡x擇函數(shù)子集以及判別函數(shù),這樣就可以使學(xué)習(xí)機器承受的風(fēng)險達到最小化程度,因此可以使文本數(shù)據(jù)挖掘的學(xué)習(xí)訓(xùn)練樣本達到最佳程度,并且能夠保證結(jié)構(gòu)圖集的誤差處于最小化。具體地,支持向量機在文本數(shù)據(jù)挖掘中可劃分為兩個關(guān)鍵類型,具體描述如下。
(1)線性可分情況。原始解空間可以劃分為兩種類別,分別是兩個超平面,此時就可以直接對空間進行劃分和學(xué)習(xí)。
(2)線性不可分情況。如果原始解空間線性不可分,此時需要在支持向量機中加入松弛變量,利用非線性映射關(guān)系將低維信息映射到高維空間中,這樣就可以將線性不可分轉(zhuǎn)變?yōu)榫€性可分,從而實現(xiàn)文本分類挖掘。
2.3 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)又被稱為連接機模型,采用了心理學(xué)、神經(jīng)學(xué)、網(wǎng)絡(luò)學(xué)和傳感器等學(xué)科的知識,整合了生物神經(jīng)網(wǎng)絡(luò)系統(tǒng)活動的整個過程,能夠模仿人類學(xué)習(xí)的過程和大腦神經(jīng)系統(tǒng)活動的規(guī)律,建立一種計算模式,將一個個的神經(jīng)單元連接在一起,形成一個互聯(lián)網(wǎng)學(xué)習(xí)和分類系統(tǒng),具有自行學(xué)習(xí)、組織和并發(fā)處理的優(yōu)點,在語音分析、計算機視覺、圖像識別等眾多方面具有突出的貢獻。近來一段時間,人工神經(jīng)網(wǎng)絡(luò)技術(shù)得到跨越式的發(fā)展,成為了模式識別的主要工具。在文本信息挖掘領(lǐng)域,BP神經(jīng)網(wǎng)絡(luò)具有很多的應(yīng)用優(yōu)勢:
(1)自行學(xué)習(xí)和適應(yīng)能力:BP神經(jīng)網(wǎng)絡(luò)具有較強的自學(xué)習(xí)能力,能夠?qū)W(xué)習(xí)到的網(wǎng)絡(luò)結(jié)構(gòu)保存起來,便于輸入數(shù)據(jù)進行訓(xùn)練,同時也可以根據(jù)系統(tǒng)數(shù)據(jù)的輸入情況,動態(tài)地調(diào)整神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程,動態(tài)更新學(xué)習(xí)網(wǎng)絡(luò)模型。
(2)泛化能力:泛化能力即為在設(shè)計模式分類器的時候,要同時考慮兩個方面,一方面要對分類對象的正確性有所保證,另一方面是注意對未處理過或未碰見過的模式是否能正確分類??梢夿P神經(jīng)網(wǎng)絡(luò)具有把學(xué)習(xí)的成果應(yīng)用于新領(lǐng)域的能力。
(3)容錯能力:即為BP神經(jīng)網(wǎng)絡(luò)在部分網(wǎng)絡(luò)遭到破壞時候,對整體的操作不造成大的影響,通俗地講就是系統(tǒng)部分破壞還能正常工作。所以BP神經(jīng)網(wǎng)絡(luò)有著強大的容錯能力。
(4)非線性映射能力:BP神經(jīng)網(wǎng)絡(luò)本質(zhì)上有著從輸入到輸出的映射功能,其能任意精度靠近所有非線性連續(xù)函數(shù)。這就為求解內(nèi)部機制復(fù)雜的問題提供了強有力的技術(shù)支持。
2.4 其他機器學(xué)習(xí)算法
隨著文本挖掘算法的提出和改進,人們在K均值、BP神經(jīng)網(wǎng)絡(luò)和支持向量機算法誕生之后又提出了許多的算法,比如貝葉斯理論、信息論、遺傳算法等,這些算法也可以大幅度提升文本信息數(shù)據(jù)挖掘的準(zhǔn)確度。信息論利用率失真理論可以對數(shù)據(jù)進行壓縮和分析,將海量的數(shù)據(jù)集劃分到幾個簇中,然后根據(jù)率失真代價函數(shù)進行優(yōu)化,實現(xiàn)數(shù)據(jù)集分類。遺傳算法可以利用生物進化模型,引入選擇算子、變異算子、交換算子等,提高生物進化群體的多樣化。遺傳算法在文本信息挖掘領(lǐng)域中,提高了文本信息挖掘的性能,具有重要的作用。
文本挖掘是當(dāng)前最為重要的互聯(lián)網(wǎng)搜索內(nèi)容,其可以為用戶提供強大的信息檢索能力,已經(jīng)在搜索引擎、文獻分類、醫(yī)療衛(wèi)生等領(lǐng)域得到廣泛普及和使用,取得了顯著的應(yīng)用成效。論文基于筆者的學(xué)習(xí)實踐和經(jīng)驗,詳細探討了K均值、支持向量機、BP神經(jīng)網(wǎng)絡(luò)等算法的應(yīng)用原理及成效,可以為提升文本信息挖掘的準(zhǔn)確度提供支撐。
[1]孫師堯,妙全興.基于改進SVM和HMM的文本信息抽取算法[J].計算機應(yīng)用與軟件,2015.
[2]文平,劉淵,張春瑞.基于后綴樹的半監(jiān)督自適應(yīng)多密度文本聚類算法[J].小型微型計算機系統(tǒng),2016.
[3]吐爾地·托合提,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉.語義詞特征提取及其在維吾爾文文本分類中的應(yīng)用[J].中文信息學(xué)報,2014.
[4]徐健鋒,許園,許元辰等.基于語義理解和機器學(xué)習(xí)的混合的中文文本情感分類算法框架[J].計算機科學(xué),2015.
[5]王生生,玄雪花.基于定性空間推理的中文文本空間關(guān)系識別[J].吉林大學(xué)學(xué)報(理學(xué)版),2016.
圖1 過濾型特征選擇流程
過濾型特征選擇方式在使用上較為簡單,但是由于選擇的數(shù)據(jù)是比較特殊的特征子集,雖然提高了計算的準(zhǔn)確率,但是不能包含全部的數(shù)據(jù)簇,針對不同數(shù)據(jù)集的魯棒性和適應(yīng)性方面存在缺陷。
3.2 封裝型選擇算法
封裝型特征選擇方式是依靠具體的分類器進行選擇,這種算法可以大大提高數(shù)據(jù)分類的精度。但是在計算的過程中,分類器的性能直接決定分類結(jié)果,所以效率較低,不適合數(shù)據(jù)龐大的數(shù)據(jù)集或高維數(shù)據(jù)的運算,但是比較適合小眾的數(shù)據(jù)選擇,比如小語種學(xué)科數(shù)據(jù)集的選擇。封裝型選擇方式如圖2所示:
圖2 封裝型選擇方式
由此可知,在數(shù)據(jù)挖掘的過程中,利用特征加權(quán)與特征選擇算法可以有效地抑制高維數(shù)據(jù)和數(shù)據(jù)過于龐大的問題,幫助工程技術(shù)人員及用戶能夠快速有效地將潛在重要數(shù)據(jù)搜索出來,并進行合理的分配。
參考文獻:
[1]鄧文韜.基于幾何特征加權(quán)和選擇的數(shù)據(jù)空間聚類算法研究[J].信息技術(shù)與信息化,2014.
[2]鄧瑩,楊雙遠,劉菡.基于可變加權(quán)的高維數(shù)據(jù)子空間聚類算法研究[J].微型機與應(yīng)用,2009.