楊凡 任丹 丁函
摘 ?要: 大數(shù)據(jù)時代的到來,為人們帶來大量的文本信息,而如何在文本信息中搜尋有效信息,成為人們關注重點。文本分類技術是一項以人工技能為基礎的新型技術,其能夠根據(jù)語義分析將計算機技術文本進行科學分類,幫助人們獲得其想要的信息,滿足群眾的需求。對此,文章基于語義分析,探討了文本分類技術的應用。
關鍵詞: 語義分析;計算機技術;文本分類
中圖分類號: TP391.1 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.06.017
本文著錄格式:楊凡,任丹,丁函. 計算機技術文本分類中的語義分析算法的實踐探討[J]. 軟件,2019,40(6):7880
【Abstract】: The arrival of the era of big data has brought a lot of text information to people, and how to search for effective information in text information has become the focus of attention. Text classification technology is a new technology based on artificial skills. It can scientifically classify computer technical texts according to semantic analysis, helping people to get the information they want and meet the needs of the masses. In this regard, the article based on semantic analysis, explores the application of text classification technology.
【Key words】: Semantic analysis; Computer technology; Text classification
0 ?引言
文本分類技術[1]作為人工智能的一部分,是大數(shù)據(jù)時代衍生出的新技術,語義分析是腳本編譯過程的邏輯階段,審查源程序的上下文是否存在語義錯誤,為代碼的生成收集其所需的信息。當前,在文本分析技術應用時,常用的文本分類算法主要有:決策樹、神經(jīng)網(wǎng)絡、Rocchio、KNN、最大熵、遺傳算法等[2],隨著數(shù)據(jù)信息的不斷增多,文本信息的碎片化越發(fā)嚴重,傳統(tǒng)的文本分析算法已經(jīng)無法滿足需求。對此,文章探討了語義分析算法在文本分類中的應用。
1 ?國內(nèi)外對文本分類的發(fā)展
文本分類,國外對其的研究較早,在上世紀五十年代,IBM公司就提出了以詞頻統(tǒng)計對文本進行分類,在文本分類方面取得了開創(chuàng)性成果,之后,國外對文本分類展開深入研究,由實驗室到商業(yè)應用,取得了顯著成效。上世紀九十年代之前,文本分類主要有專業(yè)人員實現(xiàn),以純?nèi)斯し绞竭_到文本分類目的,耗費時間長,效率較低。九十年代以后,文本分類的重要性越發(fā)凸顯,傳統(tǒng)人工分類方式被淘汰,以機器學習成為文本分類的新模式,不需要專家判斷,即可完成文本分類,分類效率顯著提高。
國外在文本分類領域研究較早,并取得了顯著成果,如:Web網(wǎng)絡自動分類系統(tǒng),新聞稿件的自動投稿系統(tǒng)等。
相對來講,我國在文本分類方面研究較晚,因為中英文的差異,僅能參考國外研究成果,卻不能完全采用。同時,計算機設計以西方國家語言為主,文字編碼存在較大問題,為此,我國多位學者加大力度研究,并于上世紀八十年代解決漢字編碼這一難點,推動了我國文本分類的發(fā)展。當前,我國常用文檔分類方式大致可分為兩種:其一,基于統(tǒng)計學進行分類,以機器學習原理,對文本進行分類,該方式與文檔語義信息沒有直接關聯(lián)性。其二,基于語義對文本進行分類,利用文檔的語義將文本內(nèi)容分為不同種類。文章對語義分析在文本分類中的應用展開探析。
2 ?文本分類的概念與過程
文本分類,主要是利用計算機以一定的標準對文本進行自動分類標記,文本分類通常包含有文本表達、分類器選擇、分類器訓練、分類結果評價、反饋等[3],其中,文本表達又被分為文本預處理、索引、統(tǒng)計以及特征抽取。預處理,主要是將原始文本的格式進行統(tǒng)一,為后續(xù)處理奠定基礎;索引,主要是將文檔分解,形成基本處理單元,以此降低后續(xù)處理開銷;統(tǒng)計,主要包括詞頻的統(tǒng)計,單詞、概念與分類的概率;特征抽取,由文檔中抽取特征,展現(xiàn)文檔主題。因為文本分類主要是依照分類文檔的內(nèi)容進行劃分的,用以數(shù)學中的術語表示;若文檔集D=(d1, d2, d3,…, dn),其中,dn表示第n個文檔,將C代表文檔種類,C=(c1, c2, c3,…, ci),其中,ci代表擁有i個文檔種類。假設文檔集與文檔種類間有如下函數(shù)映射:D*C→{True, False},尋找目標可依照如下公式:D*C→{True, False},其中,代表分類器。若(d5, c7)=True,則代表文本d5被歸入c7中;若(d5, c7)=False,則表示d5不屬于c7。
文本分類[4]主要包含以下兩步:使用訓練數(shù)據(jù)對分類器進行訓練;使用測試數(shù)據(jù)對分類器進行評價。具體步驟如下:其一,應確定訓練與測試文檔,保障兩種文檔的標簽化;其二,將訓練文檔預處理;其三,以特征選擇得到特征向量,保障特征向量能夠有效區(qū)分多個文檔,優(yōu)化特征子集;其四,將分類算法所支持的訓練數(shù)據(jù)文件進行輸出,如:別名稱、特征詞、數(shù)字編號等的輸出,以此滿足分類算法學習對格式的需求;其五,對測試數(shù)據(jù)進行預處理,通過分詞、去停詞,對最優(yōu)的特種子集進行加載,刪除特征子集外的單詞,以此保障測試數(shù)據(jù)的準確性。其六,將分類算法所支持且量化的測試數(shù)據(jù)文件進行輸出,使分類算法學習訓練數(shù)據(jù)集,以此取得文本分類器。最后,利用測試數(shù)據(jù),對分類器精度進行驗證。
3 ?分析計算機技術文本分類的需求
3.1 ?基本流程
在計算機技術文本分類時,因計算機本身的智能性,在識別文本分類時,并不需要另外添加更智能的識別方式,以傳統(tǒng)的語義分析模式即可。語義分析的應用,通過對文本關鍵詞的組合,準確識別文本內(nèi)容,并將文本分為不同的種類。文章以五百字符內(nèi)的自然文本為例,探討了語義分析對其的分類。通常,自然文本多用于對網(wǎng)絡頁面文本進行分析,也被應用于識別內(nèi)容文本與代碼段,內(nèi)容文本主要是指捕捉的超文本標識代碼。其具體流程圖如圖1所示。
3.2 ?基本模塊
語義分析法是一種傳統(tǒng)腳本編譯算法,通常情況下,語義分析只能對人工輸入的特定文本進行分類,且識別關鍵詞較少,大多在80-120個之間。然而,在對自然文本分類時,如此規(guī)模根本無法滿足自然文本500字符的需求?;诖?,為在自然文本分類中發(fā)揮語義分析的作用,筆者選擇了采用三層識別,以此將自然文本準確劃分為不同模塊,模塊H圖如圖2所示。
第一,在文本中選擇適當?shù)年P鍵詞,識別超文本內(nèi)的標識段數(shù)據(jù),將數(shù)據(jù)剔除。第二,根據(jù)互聯(lián)網(wǎng)中自學習關鍵詞,識別自然文本中的關鍵詞,并依照詞頻與關聯(lián)度判斷其的價值。第三,依照自學習的關鍵詞,對自然文本的概念進行識別,對不同的文本段進行識別,并依照其相似度歸納文本段。
3.3 ?數(shù)據(jù)比較
在比較模塊中,若輸入數(shù)據(jù)A1.1,則該數(shù)據(jù)可看做是前置比較的關鍵詞,數(shù)據(jù)的作用主要是:幫助字段輔助識別字符串。如:在超文本的文本標識中,將數(shù)據(jù)輸入其中,則數(shù)據(jù)能夠幫助識別標識字符串。
在比較模塊中,輸入數(shù)據(jù)A1.2,則該數(shù)據(jù)可看做是一次比較的關鍵詞,數(shù)據(jù)來源于自然文本,是文本中常見字符串,極易被用戶搜索。通過對海量信息進行比較,所得字符串既該部分字符串。其中,海量信息的主要來源是互聯(lián)網(wǎng)。
在比較模塊中,輸入數(shù)據(jù)A1.3,則該數(shù)據(jù)可看作是補充比較的關鍵詞,該數(shù)據(jù)主要來源是A1.2,通過語義分析得到了數(shù)據(jù)A1.3。
由上文可知,語義分析之所以在自然文本分析中有效應用,選擇的是三層計算,在語義分析應用時,面對文本的多層架構,應通過不限制遞歸法,保障語義分析對文本的識別與分類[5]。因此,比較模塊的數(shù)據(jù)流較為簡單。若將AL1看做比較模塊輸出的數(shù)據(jù)流,則AL1被成為是比較結果字符串。雖然,語義分析的應用,并不能像人腦一樣對計算機文本進行有效識別,但是,字符串所提供的鏡像,也能夠對模糊語言識別并通過對比對文本準確分類,識別效率明顯高于人工,識別質量并不低。
4 ?語義分析算法的設計
在比較模塊中,前置比較主要是對超文本的對比計算,其運用的算法為語義分析,是當前文本分類中最經(jīng)典的算法。在一次比較和補充比較中,采用的算法時語義分析的延伸,以此保障語義分析法在自然語言文本分析中更為適用。本文在采用語義分析法比較自然語言的文本時,因使用了最小CPU,并引入RAM資源,所得的軟件更為高效,也更適用于現(xiàn)在互聯(lián)網(wǎng)的云服務中。
4.1 ?超文本對比函數(shù)算法
該種算法可直接通過以下編碼進行計算。
4.2 ?實現(xiàn)數(shù)據(jù)邏輯網(wǎng)絡
數(shù)據(jù)邏輯網(wǎng)絡,主要是指在數(shù)據(jù)庫采用數(shù)據(jù)結構,實現(xiàn)數(shù)據(jù)的一種邏輯網(wǎng)絡,在網(wǎng)絡中,每個數(shù)據(jù)都擁有若干上級數(shù)據(jù)、若干下級數(shù)據(jù)。其中每組數(shù)據(jù)不超過30字符,既15個漢字。上級數(shù)據(jù)與下級數(shù)據(jù)大多采用專用字段進行存儲,字段主要采用管理方式為二維數(shù)組管理。其中,二維數(shù)組中主要包含有30個字符的目標字符串、響應頻率、最后的響應時間。
在計算機文本分類中,語義分析的應用,為保障數(shù)據(jù)邏輯網(wǎng)絡調(diào)用的充分,可選擇全新的遍歷算法,對兩個二維數(shù)組進行分別遍歷,通過逐一比較與計算,最終得出正確結果。同時,在對其他詞語中的詞頻進行比較時,應重視二維數(shù)組的維護與更新。
4.3 ?文本相似度評估算法
在對相似文本進行評估時,語義分析法的應用能夠準確計算出P值,以此準確展現(xiàn)兩種文本的相似度[6]。第一步,可比較兩種文本的關鍵詞,通過分析關鍵詞的詞頻,檢驗兩者相似度。首先,語義分析法會對關鍵詞所在位置進行檢驗,并通過相關軟件對檢驗結果進行處理,得出值域。此時可直接對結果匯總,生成規(guī)范的表格。同時,對于輸入文本內(nèi)的關鍵詞詞頻進行分詞,檢驗分詞所處位置,并利用相關軟件對檢驗結果進行處理,得出值域。然后對結果進行匯總,生成規(guī)范的表格。第二步,對第一步中得到的兩個數(shù)據(jù)表格以及系統(tǒng)內(nèi)存儲的數(shù)據(jù)表進行檢驗,得到P值。若P值小于0.05,則表示兩個文本相似。若將兩個完全相同的自然文本進行語義分析,通過上述步驟,所得P值無限接近于零,可見,語義分析算法具有較高的識別能力。
5 ?總結
大數(shù)據(jù)時代的不斷深入,數(shù)據(jù)生成逐漸增多,想要在大量數(shù)據(jù)中尋找有效數(shù)據(jù)越發(fā)困難。對此,文章主要探討了語義分析法在計算機技術文本中的應用,并實現(xiàn)了不采用神經(jīng)網(wǎng)絡遞歸算法,即可獲得較高效率的軟件系統(tǒng),以期拋磚引玉,推動語義分析法的廣泛應用。
參考文獻
[1] 曹鋒, 張代遠. 文本分類技術研究[J]. 電腦知識與技術, 2009(32): 9023-9025.
[2] 杜隆胤. 基于語義分析在計算機技術文本分類中的應用研究[J]. 現(xiàn)代電子技術, 2016(5): 147-148.
[3] 許澤文. 基于語義分析的半監(jiān)督文本分類技術研究[J]. 北京工業(yè)大學, 2017(6): 117-117.
[4] 戚后林, 顧磊. 概率潛在語義分析的KNN文本分類算法[J]. 計算機技術與發(fā)展, 2017(6): 112-112.
[5] 季鐸, 畢臣, 蔡東風. 基于類別信息優(yōu)化的潛在語義分析分類技術[J]. 中國科學技術大學學報, 2015(4): 112-114.
[6] 徐沛娟. 中文文本分類相關算法的研究與實現(xiàn)[J]. 吉林大學學報(理學版), 2009(4): 790-794.