亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

深度學(xué)習(xí)視域下的文本特征提取方法分析

2020-10-15 01:15:09聶維劉小豫康世英

中小企業(yè)管理與科技·上旬刊 2020年9期

聶維劉小豫康世英

【摘? 要】特征提取是當(dāng)前關(guān)于文本挖掘、自然語(yǔ)言處理、信息檢索、文本情感分析和網(wǎng)絡(luò)輿情分析等領(lǐng)域的研究重難點(diǎn)。一方面，特征提取是基于文本挖掘系統(tǒng)的基本因素;另一方面，從文本分類(lèi)結(jié)果的角度而言，文本特征提取性能是分類(lèi)結(jié)果的重要衡量指標(biāo)。因此，論文詳細(xì)地闡述了傳統(tǒng)的文本特征提取方法和深度學(xué)習(xí)視域下的文本特征提取方法，并對(duì)基于深度學(xué)習(xí)視域下的文本特征提取方法在實(shí)際應(yīng)用中出現(xiàn)的問(wèn)題進(jìn)行分析和創(chuàng)新，以期能夠幫助提高提取效率和提取質(zhì)量。

【Abstract】Feature extraction is an important and difficult topic in the field of text mining， natural language processing， information retrieval， text sentiment analysis and network public opinion analysis. On the one hand， feature extraction is the basic factor of text mining system; on the other hand， from the perspective of text classification results， text feature extraction performance is an important measure of classification results. Therefore， this paper elaborates the traditional text feature extraction methods and text feature extraction methods from the perspective of deep learning， and analyzes and innovates the problems in the practical application of text feature extraction methods from the perspective of deep learning， so as to help improve the extraction efficiency and quality.

【關(guān)鍵詞】深度學(xué)習(xí);文本特征;提取方法;自然語(yǔ)言處理

【Keywords】deep learning; text feature; extraction method; natural language processing

【中圖分類(lèi)號(hào)】TP391.1;TP18? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文獻(xiàn)標(biāo)志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號(hào)】1673-1069（2020）09-0190-02

1 當(dāng)前對(duì)文本特征提取的主要方法

隨著信息技術(shù)的不斷發(fā)展，計(jì)算機(jī)網(wǎng)絡(luò)的應(yīng)用已經(jīng)成為日常生活中不可缺少的組成部分。隨著近年來(lái)云計(jì)算應(yīng)用和大數(shù)據(jù)的興起，網(wǎng)絡(luò)中所存儲(chǔ)的文件數(shù)量和內(nèi)容都越來(lái)越多，越來(lái)越廣泛。在保證大量存儲(chǔ)文件中的文本信息能夠得到有效管理和組織的基礎(chǔ)上，如何快速、準(zhǔn)確地獲取到文本信息中的內(nèi)容成為當(dāng)前文本挖掘、信息檢索或是網(wǎng)路輿情信息分析等行業(yè)首要解決的問(wèn)題。由于網(wǎng)絡(luò)文本信息內(nèi)容具有多樣性、復(fù)雜性、不規(guī)范性和冗余性的特點(diǎn)，因此，在對(duì)網(wǎng)絡(luò)文本信息進(jìn)行特征提取時(shí)首先要對(duì)高緯度特征進(jìn)行降維。另一方面，在高緯度特征空間中，提取最優(yōu)特征子集也可以歸納至特征提取方法中。但就目前的提取方法而言，主要分為Filter過(guò)濾式和Wrapper封裝式兩種提取方式。特征提取方式作為文本分類(lèi)的關(guān)鍵，對(duì)于文本分類(lèi)的好壞起到直接的影響作用。一是由于特征提取的方式不同對(duì)于所提取內(nèi)容的特征子集優(yōu)劣不同。二是在特征提取過(guò)程中，要選擇出能夠有效展示信息完整性的子集特征，才能夠最大限度地保證文本分類(lèi)的質(zhì)量。

1.1 Wrapper封裝式特征選擇算法

Wrapper封裝式的提取方法相較于Filter過(guò)濾式的提取方法在很大程度上會(huì)過(guò)于依賴監(jiān)督式機(jī)器的學(xué)習(xí)技術(shù)。監(jiān)督學(xué)習(xí)主要是指在特征選擇的過(guò)程中，對(duì)于特征子集的訓(xùn)練和學(xué)習(xí)。監(jiān)督式機(jī)器根據(jù)所訓(xùn)練的內(nèi)容和特征對(duì)于特征子集產(chǎn)生一定的判斷結(jié)果，并對(duì)其優(yōu)劣進(jìn)行評(píng)定。由于監(jiān)督機(jī)器需要設(shè)定固定的訓(xùn)練模型，因此，對(duì)于數(shù)據(jù)較為龐大的樣本時(shí)仍然具有較大的局限性。

1.2 Filter過(guò)濾式特征選擇算法

Filter過(guò)濾式作為一項(xiàng)效率高、運(yùn)算快的特征選擇提取方式，相比較于Wrapper封裝式的提取方法具有一定的獨(dú)立性，它是不依賴于訓(xùn)練集和監(jiān)督機(jī)器的。Filter過(guò)濾式特征選擇算法主要是根據(jù)特定的評(píng)估函數(shù)的運(yùn)算，選擇出最能夠體現(xiàn)文本類(lèi)別特征的合集。剛開(kāi)始特征類(lèi)別的合集僅僅是作為特征空間的子集存在的，在經(jīng)過(guò)不同函數(shù)的評(píng)估和判定之后，得出相應(yīng)的特征合集。目前Filter過(guò)濾式特征選擇算法包括距離測(cè)度、信息測(cè)度、一致性測(cè)度和相關(guān)性測(cè)度四個(gè)方面。

2 深度學(xué)習(xí)視域下的文本特征提取方法

特征提取作為機(jī)器學(xué)習(xí)中較為重要的特征工程任務(wù)，是相關(guān)處理機(jī)器所需要學(xué)習(xí)的重要內(nèi)容之一，同時(shí)在數(shù)據(jù)挖掘和信息檢索中也起著不可忽視的作用。就目前來(lái)看，在機(jī)器學(xué)習(xí)的眾多人物中，特征提取往往在起著決定性作用。一方面，在常用類(lèi)任務(wù)方面，分類(lèi)結(jié)果是取決于特征提取的質(zhì)量。另一方面，在傳統(tǒng)的特征提取方法中，人工提取是主要的提取手段，這種提取方法包含了冗余的分類(lèi)任務(wù)和提取特征，使得人工提取難度增加，無(wú)論是在質(zhì)量方面還是在效率方面都具有一定的局限性。為了解決這一問(wèn)題的困擾，大多是對(duì)任務(wù)特征進(jìn)行降維，在保證特征提取質(zhì)量時(shí)，又加大了工作量。因此，傳統(tǒng)的特征提取方式并不能很好地滿足當(dāng)前社會(huì)的需求。

近年來(lái)，隨著我國(guó)信息技術(shù)的不斷發(fā)展，對(duì)于特征提取的相關(guān)技術(shù)手段的研究?jī)?nèi)容也不斷增加。其中較為著名的有使用多個(gè)卷積層與池化層的卷積網(wǎng)絡(luò)來(lái)對(duì)高光譜圖像的特征進(jìn)行提取，并通過(guò)實(shí)驗(yàn)后具有不錯(cuò)的檢測(cè)效果。在文本特征提取方面，主要是關(guān)于基于深度學(xué)習(xí)的特征提取方法居多，其中包括自編碼的神經(jīng)網(wǎng)絡(luò)特征提取、受限波茲曼機(jī)特征提取和循環(huán)神經(jīng)網(wǎng)絡(luò)特征提取等。這些基于深度學(xué)習(xí)理念的特征提取方法不僅對(duì)傳統(tǒng)詞袋模型進(jìn)行了探討，同時(shí)對(duì)非傳統(tǒng)神經(jīng)網(wǎng)絡(luò)特征提取方法也提供了一定的借鑒材料。因此，在這一時(shí)期內(nèi)，結(jié)合深度學(xué)習(xí)理念的特征提取稱為研究熱點(diǎn)。

目前，基于深度學(xué)習(xí)理念的特征提取技術(shù)在圖像領(lǐng)域的應(yīng)用不斷加強(qiáng)，而有關(guān)于文本特征提取的報(bào)道卻并不多見(jiàn)。在對(duì)中文文本提取特征的研究成果中，相關(guān)的研究?jī)?nèi)容更是稀缺。而傳統(tǒng)的手工特征提取方法不僅維度較大，同時(shí)也具有效率低和耗費(fèi)資源等問(wèn)題。因此，深度學(xué)習(xí)作為近年來(lái)文本特征提取的重要指導(dǎo)思想，對(duì)文本特征的提取難度和特征提取效率都具有一定的幫助。

因此，在本文中，對(duì)基于深度學(xué)習(xí)視域下的特征提取方法主要從卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和卷積循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)兩種處理方式來(lái)展開(kāi)。同時(shí)對(duì)于兩種方式下的特征提取方式作了詳細(xì)的解釋?zhuān)云谀軌蚋鼮闇?zhǔn)確地表達(dá)出文本信息的內(nèi)容，從而獲得更好的分類(lèi)效果。

2.1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)于特征提取方面的應(yīng)用，更為常用的是在計(jì)算機(jī)視覺(jué)領(lǐng)域并且相關(guān)的應(yīng)用技術(shù)都已經(jīng)趨于成熟。隨著深度學(xué)習(xí)理念的發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)也被越來(lái)越多的學(xué)者應(yīng)用于自然語(yǔ)言的處理領(lǐng)域，并且取得了較好的實(shí)驗(yàn)效果。在當(dāng)前的文本特征提取中，卷積神經(jīng)網(wǎng)絡(luò)更常見(jiàn)地應(yīng)用于對(duì)任務(wù)的分類(lèi)中，分類(lèi)效果良好。

2.1.1 TF-IDF

TF-IDF（term frequency-inverse document frequency）是在卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的組成部分之一，是基于統(tǒng)計(jì)學(xué)的應(yīng)用技術(shù)之一，主要是用來(lái)計(jì)算詞權(quán)重的方法之一，同時(shí)也是特征向量化的常用方法。TF-IDF目前更多地應(yīng)用于信息檢索和數(shù)據(jù)挖掘等方面，該方法不僅能夠準(zhǔn)確地評(píng)估某一個(gè)具體文檔在語(yǔ)料庫(kù)或其他文檔中的重要程度，還能夠詳細(xì)地分析出某一文件的具體權(quán)重，從而幫助區(qū)分文檔的獨(dú)立性。

2.1.2 Word2vec

Word2vec是與TF-IDF相似的，是作為卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的組成部分之一。而不同的地方主要體現(xiàn)在，TF-IDF主要是對(duì)文本權(quán)重的分析，而Word2vec則是詞嵌入工具。這種詞嵌入工具最早源于谷歌，同時(shí)也是在自然語(yǔ)言處理領(lǐng)域中較為常用的一種詞嵌入方式。在理論上，Word2vec是通過(guò)將每個(gè)特征詞映射至向量空間，并通過(guò)其中的某一個(gè)向量表現(xiàn)出來(lái)。通過(guò)所表現(xiàn)的向量來(lái)刻畫(huà)出具體的文本語(yǔ)言信息，從而使計(jì)算機(jī)特征之間的相關(guān)性更為明顯。Word2vec作為詞嵌入工具主要有兩種模型：一是跳字模型。跳字模型是根據(jù)文本中的中心詞來(lái)預(yù)測(cè)上下文的背景，同時(shí)根據(jù)檢測(cè)特征詞來(lái)調(diào)整中心詞的詞向量。二是連續(xù)詞袋模型。連續(xù)詞袋模型不同于跳字模型，主要是依據(jù)上下文的背景來(lái)預(yù)測(cè)中心詞，而后根據(jù)上下文之間的區(qū)別和變化來(lái)不斷調(diào)整中心詞的詞向量。

2.2 循環(huán)卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相較于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)而言，更具有局部特征的提取優(yōu)勢(shì)，這主要是因?yàn)殚L(zhǎng)短期的記憶網(wǎng)絡(luò)更能夠捕捉上下文信息。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)λ枰崛〉奈谋具M(jìn)行多組特征提取，并對(duì)所提取的多組文本特征進(jìn)行池化，從而得到文本內(nèi)容中較為重要的特征，最后再由提取出的重要特征送入LSTM神經(jīng)網(wǎng)絡(luò)檢測(cè)，并得出最終結(jié)果。

3 結(jié)論

本文詳細(xì)地闡述了傳統(tǒng)的文本特征提取方式和基于深度學(xué)習(xí)理念下的本文特征提取方式，并對(duì)不同的特征提取方法作了一定的比較和探討。在特征提取方面，要充分考慮到本內(nèi)容中特征詞的詞性，位置分布和相互之間的關(guān)系，只有充分考慮到這些因素，才能夠?qū)⑻卣魈崛『头诸?lèi)方法完美結(jié)合，才能夠?qū)μ卣魈崛〉膬?nèi)容進(jìn)一步完善。

【參考文獻(xiàn)】

【1】聶維，劉小豫.深度學(xué)習(xí)視域下的文本表示方法研究[J].科技資訊，2019，17（18）：30+32.

【2】龐景安.Web文本特征提取方法的研究與發(fā)展[J].情報(bào)理論與實(shí)踐，2006（03）：338-340+367.