亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卷積神經(jīng)網(wǎng)絡(luò)的文本語義分析系統(tǒng)

        2022-06-01 02:08:02李政翰劉云鵬通信作者吳飛凡李士杰
        信息記錄材料 2022年4期
        關(guān)鍵詞:語義分類文本

        薛 毅,李政翰,王 斌,劉云鵬(通信作者),孫 東,吳飛凡,李士杰,肖 遙,王 勝

        (1 佳木斯大學(xué)信息電子技術(shù)學(xué)院 黑龍江 佳木斯 154007)

        (2 廣西科技大學(xué)電氣電子與計(jì)算機(jī)科學(xué)學(xué)院 廣西 柳州 545006)

        0 引言

        互聯(lián)網(wǎng)時(shí)代的飛速發(fā)展,產(chǎn)生了大量的數(shù)據(jù),在新聞、金融、互聯(lián)網(wǎng)等行業(yè)中,大都是單一地使用數(shù)學(xué)方法來對(duì)文本進(jìn)行分類和語義分析,分類效率比較低,耗費(fèi)的時(shí)間比較長,如何找到分類效率高的方法成了許多學(xué)者研究的重要課題。1958年,HP.Luhn首次將頻率計(jì)算引入語義分析,開創(chuàng)了文本語義分析的先河。與此同時(shí),Maron 和Kuhn開發(fā)了第一個(gè)自動(dòng)文本語義分析工具,成了將其分離為獨(dú)立研究項(xiàng)目的先驅(qū)[1]。但HP.Luhn 和Kuhn 只是簡(jiǎn)單地用數(shù)學(xué)方法統(tǒng)計(jì)每個(gè)詞出現(xiàn)的概率,分類效率也比較低。1981 年,我國的侯漢清教授首次研究了文本分類的應(yīng)用,并構(gòu)想出了許多未來發(fā)展的觀點(diǎn)。1999 年,鄒濤還創(chuàng)造了一些與文本語義相關(guān)的重要方法,如相應(yīng)的模型、提取主干和字典,相比之前的研究更加系統(tǒng)化,但是效率還是不夠高[2]。我們基于傳統(tǒng)文本語義分析,加入了卷積神經(jīng)網(wǎng)絡(luò),綜合各個(gè)分類方法的優(yōu)點(diǎn),提出了基于卷積神經(jīng)網(wǎng)絡(luò)的文本語義分析系統(tǒng),可以解決海量文本分類效率低的問題。

        1 系統(tǒng)研究現(xiàn)狀

        1.1 機(jī)器學(xué)習(xí)研究現(xiàn)狀

        探索如何模仿或者學(xué)習(xí)人類舉動(dòng)是機(jī)器學(xué)習(xí)的一個(gè)方向,它能讓機(jī)器獲得全新的知識(shí)和技能,并重新梳理知識(shí)體系,進(jìn)一步提高性能[3]。機(jī)器學(xué)習(xí)是人工智能的核心,是實(shí)現(xiàn)計(jì)算機(jī)智能化的根本途徑。它被廣泛應(yīng)用于人工智能的各個(gè)領(lǐng)域,主要使用歸納、綜合而不是解釋。

        機(jī)器學(xué)習(xí)是互聯(lián)網(wǎng)AI 探索中比較重要的一個(gè)模塊。其發(fā)展過程可分為4 個(gè)階段:第1 階段是從1955 年到1965 年,屬于飛速發(fā)展的蓬勃時(shí)期。第2 階段是從1965年到1975 年,被稱為機(jī)器學(xué)習(xí)的平穩(wěn)時(shí)期。第3 階段是從1975 年到1985 年,這稱為機(jī)器學(xué)習(xí)發(fā)展穩(wěn)中向好的回暖時(shí)期。

        1.2 文本語義分析研究現(xiàn)狀

        按照自然語言的構(gòu)成層次——詞語、句子和篇章,分析各層語義分析的內(nèi)涵、現(xiàn)有的研究策略、理論依據(jù)及存在的主要方法,并對(duì)現(xiàn)存的兩類主要研究策略進(jìn)行對(duì)比分析。詞的語義分析是指確定詞的意思,測(cè)定兩個(gè)詞之間意思的類似度和相關(guān)度[3]。語義分析研究包括兩個(gè)方面:語義分析和語義相似度分析。文章的語義分析是識(shí)別文章的意義、主題、范疇等相關(guān)信息的過程。目前,自然語言語義分析的研究主要有兩種策略,一個(gè)是基于統(tǒng)計(jì)的語義分析,另一個(gè)是基于語義學(xué)理論的文本語義分析,兩種策略都有各自的特點(diǎn)。

        1.2.1 基于統(tǒng)計(jì)的文本語義分析

        當(dāng)前典型的大范圍文本語義分析研究大多數(shù)以交叉驗(yàn)證法為根基。該方法是基于數(shù)學(xué)理論,如線性代數(shù)、矩陣?yán)碚摗⒔y(tǒng)計(jì)和概率論,將文本視為由獨(dú)立單詞(即文章是一組單詞)組成的單詞包,然后基于詞的統(tǒng)計(jì)信息,將大量文本中詞與詞或者詞與文本之間可能存在的關(guān)系進(jìn)行呈現(xiàn)和分析,在此基礎(chǔ)上,分析文本集合中隱藏的主題、詞與文本之間的潛在語義結(jié)構(gòu)等語義信息。有代表性的方法包括潛在語義分析(LSA)、概率潛在語義分析(PLSA)和隱式Dirichlet 賦值(LDA)。

        1.2.2 基于語義學(xué)理論的文本語義分析

        目前,文本語義學(xué)的語義學(xué)理論可用于概念語義學(xué)和概念層次語義學(xué),最有代表性的是框架語義學(xué)[4]??蚣苷Z義學(xué)是美國學(xué)者在20 世紀(jì)70 年代提出的一種經(jīng)驗(yàn)語言,它提供了一種描述意義和語法結(jié)構(gòu)的方法。該框架指的是符合特定動(dòng)機(jī)背景的結(jié)構(gòu)化處理手段。例如,“網(wǎng)上購物”一詞激活了一種行為模式,即購物流程,其中包括產(chǎn)品搜索、下單、支付和物流等連續(xù)事件。語義框架表示的是許多參加者、環(huán)境條件和其他被稱為框架元素的相關(guān)角色,與框架概念有一定的相關(guān)性。

        1.3 系統(tǒng)的整體框架

        系統(tǒng)的整體框架見圖1。

        從圖1 可以看出,整個(gè)文本語義分析系統(tǒng)被劃分成5個(gè)模塊:預(yù)處理模塊、特征處理模塊、格式轉(zhuǎn)換模塊、分類器模塊和分類結(jié)果模塊。每個(gè)模塊都有各自的處理流程。整體來講,文本語義分析的大概流程如下。

        (1)將訓(xùn)練文本進(jìn)行分詞處理和去停用詞處理,在這里設(shè)計(jì)了兩種分詞方法,分別針對(duì)不同的文本內(nèi)容來進(jìn)行。

        (2)將文本特征向量輸入分類器對(duì)文本實(shí)行分類,即使用不同的文本模型對(duì)文本進(jìn)行測(cè)試,從而得到最終的分類成果。

        (3)將分類結(jié)果進(jìn)行全面的分析,最終得到想要的答案。

        2 文本分類器的訓(xùn)練

        2.1 文本訓(xùn)練方法

        文本訓(xùn)練過程是構(gòu)建分類器的過程,是文本語義分析系統(tǒng)的核心。系統(tǒng)原型主要針對(duì)本項(xiàng)目設(shè)計(jì)的支持向量機(jī)和簡(jiǎn)單Bayes 分類器,因此分別建立支持向量機(jī)和簡(jiǎn)單Bayes 分類器是必要的[4]。對(duì)此,需要將IT 域中的矢量化訓(xùn)練集文本輸入支持向量機(jī)分類器,分類后得到各類別的分類結(jié)果。學(xué)習(xí)特定的文本模型是分類操作的重要步驟,是完成文本分類的首要手段。根據(jù)學(xué)習(xí)的模型對(duì)尚未明確的文本實(shí)施分類后,分類器可以獲得相應(yīng)的分類結(jié)果,結(jié)束整個(gè)分類過程。以下是兩種文本訓(xùn)練方法,包括基于統(tǒng)計(jì)學(xué)習(xí)理論的支持向量機(jī)和貝葉斯分類。

        基于統(tǒng)計(jì)學(xué)習(xí)理論的支持向量機(jī)避開了舊分類算法中樣本數(shù)量不可控制的問題。它具有較好的泛化性能和明顯的準(zhǔn)確率優(yōu)勢(shì)。支持向量機(jī)(SVM)算法基于VC 維理論和統(tǒng)計(jì)學(xué)習(xí)理論的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理。它將原始數(shù)據(jù)集壓縮為一組支持向量,而后應(yīng)用該子集來學(xué)習(xí)新內(nèi)容。同時(shí)給出這些支持向量所明確的規(guī)則,可以獲得學(xué)習(xí)誤差概率的上限。它的主要思想是尋找最優(yōu)超平面[5],用以滿足分類問題和分類要求,如果一個(gè)分類問題中有k 類,k 類中的任意兩個(gè)類都可以被劃分。

        貝葉斯分類是一種基于貝葉斯定理的統(tǒng)計(jì)分類方法。它可以得出各個(gè)分類的概率分布情況,并給出文本屬于特定類別的概率。在分類時(shí),可以根據(jù)預(yù)測(cè)結(jié)果將文本劃分為概率最高的類別。樸素貝葉斯假設(shè)在包含多個(gè)特征的情況下,整體的單個(gè)特征對(duì)模型的影響?yīng)毩⒂谄渌卣?,即模型的特征互不相關(guān)。這是為了減少計(jì)算開銷而引入的模型條件獨(dú)立性假設(shè)[6]。

        2.2 文本模型訓(xùn)練

        文本模型訓(xùn)練時(shí)使用了卷積神經(jīng)網(wǎng)絡(luò)算法,需要提供一個(gè)Training,而評(píng)價(jià)該文本模型好壞需要提供一個(gè)Test。因此,在調(diào)用訓(xùn)練算法之前,必須將整個(gè)數(shù)據(jù)分成Training/Test 對(duì),Training 和Test 之間沒有相同的部分。劃分?jǐn)?shù)據(jù)集時(shí),要確認(rèn)文本模型信息以符合預(yù)期的比例呈現(xiàn),以便整體模型的先驗(yàn)概率不受影響。但是僅僅使用一個(gè)Training/Test 對(duì)來完成文本模型的學(xué)習(xí)和評(píng)價(jià)是遠(yuǎn)遠(yuǎn)不夠的,因?yàn)門raining 和Test 在一定概率下,數(shù)量達(dá)不到要求,并且噪聲、離散點(diǎn)等異常數(shù)值可能對(duì)文本分類模型產(chǎn)生影響,另外模型在一定程度上取決于不確定性的因素[7-8]。因此在有必要的時(shí)候,我們需要分別在K 個(gè)不同的Training 和Test 對(duì)上訓(xùn)練和評(píng)估模型的整體性能,K 的取值通常為10 或30。我們采用了TensorFlow 作為工具,實(shí)現(xiàn)對(duì)于文本分類模型的訓(xùn)練,之后再分別對(duì)K 個(gè)不同的數(shù)據(jù)集進(jìn)行評(píng)價(jià)和效果改進(jìn)。TensorFlow 最大的特點(diǎn)是支持不同機(jī)型設(shè)備的分散計(jì)算,在各平臺(tái)上可以自動(dòng)運(yùn)行模型。

        在TensorFlow 中,節(jié)點(diǎn)的權(quán)重和偏差值作為變量存儲(chǔ)tf.Variable 對(duì)象。當(dāng)數(shù)據(jù)流映射調(diào)用run()函數(shù)時(shí),這些值不會(huì)被修改。在這種情況下,需要計(jì)算兩個(gè)誤差,調(diào)節(jié)并最小化諸如權(quán)重的參數(shù)。一般計(jì)算誤差的方法很多,這里為了處理分類問題,使用交叉熵誤差。在TensorFlow中,可以調(diào)用tf.nn.softmax_cross_entropy_with_logits()函數(shù)來計(jì)算交叉熵誤差,其中我們的激活函數(shù)選擇Softmax,因此softmax-誤差函數(shù)出現(xiàn)了,獲得誤差后,下一個(gè)任務(wù)是如何最小化誤差。這里我們選擇的方法是最常用的隨機(jī)梯度下降方法,其直觀原理圖見圖2。

        類似地,計(jì)算梯度下降的方法也很多,但是這里采用Adaptive MomentEstimation(Adam)優(yōu)化方法,即自適應(yīng)矩估計(jì)的優(yōu)化方法,具體來說,TensorFolow中的主要函數(shù)是tf.train.AdamOptimizer(learning_rate).minimize(loss)函數(shù)[7]。在這里,需要傳達(dá)learning_rate 參數(shù)來計(jì)算梯度時(shí)間的步長。非常方便的是,AdamOptimzer()函數(shù)封裝了梯度計(jì)算和實(shí)時(shí)更新兩個(gè)功能,即通過調(diào)用該函數(shù),不僅可以計(jì)算梯度值,而且可以將計(jì)算結(jié)果更新到所有tf。在Variables 對(duì)象中,可大幅降低編程的復(fù)雜性。

        在進(jìn)行實(shí)際模型訓(xùn)練之前,需要計(jì)算一次數(shù)據(jù)的batch,即處理數(shù)據(jù)的量,batch 定義在最前面。tf.placeholders 的優(yōu)點(diǎn)是可以用placeholders 定義的“None”參數(shù)指定次元可變batch[8]。也就是說,batch的具體大小可以在以后使用時(shí)決定。這里,在模型訓(xùn)練階段傳達(dá)的batch 較大,在測(cè)試階段可以進(jìn)行一些變更,所以需要使用可變batch。之后,通過訓(xùn)練get.batches()函數(shù)獲得處理的實(shí)際文本數(shù)據(jù)。

        由于針對(duì)不同的文本數(shù)據(jù),不同的模型進(jìn)行分類得出的結(jié)果有可能不同,為了使得文本分類更加有效,我們將實(shí)現(xiàn)多種模型的同時(shí)分類,然后將每種模型的分類結(jié)果進(jìn)行統(tǒng)計(jì),當(dāng)所有模型中大部分?jǐn)?shù)據(jù)都指向同一個(gè)類別時(shí),我們認(rèn)為這個(gè)文本的分類結(jié)果應(yīng)當(dāng)為該類?;谶@種情況的考慮,我們將需要花一定的時(shí)間進(jìn)行分類器的訓(xùn)練,從而達(dá)到良好的分類效果[9]。

        3 系統(tǒng)主要功能

        (1)詞性分析:分析過程對(duì)所有涉及的單詞詞性進(jìn)行分類,并以不同的顏色展示分類的效果。

        (2)詞性構(gòu)成比例:詞性比例構(gòu)成對(duì)已標(biāo)注的詞性進(jìn)行匯總,統(tǒng)計(jì)了各個(gè)詞性在文本中所占比例。

        (3)實(shí)體識(shí)別:實(shí)體識(shí)別用來識(shí)別文章當(dāng)中出現(xiàn)具有特殊意義的實(shí)體名詞,包含人名、地名、機(jī)構(gòu)名、專有名詞等。

        (4)語義聯(lián)想:語義聯(lián)想是對(duì)從文本中提取出來的實(shí)體進(jìn)行邏輯關(guān)聯(lián),并從全網(wǎng)獲取該實(shí)體的相關(guān)信息構(gòu)建整體關(guān)系。

        (5)詞云:信息提取是對(duì)所有信息進(jìn)行聚合頻次分類處理,并整合提取的信息。最終以詞云的形式顯示,根據(jù)各個(gè)詞語的顯示大小反映其重要性。

        4 市場(chǎng)發(fā)展趨勢(shì)預(yù)測(cè)

        文本整體分析技術(shù)仍然有很大的創(chuàng)新和增長空間,無論是對(duì)于新進(jìn)入者還是現(xiàn)有參與者。以下是對(duì)市場(chǎng)發(fā)展趨勢(shì)的預(yù)測(cè):(1)語言的多元化是主流:文本語義分析仍然以英語為主,但機(jī)器學(xué)習(xí)和機(jī)器翻譯技術(shù)的發(fā)展可以幫助我們擴(kuò)展到多語言分析并使其成為常態(tài)[10]。(2)文本分析受到重視:文本分析是客戶體驗(yàn)、市場(chǎng)研究、用戶調(diào)查、數(shù)據(jù)分析和媒體測(cè)量的重要解決方案,該領(lǐng)域供應(yīng)商競(jìng)爭(zhēng)激烈,整體趨勢(shì)為“量化定性”,面向企業(yè)的解決方案將越來越多[10]。(3)機(jī)器學(xué)習(xí)、統(tǒng)計(jì)與語言工程并存:雖然未來屬于深度學(xué)習(xí),即回歸神經(jīng)網(wǎng)絡(luò)等技術(shù),但現(xiàn)在主流的是具有悠久歷史的語言工程方法,如語法分析、詞條網(wǎng)絡(luò)、語法規(guī)則系統(tǒng)等。目前,傳統(tǒng)與創(chuàng)新并存,百花齊放。我們不僅應(yīng)該接受機(jī)器學(xué)習(xí),還應(yīng)該把傳統(tǒng)和創(chuàng)新結(jié)合起來作為賣點(diǎn)。(4)機(jī)器翻譯更加成熟:人們想擁有星際迷路般的宇宙萬能翻譯機(jī),而1950 年研究人員宣布機(jī)器翻譯要在3 至5 年內(nèi)完成,但是過了半個(gè)世紀(jì),機(jī)器翻譯依然不可靠。在大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)的突進(jìn)下,在今后的1 至2 年里,機(jī)器翻譯將適應(yīng)很多場(chǎng)景和任務(wù)的需要。

        5 結(jié)語

        目前,文本分析越來越受到各行各業(yè)的重視,在互聯(lián)網(wǎng)、金融、音樂等行業(yè)應(yīng)用廣泛。卷積神經(jīng)網(wǎng)絡(luò)是一種方法,一種理論,更是一個(gè)橋梁,連接文本分析和行業(yè)發(fā)展。互聯(lián)網(wǎng)人工智能時(shí)代,文字、語義、社交分析就像各個(gè)行業(yè)的“天眼”一樣,可以聽到來自個(gè)人、媒體、公司的聲音。公司可以從大量的網(wǎng)上數(shù)據(jù)和公司存儲(chǔ)的音樂、文本、視頻等結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中提取有助于提高決策質(zhì)量的信息。

        猜你喜歡
        語義分類文本
        分類算一算
        語言與語義
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語義模糊
        巨熟乳波霸若妻在线播放 | 国内嫩模自拍诱惑免费视频 | 亚洲禁区一区二区三区天美| 免费不卡无码av在线观看| 日韩av毛片在线观看| 丰满熟女高潮毛茸茸欧洲视频| 国语对白嫖老妇胖老太| 久久精品无码鲁网中文电影| AV无码专区亚洲AVL在线观看| 国产一级内射一片视频免费| 日本熟妇另类一区二区三区| 粗大猛烈进出白浆视频| 亚洲羞羞视频| 成av人片一区二区三区久久| 少妇连续高潮爽到抽搐| 中文字幕丰满乱子无码视频| 亚洲欧美日韩国产精品专区| 日本道免费精品一区二区| 最新国产精品精品视频| 久久久亚洲免费视频网| 日本道色综合久久影院| 九九久久精品无码专区| 国产精品18久久久久网站| 牛仔裤人妻痴汉电车中文字幕| 久久久久久夜精品精品免费啦| 欧美猛男军警gay自慰| 日本视频一区二区三区免费观看| 蜜桃视频在线免费观看完整版| 风韵人妻丰满熟妇老熟女视频| 国产日产亚洲系列最新| 日本三级欧美三级人妇视频黑白配| 国产精品23p| 亚洲成人免费久久av| 成年av动漫网站18禁| 国产欧美亚洲精品a| av天堂线上| 青青草成人免费在线观看视频| 色综合久久久久久久久久| 中文字幕无码家庭乱欲| 国产裸体AV久无码无遮挡| 在线观看亚洲av每日更新影片 |