亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學(xué)習(xí)在文本生成中的應(yīng)用研究

        2020-02-14 08:49:56郭騰州孫寶山
        儀器儀表用戶 2020年2期
        關(guān)鍵詞:語義卷積向量

        郭騰州,孫寶山

        (天津工業(yè)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300387)

        早期的文本生成技術(shù),由于受到技術(shù)的限制沒能得到充分發(fā)展。文本生成就是以圖像、文本、數(shù)據(jù)等作為輸入,通過特定的處理、輸出得到人們想要的文本的過程[1]。文本生成技術(shù)近幾年發(fā)展迅速,為人們的生活提供很多便利[2]。

        1 深度學(xué)習(xí)概述

        1.1 深度學(xué)習(xí)介紹

        深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究領(lǐng)域的一個新的研究方向,它被引入機(jī)器學(xué)習(xí)使其更接近最初的目標(biāo)——人工智能[3]。深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些通過學(xué)習(xí)獲得的信息對解釋數(shù)據(jù)有很大幫助,例如文字、圖像和聲音。其目標(biāo)是讓機(jī)器能夠無限接近于人的分析學(xué)習(xí)能力[4]。目前,深度學(xué)習(xí)在語音和圖像識別方面已取得顯著成就[5]。

        1.2 卷積神經(jīng)網(wǎng)絡(luò)(CNN)

        卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),具有卷積計算和深度結(jié)構(gòu)。卷積神經(jīng)網(wǎng)絡(luò)可以將特征顯現(xiàn)出來,能將輸入信息進(jìn)行分類且不改變其階層結(jié)構(gòu)[6]。卷積神經(jīng)網(wǎng)絡(luò)對于圖片處理具有良好的性能,其構(gòu)建機(jī)制就是通過對生物的視覺模仿[7]。卷積神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺領(lǐng)域具有顯著地位,在許多自然語言處理領(lǐng)域的很多任務(wù)中也起著至關(guān)重要的作用。但卷積神經(jīng)網(wǎng)絡(luò)并不是完美的,它有兩個危險的缺陷就是平移不變性和池化層。

        圖1 卷積神經(jīng)網(wǎng)絡(luò)流程圖Fig.1 Convolutional neural network flowchart

        圖2 遞歸神經(jīng)網(wǎng)絡(luò)Fig.2 Recurrent neural network

        1.3 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)

        循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是將列數(shù)據(jù)作為輸入,順著序列的傳播方向進(jìn)行鏈?zhǔn)竭f歸的遞歸神經(jīng)網(wǎng)絡(luò)[8]。長短式記憶網(wǎng)絡(luò)(LSTM)和雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-RNN)是常見的循環(huán)神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)具有記憶性、參數(shù)共享并且圖靈完備。因此,在對序列的非線性特征進(jìn)行學(xué)習(xí)時具有一定優(yōu)勢[9]。自然語言數(shù)據(jù)是典型的序列數(shù)據(jù),所以對序列數(shù)據(jù)學(xué)習(xí)有一定優(yōu)勢的循環(huán)神經(jīng)網(wǎng)絡(luò)在NLP 問題中得以應(yīng)用。

        由于現(xiàn)實中的許多任務(wù)需要之前輸入的計算信息,例如,文本生成中根據(jù)某關(guān)鍵字來預(yù)測整個文本的意思,最好知道之前有哪些詞或者句子出現(xiàn)過。遞歸神經(jīng)網(wǎng)絡(luò)(見圖2)主要用于預(yù)測序列模型,可以多方位、深層次地對整個文本加以理解,有助于人們更好地研究。遞歸神經(jīng)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)(見圖3)的推廣。

        2 文本生成相關(guān)任務(wù)

        2.1 詞性標(biāo)注

        詞性標(biāo)注(Parts-Of-Speech,POS)是文本生成諸多任務(wù)中的其中一個,它被定義為將特定的詞性標(biāo)記分配給句中每個單詞的過程。詞性標(biāo)記可以識別一個單詞是否為名詞、動詞、還是形容詞等。詞性標(biāo)注在各種問題上都會有所應(yīng)用,例如信息檢索、機(jī)器翻譯、NER、語言分析等。

        圖3 循環(huán)神經(jīng)網(wǎng)絡(luò)Fig.3 Recurrent neural network

        2.2 語法解析

        語法解析(也被稱作句法分析),是文本生成中的任務(wù)之一。其被定義為:一個檢查用自然語言書寫的字符序列是否合乎正式語法中所定義的規(guī)則的過程。它是一個將句子分解為單詞或短語序列,并為其提供特定的成分類別的過程。

        2.3 語義分析

        語義分析是文本生成中的任務(wù)之一,它被定義為確定字符或單詞序列的意義的過程,可以用于執(zhí)行語義消歧任務(wù)。在分析一個給定的句子時,如果已經(jīng)構(gòu)建了句子的句法結(jié)構(gòu),那么這個句子的語義分析就算完成了。

        2.4 情感分析

        情感分析是文本生成中的眾多任務(wù)之一,它被定義為確定一個字符序列背后所隱含的情感信息的過程。情感分析可用于確定表達(dá)文本思想的演講者或者人們的心情是愉快還是悲傷的,或僅代表一次中性的表達(dá)。2017 年提出中文情感分類的概念,主要是基于卷積控制塊概念。他用的方法就是將句子看作一個個體單位,基于卷積控制塊的模型,對比各種時期上下文的依賴性進(jìn)行情感分類,將單一句子的分詞放置5 層卷積控制塊中進(jìn)行試驗,最終得到92.58%的準(zhǔn)確率。

        3 文本生成

        3.1 數(shù)據(jù)獲取

        基于深度學(xué)習(xí)的文本生成技術(shù)中,由于深度學(xué)習(xí)需要大量的數(shù)據(jù),所以數(shù)據(jù)獲取是文本生成的一個重要的環(huán)節(jié)。其中,數(shù)據(jù)的形式也在隨著時間的推移不斷改變,從結(jié)構(gòu)化數(shù)據(jù)變?yōu)榘虢Y(jié)構(gòu)化數(shù)據(jù)。同樣地,也有許多對于非結(jié)構(gòu)化的研究[10]。各個研究領(lǐng)域都會有自己體系的數(shù)據(jù)獲取方法。目前的文本生成技術(shù)中,由于語料庫的規(guī)范問題導(dǎo)致構(gòu)建比較困難,所以到現(xiàn)在為止還沒有固定的文本語料庫。

        圖4 文本生成流程圖Fig.4 Text generation flowchart

        3.2 數(shù)據(jù)預(yù)處理

        在文本生成過程中,將給定的語句分解為詞向量或者句子向量,為方便生成模型識別和計算。其中,中文語料需要將其進(jìn)行分詞。之前的one-hot 詞向量對于表示語法和語義效果不足,所以現(xiàn)在大多數(shù)人都采用詞分布式表示,它可以更好地表示詞到向量空間的邏輯關(guān)系。

        3.3 注意力機(jī)制

        簡單地說,就是將注意力放在重要的地方,將其他次重要或不重要的因素忽略。Attention 分為空間注意力和時間注意力,空間注意力用在圖像處理,時間注意力則是使用在自然語言處理問題中。由于在Seq2seq 模型中,encode過程產(chǎn)生的保存原來語義信息的中間向量C 是固定長度的,所以當(dāng)輸入原序列的長度比較長時,向量C 無法將全部的信息保存下來,很大程度上限制了上下文語義信息,也使模型的理解能力下降[11,12]。因此,使用Attention 機(jī)制來打破這種原始編解碼模型對固定向量的限制。

        3.4 文本生成流程圖(見圖4)

        4 文本生成測評

        文本生成需要一個標(biāo)準(zhǔn)來規(guī)范,所以文本生成的測評是文本生成不可缺少的重要組成部分。一個高質(zhì)量的文本生成機(jī)制,必定會有一個優(yōu)秀的文本生成測評。有兩個因素可以影響文本生成質(zhì)量——變化的輸入和輸出的未知。文獻(xiàn)闡述了文本生成的測評內(nèi)容,其主要分為內(nèi)部測評和外部測評。

        4.1 內(nèi)部測評

        內(nèi)部測評主要是對系統(tǒng)內(nèi)部進(jìn)行測評,嚴(yán)格來講就是對生成的文本質(zhì)量的測評。例如,生成的文本是否具有統(tǒng)一性、完整性等,大致分為主觀測評和客觀測評。主觀測評是指生成的文本遵循語言原則,且可讀性和準(zhǔn)確性強(qiáng);客觀測評是指生成的文本通過數(shù)據(jù)庫,使用機(jī)器來客觀測評。到目前為止,人們還沒有研發(fā)出來一個充分適合文本生成的內(nèi)部測評算法。在機(jī)器翻譯中有BLEU(Bilingual Evaluation Understudy),ROUGE(Recall-Oriented Understudy for Gisting Evaluation ),NIST(National Institute of Standards and Technology)等算法。

        4.2 外部測評

        外部測評是基于用戶實用性考慮的一種測評方式,即最大程度上滿足用戶要求的一種主觀測評。但采用外部測評往往比較耗時耗力,不容易達(dá)到預(yù)期的效果,所以外部測評在實際應(yīng)用中相對較少。

        綜上所述,外部測評和內(nèi)部測評各有利弊。但內(nèi)部測評結(jié)合多種技術(shù),應(yīng)用廣泛,易于人們接受。今后的研究,可以考慮將多個測評方法結(jié)合,提高測評的精準(zhǔn)度和科學(xué)性。未來,文本生成測評機(jī)制一定會成為一個研究熱潮。

        5 未來方向和潛在問題

        雖然近些年文本生成技術(shù)已經(jīng)有了顯著進(jìn)步,但對現(xiàn)有的技術(shù)來說仍不能滿足人們的需要。文本生成技術(shù)還存在一些問題需要解決:

        1)數(shù)據(jù)集不足。可以拿來充當(dāng)數(shù)據(jù)集的數(shù)據(jù)非常少,只有僅有的幾個領(lǐng)域,構(gòu)造數(shù)據(jù)集需要人工收集,所以公開的數(shù)據(jù)集明顯不足且種類單一。

        2)可以用作自動生成的語料短而簡。自動生成的文本短而簡,這就使得一些好的模型不能充分發(fā)揮它的作用,從而不能達(dá)到預(yù)估的期望。

        3)沒有一個客觀規(guī)律的評價手段。評價手段除了人工評價外,缺少一種機(jī)器自動評價體系可以體現(xiàn)出文本內(nèi)容的統(tǒng)一性、相關(guān)性、結(jié)構(gòu)特征等方面。

        4)不能充分具體地供應(yīng)人們使用。雖然小部分可以使用,但由于技術(shù)的不成熟,還沒有被人們廣泛地使用和推廣。

        6 結(jié)語

        采用神經(jīng)網(wǎng)絡(luò)模型來實現(xiàn)文本生成是目前的主流趨勢。雖采用RNN 實現(xiàn)文本生成居多,但還沒有一種專門的機(jī)器評測體系用來規(guī)范文本生成,相信將來會研究出來的。

        現(xiàn)如今,人們對人工智能的應(yīng)用越來越關(guān)注。文本的自動生成也變得尤為重要,機(jī)器代替人力的例子也不那么罕見,尤其是國內(nèi)外的機(jī)器翻譯、新聞撰寫等行業(yè)更是不斷地探索求學(xué)。文本生成的進(jìn)步,需要各行業(yè)共同努力,需要軟硬件技術(shù)的不斷更新推動,文本生成技術(shù)才會融入人們的生活,幫助人們分擔(dān)一些工作。

        猜你喜歡
        語義卷積向量
        向量的分解
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        聚焦“向量與三角”創(chuàng)新題
        語言與語義
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        認(rèn)知范疇模糊與語義模糊
        亚洲国产韩国欧美在线| 国产综合开心激情五月| 体验区试看120秒啪啪免费| 国产午夜精品一区二区三区软件| 成人毛片18女人毛片免费| 中文字幕日韩人妻在线| 偷拍色图一区二区三区| 国产精品久久久久9999赢消| 亚洲一区欧美二区| 元码人妻精品一区二区三区9| 亚洲av高清天堂网站在线观看| 国精品午夜福利视频不卡| 国产精品jizz观看| 在线播放中文字幕一区二区三区| 青青河边草免费在线看的视频| 久久天天躁狠狠躁夜夜2020一| 欧美激情五月| 日韩乱码精品中文字幕不卡| 亚洲乱码av中文一区二区| 国产二级一片内射视频插放| 欧美国产日本精品一区二区三区| av成人资源在线观看| 神马影院午夜dy888| av天堂久久天堂av色综合 | 国产精品爽爽va在线观看网站| 一级a免费高清免在线| 国产成人无码精品久久久免费| 久久人人玩人妻潮喷内射人人| 亚洲无AV码一区二区三区| 中文字幕亚洲精品专区| 亚洲日韩av无码一区二区三区人| 亚洲产国偷v产偷v自拍色戒| 久久国产精品国产精品久久| 狠狠综合久久av一区二区蜜桃| 色狠狠av老熟女| 国产成人精品cao在线| 免费看黄片的视频在线观看| 熟妇激情内射com| 国产精品18久久久久网站| 精品人妻av中文字幕乱| 亚洲国产成人av在线观看|