亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語音合成技術(shù)研究現(xiàn)狀與發(fā)展趨勢的計量分析

        2019-04-12 00:00:00熱衣扎·哈那提努爾布力
        現(xiàn)代電子技術(shù) 2019年21期

        摘" 要: 以Web of Science中近20年收錄的1 846篇語音合成領域文獻為研究對象,采用文獻計量分析方法,利用CiteSpace可視化分析工具繪制知識網(wǎng)絡圖譜,系統(tǒng)回顧該領域的研究概況及研究熱點,理清研究發(fā)展脈絡。研究發(fā)現(xiàn),語音合成的理論研究已經(jīng)相對成熟,神經(jīng)網(wǎng)絡成為語音合成領域里使用的新興技術(shù)。另外,在該領域中日本、中國、英國及美國的科研機構(gòu)具有較強的科研能力。通過上述工作,希望為我國語音合成領域的研究提供進一步的參考和幫助。

        關(guān)鍵詞: 語音合成; 文獻計量分析; CiteSpace; 知識網(wǎng)絡圖譜; 研究現(xiàn)狀; 發(fā)展脈絡

        中圖分類號: TN912.3?34" " " " " " " " " " " " 文獻標識碼: A" " " " " " " " " " " " "文章編號: 1004?373X(2019)21?0116?04

        Abstract: The literatures of 1846 speech synthesis fields collected in the Web of Science in the last 20 years are taken as the research object. The bibliometric analysis method is used. The CiteSpace visual analysis tool is used to draw the knowledge network atlas. The research and research hotspots in the field are systemastically reviewed and the research development context is sorted out. It is found in the study that the theoretical research of speech synthesis has been relatively mature, and the neural network becomes a research hotspot in the speech synthesis field in recent years. In addition, scientific research institutions in the United States, Japan, China, and the United Kingdom have strong scientific research capabilities in this field. Through, It is hoped that the above work can provide further reference and help for the study in the field of Chinese speech synthesis.

        Keywords: speech synthesis; bibliometric analysis; CiteSpace; knowledge network atlas; research status; development context

        0" 引" 言

        語音合成技術(shù)作為人機語音交互的核心技術(shù),被越來越多的研究者給予關(guān)注和重視。語音合成技術(shù)的發(fā)展已有幾十年的歷史,取得了很多優(yōu)秀的研究成果。雖然國內(nèi)很多專家從不同的視角對語音合成進行了總結(jié)和綜述,但還沒有從知識圖譜的角度對語音合成領域進行總結(jié)分析。鑒于此,本文利用CiteSpace工具對通過Web of Science平臺收集到的關(guān)于語音合成的核心文獻進行計量分析并繪制知識圖譜,從宏觀角度闡述以下兩個問題:國內(nèi)外近20年來在語音合成領域的研究概況以及主要研究熱點。

        1" 數(shù)據(jù)來源和研究方法的說明

        1.1" 數(shù)據(jù)來源

        本文研究的文獻來源于信息檢索平臺Web of Science的核心數(shù)據(jù)庫,數(shù)據(jù)采用以下的方式收集:

        1) 標題詞檢索方法:TI=“speech synthesis”O(jiān)R“text to speech”O(jiān)R“voice synthesis”O(jiān)R“concept to speech”O(jiān)R“intention to speech”O(jiān)R“text to voice”;

        2) 時間跨度:1999—2018年;

        3) 文獻類型:期刊(ARTICLE)和會議論文(PROCEEDINGS PAPER)。共得到1 846篇關(guān)于語音合成領域的核心文獻并下載每個文獻的28條記錄信息,包括標題、作者、摘要、關(guān)鍵詞、參考文獻等。

        1.2" 研究方法的說明

        本文主要采用計量分析和圖譜分析方法,通過它們揭示相關(guān)領域的知識來源和發(fā)展規(guī)律,并把知識結(jié)構(gòu)關(guān)系和演化規(guī)律用圖形的方式呈現(xiàn)出來??梢暬ぞ逤iteSpace就是可以用于追蹤研究領域熱點和發(fā)展趨勢的文獻計量分析工具。本文通過CiteSpace對1 846篇文獻進行研究機構(gòu)的合作網(wǎng)絡分析、研究熱點的演化分析以及高共被引文獻的統(tǒng)計分析。

        2" 研究概況

        2.1" 主要研究機構(gòu)分析

        通過對語音合成領域的文獻發(fā)表量的研究機構(gòu)進行基本情況統(tǒng)計后發(fā)現(xiàn)發(fā)文量超過9篇以上的機構(gòu)有18所。表1列出的是文獻量排名前10的研究機構(gòu)。圖1是研究機構(gòu)直接的合作網(wǎng)絡關(guān)系圖,其中連線代表兩個研究機構(gòu)之間有合作關(guān)系;文字大小代表發(fā)文量的多少,文字越大發(fā)文量越多,文字越小發(fā)文量越少。

        通過表1得知,Top10榜單里的研究機構(gòu)共來自5個國家,分別是日本3所,中國3所,英國2所,捷克和美國各1所。通過對國家發(fā)文量的統(tǒng)計,發(fā)現(xiàn)日本在語音合成領域里發(fā)表的文獻量居世界首位,中國和美國的發(fā)文量分別排在第二位和第三位。

        2.2" 主要作者分析

        根據(jù)基本統(tǒng)計分析,研究文獻共涉及到的作者中,發(fā)文量超過10篇的作者有58位,發(fā)文量超過20篇的作者有16位。發(fā)文量排名前10的作者如表2所示。

        通過表2的首次發(fā)文年份的分布來看,高產(chǎn)作者的首次發(fā)文年份最早是從2003年開始的。發(fā)文量最多的作者是Yamagishi J,表3列出的高被引文獻里該作者的文獻有3篇,該3篇文獻都與隱馬爾科夫模型有關(guān),并結(jié)合他的其他文獻分析發(fā)現(xiàn),該作者的研究重點主要集中在基于隱馬爾科夫模型的語音合成,而從他近幾年的文獻分析發(fā)現(xiàn)他現(xiàn)在的研究重點轉(zhuǎn)向神經(jīng)網(wǎng)絡的研究,該作者在2018年與Wang X等人合著的一篇文獻主要研究了深度神經(jīng)網(wǎng)絡在統(tǒng)計參數(shù)語音合成中的性能[1],特別是深層網(wǎng)絡能否更好地產(chǎn)生不同聲學特征的問題。排在第二位的是作者Tokuda K,該作者在2018年發(fā)表的文獻[2]里提出了一種基于梅爾倒譜的量化噪聲整形方法,提高了基于神經(jīng)網(wǎng)絡的語音波形合成系統(tǒng)的合成語音質(zhì)量。作者Kobayashi T發(fā)文量排在第三位,文獻[3]是他近幾年與Nose T等人合作的一篇文獻,該文獻里提出了一種用于語音合成和韻律平衡的緊湊記錄腳本的句子選擇技術(shù),與傳統(tǒng)的句子選擇技術(shù)相比,該技術(shù)所生成的語音參數(shù)更接近自然語音的語音參數(shù)。

        2.3" 高被引文獻分析

        高被引文獻是一個研究領域的重要知識來源,反映某一學科的研究水平、發(fā)展方向,是探究熱點主題、研究演化的重要依據(jù)[4]。表3列出的是被引頻次較多的10篇文獻,被引頻次主要來自于本論文研究的數(shù)據(jù)。

        作者Zen H等人發(fā)表的文獻《Statistical parametric speech synthesis》的被引次數(shù)最多[5],該文綜述了統(tǒng)計參數(shù)語音合成中常用的技術(shù),對統(tǒng)計參數(shù)語音合成技術(shù)和傳統(tǒng)的單元選擇合成技術(shù)進行比較,總結(jié)了統(tǒng)計參數(shù)語音合成的優(yōu)點和缺點并對未來工作進行展望。作者Yamagishi J等人發(fā)表的文獻[6]排在第二位,本文提出新的適應算法約束結(jié)構(gòu)最大線性回歸,該方法在語音合成中獲得了更好、更穩(wěn)定的說話人自適應,具有很強的實用性和有效性。文獻[7?8]是表3里2013年發(fā)表的兩篇文獻,文獻[7]討論了基于隱馬爾科夫模型的語音合成技術(shù)在改變說話者身份、情感和說話風格方面的靈活性;文獻[8]提出基于深度神經(jīng)網(wǎng)絡的統(tǒng)計參數(shù)語音合成方法,使用深度神經(jīng)網(wǎng)絡來解決傳統(tǒng)統(tǒng)計參數(shù)語音合成方法的一些局限性。

        通過表3的關(guān)注點來看,基于隱馬爾科夫模型的語音合成技術(shù)是語音合成領域的重點語音合成技術(shù),說話人自適應技術(shù)成為語音合成領域較為重要的研究技術(shù),而深度神經(jīng)網(wǎng)絡是近幾年語音合成領域里使用的新興技術(shù)。

        3" 研究熱點

        關(guān)鍵詞是文獻主題內(nèi)容的高度提煉,對關(guān)鍵詞出現(xiàn)的變化進行分析可以了解各時期的研究熱點[9]。表4列出的是頻次較多、中心性較高、激增值較大的按首次激增年份排序的關(guān)鍵詞。

        1) 頻次(Freq)指標計量分析

        通過圖2,頻次較多的關(guān)鍵詞“hidden markov model”“text to speech”“unit selection”的首次研究年份集中在1999—2002年,這些研究為語音合成技術(shù)的發(fā)展奠定了基礎。到2005年,關(guān)鍵詞“hmm?based speech synthesis”出現(xiàn),隱馬爾科夫模型被用到語音合成研究里面,基于隱馬爾科夫模型的語音合成技術(shù)從該時期開始研究。到2006年,語音轉(zhuǎn)換技術(shù)應用到語音合成領域里,進一步促進了語音合成技術(shù)的發(fā)展。

        2) 中心性(Centrality)指標計量分析

        通過表4的關(guān)鍵詞的中心性結(jié)合圖2發(fā)現(xiàn),“system”“hidden markov model”“text to speech”等關(guān)鍵詞的中心性相比其他關(guān)鍵詞的中心性較高,首次出現(xiàn)的年份較早,該結(jié)果表示系統(tǒng)、隱馬爾科夫模型和文本到語音的研究在語音合成領域里研究的時間較長,是較為重要的研究方向。關(guān)鍵詞“speaker adaptation”“concatenative speech synthesis”“unit selection”的中心性都大于0.02,說話人自適應是語音合成技術(shù)的核心研究部分,級聯(lián)語音合成受單元選擇中使用的單元的庫存支配達到高度自然的合成語音質(zhì)量,單元選擇是語音合成領域一個較為重要的研究熱點,文獻[10]提出的基于隱馬爾科夫模型的語音合成方法就用到單元選擇。

        3) 激增(Burst)指標計量分析

        激增指數(shù)的關(guān)注點是單個主題的自身發(fā)展變化過程,可以展示熱點主題的凸顯性。通過表4關(guān)鍵詞的激增值和開始激增年份發(fā)現(xiàn),1999—2005年主要的研究主題是圍繞規(guī)則、文本到語音和語音處理等,該時期的大部分研究工作都在基礎的核心部分研究;2006—2014年,研究主題的關(guān)注點在語音合成技術(shù)的模型,基于隱馬爾科夫模型的語音合成技術(shù)成為重點,語音轉(zhuǎn)換和說話人自適應技術(shù)受到了前所未有的重視;2014—2018年,神經(jīng)網(wǎng)絡成為語音合成領域重要的研究方向,深度學習在語音合成領域的應用進一步促進該領域的快速發(fā)展。

        通過前文的分析和研究發(fā)現(xiàn),數(shù)據(jù)可視分析研究的發(fā)展分為三個階段:1999—2005年,初步發(fā)展時期; 2006—2014年,快速發(fā)展時期;2015年—至今,深入發(fā)展時期,如表5所示。

        4" 結(jié)" 語

        國際語音合成領域的研究文獻質(zhì)量不斷在穩(wěn)步提升,日本、中國和英國的一些研究機構(gòu)在國際上發(fā)文量多,與其他研究機構(gòu)合作關(guān)系較密切?;陔[馬爾科夫模型的語音合成是該領域的研究重點,而近幾年語音合成領域開始使用神經(jīng)網(wǎng)絡技術(shù),解決傳統(tǒng)語音合成方法遇到的問題。目前,語音合成領域的研究越來越多,分支越來越細,在未來的發(fā)展上,語音合成領域的研究將不斷深入,會有越來越多不同領域的技術(shù)應用到語音合成領域。

        參考文獻

        [1] WANG X, TAKAKI S, YAMAGISHI J. Investigating very deep highway networks for parametric speech synthesis [C]// ISCA Speech Synthesis Workshop. [S. l.]: ISCA, 2016: 166?171.

        [2] YOSHIMURA T, HASHIMOTO K, OURA K, et al. Mel?cepstrum?based quantization noise shaping applied to neural?network?based speech waveform synthesis [J]. IEEE/ACM transactions on audio speech amp; language processing, 2018(99): 1.

        [3] NOSE T, ARAO Y, KOBAYASHI T, et al. Sentence selection based on extended entropy using phonetic and prosodic contexts for statistical parametric speech synthesis [J]. IEEE/ACM transactions on audio speech amp; language processing, 2017, 25(5): 1107?1116.

        [4] 楊良斌,周新麗,劉益佳,等.近10年來國際網(wǎng)絡安全領域研究現(xiàn)狀與趨勢的可視化分析[J].情報雜志,2017,36(1):92?100.

        YANG Liangbin, ZHOU Xinli, LIU Yijia, et al. The specialty visualization study of current trends and issues of international network security fields in recent 10 years [J]. Journal of intelligence, 2017, 36(1): 92?100.

        [5] ZEN H, TOKUDA K, BLACK A W. Statistical parametric speech synthesis [J]. Speech communication, 2009, 51(11): 1039?1064.

        [6] YAMAGISHI J, KOBAYASHI T, NAKANO Y, et al. Analysis of speaker adaptation algorithms for HMM?based speech synthesis and a constrained SMAPLR adaptation algorithm [J]. IEEE transactions on audio speech amp; language processing, 2009, 17(1): 66?83.

        [7] TOKUDA K, NANKAKU Y, TODA T, et al. Speech synthesis based on hidden Markov models [J]. Proceedings of the IEEE, 2013, 101(5): 1234?1252.

        [8] ZEN H, SENIOR A, SCHUSTER M. Statistical parametric speech synthesis using deep neural networks [C]// IEEE International Conference on Acoustics, Speech and Signal Proce?ssing. [S. l.]: IEEE, 2013: 7962?7966.

        [9] 莊少霜.近二十年國外認知語言學領域研究的可視化分析:基于CiteSpaceⅡ的計量分析[J].哈爾濱學院學報,2016,37(8):97?101.

        ZHUANG Shaoshuang. Emerging trends in cognitive linguistics (1996—2015) —a quantitative analysis by CiteSpaceⅡ[J]. Journal of Harbin University, 2016, 37(8): 97?101.

        [10] XIA X J, LING Z H, JIANG Y, et al. Hmm?based unit selection speech synthesis using log likelihood ratios derived from perceptual data [J]. Speech communication, 2014, 63?64(3): 27?37.

        天天躁夜夜躁天干天干2020| 青青草好吊色在线视频| 日本午夜剧场日本东京热| 亚州国产av一区二区三区伊在| 日韩插啊免费视频在线观看| 久久精品国产亚洲Av无码偷窍| 一区二区三区人妻在线| 国产精品18久久久白浆| 国产av丝袜旗袍无码网站| 乱伦一区二| 国产精品久久婷婷六月| 熟女一区二区三区在线观看| 又长又大又粗又硬3p免费视频| 国产丝袜在线精品丝袜不卡| 一区二区三区精品偷拍| 国产免费三级av在线| 成人h视频在线观看| 久久男人av资源网站无码| 麻豆国产精品久久天堂| 国产精品永久久久久久久久久| 成年午夜无码av片在线观看| av草草久久久久久久久久久| 亚洲一区二区三区成人网| 少妇中文字幕乱码亚洲影视| 国产成人免费a在线视频| 色中文字幕视频在线观看| 亚洲中文字幕在线一区| 久久午夜夜伦鲁鲁片免费无码| 日韩中文在线视频| 久久久精品国产老熟女| 亚洲精品蜜夜内射| 亚洲午夜精品久久久久久人妖| 久久综合激激的五月天| 一区二区三区人妻少妇| 中文人妻无码一区二区三区在线| 成人在线免费视频亚洲| 日韩在线一区二区三区中文字幕| 乱子伦在线观看| 久久精品免费免费直播| 久久久免费精品国产色夜| 欧美成人国产精品高潮|