亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于漢英雙語語料的語義精準抽取系統(tǒng)設計

        2020-07-14 08:35:56周曉航周曉宇
        現(xiàn)代電子技術 2020年10期

        周曉航 周曉宇

        摘? 要: 針對原有語義精準抽取系統(tǒng)抽取結(jié)果精度較差的問題,設計基于漢英雙語語料的語義精準抽取系統(tǒng)。硬件部分沿用原有系統(tǒng)硬件部分,僅對語義信息錄入設備與信息存儲設備設計。軟件部分設計,構(gòu)建自動語義知識庫,增加漢英雙語語料信息;根據(jù)tf?idf算法制定抽取規(guī)則;利用計算機編程語言控制抽取過程,實現(xiàn)精確抽取。至此,基于漢英雙語語料的語義精準抽取系統(tǒng)設計完成。構(gòu)建測試環(huán)境,完成性能測試,通過與原有系統(tǒng)對比可知,此系統(tǒng)抽取準確率與信息召回率遠高于原有系統(tǒng)。由此可知,該系統(tǒng)抽取精度更高,更為有效。

        關鍵詞: 語義抽取; 系統(tǒng)設計; 雙語語料; 制定抽取規(guī)則; 精準抽取; 性能測試

        中圖分類號: TN912.34?34; TP391? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)10?0156?04

        Design of semantic precise extraction system based on Chinese?English bilingual corpus

        ZHOU Xiaohang1, ZHOU Xiaoyu2

        (1. Beijing University of Information Technology, Beijing 100192, China; 2. Institute of Automation, Heilongjiang Academy of Sciences, Harbin 150090, China)

        Abstract: In allusion to the poor accuracy of the extraction results in the original semantic precise extraction system, a semantic precise extraction system based on Chinese?English bilingual corpus is designed. In the hardware part, the hardware part of original system is used, and the semantic information input equipment and information storage equipment are designed merely. In the software design part, the automatic semantic knowledge base is constructed and the Chinese?English bilingual corpus information is added; the extraction rules are set according to tf?idf algorithm; the extraction process is controlled by means of the computer programming language to achieve accurate extraction. Thus, the design of semantic precise extraction system based on Chinese?English bilingual corpus is completed. The testing environment is constructed to complete the performance test. In comparison with the original system, it can be seen that the extraction accuracy and information recall rate of this system are much higher than that of the original system. Therefore, this system has higher extraction accuracy and is more effective.

        Keywords: semantic extraction; system design; bilingual corpus; set extraction rule; precise extraction; performance test

        隨著信息技術的發(fā)展與應用,程序設計的要求也隨之增加,越來越多的程序信息被創(chuàng)造出來。網(wǎng)絡信息呈爆炸式增長,如何從海量信息中提取所需的語義信息成了有待解決的問題,因此在過往對于語義的研究過程中,大量專家學者構(gòu)建語義精準抽取系統(tǒng)[1?2]。但這些語義抽取系統(tǒng)對雙語語料的抽取效果較差,常常出現(xiàn)抽取精度差的問題[3]。針對這些問題,設計基于漢英雙語語料的語義精準抽取系統(tǒng)。

        1? 基于漢英雙語語料的語義精準抽取系統(tǒng)硬件設計

        此次設計僅針對語義抽取精度,相關的硬件設計僅針對此部分,其他硬件沿用原有程序部分,在硬件設計時注重此次設計硬件與原有硬件之間的連接與組合。為保證此次設計的有序性,對硬件設計部分的框架進行約束,具體情況如圖1所示。

        此次硬件設計包括語義信息的錄入設備以及信息存儲整理設備。通過這兩種設備在信息輸入與存儲過程中保證信息的精度[4?5]。在設計的過程中,注重設備的利用率與適用性。

        1.1? 語義信息錄入設備設計

        根據(jù)上述硬件框架設定,完成語義信息錄入設備的設計。在此次設計中,采用便攜式設計理念,將整體錄入設備采用微縮化處理[6],具體參數(shù)如表1所示。

        采用上述參數(shù)設計出的設備,可適用于多種環(huán)境,錄入方式簡單、快捷。中英結(jié)合操作界面,在設備設計中,增加斷電保護功能,保證錄入信息的完整性和抽取時的精確度。

        1.2? 語義信息存儲整理設備設計

        采用設計后的語義錄入設備將錄入語義信息存儲在處理設備。此次設備設計中,采用Cortex?A57四核心1.7 GHz處理器及64位構(gòu)架,引擎部分為加密引擎。設備外觀設計如圖2所示。

        存儲處理設備采用16 GB 內(nèi)存,設定一個DDR4 Long?DIMM插槽,支持SATA 6 Gb/s硬盤槽。機架型機身電源設定為ATX250W,AC 100~240 V。設備內(nèi)配置2個7 cm風扇,可使用SSD快取支援。整體設備尺寸[7?8]為90 mm×490 mm×540 mm。此次設計中的信息錄入設備與信息存儲設備,保證了語義信息源頭的錄入精度,成為系統(tǒng)實現(xiàn)的基礎。

        2? 基于漢英雙語語料的語義精準抽取系統(tǒng)軟件設計

        以上述硬件設計結(jié)果為基礎,針對原有系統(tǒng)抽取精度差的問題,設計基于漢英雙語語料的語義精準抽取系統(tǒng)軟件。

        2.1? 構(gòu)建自動語義知識庫

        針對原有問題,構(gòu)建對應語義知識庫,需要一系列基于語料的信息抽取技術,發(fā)掘大量非結(jié)構(gòu)化數(shù)據(jù)名詞概念以及其中對應的語義關系。利用原有得到的概念以及語義關系知識庫完成此次自動語義知識庫構(gòu)建。

        此次構(gòu)建需要概念抽取與語義抽取作為構(gòu)建基礎。在知識庫的構(gòu)建中,漢英雙語語料是其中的重要組成部分[9?10]。自動語義知識庫的構(gòu)建過程與構(gòu)造語義字典相同,在設計中設定自動知識庫中預存300萬個類別的概念,每一種類別的概念均有若干屬性,通過計算得出屬性之間的特定關系概率值。

        知識庫構(gòu)建完成后,采用統(tǒng)一的對齊模式保存。此次采用GIZA++詞對齊工具[11],并在自動知識庫中構(gòu)建語料語義預處理模塊。將原始語料處理成詞對齊與句對齊的語料,為后續(xù)工作進行鋪墊。

        2.2? 制定抽取規(guī)則

        根據(jù)上述自動知識庫的建立,設定相應的語義抽取規(guī)則,在漢英雙語語料的基礎上,采用TF?IDF算法約束抽取過程,制定相應抽取規(guī)則[12]。設定2個信息之間的緊密程度通過互信息模型體現(xiàn),公式為:

        [Q=log2m(m+n+p+q)(m+n)(m+p)]? ? ? ?(1)

        假設對應漢英語義的兩個詞語[P],[Q],[m,n,p,q]分別表示兩個詞語同時出現(xiàn)、第一個出現(xiàn)第二個不出現(xiàn)、第一個不出現(xiàn)第二個出現(xiàn)以及均不出現(xiàn)的次數(shù)。設定[R]為語義對應檢測值,公式為:

        [R=m-(m+n)(m+p)a(m+n+p+q)] (2)

        當通過上述公式得出的數(shù)值與0接近時,這個信息則不為抽取信息,將此信息剔除[13]。使用TF?IDF算法結(jié)合上述公式,得出抽取規(guī)則如下:

        [U=2m·logmN(m+n)(m+p)+n·lognN(m+n)(n+q)+]

        [p·logpN(p+q)(m+p)+m·logqN(p+q)(n+q)] (3)

        式中,[N]為知識庫中語義信息的個數(shù),通過計算,對信息語義進行抽取,并約束抽取過程。

        2.3? 實現(xiàn)語義精準抽取

        根據(jù)知識庫的信息存儲與抽取規(guī)則的制定,采用計算機編程的形式,實現(xiàn)語義精準抽取。針對精度較差的問題,將抽取過程分割為信息數(shù)據(jù)的預處理、關鍵字抽取以及語義抽取過程。設定部分編程語句如下:

        Event eld "序號"anchor="觸發(fā)詞"langType="語音"

        Erelemeveld="所屬語義"tld"信息序號"

        aliReled1="信息1"eld="信息2"TRID="序號"

        ARType=“關系類型”? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? //抽取

        為保證抽取過程的有效性,對流程進行設定。首先,輸入所需要的語義信息;其次,對問題進行分類,載入系統(tǒng)之中處理為目標語句[14?15],對其進行實體識別,并對所需語義進行抽取;最后,保存抽取結(jié)果,展示給用戶,實現(xiàn)語義的精準抽取工作。

        3? 系統(tǒng)性能測試

        針對本文設計的基于漢英語義雙語語料的語義精準抽取系統(tǒng)的信息提取功能,構(gòu)建測試環(huán)境。將其與傳統(tǒng)語義提取系統(tǒng)進行對比,測試兩者信息提取精度。通過對比測試結(jié)果得出本文設計系統(tǒng)的性能效果。

        3.1? 構(gòu)建測試環(huán)境

        為保證本文所設計系統(tǒng)的有效性與科學性,設計性能測試實驗對其性能進行研究,構(gòu)建相應的測試環(huán)境。對此次系統(tǒng)設計中使用的設備參數(shù)進行設定,具體參數(shù)如表2所示。

        根據(jù)上述環(huán)境參數(shù),構(gòu)建此次實驗的環(huán)境,以保證實驗過程的有效性與科學性。

        3.2? 確定性能指標

        對語義精準抽取系統(tǒng)進行功能測試時,主要考察信息預處理過程、關鍵語義抽取功能以及語義相似度抽取功能能否正常運行,因而設定相應的性能指標。

        [Precision=ef×100%] (4)

        [Recall=eh×100%] (5)

        [W=2·Recall·PrecisionPrecision+Recall] (6)

        式中:[Precision]表示抽取的準確率;[Recall]表示語義信息召回率;[W]為此次測試的精度權(quán)重;[h]表示有效發(fā)出信息;[e]表示抽取到的語義信息;[f]表示庫中的總信息數(shù)。

        在此次功能測試中,共進行10次抽取,發(fā)出信息100條,抽取相應語義信息,通過表格統(tǒng)計的形式描述測試結(jié)果。

        3.3? 測試結(jié)果分析

        采用測試環(huán)境與測試指標,完成此次系統(tǒng)性能測試,具體測試結(jié)果對比如表3所示。

        通過上述實驗結(jié)果可知,采用本文設計系統(tǒng)完成語義信息抽取工作,其準確率明顯高于原有抽取系統(tǒng),而且其信息召回率也高于原有系統(tǒng)。通過精度權(quán)重對比可以看出,本文設計系統(tǒng)權(quán)重遠高于原有系統(tǒng)。因此,本文設計系統(tǒng)在語義抽取的過程中,精度更高,效果更好。使用并普及本文設計系統(tǒng)可有效緩解原有系統(tǒng)造成的精準度低的問題,實現(xiàn)高精準度的語義抽取工作。

        4? 結(jié)? 語

        針對原有系統(tǒng)抽取精度較差的問題,設計新型的語義精準抽取系統(tǒng),即基于漢英雙語語料的語義精準抽取系統(tǒng)。在此次系統(tǒng)的設計中,采用自動語義知識庫的形式,為語義抽取提供相應的抽取信息支持。設定新的抽取規(guī)則,保證在精準抽取的前提下,實現(xiàn)漢英雙語語料的應用。根據(jù)抽取規(guī)則,實現(xiàn)對語義的精準抽取。目前精準語義抽取系統(tǒng)的研發(fā)還在起步階段,因此該方向的研究還有廣闊的空間。在日后的研究中,將以本次研究成果作為基礎,構(gòu)建更加精準的語義抽取系統(tǒng)。

        參考文獻

        [1] 樊峰峰,李戰(zhàn)懷,陳群,等.一種基于離群點檢測的自動實體匹配方法[J].計算機學報,2017(10):3?17.

        [2] 柳路芳,李波,陳鵬,等.基于詞向量與可比語料庫的雙語詞典提取研究[J].計算機工程與科學,2018,40(2):368?373.

        [3] 徐健,張棟,李壽山,等.基于雙語信息的問題分類方法研究[J].中文信息學報,2017(5):176?182.

        [4] 陳雪梅,柴明颎.非平衡雙語者口譯語義加工路徑探究[J].上海大學學報(社會科學版),2018,35(5):127?136.

        [5] 劉夢婕.英漢翻譯中語義重心的分析與處理[J].蘭州文理學院學報(社會科學版),2018(4):107?113.

        [6] 朱順樂.融合深度學習特征的漢維短語表過濾研究[J].計算機技術與發(fā)展,2018(7):155?160.

        [7] 夏國清,譚石堅,陳華珍.集散控制的智能精準投料控制系統(tǒng)設計[J].現(xiàn)代信息科技,2019,3(2):167?169.

        [8] 肖小林,張莉,羅海波.基于GIS的精準扶貧作戰(zhàn)圖管理系統(tǒng)設計:以銅仁市為例[J].銅仁學院學報,2018(3):94?97.

        [9] 王輝,郁波,洪宇,等.基于知識圖譜的Web信息抽取系統(tǒng)[J].計算機工程,2017,43(6):118?124.

        [10] 黃政豪,崔榮一.基于術語自動抽取的科技文獻翻譯輔助系統(tǒng)的設計[J].延邊大學學報(自然科學版),2017,43(3):74?78.

        [11] 馮慧敏,高娜娜,孟志軍,等.基于自動導航的小麥精準對行深施追肥機設計與試驗[J].農(nóng)業(yè)機械學報,2018,49(4):60?67.

        [12] 潘杰,王福平,焦方桐,等.基于LabVIEW開發(fā)環(huán)境下的農(nóng)田智能精準灌溉系統(tǒng)設計[J].節(jié)水灌溉,2017(11):97?100.

        [13] 俞琰,趙乃瑄.基于通用詞與術語部件的專利術語抽取[J].情報學報,2018(7):742?752.

        [14] 江騰蛟,萬常選,劉德喜,等.基于語義分析的評價對象?情感詞對抽取[J].計算機學報,2017(3):12?15.

        [15] 張志遠,趙越.基于語義和句法依存特征的評論對象抽取研究[J].中文信息學報,2018,32(6):85?92.

        白嫩少妇激情无码| 精品无码av一区二区三区不卡| 亚洲欧美色一区二区三区| 伊人久久无码中文字幕| 成人无码无遮挡很H在线播放| 亚洲男人的天堂色偷偷| 亚洲第一女人av| 成人区人妻精品一熟女| 色综合久久加勒比高清88| 我也色自拍俺也色自拍| av无码精品一区二区三区| 一区二区三区国产亚洲网站| 国产资源在线视频| 青青草免费观看视频免费| 特黄 做受又硬又粗又大视频 | 91极品尤物国产在线播放| 区一区二区三免费观看视频 | 欧美人成在线播放网站免费| 久久亚洲宅男天堂网址| 永久免费毛片在线播放| 18禁无遮挡无码网站免费| 久久精品成人亚洲另类欧美| 亚洲天堂av黄色在线观看| 不卡av电影在线| 亚洲国产欧美在线成人| 日韩精品一区二区三区四区视频| 富婆猛男一区二区三区| 国产激情久久久久影院老熟女免费| 国产成人九九精品二区三区 | av在线免费高清观看| 国内露脸少妇精品视频| 免费高清日本中文| 国产一区二区熟女精品免费| 午夜爽爽爽男女污污污网站| 精品久久久久久国产| 91青青草在线观看视频| 国产精品毛片无遮挡高清| 国内精品久久久久久中文字幕 | 中文字幕人妻丝袜乱一区三区| 啪啪网站免费观看| 国产精品人妻熟女男人的天堂|