亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于AJAX技術(shù)的中文術(shù)語(yǔ)抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

        2016-11-25 09:00:20張昭楠
        電子設(shè)計(jì)工程 2016年18期
        關(guān)鍵詞:分詞術(shù)語(yǔ)用戶

        張昭楠

        (陜西職業(yè)技術(shù)學(xué)院 陜西 西安 710000)

        基于AJAX技術(shù)的中文術(shù)語(yǔ)抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

        張昭楠

        (陜西職業(yè)技術(shù)學(xué)院 陜西 西安 710000)

        文中從用戶需求的角度出發(fā)確定并設(shè)計(jì)實(shí)現(xiàn)了基于AJAX技術(shù)的中文術(shù)語(yǔ)抽取技術(shù),在用戶角度層面上將系統(tǒng)飛衛(wèi)3個(gè)相互聯(lián)系的子系統(tǒng),即中文術(shù)語(yǔ)抽取、中文定義抽取和基于用戶反饋的自學(xué)習(xí)系統(tǒng),并且對(duì)3個(gè)子系統(tǒng)的功能和任務(wù)進(jìn)行了劃分。本文還采用兩種語(yǔ)料分別對(duì)中文術(shù)語(yǔ)定義抽取系統(tǒng)和中文術(shù)語(yǔ)抽取系統(tǒng)進(jìn)行了一定的測(cè)試,測(cè)試結(jié)果表明系統(tǒng)的準(zhǔn)確性相較于之前的系統(tǒng)提升了40%,達(dá)到了63.75%,召回率可以達(dá)到78.84%,并且在人性化和人機(jī)交互等方面都去了很大的創(chuàng)新和改進(jìn)。

        AJAX技術(shù);中文術(shù)語(yǔ)抽??;系統(tǒng)設(shè)計(jì);系統(tǒng)測(cè)試

        隨著信息社會(huì)的不斷發(fā)展,信息傳遞與交流已經(jīng)成為現(xiàn)代化工作運(yùn)作的重要基石[1]。而可讀性文本信息作為一種不可或缺的載體長(zhǎng)期以來(lái)扮演者非常重要的角色。問(wèn)題是如何幫助人們快速定位信息,從而更加準(zhǔn)確便捷的獲取信息成為了迫切需要解決的問(wèn)題,所以文本內(nèi)容的理解和信息抽取技術(shù)越來(lái)越被關(guān)注和認(rèn)可,其中術(shù)語(yǔ)的抽取則變得越來(lái)越重要。

        AJAX技術(shù)室多種技術(shù)的集合體,其中囊括了Asynchronous、XHTML、Javascript等部分。與傳統(tǒng)的Web應(yīng)用不同的是,AJAX技術(shù)獨(dú)特的異步交互過(guò)程可以在用戶和服務(wù)器之間形成一個(gè)中間媒介。在利用AJAX技術(shù)的情況下,能給ISP、開(kāi)發(fā)人員和用戶等端對(duì)端角色帶來(lái)切實(shí)的好處與便捷,有如下4點(diǎn):

        1)服務(wù)器減負(fù)。AJAX技術(shù)的一個(gè)運(yùn)行原則就是按需取數(shù)據(jù)[2],這就可以大大避免過(guò)多的冗余數(shù)據(jù)請(qǐng)求,真正達(dá)到為服務(wù)器減負(fù)的目的;

        2)不需要頻繁刷新就可以實(shí)時(shí)對(duì)頁(yè)面進(jìn)行更新,這就使用戶減少了等待時(shí)間,從而大大提升了用戶體驗(yàn);

        2)除了服務(wù)器端存儲(chǔ)的數(shù)據(jù),還可以方便的調(diào)用外部數(shù)據(jù);

        3)AJAX技術(shù)都是基于標(biāo)準(zhǔn)化的協(xié)議進(jìn)行編寫(xiě)的程序,是可以被廣泛支持的[3],所以就不需要下載其余插件或者子程序。

        1 系統(tǒng)的需求分析

        1.1 對(duì)功能的需求分析

        我們?cè)O(shè)計(jì)此款基于AJAX技術(shù)的中文術(shù)語(yǔ)抽取系統(tǒng)的主要目的有兩點(diǎn):

        1)使用戶能在閱讀相對(duì)專業(yè)性的文檔或文本信息時(shí)可以快速定位文章中提到的術(shù)語(yǔ)并且可以快速獲取術(shù)語(yǔ)的科學(xué)定義,從而優(yōu)化用戶的閱讀體驗(yàn);

        2)通過(guò)對(duì)術(shù)語(yǔ)準(zhǔn)確的理解和定義,給相關(guān)行業(yè)的從業(yè)者或者科學(xué)研究人員提供深層次的技術(shù)支持。

        1.2 對(duì)性能的需求分析

        此款基于AJAX技術(shù)的中文術(shù)語(yǔ)抽取系統(tǒng)的目標(biāo)就是建立一個(gè)較為完整的軟件生態(tài),在滿足用戶日常閱讀體驗(yàn)和增進(jìn)閱讀效率的同時(shí)還需要根據(jù)用戶的反饋進(jìn)行自學(xué)習(xí),這樣做到使系統(tǒng)更加智能,系統(tǒng)功能性更加完善。所以基于以上的考慮,就需要系統(tǒng)滿足以下要求:1)準(zhǔn)確性;2)可擴(kuò)展性;3)友好的用戶界面。

        2 中文術(shù)語(yǔ)抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

        2.1 中文術(shù)語(yǔ)抽取子系統(tǒng)的流程設(shè)計(jì)

        根據(jù)上述本文提到的系統(tǒng)要實(shí)現(xiàn)的功能和原則,將基于AJAX技術(shù)的中文術(shù)語(yǔ)抽取系統(tǒng)的設(shè)計(jì)分為5個(gè)大的步驟[4],即通過(guò)預(yù)料獲取的途徑和特征進(jìn)行模型的強(qiáng)化訓(xùn)練和記憶,對(duì)包括但不限于分詞和詞性標(biāo)注進(jìn)行詞法分析,遴選候選術(shù)語(yǔ)詞,用訓(xùn)練好的模型對(duì)文本進(jìn)行術(shù)語(yǔ)在詞性層面上的識(shí)別,對(duì)選擇好的術(shù)語(yǔ)詞進(jìn)行二次過(guò)濾,最終呈現(xiàn)給用戶?;谝陨显O(shè)計(jì)步驟,就可以得出以下的術(shù)語(yǔ)抽取流程圖:

        圖1 基于AJAX技術(shù)的術(shù)語(yǔ)抽取系統(tǒng)設(shè)計(jì)流程圖

        下文將著重介紹每個(gè)步驟采用的方法及實(shí)現(xiàn)方式。

        2.2 訓(xùn)練語(yǔ)料的構(gòu)建

        基于AJAX技術(shù)的抽取方法需要術(shù)語(yǔ)數(shù)據(jù)庫(kù)作為支撐,且由于術(shù)語(yǔ)的屬性使得其對(duì)領(lǐng)域的概念非常敏感[5],不同行業(yè)領(lǐng)域可能使術(shù)語(yǔ)的語(yǔ)言構(gòu)成大相徑庭。一般而言,我們會(huì)對(duì)相關(guān)權(quán)威的百科網(wǎng)站進(jìn)行超鏈接關(guān)聯(lián),并且采用半人工半自動(dòng)的方法來(lái)獲取術(shù)語(yǔ),這個(gè)方法的核心要素是通過(guò)一個(gè)候選術(shù)語(yǔ)隊(duì)列來(lái)不斷地?cái)U(kuò)展相關(guān)頁(yè)面,并從頁(yè)面上獲取可能成為術(shù)語(yǔ)的詞或者鏈接,并通過(guò)系統(tǒng)的自學(xué)功能來(lái)進(jìn)行不斷的優(yōu)化,并判斷其是否加入某個(gè)領(lǐng)域的術(shù)語(yǔ)候選隊(duì)列[6]。

        根據(jù)上述的指導(dǎo)思想,本文通過(guò)此種方法獲得了3K+的相關(guān)術(shù)語(yǔ)領(lǐng)域詞匯,摘要如表1所示。

        表1 相關(guān)領(lǐng)域術(shù)語(yǔ)分類摘要表

        這些詞語(yǔ)基本覆蓋了計(jì)算機(jī)技術(shù)相關(guān)的各個(gè)領(lǐng)域,符合上文所提出的要求和原則,可以用來(lái)進(jìn)行試驗(yàn)驗(yàn)證。

        2.3 系統(tǒng)中術(shù)語(yǔ)特征的獲取和模型的訓(xùn)練

        由于系統(tǒng)本身受到諸如沒(méi)有合適的全文語(yǔ)料等限制[7],我們從術(shù)語(yǔ)本身來(lái)獲取特征,就需要對(duì)術(shù)語(yǔ)進(jìn)行分詞和詞性的標(biāo)注,也就是說(shuō)需要將一個(gè)具有復(fù)合語(yǔ)拆分成很多簡(jiǎn)單詞的組合并且標(biāo)出每一個(gè)詞的詞性。在此種情況下,本系統(tǒng)與第三方合作開(kāi)發(fā)具有分詞剖析功能的分詞定義辨別抽取的復(fù)合系統(tǒng),如與哈爾濱工業(yè)大學(xué)的IRLAS,測(cè)試表明該系統(tǒng)的準(zhǔn)確率和召回率達(dá)到了97.8%和98.2%。

        根據(jù)大量的實(shí)驗(yàn)和觀察發(fā)現(xiàn),術(shù)語(yǔ)大多數(shù)都是名詞短語(yǔ),而名詞短語(yǔ)的構(gòu)成是有規(guī)律可言的,比較常見(jiàn)的有形容詞與名詞結(jié)構(gòu)構(gòu)成的方式,通常意義上的屬概念就是術(shù)語(yǔ)的語(yǔ)義特征,我們將這個(gè)概念也應(yīng)用在系統(tǒng)對(duì)術(shù)語(yǔ)詞性特征分析上來(lái)。大量實(shí)踐證明,同一個(gè)領(lǐng)域的術(shù)語(yǔ)在字面上也有很多相似的地方,如領(lǐng)域名稱+名詞的構(gòu)成,我們?cè)谙到y(tǒng)設(shè)計(jì)上也把這種局部相似的現(xiàn)象看做是領(lǐng)域術(shù)語(yǔ)的一個(gè)特征。

        基于以上的分析和測(cè)試,我們可以得到術(shù)語(yǔ)的特征向量表如表2所示。

        表2 術(shù)語(yǔ)特征向量表

        為實(shí)現(xiàn)上述功能,我們?cè)O(shè)計(jì)了一個(gè)特征提取器,專門用來(lái)抽取一個(gè)詞的特征,這個(gè)詞可以使術(shù)語(yǔ)也可以是非術(shù)語(yǔ)。使用該特征提取器就可以從候選樣本提出模型正例。

        訓(xùn)練模型可以近似簡(jiǎn)化為如下結(jié)構(gòu):

        開(kāi)放測(cè)試:導(dǎo)入模型文件進(jìn)行加載實(shí)例測(cè)試,就可以完成對(duì)模型的訓(xùn)練和使用。

        2.4 術(shù)語(yǔ)過(guò)濾系統(tǒng)

        使用AJAX技術(shù)抽取出來(lái)的術(shù)語(yǔ)基本上可以達(dá)到非常高的準(zhǔn)確率,但是并不完美,還會(huì)存在一定的誤差因素,通過(guò)大量的研究實(shí)踐表明[8],錯(cuò)誤識(shí)別的術(shù)語(yǔ)大多數(shù)是人名、地名等,為此,我們又加入了過(guò)濾條件進(jìn)行二次遴選,這樣就可以基本上得出比較準(zhǔn)確的術(shù)語(yǔ)提取。術(shù)語(yǔ)過(guò)濾條件表如表3所示。

        表3 術(shù)語(yǔ)二次過(guò)濾遴選條件

        3 中文術(shù)語(yǔ)抽取系統(tǒng)的測(cè)試結(jié)果

        在系統(tǒng)完成編寫(xiě)和基本流程運(yùn)作后,我們對(duì)系統(tǒng)的諸如召回率,錯(cuò)誤率進(jìn)行了分析,采用與第三方系統(tǒng)比對(duì)的方式來(lái)進(jìn)行,其中閾值F指的是系統(tǒng)計(jì)算得出該詞是術(shù)語(yǔ)的概率,表4給出了相關(guān)計(jì)算結(jié)果。

        表4 實(shí)驗(yàn)結(jié)果比對(duì)

        通過(guò)上表顯示的計(jì)算結(jié)果,閾值的提高使得精確率也為之提高,但是同時(shí)使得召回率有了下降,這里面必定存在一個(gè)平衡點(diǎn),從上表可以看出這個(gè)平衡點(diǎn)就是閾值為0.87時(shí),此時(shí)系統(tǒng)的召回率和準(zhǔn)確率都有了很大的提升,超出了第三方將近1個(gè)百分點(diǎn)。

        在本系統(tǒng)中還存在術(shù)語(yǔ)錯(cuò)誤提取,通過(guò)分析可以總結(jié)出錯(cuò)誤主要存在于下面幾個(gè)方面的影響:

        1)訓(xùn)練語(yǔ)料的限制,因?yàn)闄C(jī)器學(xué)習(xí)方法是基于樣本的,所以有可能會(huì)隨機(jī)組合出很多無(wú)效的詞匯,這對(duì)于抽取結(jié)果有很大影響;

        2)過(guò)分依賴分詞機(jī)制的結(jié)果,分詞系統(tǒng)雖然相對(duì)具有代表性,但對(duì)于一些生僻術(shù)語(yǔ)詞匯卻并不一定適用,這就導(dǎo)致抽取結(jié)果與樣本篩選出現(xiàn)一定比例的錯(cuò)誤;

        3)最大熵與術(shù)語(yǔ)過(guò)濾本身的缺點(diǎn),這一點(diǎn)主要是原理上的近似邏輯計(jì)算導(dǎo)致的,是不可避免的。

        4 結(jié)束語(yǔ)

        文中在分析了中文術(shù)語(yǔ)抽取系統(tǒng)的必要性和功能需求的基礎(chǔ)上,利用AJAX技術(shù)設(shè)計(jì)了一套中文術(shù)語(yǔ)抽取的系統(tǒng),其中,運(yùn)用到了特征分詞的方式和最大熵的原理。文中對(duì)系統(tǒng)的運(yùn)行流程和判斷依據(jù)步驟進(jìn)行了較為詳細(xì)的闡述和論證,取得了一定的成果。利用AJAX技術(shù)編寫(xiě)了一個(gè)特征提取器程序,這位系統(tǒng)運(yùn)行中的準(zhǔn)確率和召回率有了很大的提升,在最后的實(shí)驗(yàn)測(cè)試表中,得出了閾值對(duì)于系統(tǒng)準(zhǔn)確率和召回率的影響因素,并尋找到當(dāng)閾值F=0.87時(shí)系統(tǒng)可以達(dá)到相對(duì)平衡。

        中文術(shù)語(yǔ)抽取系統(tǒng)的設(shè)計(jì)對(duì)于我們?cè)谛畔⑸鐣?huì)快速獲取知識(shí)方面起到了重要的作用,為行業(yè)的發(fā)展起到了進(jìn)一步有益的推動(dòng)作用,當(dāng)然,本系統(tǒng)還存在著一定的錯(cuò)誤率,在以后的版本改進(jìn)中將試圖解決這一問(wèn)題。

        [1]李衛(wèi).領(lǐng)域知識(shí)的獲取[D].北京:北京郵電大學(xué),2008.

        [2]吳云芳,穗志方,邱利坤,等.信息科學(xué)與技術(shù)領(lǐng)域術(shù)語(yǔ)部件描述[J].語(yǔ)言文字應(yīng)用,2004,6(l):174-182.

        [3]胡文敏,何婷婷,張勇,等.基于卡方檢驗(yàn)的漢語(yǔ)術(shù)語(yǔ)抽取[J].計(jì)算機(jī)應(yīng)用,2007(12):3019-3020,3025.

        [4]British Standard Institution.BS EN 50160:2007 Voltage characteristics of electricity supplied by public distribution system[S].2007.

        [5]IEEE Standards Coordinating Committee 22 on Power Quality,IEEE Std 1159-1995[C]//IEEE Recommended Practice for Monitoring Electric Power Quality,ISBN-1-55937-549-3,1995.

        [6]李勇.基于聚類方法對(duì)特定領(lǐng)域術(shù)語(yǔ)的自動(dòng)篩選[J].計(jì)算機(jī)工程與科學(xué),2008(2):64-66,134.

        [7]韓客松,王永成,陳桂林.無(wú)詞典高頻字串快速提取和統(tǒng)計(jì)算法研究[J].中文信息學(xué)報(bào),2001(2):23-30.

        [8]張榕.術(shù)語(yǔ)定義抽取、聚類與術(shù)語(yǔ)識(shí)別研究[D].北京語(yǔ)言大學(xué),2011.

        [9]王萌,李春貴,唐培和,等.一種主題句發(fā)現(xiàn)的中文自動(dòng)文摘研究[J].計(jì)算機(jī)工程,2007,33(8):180-181.

        [10]Berger A L,Pietra V J D,Pietra S A D.A maximum entropy approach to natural language processing[J].Computational Linguistics,1996,22(1):39-71.

        [11]姜柄圭,張秦龍,諶貽榮,等.面向機(jī)器輔助翻譯的漢語(yǔ)語(yǔ)塊自動(dòng)抽取研究[J].中文信息學(xué)報(bào),2007,21(1):9-16.

        [12]何燕,穗志方,段慧明,等.一種結(jié)合術(shù)語(yǔ)部件庫(kù)的術(shù)語(yǔ)提取方法[J].計(jì)算機(jī)工程與應(yīng)用,2006,42(33):4-7.

        [13]趙玉.試論科技漢語(yǔ)詞匯的特點(diǎn)[J].產(chǎn)品安全與召回,2006(3):21-24.

        [14]杜波,田懷鳳,王立,等.基于多策略的專業(yè)領(lǐng)域術(shù)語(yǔ)抽取器的設(shè)計(jì)[J].計(jì)算機(jī)工程,2005,31(14):159-160.

        [15]張鋒,許云,侯艷,等.基于互信息的中文術(shù)語(yǔ)抽取系統(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,2005,22(5):72-73.

        Design and implementation Chinese term extraction system based on AJAX technology

        ZHANG Zhao-nan
        (Shaanxi Vocational and Technical College,Xi'an 710000,China)

        From the perspective of the user needs to determine the design and realization of the Chinese Term Extraction Based AJAX technology technology,the user point level system will Feiwei three interrelated subsystems,namely Chinese term extraction,Chinese custom extraction and based on user feedback the self-learning system,and the functions and tasks were divided into three subsystems.It also uses two definitions of the terms corpus respectively for Chinese and Chinese extraction system terminology extraction system for a certain amount of testing,test results show that the accuracy of the system compared to the previous system upgrade by 40%to 63.75%,can recall It reached 78.84%,and in terms of humanization and humancomputer interaction have gone to great innovation and improvement.

        AJAX technology;Chinese term extraction;system design;system test

        TM933.4

        A

        1674-6236(2016)18-0044-03

        2016-03-24 稿件編號(hào):201603335

        張昭楠(1986—),女,陜西渭南人,碩士研究生,助教。研究方向:中國(guó)古代文學(xué),語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)。

        猜你喜歡
        分詞術(shù)語(yǔ)用戶
        結(jié)巴分詞在詞云中的應(yīng)用
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        值得重視的分詞的特殊用法
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        如何獲取一億海外用戶
        高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
        有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
        從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)
        論英語(yǔ)不定式和-ing分詞的語(yǔ)義傳承
        亚洲精品无码高潮喷水在线 | 亚洲精品无码久久久影院相关影片| 亚洲日韩∨a无码中文字幕| 亚洲国产成人精品激情| 日本av一区二区三区四区| 级毛片内射视频| 中文字字幕在线精品乱码| 亚洲成AⅤ人在线观看无码| 色婷婷亚洲一区二区在线| 蜜桃视频中文在线观看| 国产av精选一区二区| 亚洲国产精品av在线| 成人aaa片一区国产精品 | 乱中年女人伦av一区二区| 欧美日韩国产成人高清视频| 国产精品一区二区av片| 五十路一区二区中文字幕| 日本真人添下面视频免费| 怡红院免费的全部视频| 亚洲AV综合A∨一区二区| 伊人久久亚洲综合av影院| 18禁裸体动漫美女无遮挡网站| 牲欲强的熟妇农村老妇女| 国产亚洲sss在线观看| 极品少妇一区二区三区四区视频| 天堂在线资源中文在线8| 国产95在线 | 欧美| 久久亚洲国产中v天仙www| 久久天堂av综合合色| 日本三级香港三级人妇99| 国产自偷自偷免费一区| 最新欧美一级视频| 久久精品国产亚洲av麻豆床戏| 第一次处破女18分钟高清| 99久久国产福利自产拍| 97精品国产高清自在线看超| 亚洲本色精品一区二区久久| 777国产偷窥盗摄精品品在线| 高清无码一区二区在线观看吞精| 国产精品美女自在线观看| 欧美丰满少妇xxxx性|