亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GATE的中文領(lǐng)域信息抽取研究

        2014-04-29 00:00:00陳曉紅

        摘 要:為了準(zhǔn)確快速地抽取出用戶(hù)感興趣的信息,本文提出基于GATE的領(lǐng)域信息抽取。本文以“教育”領(lǐng)域?yàn)槔?,修改GATE的中文抽取插件Lang_chinese,精準(zhǔn)快速地抽取出該領(lǐng)域的學(xué)校名、專(zhuān)業(yè)名、人名,為進(jìn)一步提高中文信息抽取的準(zhǔn)確率和召回率提供了研究基礎(chǔ)。

        關(guān)鍵詞:GATE;領(lǐng)域抽取

        中圖分類(lèi)號(hào):TP391.1

        隨著現(xiàn)代通信和傳播技術(shù)的不斷發(fā)展,信息巨量生產(chǎn)、高速傳播,人們被大量洶涌而來(lái)的信息所包圍。怎么從浩瀚如煙的信息海洋中快速、準(zhǔn)確地找到所需要的信息成為當(dāng)前信息處理的研究重點(diǎn)。

        1 信息抽取與GATE框架

        1.1 信息抽取。信息抽?。↖nformation Extraction,簡(jiǎn)稱(chēng)IE)是指從文本中直接抽取用戶(hù)感興趣的信息,以結(jié)構(gòu)化的形式存入數(shù)據(jù)庫(kù)中,可供用戶(hù)直接使用或進(jìn)行下一步的信息處理[1]。信息抽取是領(lǐng)域相關(guān)的,只能抽取特定領(lǐng)域或某些范圍內(nèi)有限種類(lèi)的信息。當(dāng)有大量的文本需要閱讀處理的時(shí)候,信息抽取可以高效、精準(zhǔn)地提取出所需要的領(lǐng)域信息。

        1.2 GATE框架。GATE(General Architecture for Text Engineering)是英國(guó)Sheffield大學(xué)開(kāi)發(fā)的,應(yīng)用非常廣泛的開(kāi)源性自然語(yǔ)言處理框架。GATE框架為信息抽取提供了基本平臺(tái)[2]。針對(duì)英文信息抽取,已經(jīng)開(kāi)發(fā)了基于該框架的應(yīng)用實(shí)例插件ANNIE。ANNIE在英文信息抽取的準(zhǔn)確率和召回率方面均已達(dá)到較高水準(zhǔn),并被一些商業(yè)公司使用,如惠普、大英電信等。

        2 基于GATE的中文領(lǐng)域信息抽取

        2.1 GATE中自帶的中文信息抽取插件。GATE平臺(tái)除了提供英文信息抽取插件ANNIE,也提供了中文信息抽取插件Lang_Chinese,但其設(shè)計(jì)比較簡(jiǎn)單。以中文插件Lang_Chinese的默認(rèn)設(shè)置對(duì)文本進(jìn)行抽取時(shí),如希望能抽取出需要的領(lǐng)域信息,如在“教育”領(lǐng)域希望抽取出“學(xué)?!钡冉M織單位,“校長(zhǎng)”等人員信息,則結(jié)果不能讓人滿(mǎn)意。

        分析其中的原因,主要有以下幾點(diǎn):(1)中文分詞處理不夠?qū)I(yè)。(2)缺乏針對(duì)專(zhuān)業(yè)領(lǐng)域構(gòu)造的中文詞表庫(kù)。(3)GATE中自帶的JAPE抽取規(guī)則,多是針對(duì)英文命名實(shí)體識(shí)別編寫(xiě),對(duì)中文支持不夠,導(dǎo)致相當(dāng)部分的中文不能被識(shí)別到。

        2.2 改進(jìn)的GATE中文領(lǐng)域信息抽取。本研究選取Gate7.1為開(kāi)發(fā)平臺(tái),針對(duì)其中文信息抽取插件Lang_Chinese的不足,面向“教育”領(lǐng)域,研究了改進(jìn)的方法。下面就其中的關(guān)鍵技術(shù)予以介紹:(1)文檔預(yù)處理。本研究采用中科院計(jì)算技術(shù)研究所開(kāi)發(fā)的ICTCLAS分詞系統(tǒng)對(duì)文檔進(jìn)行分詞預(yù)處理。本研究將分詞后的文檔刪去詞性信息,將分開(kāi)的詞組使用空格隔開(kāi),這樣就和英文的格式相同,每個(gè)分開(kāi)后的詞語(yǔ)可做為一個(gè)Token,便于GATE抽取。(2)增加領(lǐng)域詞表。詞表是GATE進(jìn)行信息抽取的重要資源,詞表的豐富完整影響著命名實(shí)體的識(shí)別效果。Gate中的詞表用.lst文件表示,中文組件中自帶有城市名、組織名、公司名等。然后這些詞表名存在.def索引文件中供匹配訪問(wèn)。(3)修改JAPE規(guī)則。GATE中使用JAPE規(guī)則來(lái)實(shí)現(xiàn)命名實(shí)體的識(shí)別。本文針對(duì)中文“教育”領(lǐng)域,編寫(xiě)對(duì)應(yīng)的JAPE規(guī)則,使得該領(lǐng)域的命名實(shí)體能夠得到準(zhǔn)確的識(shí)別抽取。

        學(xué)校識(shí)別。GATE7.1中可以使用自帶unversity.lst詞表將部分大中專(zhuān)院校識(shí)別為組織(organization),但對(duì)眾多的中小學(xué)無(wú)法識(shí)別。并且組織標(biāo)注集含義廣泛,學(xué)會(huì)、公司、政府機(jī)構(gòu)等都會(huì)被識(shí)別為組織。為了更有針對(duì)性的進(jìn)行識(shí)別,本研究新增學(xué)校(school)標(biāo)注,并分別針對(duì)中小學(xué)、本專(zhuān)科院校及其他各類(lèi)學(xué)校撰寫(xiě)相應(yīng)的規(guī)則。

        Macro:PRIMARY_HIGH //定義識(shí)別中小學(xué)的宏

        ({Token.string==\"小學(xué)\"}|{Token.string==\"附小\"}|{Token.string==\"中學(xué)\"}|{Token.string==\"附中\(zhòng)"}|{Token.string==\"小\"}|{Token.string==\"中\(zhòng)"})

        Rule:primary_high

        //識(shí)別中小學(xué)名,如北京第一師范小學(xué),南京瑯琊路小學(xué),山東師大附中等

        ({Lookup.majorType==location,Lookup.minorType==county_abbrev})

        //county_abbrev.lst中存放了大量的地區(qū)名

        ({Token})?

        ({Token})?

        ({Token})?

        //分詞后在地區(qū)和中小學(xué)之間可能出現(xiàn)0個(gè)、1個(gè)、2個(gè)或3個(gè)任意詞組

        ({Token.string==\"師范\"}|{Token.string==\"師范附屬\"})?

        (PRIMARY_HIGH)

        ):school

        -->

        :school.school={kind=inferred,rule=\"primary_high\"}

        Rule:university

        //識(shí)別本專(zhuān)科院校,如上海水產(chǎn)大學(xué)等

        {Lookup.majorType == organization,Lookup.minorType == university}

        ):school

        -->

        :school.school={rule=\"unversity\"}

        Rule:school

        //識(shí)別其他各類(lèi)學(xué)校,如幼兒園,成人夜校等

        {Lookup.majorType==school}

        ):school

        -->

        :school.school={rule=\"school\"}

        3 實(shí)驗(yàn)結(jié)果及結(jié)論

        對(duì)收集的“教育”領(lǐng)域文檔為例進(jìn)行抽取,如圖1,可以看出本研究能精準(zhǔn)的抽取出學(xué)校名、專(zhuān)業(yè)名、人名?;贕ate的領(lǐng)域抽取有效的提高抽取的召回率,快速準(zhǔn)確地抽取出用戶(hù)感興趣的信息。

        由于時(shí)間和精力的關(guān)系,本文的提出的中文領(lǐng)域信息抽取,未考慮到中文的詞性。本研究的下一步研究方向,是充分利用中文的詞性信息,編寫(xiě)出更為精確的JAPE規(guī)則,進(jìn)一步提高信息抽取的準(zhǔn)確率和召回率。

        參考文獻(xiàn):

        [1]原歡.基于GATE的貨物動(dòng)態(tài)郵件信息抽取方法與應(yīng)用研究[D].南京航天航空大學(xué),2013.

        [2]GATE HOME.https://gate.ac.uk/.

        [3]馬續(xù)補(bǔ),郭菊娥.基于GATE的任務(wù)信息抽取研究[J].情報(bào)雜志,2010(29):155-158+163.

        作者簡(jiǎn)介:陳曉紅(1981-),女,講師,碩士,研究方向:數(shù)據(jù)挖掘。

        作者單位:南通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇南通 226001

        基金項(xiàng)目:南通大學(xué)校級(jí)自然科學(xué)類(lèi)科研基金項(xiàng)目(項(xiàng)目編號(hào):12Z036)。

        中文字幕色一区二区三区页不卡 | 风韵多水的老熟妇| 少妇厨房愉情理伦片免费| 亚洲综合色一区二区三区小说| 国产欧美亚洲另类第一页| 国产一区二区三区日韩精品| 韩国一区二区三区黄色录像| 久久午夜av一区二区三区| √新版天堂资源在线资源| 久久婷婷香蕉热狠狠综合| 亚洲国产美女在线观看| 亚洲精品一品二品av| 中文字幕人乱码中文字幕乱码在线| 久久天堂精品一区二区三区四区| 亚洲欧美牲交| 久久人人爽人人爽人人片av麻烦| 亚洲国产成人无码影院| 精品国产又大又黄又粗av | 日本久久精品福利视频| 小妖精又紧又湿高潮h视频69| 免费少妇a级毛片人成网| 亚洲第一成人网站| 久久久99精品视频| 99久久99久久精品国产片果冻| 欧美成aⅴ人高清免费| 国产三级国产精品三级在专区 | 国产午夜福利在线观看红一片| 无码人妻一区二区三区免费| 日日噜噜夜夜狠狠久久无码区| 国产一起色一起爱| 国产91极品身材白皙| 把女的下面扒开添视频| 日韩www视频| 久久99精品免费国产| 丰满人妻一区二区三区视频| 7777奇米四色成人眼影| 精品免费久久久久国产一区| av在线播放免费网站| 欧洲熟妇色 欧美| 2022国内精品免费福利视频| 久久综合亚洲鲁鲁五月天|