亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        遠(yuǎn)距離詞性標(biāo)注在電子病歷上的研究

        2017-06-21 23:16:39徐萬民李燕輝
        無線互聯(lián)科技 2017年5期
        關(guān)鍵詞:處理

        徐萬民 李燕輝

        摘要:詞性標(biāo)注是自然語言處理的一個重要組成部分,只有正確的標(biāo)注才能使機(jī)器對自然語言理解準(zhǔn)確。目前的詞性標(biāo)注系統(tǒng)只能對近距離的約束關(guān)系分析基本準(zhǔn)確,若存在遠(yuǎn)距離約束關(guān)系,系統(tǒng)基本無法識別。文章基于最大熵模型和遠(yuǎn)距離搭配關(guān)系構(gòu)建出的一種新的標(biāo)注方法,可用于解決遠(yuǎn)距離標(biāo)注可能產(chǎn)生的歧義。

        關(guān)鍵詞:自然語言;處理;詞性標(biāo)注;遠(yuǎn)距離標(biāo)注

        詞性(Part of Speech,POS)是詞匯基本的語法屬性,通常也可稱為詞類。詞性標(biāo)注就是在給定句子中判定每個詞的語法范疇,確定其詞性并加以標(biāo)注的過程。詞性標(biāo)注是自然語言處理中一項非常重要的基礎(chǔ)性工作。詞性標(biāo)注作為連接分詞與句法的中間步驟,它既能消除一部分由分詞產(chǎn)生的歧義,也能為接下來的句法分析提供正確的分析幫助。

        目前大部分統(tǒng)計語言模型是N-gram模型,其模型簡單且有效,但是模型也存在缺陷。由于N值有限,模型只能處理短距離語言約束關(guān)系,不能有效處理長距離約束和語言遞歸現(xiàn)象,統(tǒng)計信息有時也不能反映真實的語言規(guī)律,這時,就會有歧義產(chǎn)生。

        目前中文電子病歷還處于空白期,針對中文電子病歷的研究因為缺乏足夠的語料,研究一直在緩慢地進(jìn)行。相比于通用的語料庫,電子病歷存在標(biāo)準(zhǔn)不統(tǒng)一、各個醫(yī)生的寫作習(xí)慣不同、存在簡寫或包含專業(yè)詞等情況。這些都無法依靠通用語料庫來解決。

        本文內(nèi)容主要從以下幾個方面展開:第2節(jié)主要介紹遠(yuǎn)距離詞性標(biāo)注的幾種歧義;第3節(jié)介紹這種標(biāo)注歧義的解決方法;第4節(jié)介紹電子病歷與詞性標(biāo)注的結(jié)合。

        1.遠(yuǎn)距離標(biāo)注歧義

        目前現(xiàn)有的詞性標(biāo)注能解決大部分問題,但是針對歧義以及部分問題存在不足,采用Stanford NLP工具進(jìn)行測試,進(jìn)一步說明問題。

        由于漢語存在一些固定搭配,例如:因為…所以…,不僅…而且…等。這些搭配本來應(yīng)該無視中間出現(xiàn)多少詞,都應(yīng)該保持詞性的不變,但現(xiàn)今的大部分模型是根據(jù)概率與統(tǒng)計的,考慮詞與詞之間的互信息最多也只可能考慮到當(dāng)前詞的前后1-2個詞。也就是說當(dāng)固定搭配之間存在一定距離時,詞與詞之間的聯(lián)系不強(qiáng),基于統(tǒng)計的話概率可能不高,這樣對于詞性標(biāo)注很有可能產(chǎn)生歧義,針對這種現(xiàn)象,筆者做了一些測試。

        1.1固定搭配:一…就…

        “一…就…”這種結(jié)構(gòu)一般情況下將其標(biāo)注為副詞詞性,例如下面這句話:

        他/PN一/ADq:/VV就/AD是/VC 30年/NT

        “一”在這里標(biāo)注為副詞(AD)。從北京大學(xué)語料庫CCL中以“一…就…”這種結(jié)構(gòu)提取出189個句子作為語料進(jìn)行測試,結(jié)果發(fā)現(xiàn):

        (1)他/PN一/AD睡/VV就/AD很/AD難/AD被/SB叫醒/VV。

        (2)他/PN一/CD睡/VV過/AS覺/VV就/AD精力/NN充沛/VA。

        由上面幾個例子可以看出來,當(dāng)一…就…之間只有一個詞的時候,對于“一”的標(biāo)注都為副詞,標(biāo)注正確。但是兩者之間有兩個詞的時候,系統(tǒng)可能將其識別成數(shù)詞。通過測試發(fā)現(xiàn)“一…就…”結(jié)構(gòu)出現(xiàn)錯誤一般在將“一”的詞性由副詞詞性標(biāo)注為量詞詞性,通過測試189個句子發(fā)現(xiàn)出現(xiàn)標(biāo)注錯誤的句子有36個,正確率為80.9%。

        1.2固定搭配:從…到…

        從…到…這個常見的固定結(jié)構(gòu)一般情況下將其標(biāo)為介詞,以北京大學(xué)CCL語料庫中包含“從…到…”結(jié)構(gòu)的751個句子作為測試語料,運用Stanford segmenter以及Stanford postagger作為測試工具,由此可以發(fā)現(xiàn)系統(tǒng)存在以下的情況:

        (1)從/P北極/NR到/P南極/NR太/AD遠(yuǎn)/VA了/SP。

        (2)從/P北京/NR到/P西安/NR有/NE1000/CD公里/M。

        由上面的例子可以看出,當(dāng)“從…到…”之間連接的是一個詞的時候,“到”的標(biāo)注一般為介詞詞性(P),這種標(biāo)注正確,但是當(dāng)中間詞過多時,就會出現(xiàn)以下情況:

        (1)從/P寒冷/VA的/DEC北京/NR到/VV溫暖/VA的/DEC西安/NR有/VE 1000/CD公里/M。

        (2)從/P有/VE北極熊/NN存在/VV的/DEC北極/NR到/VV企鵝/NN存在/VV的/DEC南極/NR太/AD遠(yuǎn)/VA了/SP。

        由上面的例子可以看出來,句子主要意思并沒有發(fā)生變化,但是通過增加修飾語,使的“從…到…”之間的距離發(fā)生變化,“到”的詞性由介詞(P)變成了動詞(vv),顯然存在標(biāo)注錯誤。

        可以推斷出這種錯誤是由于固定搭配之間的距離變遠(yuǎn)了,使系統(tǒng)無法正確識別出來。測試了751個句子,發(fā)現(xiàn)存在“從…到”標(biāo)注錯誤的句子有212個,正確率只有71.8%。

        2.改進(jìn)措施

        針對以上情況,筆者提出以下方案。

        2.1針對“一…就…”結(jié)構(gòu)

        通過上面的測試,可以發(fā)現(xiàn):“一…就…”這個結(jié)構(gòu)出現(xiàn)時,一般情況下,兩者都標(biāo)注為介詞,但是,我們不能忽略以下情況:

        (1)一個/CD三角形/NN就/AD是/VC三/CD條/M邊/NN。

        (2)一個/CD凳子/NN就/AD是/VC四/CD條/M腿/NN。

        當(dāng)“一”后面接的是量詞的情況下,即使存在“一…就…”這個結(jié)構(gòu),也不能適用這種搭配,這里的“一”只能作為數(shù)詞(CD)成立。所以構(gòu)建模型時不能忽視這種情況,因此,可以將特征函數(shù)定義為:

        定義解釋為:當(dāng)存在“一…就…”結(jié)構(gòu),先判斷“一”后面的詞性標(biāo)注是否為量詞(M),若不是則標(biāo)注“一”為副詞(AD);若是則標(biāo)注為數(shù)詞(CD)。

        2.2對于“從…到…”結(jié)構(gòu)

        “從…到…”結(jié)構(gòu)可以看作是“from…to…”結(jié)構(gòu),一般可將“到”標(biāo)注為介詞(P),但是,通過試驗發(fā)現(xiàn)這種結(jié)構(gòu)也會存在一些特例:

        (1)從/P資本主義/NN過渡/VV到/VV社會主義/NN。

        (2)從/P原始社會/NN進(jìn)步/VV到/vv現(xiàn)代/JJ社會/NN。

        雖然有“從…到…”結(jié)構(gòu)存在,但因為有“到”前面存在過渡這個動詞,所以這里的“到”標(biāo)注為動詞(v)是合理的。構(gòu)建模型時,仍需要考慮這種情況的發(fā)生。整合一下兩種情況,可以將特征函數(shù)定義為:

        定義解釋為:當(dāng)存在“從…到…”結(jié)構(gòu),先判斷“到”前面的詞性標(biāo)注是否為動詞(vv),若不是則標(biāo)注“一”為介詞(P);若是則標(biāo)注為動詞(vv)。

        但也可能存在這種情況:在/P從/P個體/NN學(xué)習(xí)/VV到/VV合作/BIN學(xué)習(xí)/VV的/DEC觀念/NN轉(zhuǎn)變/VV過程中/NN。

        雖然“到”的前面接的是動詞(vv),但是個體學(xué)習(xí)和合作學(xué)習(xí)是類似概念,這里“到”與學(xué)習(xí)并不是修飾關(guān)系,個體學(xué)習(xí)和合作學(xué)習(xí)都應(yīng)該為名詞(NN),這里屬于標(biāo)注錯誤,若標(biāo)注為名詞,這項規(guī)則依然成立。

        3.詞性標(biāo)注與電子病歷結(jié)合

        目前國內(nèi)外的詞性標(biāo)注都是以有監(jiān)督的學(xué)習(xí)方式作為主要研究方向,通過與規(guī)則相結(jié)合,增加領(lǐng)域詞典來解決語料匱乏造成的歧義問題。

        通過收集電子病歷,可以發(fā)現(xiàn)電子病歷一般含有以下幾個板塊:

        現(xiàn)病史:描述患者的現(xiàn)在病情狀況。過去史:記錄患者以往的病情狀況。各器官病史:描述各個系統(tǒng)有無不良癥狀。家庭史及個人環(huán)境:患者家庭是否存在遺傳病史和患者周圍環(huán)境因素對病情的影響。診斷結(jié)果:醫(yī)生根據(jù)病況對患者病情下定義。

        通過對這些數(shù)據(jù)進(jìn)行提取和分析,發(fā)現(xiàn)這些語料存在以下特點:

        專業(yè)詞匯過多:腦梗塞、淺表淋巴結(jié)等;句法結(jié)構(gòu)過于簡單:無強(qiáng)直、無反跳疼、無鼻出血等;存在特殊符號及專業(yè)英文字符:質(zhì)中觸疼(+)、HBsAg、抗HCv等。

        4.對于固定搭配無法理解:一…就…與從…到…

        前3項特點可以通過擴(kuò)充領(lǐng)域詞庫或者建立特定領(lǐng)域詞庫來解決,句法結(jié)構(gòu)簡單可以在句法分析中擴(kuò)充完整結(jié)構(gòu)來彌補(bǔ)分析不準(zhǔn)確。本文主要以遠(yuǎn)距離詞性標(biāo)注來解決固定搭配產(chǎn)生的歧義。

        固定搭配歧義一般出現(xiàn)在患者過去病史、現(xiàn)在病史以及患者周圍環(huán)境這3個模塊,例如下面這些句子:某患者一接觸堅果類食物就會引發(fā)過敏癥狀;患者發(fā)病癥狀從2015年6月3日一直持續(xù)到2015年6月5日;患者家庭是從血吸蟲高度流行區(qū)域搬遷到現(xiàn)在所在地等句子。如果只是以通用系統(tǒng)進(jìn)行分析處理,大部分系統(tǒng)無法識別出這種固定搭配結(jié)構(gòu)。通過添加上文提到的兩個模型,能有效地處理這種固定搭配引起的分析錯誤,為計算機(jī)正確識別和處理電子病歷奠定基礎(chǔ)。

        5.結(jié)語

        本文針對遠(yuǎn)距離產(chǎn)生詞性標(biāo)注錯誤的案例進(jìn)行分析,在Stanford NLP工具的基礎(chǔ)上提出了一種對于遠(yuǎn)距離的標(biāo)注方法,先對固定搭配所出現(xiàn)的語言現(xiàn)象進(jìn)行分析,總結(jié)出其規(guī)律。根據(jù)總結(jié)出來的固定搭配構(gòu)建一個規(guī)則庫,當(dāng)系統(tǒng)匹配到固定搭配時,針對相應(yīng)的規(guī)則對其進(jìn)行精確標(biāo)注。將總結(jié)出的規(guī)則庫用在電子病歷上進(jìn)行分析,針對某些特殊的固定搭配有著良好的識別能力。但由于目前統(tǒng)計的固定搭配還不算完整,所以后期工作還要繼續(xù)完善相應(yīng)的工作。

        猜你喜歡
        處理
        同一控制下企業(yè)合并會計處理方法的探討
        科學(xué)實驗數(shù)據(jù)處理與概念構(gòu)建
        教育(2016年38期)2016-11-15 17:52:07
        一起500 kV變壓器鐵芯多點接地故障診斷與處理①
        科技資訊(2016年19期)2016-11-15 08:24:00
        利用核心網(wǎng)網(wǎng)絡(luò)優(yōu)化系統(tǒng)定位用戶投訴問題
        科技資訊(2016年19期)2016-11-15 08:13:38
        影響油田污水處理水質(zhì)因素分析
        視頻后期剪輯制作中鏡頭時長的處理
        戲劇之家(2016年19期)2016-10-31 18:38:40
        聲樂演唱中藝術(shù)與情感的深入處理
        戲劇之家(2016年19期)2016-10-31 18:04:18
        東風(fēng)4B型內(nèi)燃機(jī)車C6級維修后冷卻風(fēng)扇不動作原因及解決辦法
        橋梁軟土基礎(chǔ)處理應(yīng)用
        淺析220kV變電站母線失壓及處理
        亚洲AV无码久久久久调教| 天天影视性色香欲综合网| 丰满人妻妇伦又伦精品国产| 丰满少妇又紧又爽视频| 久久亚洲宅男天堂网址| 成人影片麻豆国产影片免费观看| 中国丰满熟妇xxxx性| 亞洲綜合一區二區三區無碼| 午夜香蕉av一区二区三区| 国产情侣自拍在线视频| 欧美黑人群一交| 精品午夜久久网成年网| 蜜桃视频高清在线观看| 亚洲国产精品亚洲一区二区三区 | 久久亚洲色www成人欧美| 人妻无码一区二区在线影院| 国内人妖一区二区在线播放| 色佬精品免费在线视频| 西西人体444www大胆无码视频| 国产成人精品午夜福利免费APP| 大岛优香中文av在线字幕| 少妇高潮太爽了在线看| 亚洲精品无码久久久久秋霞| 九色91精品国产网站| 中文字幕日韩精品中文字幕| 亚洲中文字幕无码av永久| 国产精品成人一区二区三区| 亚洲第一区二区快射影院| 日本女优中文字幕在线播放| 久久精品国产亚洲av网站| 天天av天天爽无码中文| 亚洲乱码中文字幕综合69堂| 国产一区二区三区在线观看完整版| 欧美一区二区三区激情| 国产在线不卡视频| 亚洲中文字幕视频第一二区| 亚洲人成精品久久久久| 国内精品九九久久久精品| 亚洲乱码中文字幕综合| 免费久久99精品国产| 国产成人综合亚洲精品|