亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向中文專利文獻(xiàn)的有標(biāo)記并列結(jié)構(gòu)的統(tǒng)計分析

        2013-10-15 01:37:30周俏麗張桂平
        中文信息學(xué)報 2013年5期

        石 翠,周俏麗,張桂平

        (1.沈陽航空航天大學(xué) 知識工程研究中心,遼寧 沈陽110136;2.遼寧行政學(xué)院 信息技術(shù)系,遼寧 沈陽110161)

        1 引言

        專利文獻(xiàn)是一種非常重要的技術(shù)資料,它有較為固定的書寫格式和表達(dá)方式[1]。與普通文獻(xiàn)相比,專利文獻(xiàn)的文本格式比較固定,用語較為規(guī)范,除含有一些高頻詞和未登錄詞之外,還存在著大量的并列結(jié)構(gòu)。

        并列結(jié)構(gòu)[2](coordinate structure),也稱聯(lián)合結(jié)構(gòu),它由兩個或更多的并列成分組成,并列結(jié)構(gòu)有時也稱為聯(lián)合短語。并列結(jié)構(gòu)里的直接成分通常稱為并列語(conjunct),并列語通常用連詞、頓號或空的連接形式連接。

        在中文專利文獻(xiàn)里并列結(jié)構(gòu)有下列的語言結(jié)構(gòu)。

        A.該通信接口1215BL【發(fā)送和接收】BL【電、電磁、或光】信號。

        B.加壓包裝可包括合適的推進(jìn)劑如BL【二氯二氟甲烷、三氯氟甲烷、二氯四氟乙烷、二氧化碳或其他合適的氣體】。

        C.任務(wù)Z100接收BL【表征所述高頻帶部分的頻譜包絡(luò)的一組濾波器參數(shù)和表征所述高頻帶部分的時間包絡(luò)的一組增益因數(shù)】。

        D.進(jìn)給裝置可以包括BL【用于控制材料從第二部分6釋放的緩沖系統(tǒng)或任何其他適合的系統(tǒng)】。

        E.計算機(jī)802通過BL【BL【有線和/或無線】通信網(wǎng)絡(luò)接口或適配器856】連接至局域網(wǎng)852。

        A為連續(xù)的兩個并列結(jié)構(gòu);B為包含多個并列語且并列語由多個并列標(biāo)記連接的并列結(jié)構(gòu);C和D為跨度較大的并列結(jié)構(gòu),但C中并列結(jié)構(gòu)是規(guī)則的,而D中并列結(jié)構(gòu)是不規(guī)則的;E為嵌套的并列結(jié)構(gòu)。

        有標(biāo)記并列結(jié)構(gòu)是指并列語由連詞或標(biāo)點連接的并列結(jié)構(gòu),如A、B、C、D、E所列并列結(jié)構(gòu);無標(biāo)記并列結(jié)構(gòu)是指并列語由空(例如,多輸入單輸出)連接的并列結(jié)構(gòu)。本文主要研究有標(biāo)記的并列結(jié)構(gòu),而不分析無標(biāo)記的并列結(jié)構(gòu)。

        針對有標(biāo)記并列結(jié)構(gòu),有關(guān)學(xué)者進(jìn)行了多方面的考察與研究。吳云芳[3]利用現(xiàn)有的語言資源,從句法、語義兩個層面詳盡地考察了并列成分之間的約束關(guān)系,并對這些約束關(guān)系進(jìn)行了形式化的描述,而后基于知識描述進(jìn)行了并列結(jié)構(gòu)的自動識別,基于并列詞語進(jìn)行了相似詞語的自動聚類。王東波[4-5]在對并列結(jié)構(gòu)進(jìn)行自動識別前,詳細(xì)統(tǒng)計和分析了有標(biāo)記聯(lián)合結(jié)構(gòu)的內(nèi)部語言學(xué)和外部語言學(xué)特征。苗艷軍[6]分析了賓州中文樹庫中并列結(jié)構(gòu)的內(nèi)部和外部的語言學(xué)特征。馬清華[7]立足于語言系統(tǒng)的自組織性這一理論基礎(chǔ),對并列結(jié)構(gòu)的句法語義進(jìn)行較為系統(tǒng)的動態(tài)研究。Kazuo Hara et al[8]分析了英文中并列結(jié)構(gòu)的句法特征。本文基于中文專利語料,考察了中文專利文獻(xiàn)中有標(biāo)記并列結(jié)構(gòu)的并列標(biāo)記和詞性分布等內(nèi)部語言學(xué)特征,并分析了有標(biāo)記并列結(jié)構(gòu)在中文專利文獻(xiàn)中出現(xiàn)的外部環(huán)境,統(tǒng)計了可能的邊界特征詞等外部特征。這些關(guān)于中文專利文獻(xiàn)的有標(biāo)記并列結(jié)構(gòu)的考察與分析,一方面為并列結(jié)構(gòu)語料庫構(gòu)建提供了理論基礎(chǔ),另一方面為中文專利文獻(xiàn)中的并列結(jié)構(gòu)的自動識別提供了語言學(xué)知識。

        本實驗所使用的語料是由本實驗室自己標(biāo)注的,經(jīng)自動分詞、詞性標(biāo)注并人工校對的語料,且用BL【】標(biāo)記標(biāo)注了語料中所有有標(biāo)記的并列結(jié)構(gòu),語料的具體情況如下面表1和表2所示。

        表1 語料庫的基本統(tǒng)計數(shù)據(jù)對比表

        王東波,謝靖[4]在《基于清華漢語樹庫的有標(biāo)記聯(lián)合結(jié)構(gòu)統(tǒng)計分析》一文中關(guān)于清華漢語樹庫的基本統(tǒng)計數(shù)據(jù)顯示清華漢語樹庫語料的平均句長為23.13,且其統(tǒng)計的語料中學(xué)術(shù)類的句子較復(fù)雜平均句長為28.4,而本文所統(tǒng)計的中文專利文獻(xiàn)的平均句長為31.10,顯然與非專利文獻(xiàn)相比,專利文獻(xiàn)的句子要復(fù)雜(表1給出了專利文獻(xiàn)與非專利文獻(xiàn)的對比數(shù)據(jù))。本文對中文專利文獻(xiàn)中的句子進(jìn)行了劃分,20詞以下(含20)的句子為簡單句子,20詞以上的句子為復(fù)雜句子,則復(fù)雜句子占整個語料的78.84%。

        表2 語料庫的句子長度分布數(shù)據(jù)

        2 中文專利文獻(xiàn)中并列結(jié)構(gòu)基本情況統(tǒng)計

        我們對標(biāo)注的6133句中文專利語料進(jìn)行了更細(xì)致的分類,從統(tǒng)計的結(jié)果更能看出并列結(jié)構(gòu)在中文專利文獻(xiàn)中是不容忽視的問題,具體分析情況如表3、表4所示。

        表3 嵌套并列分布情況數(shù)據(jù)

        表4 并列結(jié)構(gòu)規(guī)律數(shù)據(jù)表

        在中文專利文獻(xiàn)中,不規(guī)則的并列結(jié)構(gòu)占據(jù)很大的比重,而且不規(guī)則的并列結(jié)構(gòu)有可能嵌套在規(guī)則的并列結(jié)構(gòu)中,對于內(nèi)層不規(guī)則并列結(jié)構(gòu)的識別效果影響外層規(guī)則的并列結(jié)構(gòu)的識別效果,所以只采用基于規(guī)則的方法識別中文專利文獻(xiàn)中的并列結(jié)構(gòu)是不夠的,要借助于統(tǒng)計的方法進(jìn)行識別。

        在中文專利文獻(xiàn)中,并列跨度大,即在整個句子中并列結(jié)構(gòu)占較大比例的句子較多,這在非專利文獻(xiàn)中也并不常見。例如,任務(wù)/n Z100/ws接收/v BL【表征/v所/u述/v高/a頻帶/n部分/n的/u頻譜/n包絡(luò)/n的/u一組/m 濾波器/n參數(shù)/n和/c表征/v所/u述/v高/a頻帶/n部分/n的/u時間/n包絡(luò)/n的/u一組/m增益/n因數(shù)/n】。/wp

        我們對中文專利文獻(xiàn)中的并列結(jié)構(gòu)進(jìn)行了跨度統(tǒng)計,按并列結(jié)構(gòu)內(nèi)部包含的詞語個數(shù),將語料中的并列結(jié)構(gòu)進(jìn)行了劃分,具體情況如表5所示,L表示并列結(jié)構(gòu)中包含的詞語個數(shù)。

        表5 并列結(jié)構(gòu)跨度統(tǒng)計表

        由表5可以看出,中文專利文獻(xiàn)中的跨度大的并列結(jié)構(gòu)占較大比重,這將對并列結(jié)構(gòu)的識別效果產(chǎn)生一定的影響。

        專利文獻(xiàn)中的并列結(jié)構(gòu)與非專利文獻(xiàn)中的并列結(jié)構(gòu)主要有下面幾點差異:(1)包含嵌套并列結(jié)構(gòu)多。(2)不規(guī)則并列結(jié)構(gòu)分布廣泛。(3)并列結(jié)構(gòu)跨度大,甚至占據(jù)整個句子。

        3 中文專利文獻(xiàn)并列結(jié)構(gòu)內(nèi)部特征

        對于中文專利文獻(xiàn)中并列結(jié)構(gòu)的內(nèi)部特征,我們主要從并列標(biāo)記、內(nèi)部并列分析和詞性分布三方面考察。

        3.1 并列標(biāo)記

        中文專利文獻(xiàn)中并列標(biāo)記主要有下面三種形式:(1)并列連詞:連接并列結(jié)構(gòu)的連詞。例如,和、或、與、或者、及、及其、并、并且等。(2)標(biāo)點符號:連接并列結(jié)構(gòu)的標(biāo)點符號。主要有:頓號(、)、斜杠(/)、分號(;),有時逗號(,)也起并列連詞的作用。(3)復(fù)合標(biāo)記:主要是并列連詞與標(biāo)點符號的復(fù)合。例如,[,或者]、[;或者]、[;以及]、[和/或]等。

        下面我們對中文專利文獻(xiàn)中比較有特點的并列標(biāo)記以及規(guī)律加以敘述。

        3.1.1 并列標(biāo)記斜杠“/”

        在專利語料里,由“/”連接的并列結(jié)構(gòu)都是包含兩個并列成分的并列結(jié)構(gòu),并且這兩個并列成分都是最理想、最嚴(yán)格的并列,即由詞性相同、結(jié)構(gòu)相同、語義類相同、音節(jié)相同的并列項組成。如例句1所示:

        例句 1 擴(kuò) 展/v 注 入 區(qū)/n 126S/ws 、/wp 126D/ws 、/wp 226S/ws 、/wp 226D/ws 與/c n-FET/ws和/c p-FET/ws的/u主/b源極/n//wp漏極/n層/n(/wp將/p在/p隨后/d形成/v)/wp是/v相同/a導(dǎo)電/n類型/n的/u雜質(zhì)層/n。/wp

        由“/”連接的并列結(jié)構(gòu)里有一種情況,使我們不得不重新考慮到底該如何分詞。如例句2所示:

        例句2 形成/v在/p柵極/n疊層/n周圍/s的/u受/v壓力/n的/u襯墊/n、/wp加高/v的/u BL【源/n//wp漏區(qū)/n】、/wp掩埋/v的/u阱區(qū)/n和/c//wp或/c掩埋/v且/c受/v應(yīng)力/n的/u包含/v Si:C/ws和/c//wp 或/c SiGe/ws的/u BL【源/n//wp漏區(qū)/n】都/d可以/v與/p本/r發(fā)明/n一起/d使用/v。/wp

        這里,顯然要說的是源區(qū)和漏區(qū),也就是說,應(yīng)該是“源”和“漏”并列,那么分詞為:[源/漏 區(qū)]似乎更合理,但由于標(biāo)注的專利語料里源區(qū)、漏區(qū)作為名詞性的術(shù)語大量存在,且由“/”連接的并列結(jié)構(gòu)較規(guī)則,我們可以將其作為一個整體即作為:源/漏區(qū)/n,我們將其切分為源/n//wp漏區(qū)/n,便于根據(jù)并列標(biāo)記斜杠“/”的特征將其進(jìn)行整合。

        3.1.2 并列連詞 “與”

        “與”有兩個詞性,連詞(c)和介詞(p),只有其作為連詞時,才可作為并列標(biāo)記。

        “與”是雙目的并列標(biāo)記,即“與”只連接包含兩個并列語的并列結(jié)構(gòu),而不連接包含多個并列語的并列結(jié)構(gòu)。例如,

        錯誤標(biāo)注:注意/v到/vb處于/v簡化/v目的/n,/wp 未/d 具體/v 示出/v BL【UE/ws與/c控制/n功能性/n(/wp例如/c S-CSCF/ws)/wp 以及/c控制/v功能性/n與/c HSS/HLR/ws】之間/nd的/u所有/b消息/n。/wp

        正確標(biāo)注:注意/v到/vb處于/v簡化/v目的/n,/wp未/d具體/v示出/v BL【BL【UE/ws與/c控制/n功能性/n】(/wp例如/c S-CSCF/ws)/wp以及/c BL【控 制/v 功 能 性/n 與/c HSS/HLR/ws】】之間/nd的/u所有/b消息/n。/wp

        3.1.3 復(fù)合并列標(biāo)記“和/或”

        在專利語料里,由“/”連接的還有“和”與“或”,如例句3所示。

        例句3 在/p一些/m實現(xiàn)/v方案/n中/nd,/wp BL【監(jiān)測/v系統(tǒng)/n 130/m 和/c//wp或/c管理/v系統(tǒng)/n 160/m】可以/v是/v在/p計算機(jī)/n 165/m 上/nd運行/v的/u虛擬/a計算/v系統(tǒng)/n。/wp

        此處,[和/c//wp或/c]起并列連詞的作用,所以我們把它作為復(fù)合標(biāo)記使用,而不把它看作“和”與“或”的并列。

        3.2 并列結(jié)構(gòu)內(nèi)部分析

        3.2.1 包含多個并列語的并列結(jié)構(gòu)的并列標(biāo)記分析

        包含多個并列語的并列結(jié)構(gòu),并列語通常由一種或兩種并列標(biāo)記連接,很少由三種及以上并列標(biāo)記連接。如果包含多個并列語的并列結(jié)構(gòu)是由兩種并列標(biāo)記連接的,那么只有最后一個并列標(biāo)記不同于前面的并列標(biāo)記。例如,

        錯誤標(biāo)注:優(yōu)選/v地/u在/p用于/v BL【噴墨/v裝置/n、/wp直寫/v工具/n或/c其他/r類似/v裝置/n或/c工具/n】的/u噴墨/v墨水/n中/nd或/c數(shù)字/n墨水/ng中/nd。/wp

        正確標(biāo)注:優(yōu)選/v地/u在/p用于/v BL【噴墨/v裝置/n、/wp直寫/v工具/n或/c其他/r類似/v BL【裝置/n或/c工具/n】】的/u噴墨/v墨水/n中/nd或/c數(shù)字/n墨水/ng中/nd。/wp

        這里還需要說明的是在由兩種并列標(biāo)記連接的包含多個并列語的并列結(jié)構(gòu)中,“、”(頓號)不作為最后一個并列標(biāo)記。例如,

        錯誤標(biāo)注:它們/n或者/c是/v BL【硬件/n、/wp硬件/n和/c軟件/n的/u組合/n、/wp軟件/n】。/wp

        正確標(biāo)注:它們/n或者/c是/v BL【硬件/n、/wp BL【硬件/n和/c軟件/n】的/u組合/n、/wp軟件/n】。/wp

        在由兩種并列標(biāo)記連接的包含多個并列語的并列結(jié)構(gòu)中,前一個并列標(biāo)記大多情況下為“、”(頓號),有時也用“或”、“或者”連接,很少用其他并列標(biāo)記連接,也就是說其他并列標(biāo)記在包含多個并列語的并列結(jié)構(gòu)中出現(xiàn)時,通常都是作為最后一個并列標(biāo)記,其后面連接該并列結(jié)構(gòu)的最后一個并列語。

        3.2.2 相差一個前綴的并列結(jié)構(gòu)分析

        在我們考察的中文專利文獻(xiàn)中,有81個(占并列總數(shù)的1.3%)并列結(jié)構(gòu),并列語之間只差一個前綴詞,如例句4所示。

        例句4 聲道/n縮減/v混音/v信號/n 103/m可/v被/p分類/v成/v BL【包括/v頭部/n的/u情形/n 和/c 不/d 包 括/v 頭 部/n 的/u 情 形/n】。/wp

        我們對81個并列結(jié)構(gòu)的前綴詞進(jìn)行了統(tǒng)計(括號中的數(shù)字表示個數(shù)):不/d(15)、非/d(4)、非/h(6)、未/d(13)、從/h(1)、毫微級/b(37)、半/m(2)、非常/d(1)、被/p(2),當(dāng)“非”修飾動詞時其詞性為副詞(d),當(dāng)“非”修飾名詞時其詞性為前綴(h)。在這81個并列結(jié)構(gòu)中,除了一個并列結(jié)構(gòu)(如:例句5所示)包含3個并列語外,其余并列結(jié)構(gòu)都是包含兩個并列語的并列結(jié)構(gòu)。

        例句5 但是/c,/wp近年/nt來/v,/wp已經(jīng)/d開發(fā)/v出/v了/u BL【透射/v-/ws、/wp反射/v-/ws和/c半/m 透射/v-/ws】液晶/n顯示器/n,/wp其中/r傾角/n不/d總是/d 45/m°/ws,/wp因此/c,/wp優(yōu)選/v任意/d地/u調(diào)節(jié)/v拉伸/v方向/n至/p每/r種/q LCD/ws的/u設(shè)計/n。/wp

        在例句5中,并列結(jié)構(gòu)的第一個和最后一個并列語相差一個前綴詞,所以我們也把該并列結(jié)構(gòu)列為相差一個前綴的并列結(jié)構(gòu)。

        3.3 有標(biāo)記并列結(jié)構(gòu)的詞性分布

        為了能分析中文專利文獻(xiàn)中并列結(jié)構(gòu)的內(nèi)部特征,我們對標(biāo)注的6262個并列結(jié)構(gòu)按照并列短語核心詞的詞性進(jìn)行了細(xì)分類。中文專利文獻(xiàn)的內(nèi)部詞性分布如表6所示。

        表6 有標(biāo)記并列結(jié)構(gòu)內(nèi)部詞性分布表

        根據(jù)中文專利文獻(xiàn)自身的語言特點,下面幾種詞性的并列結(jié)構(gòu)有其獨特的特點和規(guī)律。

        3.3.1 英文字符 ws

        在中文專利文獻(xiàn)中,有些詞不屬于純正意義的外文詞語,而是由英文字母和數(shù)字組成的,其沒有真正的含義,經(jīng)常表示一些設(shè)備號等,例如,轉(zhuǎn)移弧/n 102A/ws和/c 102B/ws,這里我們也將它們的詞性標(biāo)注為ws。由表6中的數(shù)據(jù)可以看出,由ws組成的并列在有標(biāo)記的并列結(jié)構(gòu)中占有5.92%的比重,且這些并列結(jié)構(gòu)是完全對稱的并列結(jié)構(gòu)。例如,四/m 個/q探測器/n BL【a/ws、/wp b/ws、/wp c/ws和/c d/ws】可以/v 位于/v 透明/a 屏幕/n 10/m的/u各個/r角/n上/nd。/wp

        ws詞性的詞,除了與ws詞性的詞形成并列以外,只與名詞性的或數(shù)詞性的詞語形成并列。如下面的例句6、7所示。

        例句6 例如/c,/wp BL【URLC8/ws和/c底物/n】,/wp例如/c含有/v D-/ws環(huán)/n的/u ntRNA/ws可/v在/p適合/v于/p nt-RNA/ws二氫尿苷/n合成/v的/u測定/v條件/n下/nd與/p給氫體/n孵育/v。/wp

        例句7 將/p該/r替換/v實施/v方式/n的/u BL【一個/m或/c多/m個/q】特征/n與/p附圖/n BL【2A/ws和/c 2/m】中/nd表示/v的/u代表性/n薄膜/n組合/v。/wp

        上面例句7中與ws詞性的詞“2A”并列的數(shù)詞“2”起的也是標(biāo)號的作用。事實上,在中文專利文獻(xiàn)中,ws詞性的詞與數(shù)詞的并列,一種情況是數(shù)詞起標(biāo)號的作用,一種情況是ws詞性的詞充當(dāng)數(shù)詞的作用。

        3.3.2 數(shù)量詞

        在中文專利文獻(xiàn)中,數(shù)量詞并列,除了上面例句7中數(shù)量詞之間的并列和數(shù)詞與英文字符之間的并列之外還有下面幾種情況:例句8所示的數(shù)量詞之間的并列,例句9所示的基數(shù)詞之間的并列,例句10所示的數(shù)詞與數(shù)詞短語之間的并列,和例句11所示數(shù)詞與形容詞之間的并列等幾種形式。

        例句8 在/p本/r實施/v方式/n中/nd,/wp磁場/n nd37/ws對準(zhǔn)/v出口/n裝置/n 的/u BL【12/m 點鐘/q和/c 6/m 點鐘/q】位置/n之間/nd。/wp

        例句9 烤爐/n在/p BL【第一/m 和/c第二/m】位置/n之間/nd的/u旋轉(zhuǎn)/v運動/v根據(jù)/p需要/v通過/p過程/n控制/v重復(fù)/v多/m次/q。/wp

        例句10 語音/n模式/n參數(shù)/n具有/v BL【一個/m 或/c一個/m 以上/nd】其他/r狀態(tài)/n以/p指示/v例如/c無聲/n 或/c背景/n噪聲/n或/c無聲/n與/c濁/a語音/n之間/nd的/u轉(zhuǎn)變/v的/u模式/n。/wp

        例句11 纖維材料/n片段/n的/u激光/n切割/v邊緣/n包括/v BL【兩/m 個/q或/c更/d多/a】纖維/n 熔合/v 在/p 一起/d 的/u 多/m 個/q組/n G/ws。/wp

        3.3.3 “的”字并列

        在中文專利文獻(xiàn)中,“的”字并列是指并列語的最后一個字是“的”的并列,例如,在/p使用/v中/nd,/wp移動臺/n 1401/m 的/u用戶/n對/p麥克風(fēng)/n 1411/m 講話/v,/wp并且/c BL【他/r的/u或/c她/r的/u】話音/n隨同/v任何/r檢測/v到/v的/u背景/n噪聲/n被/p轉(zhuǎn)換/v為/v模擬/v電壓/n。/wp

        上面表6所列的68個“的”字并列中,有31個是對稱的并列結(jié)構(gòu),27個并列結(jié)構(gòu)中并列語包含相同個數(shù)的“的”字,10處并列結(jié)構(gòu)中并列語包含不同個數(shù)的“的”字,但這10處并列結(jié)構(gòu)中有5個并列結(jié)構(gòu)的并列語的倒數(shù)第二個詞是相同的詞,如例句12所示,1個并列結(jié)構(gòu)的并列語的第一個詞相同。

        例句12 動作/n模式/n 202/m 在/p所/u測量/v的/u信號/n 200/m 上/nd沿著/p時間軸/n滑動/v,/wp并且/c在/p點/m 202/m 處/n,/wp觀察/v到/v存儲/v在/p BL【動作/v模式/n 202/m 中/nd的/u 和/c所/u 測量/v的/u信號/n 峰值/n 200B/ws中/nd的/u】數(shù)據(jù)/n足夠/a一致/a,/wp以/p在/p所/u述/v設(shè)備/n中/nd將/p所/u測量/v的/u信號/n 200/d解釋/v為/p表示/v人/n的/u行走/n。/wp

        除此之外,在我們所考察的專利文獻(xiàn)中,還有5個并列結(jié)構(gòu)是“的”字并列與名詞性、動詞性和形容詞性并列語之間的并列。

        4 中文專利文獻(xiàn)并列結(jié)構(gòu)外部特征

        吳云芳[9]對并列結(jié)構(gòu)的外部句法特征進(jìn)行了詳盡的分析,下面我們將對中文專利文獻(xiàn)中并列結(jié)構(gòu)的外部句法特征進(jìn)行分析,尋找有助于專利文獻(xiàn)中有標(biāo)記并列結(jié)構(gòu)識別的語言學(xué)特征。

        4.1 中文專利文獻(xiàn)并列結(jié)構(gòu)的左、右邊界詞分析

        4.1.1 左邊界詞分析

        并列結(jié)構(gòu)的邊界詞屬于并列結(jié)構(gòu)的外部語言學(xué)特征,這里講的邊界詞是指大多出現(xiàn)在并列結(jié)構(gòu)外部,而不出現(xiàn)在并列結(jié)構(gòu)內(nèi)部的詞語。我們把經(jīng)常出現(xiàn)在并列結(jié)構(gòu)左邊界外部的詞稱為左邊界詞。根據(jù)這一語言學(xué)特征,我們把考察范圍限定在一個句子的范圍內(nèi),且專利文獻(xiàn)的句子較長 ,我們進(jìn)一步把考察的范圍限定在子句的范圍內(nèi),即由逗號分隔的句子。設(shè)w是句子內(nèi)的任一個詞,left設(shè)定為并列結(jié)構(gòu)的左邊及并列結(jié)構(gòu)內(nèi)部的范圍,f(w_left)表示詞w在left范圍內(nèi)出現(xiàn)的頻次,left_out設(shè)定為并列結(jié)構(gòu)左邊的范圍,f(w_left_out)表示詞w在left_out范圍內(nèi)出現(xiàn)的頻次,則詞w作為并列結(jié)構(gòu)左邊界詞的計算公式如式(1)所示。[4]

        通過下面兩個例子對我們考察的并列結(jié)構(gòu)的left和left_out范圍加以解釋,如例句13中,第一個并列結(jié)構(gòu)的left范圍是:解映射/v指令/n的/u執(zhí)行/n包括/v把/p復(fù)數(shù)/n操作數(shù)/n和/p另外/b的/u復(fù)數(shù)/n操作數(shù)/n;left_out范圍是:解映射/v指令/n的/u執(zhí)行/n包括/v把/p。如果在子句范圍內(nèi)包含兩個同級的并列結(jié)構(gòu),我們把彼此的邊界作為考察的邊界,如下面例句14中,第二個并列結(jié)構(gòu)的left范圍是:網(wǎng)層/n 320/m和/c 340/m;left_out范圍是:網(wǎng)層/n。

        例句13 在/p一個/m 實施例/n中/nd,/wp解映射/v指令/n的/u執(zhí)行/n包括/v把/p BL【復(fù)數(shù)/n操作數(shù)/n和/p另外/b的/u復(fù)數(shù)/n操作數(shù)/n】相乘/v ,/wp 然后/c,/wp 將/v 該/r結(jié)果/n的/u BL【實分量/n和/c//wp或/c虛分量/n】跟/p一個/m邊界值/n進(jìn)行/v比較/v。/wp

        例句14 薄膜/n 300/m 還/d包括/v將/p BL【第一/m 和/c第二/m】網(wǎng)層/n BL【320/m 和/c 340/m】連接/v在/p一起/d的/u縱向/n密封件段/n 352/m 。/wp

        由式(1)我們可以得到,當(dāng)p值越大,w作為并列結(jié)構(gòu)左邊界詞的可能性就越大,這里我們將p的閾值設(shè)為0.7,也就是說當(dāng)p大于0.7時,我們將w作為并列結(jié)構(gòu)的左邊界詞。在中文專利文獻(xiàn)中,可以作為有標(biāo)記并列結(jié)構(gòu)左邊界詞的詞如表7所示。

        表7 有標(biāo)記并列結(jié)構(gòu)左邊界詞表

        在專利文獻(xiàn)中,我們將p的閾值設(shè)計為0.7,主要是因為邊界詞出現(xiàn)在內(nèi)部的幾率很大,但是通過我們的分析發(fā)現(xiàn),當(dāng)邊界詞出現(xiàn)在并列結(jié)構(gòu)中時,并列結(jié)構(gòu)的并列語都包含該邊界詞且在并列語中的位置相同,即邊界詞與其自身形成并列。由于上述原因,在非專利文獻(xiàn)中可以作為左邊界詞的詞,如:在(0.63),例如(0.57),通過(0.69)等等,并未出現(xiàn)在左邊界詞的詞表中,如例句15所示。

        例句15 就/d BL【在/p詳細(xì)/a描述/n中/nd或者/c在/p權(quán)利要求書/n中/nd】使用/v的/u術(shù)語/n“/wp包括/v”/wp而言/u

        4.1.2 右邊界詞分析

        與左邊界詞相同,我們把經(jīng)常出現(xiàn)在并列結(jié)構(gòu)右邊界外部的詞稱為右邊界詞。設(shè)w是句子內(nèi)的任一個詞,right設(shè)定為并列結(jié)構(gòu)的右邊及并列結(jié)構(gòu)內(nèi)部的范圍,f(w_right)表示詞w在right范圍內(nèi)出現(xiàn)的頻次,right_out設(shè)定為并列結(jié)構(gòu)右邊的范圍,f(w_right_out)表示詞w 在right_out范圍內(nèi)出現(xiàn)的頻次,則詞w作為并列結(jié)構(gòu)右邊界詞的計算公式如式(2)所示。[4]

        由式(2)我們可以得到,當(dāng)p值越大,w作為并列結(jié)構(gòu)右邊界詞的可能性就越大,這里我們將p的閾值設(shè)為0.7,也就是說當(dāng)p大于0.7時,我們將w作為并列結(jié)構(gòu)的右邊界詞。在中文專利文獻(xiàn)中,可以作為有標(biāo)記并列結(jié)構(gòu)右邊界詞的詞如表8所示。與左邊界詞相同,在非專利文獻(xiàn)中可以作為邊界詞的也(0.51)、中(0.51)等也未出現(xiàn)在右邊界詞的詞表中。

        表8 有標(biāo)記并列結(jié)構(gòu)右邊界詞表

        4.2 專利文獻(xiàn)中有標(biāo)記并列結(jié)構(gòu)的依存關(guān)系分布

        我們在依存樹庫的基礎(chǔ)上,統(tǒng)計分析了中文專利文獻(xiàn)中有標(biāo)記并列結(jié)構(gòu)的依存關(guān)系分布。從統(tǒng)計分析結(jié)果可以看出,專利文獻(xiàn)中有標(biāo)記并列結(jié)構(gòu)主要出現(xiàn)在以下幾種依存關(guān)系中:動賓關(guān)系(VOB)、定中關(guān)系(ATT)、介賓關(guān)系(POB)、“的”字結(jié)構(gòu)(DE)、主謂關(guān)系(SBV),它們占據(jù)了整個并列結(jié)構(gòu)的66.47%。具體分析如下。

        圖1 并列結(jié)構(gòu)做動賓關(guān)系

        (1)動賓關(guān)系(VOB)

        做賓語的成分,與核心詞之間的關(guān)系標(biāo)注為動賓關(guān)系,一般位于核心詞的后面。并列結(jié)構(gòu)做動賓關(guān)系的句子如圖1所示(其中,由方框框起來的是并列結(jié)構(gòu);橢圓中的是它們的依存關(guān)系)。

        (2)定中關(guān)系(ATT)

        定語和中心語之間的關(guān)系標(biāo)注為定中關(guān)系。并列結(jié)構(gòu)做定中關(guān)系的句子如圖2所示。

        (3)介賓關(guān)系(POB)

        依存到介詞的詞語,則該詞與依存詞之間的關(guān)系標(biāo)注為介賓關(guān)系。并列結(jié)構(gòu)做介賓關(guān)系的句子如圖3所示。

        圖2 并列結(jié)構(gòu)做定中關(guān)系

        圖3 并列結(jié)構(gòu)做介賓關(guān)系

        (4)“的”字結(jié)構(gòu)(DE)

        依存到“的”的詞,該詞與“的”之間的關(guān)系為“的”字結(jié)構(gòu)?!暗摹弊纸Y(jié)構(gòu)應(yīng)該屬于定語的一部分。并列結(jié)構(gòu)做“的”字結(jié)構(gòu)的句子如圖4所示。

        圖4 并列結(jié)構(gòu)做“的”字結(jié)構(gòu)

        (5)主謂關(guān)系(SBV)

        做主語的成分,與核心詞之間的關(guān)系標(biāo)注為主謂關(guān)系,一般位于核心詞的前面。并列結(jié)構(gòu)做主謂關(guān)系的句子如圖5所示。

        圖5 并列結(jié)構(gòu)做主謂關(guān)系

        4.3 專利文獻(xiàn)中并列結(jié)構(gòu)的其他外部規(guī)律

        專利語料里,并列結(jié)構(gòu)的左邊界為介詞“在”,右邊界為方位名詞的情況也較普遍,例如,“在/p......之 間/nd”、“在/p......中/nd”及 “在/p......之外/nd”等。如例句16所示。

        例句16 在/p BL【所/u附/v權(quán)利要求書/n及/c 其/r 等 效 物/n】 之 外/nd 受 到/v 限 制/n。/wp

        在專利語料里,并列結(jié)構(gòu)的左邊界為介詞,右邊界為動詞的情況也普遍存在,例如“由/p……覆蓋/v”、“從/p……去除/v”、“與/p……相關(guān)/v”等。如下面例句17所示:

        例句17 BL【通過/p研磨/v或/c通過/p化學(xué)/n機(jī)械/n拋光/v】從/p BL【跡線/n和/c//ws或/c通路/n位置/n】去除/v多余/r導(dǎo)電/v材料/n的/u需要/n。/wp

        4 結(jié)束語

        本文通過對中文專利文獻(xiàn)的考察,統(tǒng)計分析了有標(biāo)記并列結(jié)構(gòu)在專利文獻(xiàn)中的內(nèi)、外部語言學(xué)特征,省略了專利文獻(xiàn)與非專利文獻(xiàn)共有的一些語言學(xué)特征,這將為中文專利文獻(xiàn)中有標(biāo)記并列結(jié)構(gòu)的自動識別提供語言學(xué)規(guī)則。但是,由于語料有限,僅依據(jù)這些規(guī)則進(jìn)行有標(biāo)記并列結(jié)構(gòu)的識別顯然是不夠的。我們將擴(kuò)大語料的考察范圍,對中文專利文獻(xiàn)中的有標(biāo)記并列結(jié)構(gòu)進(jìn)行更全面的考察與分析。

        [1]任楚威.英文專利文獻(xiàn)的漢譯[J].湖南師范大學(xué)自然科學(xué)學(xué)報,2008,(9):122-125.

        [2]馮文賀,姬東鴻.并列結(jié)構(gòu)的依存分析與連詞的控制語地位[J].語言科學(xué),2011,10(2):168-181.

        [3]吳云芳.面向語言信息處理的現(xiàn)代漢語并列結(jié)構(gòu)研究[D].北京:北京大學(xué),2009.

        [4]王東波.基于清華漢語樹庫的有標(biāo)記聯(lián)合結(jié)構(gòu)統(tǒng)計分析[J].現(xiàn)代圖書情報技術(shù),2010,(4):12-17.

        [5]王東波.有標(biāo)記聯(lián)合結(jié)構(gòu)的自動識別[D].南京:南京師范大學(xué),2008.

        [6]苗艷軍.漢語并列結(jié)構(gòu)的自動識別[D].蘇州:蘇州大學(xué),2009.

        [7]馬清華.并列結(jié)構(gòu)的自組織研究[D].上海:華東師范大學(xué),2004

        [8]Kazuo Hara,Masashi Shimbo,Hideharu Okuma,Yuji Matsumoto.Coordinate Structure Analysis with Global Structural Constraints and Alignment-Based Local Features[C]//Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP.Suntec,Singapore,2009:967-975.

        [9]吳云芳,并列結(jié)構(gòu)的外部句法特征[C]//機(jī)器翻譯研究進(jìn)展—2002年全國機(jī)器翻譯研討會論文集,2002:110-116.

        亚洲二区三区在线播放| 亚洲av无码av制服另类专区 | 久久精品亚洲牛牛影视| 久久与欧美视频| 91精品国产综合久久国产| 老熟女老女人国产老太| 少妇被粗大的猛烈进出免费视频| 亚洲五月天综合| 91精品久久久久含羞草| 一区二区三区四区午夜视频在线| 日本伊人精品一区二区三区| 亚洲av国产av综合av卡| 色欲av自慰一区二区三区| 国产精品天天看大片特色视频| 黄页国产精品一区二区免费| 亚洲女厕偷拍一区二区| 18禁黄污吃奶免费看网站| 国产美女在线精品免费观看网址 | 国产喷水1区2区3区咪咪爱av| 真人二十三式性视频(动)| 精品国产午夜久久久久九九| 久久99精品久久只有精品| 少妇伦子伦精品无吗| 久久成人麻豆午夜电影| 乱色视频中文字幕在线看| 亚洲精品一区二区成人精品网站| 亚洲图片自拍偷图区| 黄色视频免费在线观看| 亚洲区精选网址| 中文字幕有码手机视频| 国产精品久久久久久| 久热在线播放中文字幕| 97色人阁俺也去人人人人人| 久久精品日本不卡91| 蜜臀av性久久久久蜜臀aⅴ| 久久国产乱子伦精品免费强| 日本国产精品高清在线| 国产成人小视频| 国产女人成人精品视频| 日韩女同一区二区三区久久| 亚洲av中文无码乱人伦在线视色|