亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于統(tǒng)計(jì)方法的教育術(shù)語(yǔ)特征分析研究

        2014-10-21 19:57:17閆琪琪張海軍

        閆琪琪 張海軍

        摘 要:領(lǐng)域術(shù)語(yǔ)特征研究是領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取的基礎(chǔ)。研究抽取詞典詞條和領(lǐng)域高頻術(shù)語(yǔ)集構(gòu)建教育術(shù)語(yǔ)庫(kù),使用中科院分詞軟件和統(tǒng)計(jì)方法對(duì)教育術(shù)語(yǔ)的特征進(jìn)行分析。分析結(jié)果表明教育術(shù)語(yǔ)字長(zhǎng)為2-11,詞長(zhǎng)為1-6詞,單詞術(shù)語(yǔ)占教育術(shù)語(yǔ)庫(kù)28%。對(duì)比教育、科技和法律的術(shù)語(yǔ)特征發(fā)現(xiàn)其具有顯著區(qū)別,對(duì)領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取及信息處理相關(guān)研究具有重要理論意義。

        關(guān)鍵詞:教育術(shù)語(yǔ);術(shù)語(yǔ)自動(dòng)抽??;教育術(shù)語(yǔ)特征

        中圖分類號(hào):G434

        術(shù)語(yǔ)自動(dòng)抽取是自然語(yǔ)言處理的基礎(chǔ)性研究。目前術(shù)語(yǔ)研究主要針對(duì)科技名詞術(shù)語(yǔ)展開,社會(huì)科學(xué)領(lǐng)域的術(shù)語(yǔ)研究并未得到重視,嚴(yán)重制約了領(lǐng)域術(shù)語(yǔ)規(guī)范化工作。除共性外,各學(xué)科領(lǐng)域術(shù)語(yǔ)又具有其各自的特征。不同領(lǐng)域術(shù)語(yǔ)特征研究將為各領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取提供必須的語(yǔ)言學(xué)基礎(chǔ)。

        領(lǐng)域術(shù)語(yǔ)特征研究對(duì)術(shù)語(yǔ)語(yǔ)言特征展開,語(yǔ)言特征指術(shù)語(yǔ)具有完整的語(yǔ)言含義和穩(wěn)定的組成結(jié)構(gòu)。目前面向術(shù)語(yǔ)特征的研究大都是術(shù)語(yǔ)的構(gòu)詞特征和長(zhǎng)度特征。何燕[1]研究針對(duì)計(jì)算機(jī)領(lǐng)域術(shù)語(yǔ)語(yǔ)言特征構(gòu)成雙詞模板,有效的抽取領(lǐng)域術(shù)語(yǔ);李嵩[2]對(duì)語(yǔ)言學(xué)領(lǐng)域單詞型和詞組型術(shù)語(yǔ)詞長(zhǎng)和構(gòu)詞特征進(jìn)行系統(tǒng)分析,從語(yǔ)言學(xué)視角形成了語(yǔ)言學(xué)術(shù)語(yǔ)集;季培培[3]從領(lǐng)域術(shù)語(yǔ)外部關(guān)聯(lián)和內(nèi)部構(gòu)成,分別闡述術(shù)語(yǔ)的語(yǔ)言特征。

        在構(gòu)建教育術(shù)語(yǔ)庫(kù)基礎(chǔ)上,借鑒科技術(shù)語(yǔ)特征研究的統(tǒng)計(jì)方法,對(duì)教育術(shù)語(yǔ)字長(zhǎng)特征、詞長(zhǎng)特征和構(gòu)詞特征進(jìn)行系統(tǒng)分析,比較教育、科技和法律領(lǐng)域術(shù)語(yǔ)特征,最終形成教育術(shù)語(yǔ)的語(yǔ)言規(guī)則。

        1 教育領(lǐng)域術(shù)語(yǔ)特征分析

        語(yǔ)料來源:一是1998年《教育大辭典》;二是2002-2013年《民族雙語(yǔ)教育》期刊2077篇。

        1.1 構(gòu)建領(lǐng)域術(shù)語(yǔ)庫(kù)

        針對(duì)兩類文本語(yǔ)料特征采用不同方法實(shí)現(xiàn)術(shù)語(yǔ)抽取。

        詞典類文本,詞條有清晰的邊界特征。詞條邊界分別用標(biāo)簽分割?;谶吔缣卣髟O(shè)計(jì)了術(shù)語(yǔ)抽取器自動(dòng)獲取術(shù)語(yǔ)。

        教育期刊,以題目和關(guān)鍵詞為語(yǔ)料,借助停用詞表和詞頻過濾候選術(shù)語(yǔ),最終得到領(lǐng)域術(shù)語(yǔ)3395條?!督逃筠o典》最新修訂距今已16年,教育新詞匯不斷涌現(xiàn),合并新術(shù)語(yǔ)并剔除重復(fù)項(xiàng),確保術(shù)語(yǔ)庫(kù)術(shù)語(yǔ)的實(shí)時(shí)性。借助百度百科進(jìn)行校對(duì),剔除模糊術(shù)語(yǔ)。校對(duì)中發(fā)現(xiàn)了大量人名、地名和機(jī)構(gòu)名等,考慮其蘊(yùn)含的領(lǐng)域內(nèi)涵,予以保留。最終術(shù)語(yǔ)庫(kù)共含術(shù)語(yǔ)22110條。

        1.2 術(shù)語(yǔ)長(zhǎng)度特征分析

        一是術(shù)語(yǔ)含字長(zhǎng)度,術(shù)語(yǔ)所含漢字字?jǐn)?shù);二是術(shù)語(yǔ)含詞長(zhǎng)度,術(shù)語(yǔ)含字或詞的個(gè)數(shù)。

        1.2.1 術(shù)語(yǔ)含字長(zhǎng)度

        以統(tǒng)計(jì)學(xué)方法為理論基礎(chǔ),建立領(lǐng)域術(shù)語(yǔ)特征統(tǒng)計(jì)平臺(tái)。教育術(shù)語(yǔ)字長(zhǎng)分析結(jié)果如下:

        教育術(shù)語(yǔ)字長(zhǎng)為1-38,集中在2-11(大于1%),占術(shù)語(yǔ)庫(kù)97.31%。4字術(shù)語(yǔ)最多有6527條,占27.82%。此外,2字、3字和6字術(shù)語(yǔ)也較多,與4字術(shù)語(yǔ)共占68.40%。結(jié)果與周浪[4]等人的研究相符,但教育術(shù)語(yǔ)2-6字術(shù)語(yǔ)僅占78.46%,顯然無法涵蓋領(lǐng)域大部分術(shù)語(yǔ)。

        1.2.2 術(shù)語(yǔ)含詞長(zhǎng)度

        術(shù)語(yǔ)預(yù)處理借助中科院分詞系統(tǒng),但缺乏領(lǐng)域詞典的現(xiàn)狀,使分詞結(jié)果存在漏分和誤分。為保證語(yǔ)料正確性,對(duì)分詞結(jié)果進(jìn)行人工校對(duì)。最終得到術(shù)語(yǔ)含詞長(zhǎng)度結(jié)果(見圖1)。

        教育術(shù)語(yǔ)詞長(zhǎng)主要為1-20詞,1-6詞術(shù)語(yǔ)最多,占98.88%。單詞2詞和3詞術(shù)語(yǔ)分別為28.03%、37.83%和20.88%。研究結(jié)果與張榕等人科技術(shù)語(yǔ)研究基本一致。共同點(diǎn)是術(shù)語(yǔ)詞長(zhǎng)集中在2-6詞,但教育術(shù)語(yǔ)中單詞術(shù)語(yǔ)含量更高。

        總結(jié)教育術(shù)語(yǔ)長(zhǎng)度特征有以下幾點(diǎn):

        (1)術(shù)語(yǔ)字長(zhǎng)為1-38字,2-17字術(shù)語(yǔ)占97.31%。

        (2)術(shù)語(yǔ)詞長(zhǎng)集中在1-6詞,最長(zhǎng)達(dá)到20詞,術(shù)語(yǔ)含字長(zhǎng)度與詞頻成反比。

        (3)與科技術(shù)語(yǔ)類似,教育領(lǐng)域詞組型術(shù)語(yǔ)占主要地位。

        1.3 教育領(lǐng)域術(shù)語(yǔ)的構(gòu)詞規(guī)則分析

        術(shù)語(yǔ)可分為:?jiǎn)卧~型術(shù)語(yǔ)和詞組型術(shù)語(yǔ)。根據(jù)詞頻分布詞組型術(shù)語(yǔ)可分為:2-4詞和4詞長(zhǎng)以上術(shù)語(yǔ)。單詞術(shù)語(yǔ)占28.69%,2-4詞術(shù)語(yǔ)占63.41%,4詞以上術(shù)語(yǔ)占5.32%?,F(xiàn)有研究忽視低頻術(shù)語(yǔ),確保抽取正確率,但犧牲了召回率。

        1.3.1 單詞術(shù)語(yǔ)構(gòu)詞規(guī)則

        單詞術(shù)語(yǔ)詞性以名詞為主,占77.86%。但教育單詞術(shù)語(yǔ)中含大量專業(yè)名詞、動(dòng)詞、成語(yǔ)、機(jī)構(gòu)名及人名等。這與以簡(jiǎn)單名詞為主的科技單詞術(shù)語(yǔ)構(gòu)成存在差異。

        1.3.2 詞組型術(shù)語(yǔ)構(gòu)詞規(guī)則

        2詞術(shù)語(yǔ)共7804條,有74種構(gòu)詞規(guī)則。詞頻300次以上的構(gòu)詞規(guī)則有7種,覆蓋率達(dá)到82.65%。

        3詞術(shù)語(yǔ)有4488條,構(gòu)詞規(guī)則299種,詞頻100次以上構(gòu)詞規(guī)則有10種,覆蓋率為54.75%。

        4詞術(shù)語(yǔ)為1727條,4詞術(shù)語(yǔ)構(gòu)詞規(guī)則有439個(gè),詞頻超過40次的構(gòu)詞規(guī)則有7種,覆蓋率為30.40%。

        4詞以上術(shù)語(yǔ)有1176條,構(gòu)詞規(guī)則有876種,頻率10次以上只有5種,均為5詞術(shù)語(yǔ)。

        2 領(lǐng)域術(shù)語(yǔ)特征比較

        科技領(lǐng)域[5]和法律領(lǐng)域術(shù)語(yǔ)特征[6]研究結(jié)果與教育領(lǐng)域術(shù)語(yǔ)特征研究比較后發(fā)現(xiàn),雖然各領(lǐng)域都基本滿足中文術(shù)語(yǔ)特征,但領(lǐng)域間存在顯著差異。

        比較長(zhǎng)度特征,共同點(diǎn)是術(shù)語(yǔ)長(zhǎng)度特征均符合中文術(shù)語(yǔ)長(zhǎng)度特征,但法律和教育術(shù)語(yǔ)在2-10字和2-6詞之上有擴(kuò)展。

        分析構(gòu)詞特征,各領(lǐng)域單詞術(shù)語(yǔ)以名詞為主,但教育單詞術(shù)語(yǔ)存在大量習(xí)語(yǔ)和專用名詞。法律與教育領(lǐng)域詞組型術(shù)語(yǔ)類似,存在大量的形容詞,而科技領(lǐng)域存在習(xí)語(yǔ)和語(yǔ)素詞。

        結(jié)合術(shù)語(yǔ)構(gòu)詞特征分析(1-6詞)教育領(lǐng)域術(shù)語(yǔ)有以下特征:

        特征1:?jiǎn)卧~型術(shù)語(yǔ)以名詞、動(dòng)詞占主要地位,其它詞性的較少。

        特征2:詞組型術(shù)語(yǔ)構(gòu)成中以名詞為主,動(dòng)詞、數(shù)詞、量詞等詞出現(xiàn)頻率較高,副詞、區(qū)別詞、連詞、時(shí)間詞、助詞等也偶有出現(xiàn)。

        特征3:術(shù)語(yǔ)詞性分析發(fā)現(xiàn)術(shù)語(yǔ)首部詞匯以名詞、地名、名動(dòng)詞、人名及區(qū)別詞為主,尾部詞匯主要有名詞、動(dòng)詞、名動(dòng)詞。區(qū)別詞、形容詞及機(jī)構(gòu)名也可做首詞,尾詞可用數(shù)詞、語(yǔ)素詞等。

        3 結(jié)束語(yǔ)

        借鑒科技術(shù)語(yǔ)特征分析方法對(duì)教育術(shù)語(yǔ)庫(kù)長(zhǎng)度特征和構(gòu)詞特征進(jìn)行分析,并對(duì)科技、法律和教育領(lǐng)域術(shù)語(yǔ)特征進(jìn)行比較,最終得出教育領(lǐng)域術(shù)語(yǔ)的特征,并歸納出1-6詞領(lǐng)域術(shù)語(yǔ)語(yǔ)言特征,為術(shù)語(yǔ)自動(dòng)抽取奠定了理論基礎(chǔ),下一步擬結(jié)合術(shù)語(yǔ)語(yǔ)言特征提出一種混合策略方法提取教育領(lǐng)域術(shù)語(yǔ)。

        參考文獻(xiàn):

        [1]何燕.穗志方 等.一種結(jié)合術(shù)語(yǔ)部件庫(kù)的術(shù)語(yǔ)提取方法[J].計(jì)算機(jī)工程與應(yīng)用,2006(33):4-7.

        [2]李嵩.語(yǔ)言學(xué)文獻(xiàn)標(biāo)題的術(shù)語(yǔ)提取研究[D].濟(jì)南:山東大學(xué),2007.

        [3]季培培,鄢小燕.面向領(lǐng)域中文文本信息處理的術(shù)語(yǔ)識(shí)別與抽取研究綜述[J].圖書情報(bào)工作,2010(16):124-129.

        [4]周浪,張亮.基于詞頻分布變化統(tǒng)計(jì)的術(shù)語(yǔ)抽取方法[J].計(jì)算機(jī)科學(xué),2009(05):177-180.

        [5]韓紅旗,安小米.C-value值和unithood指標(biāo)結(jié)合的中文科技術(shù)語(yǔ)抽取[J].圖書情報(bào)工作,2012(19):85-89.

        [6]那日松,劉青.法律領(lǐng)域術(shù)語(yǔ)特征研究[J].中國(guó)科技術(shù)語(yǔ),2011(04):22-26.

        作者簡(jiǎn)介:閆琪琪(1990-),女,新疆烏魯木齊人,碩士研究生,主要研究方向:自然語(yǔ)言處理;通信作者:張海軍(1973-),男,博士,副教授,主要研究方向?yàn)樽匀徽Z(yǔ)言處理,信息抽取技術(shù)。

        作者單位:新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,新疆烏魯木齊 830054

        基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(NO.61163045,61263044);新疆維吾爾自治區(qū)自然科學(xué)基金(NO.2012211A057);新疆師范大學(xué)重點(diǎn)學(xué)科招標(biāo)課題(NO.12XSXZ0601);新疆師范大學(xué)研究生創(chuàng)新金項(xiàng)目(NO.20131201)。

        日本办公室三级在线看| 中文字幕人妻互换av| 91精品国产乱码久久中文| 精品午夜福利在线观看| 曰本人做爰又黄又粗视频| 国产欧美精品区一区二区三区| 免费国产h视频在线观看86| 久久亚洲av午夜福利精品西区| 国产91精品在线观看| 免费不卡无码av在线观看| 久久久国产精品黄毛片| 久久亚洲国产精品成人av秋霞| 亚洲av福利天堂在线观看| 色婷婷精品大在线视频| 国产在线无码一区二区三区视频| 色欲色欲天天天www亚洲伊| 激情偷乱人伦小说视频在线| 久久亚洲aⅴ精品网站婷婷| 久久精品国产亚洲av专区| 日韩中文字幕在线观看一区| 国产精品免费av片在线观看| 国产自偷亚洲精品页65页| 音影先锋色天堂av电影妓女久久| 亚洲视频观看一区二区| 国产内射视频在线免费观看| 免费人妻无码不卡中文字幕系 | 亚洲av一区二区三区蜜桃| 日韩av无码久久一区二区| 午夜不卡久久精品无码免费| 99久久99久久精品免观看| 国产在线视频一区二区三区| 麻豆资源在线观看视频| 亚洲国产成人影院在线播放| 久久久久中文字幕无码少妇| 日本一区二区三区在线观看免费| 国产一区二区黄色的网站| 3d动漫精品啪啪一区二区免费| 国产在线无码一区二区三区| 成年女人片免费视频播放A| 久久精品免费视频亚洲| 国产98色在线 | 国产|