亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語言特征和復(fù)合測量的農(nóng)業(yè)術(shù)語自動(dòng)抽取研究

        2022-09-29 09:04:34周志浩李建波
        科學(xué)技術(shù)與工程 2022年24期

        周志浩,李建波

        (南京信息工程大學(xué)新加坡研究中心,南京 210044)

        在自然語言研究中,術(shù)語抽取具有相當(dāng)重要的地位,人類文明的成果都要以術(shù)語的形式在自然語言中記錄下來[1]。術(shù)語既可以用于深入挖掘文本內(nèi)涵,又可以進(jìn)行潛在語義分析,是進(jìn)行進(jìn)一步信息處理的重要準(zhǔn)備工作。術(shù)語一般用于特定的專業(yè)領(lǐng)域,在特定的專業(yè)領(lǐng)域當(dāng)中,一個(gè)術(shù)語一般只有一個(gè)特定的意義。在專業(yè)性較強(qiáng)的領(lǐng)域,術(shù)語會(huì)以較高的頻率出現(xiàn),如科研論文的關(guān)鍵詞就應(yīng)該是能反映研究內(nèi)容和相關(guān)領(lǐng)域特征的術(shù)語。領(lǐng)域術(shù)語對于建設(shè)語料庫、計(jì)算機(jī)輔助翻譯、本體構(gòu)建、文本檢索與分類、人工智能(artificial intelligence,AI)實(shí)時(shí)翻譯等領(lǐng)域具有至關(guān)重要的價(jià)值。

        對于領(lǐng)域術(shù)語而言,傳統(tǒng)的人工抽取方式已經(jīng)落后,目前機(jī)器自動(dòng)抽取術(shù)語的方式被廣泛使用。以計(jì)算機(jī)輔助翻譯軟件為例,無論是Trados還是Memoq這樣的主流翻譯工具,都有自動(dòng)抽取術(shù)語的功能,但效果卻很難盡如人意。抽取得出的術(shù)語可能并非是術(shù)語,同時(shí)還存在著抽取術(shù)語不全面、抽取術(shù)語錯(cuò)誤等問題。即便是采用人工抽取的方式,除了耗時(shí)耗力難以適應(yīng)大數(shù)據(jù)時(shí)代社會(huì)化大生產(chǎn)的要求,也存在不同的專家觀點(diǎn)不一致的問題。所以,如何高效、準(zhǔn)確的實(shí)現(xiàn)領(lǐng)域術(shù)語的自動(dòng)抽取,既能提高領(lǐng)域術(shù)語抽取的自動(dòng)化效率,又能提高術(shù)語抽取的準(zhǔn)確率和召回率,是目前相關(guān)研究的焦點(diǎn)。

        針對術(shù)語自動(dòng)抽取,目前學(xué)術(shù)界主要提出基于規(guī)則、基于統(tǒng)計(jì)學(xué)的方法。Kapferer等[2]借助領(lǐng)域語言特征的規(guī)則集合,Butenko等[3]使用語料庫中術(shù)語的特征來完善規(guī)則集合,識(shí)別術(shù)語,直觀而高效,但抽取時(shí)會(huì)形成較多的噪聲詞語,且可移植性較差[4],很難跨領(lǐng)域遷移,具有相當(dāng)?shù)木窒扌浴?/p>

        基于統(tǒng)計(jì)的方法是利用語料庫中詞的分布頻率來抽取術(shù)語,Verberne等[5]提出了以頻率為標(biāo)準(zhǔn)判斷術(shù)語,依據(jù)就是術(shù)語會(huì)比噪聲詞出現(xiàn)的頻率高。Azad等[6]借助維基百科的語料和領(lǐng)域語料的詞頻差異來抽取術(shù)語。Ahuja等[7]認(rèn)為候選術(shù)語和其在語料庫中出現(xiàn)的頻率成反比,能提高領(lǐng)域術(shù)語的顯著程度。以上這些基于統(tǒng)計(jì)的方法不需要語言學(xué)家或領(lǐng)域?qū)<医槿?,簡單?jīng)濟(jì),效率高,但是過于依賴詞語在語料庫中出現(xiàn)的頻率,對于專業(yè)性較強(qiáng)的領(lǐng)域術(shù)語并不適用。很多領(lǐng)域術(shù)語處于中低頻次詞頻分布,單純使用基于統(tǒng)計(jì)的方法會(huì)得到大量的噪聲詞語,召回率不高,尤其對低頻術(shù)語的抽取[8]效果不理想。

        針對以上問題,提出結(jié)合術(shù)語的語言特征和復(fù)合測量方法,綜合使用語言學(xué)和統(tǒng)計(jì)學(xué)的方法,更有針對性的抽取農(nóng)業(yè)情報(bào)等極其專業(yè)的領(lǐng)域術(shù)語,為術(shù)語翻譯和語料庫建設(shè)提供了理論依據(jù)。

        1 領(lǐng)域術(shù)語抽取的語言特征

        確定術(shù)語的語言特征主要是從分析術(shù)語的詞性或者淺層語法著手,術(shù)語主要都是由名詞或者名詞性短語組成,很少包括動(dòng)詞、副詞和連詞[9-10]。由此可見,首先可以從術(shù)語的詞性類別出發(fā),在抽取術(shù)語的準(zhǔn)備階段,排除掉成為術(shù)語概率較低的詞語,可以提高術(shù)語抽取的效率。在術(shù)語抽取階段,按詞性進(jìn)行排序,可以確定成為術(shù)語的概率。此外,候選術(shù)語本身的長度也對術(shù)語認(rèn)定有直接影響。對候選領(lǐng)域術(shù)語用語言特征歸納為兩類類:詞性特征和詞長比特征。

        1.1 詞性特征

        運(yùn)用詞性特征可以過濾掉大量的領(lǐng)域高頻非術(shù)語詞,在領(lǐng)域術(shù)語中,語氣助詞和狀態(tài)詞幾乎不會(huì)出現(xiàn)。其他如介詞、感嘆詞、方位詞、擬聲詞、成語和代詞也極少見,89%以上的領(lǐng)域術(shù)語都是名詞或者名詞性短語[11]。如果將詞性擴(kuò)展到包含名詞、動(dòng)詞、量詞、簡稱、英文單詞等,那么比例就上升到99%以上。這就是關(guān)于領(lǐng)域術(shù)語詞性特征的統(tǒng)計(jì)結(jié)論。為了兼顧效率和準(zhǔn)確性,將極少可能成為屬于的介詞、感嘆詞、方位詞、擬聲詞、成語和代詞排除,同時(shí)將術(shù)語的詞性規(guī)定為名詞及名詞性短語、簡稱和英文單詞,這樣可以盡可能的囊括更多的候選術(shù)語,又可以保證效率。對詞性特征(part-of-speech,POS)賦予權(quán)值,設(shè)值時(shí)以名詞及名詞性短語的值為最高,動(dòng)詞等值依次降低。具體設(shè)值如表1所示。

        表1 詞性特征數(shù)值設(shè)定Table 1 Part-of-speech feature value setting

        1.2 詞長比特征

        中文語言中雙字詞占多數(shù),有學(xué)者認(rèn)為詞的長度越長就越有可能是術(shù)語,就英語而言,如在英語語言中,能體現(xiàn)專業(yè)性的詞語很多都來源于拉丁語,詞語的長度都很可觀。但在中文語言中,并非詞長度約高,術(shù)語顯著性就會(huì)越充分,賀海濤等[12]指出中文領(lǐng)域術(shù)語的詞長多在2~6個(gè)字(約77%),超,所以過6個(gè)字的術(shù)語也很少見,據(jù)抽樣統(tǒng)計(jì),6字以上術(shù)語不到1%。當(dāng)然,少于兩個(gè)字的單字詞語成為術(shù)語的概率同樣也很低。在進(jìn)行詞長統(tǒng)計(jì)時(shí),不能簡單計(jì)算詞語由幾個(gè)字組成,從而給出判斷是否成為術(shù)語的依據(jù)。原因就在于,術(shù)語是在特定的領(lǐng)域文檔集中存在的,要從文檔集的語料庫出發(fā),進(jìn)行分析。針對特定領(lǐng)域術(shù)語,采用詞長比(word length ratio,WLR)的特征,揭示術(shù)語的領(lǐng)域隸屬程度和相關(guān)性。所謂詞長比就是指術(shù)語的詞長和語料庫中詞語的平均詞長的比值。比值越高,領(lǐng)域術(shù)語的相關(guān)性越大,隸屬程度越高。設(shè)詞長為Len(t),表示詞語t的含字長度,語料庫中詞語的平均詞長比公式為

        (1)

        就詞長比而言,單詞長度越長,詞長比值就越高,當(dāng)然中文語言的特征也決定了并非詞長比值越高越好,而是要在一個(gè)合理的區(qū)間。中文中兩個(gè)字的詞占大多數(shù),雙字詞術(shù)語的詞長比就為1,又因?yàn)槌^6個(gè)字以上的術(shù)語不到1%,為提高統(tǒng)計(jì)效率,可以把詞長比的數(shù)值定在1≤WLR≤3,小于1或者大于3的都不計(jì)入術(shù)語范疇。

        2 復(fù)合測量方法

        從統(tǒng)計(jì)學(xué)的視角出發(fā),對術(shù)語抽取有多種方法,如標(biāo)準(zhǔn)差、詞頻、文檔頻率等,這些方法各有特色,但也有不足,如標(biāo)準(zhǔn)差雖然可以根據(jù)文檔主題不同,區(qū)分術(shù)語和非術(shù)語,但受主題影響過大,很多時(shí)候判斷會(huì)有誤差。詞頻作為傳統(tǒng)的術(shù)語抽取指標(biāo),當(dāng)然很有效,但是并不能把低頻詞簡單的排除在術(shù)語范圍之外,另外高頻詞也不一定是術(shù)語,比如介詞、連詞等出現(xiàn)的頻率很高,但它們并非術(shù)語。文檔頻率一般是反向使用的,即文檔頻率越高,詞語的領(lǐng)域性就越低,但是領(lǐng)域術(shù)語的情況是相反的,文檔數(shù)高說明術(shù)語的可能性大。針對以上所提及的諸多方法,可以看出都不完善,問題就在于單一性,無法解決復(fù)雜的術(shù)語判斷和抽取問題。所以本文中采用的測量方法是多種復(fù)合的,以避免單一化的缺點(diǎn)。使用的復(fù)核測量方法有兩種:C值法[13]和詞頻-逆文本頻率(term frequency-inverse document frequency,TF-IDF)[14],兩種測量方法本身就是考慮多種因素的復(fù)合方法,兩者結(jié)合使用,可以最大限度保證術(shù)語抽取的準(zhǔn)確性。

        2.1 C值法在術(shù)語抽取中的設(shè)定

        C值法是目前普遍應(yīng)用于領(lǐng)域術(shù)語抽取的方法,和其他方法相比,C值法具有簡單易行,適應(yīng)性強(qiáng)的特點(diǎn)[15]。C值法在語料經(jīng)過詞性特征和詞長比篩選后,針對候選術(shù)語集進(jìn)行過濾,從而得到精確的語料。C值的計(jì)算公式為

        式(2)中:a為候選術(shù)語;|a|為候選術(shù)語長度;f(a)為a的詞頻;b為嵌套術(shù)語;P(Ta)為集合中術(shù)語的數(shù)量;Ta為含有a的多個(gè)詞的集合,Cvalue(a)為候選術(shù)語C值。

        例如,a是“小麥”,那么,Ta就是“冬小麥”“小麥秋播”“小麥拔節(jié)”“小麥返青”等包含a的多個(gè)詞的集合。在詞串中,這個(gè)參數(shù)對詞串呈現(xiàn)正面的作用。P(Ta)指的是Ta的個(gè)數(shù),Ta突出的是a的獨(dú)立性,如果參數(shù)Ta數(shù)值大,說明a在多個(gè)詞的集合中反復(fù)出現(xiàn),也就說明a非常有可能成為一個(gè)術(shù)語??傊?,對于詞串a(chǎn)來說,如果包含a的某個(gè)長詞串b以較高的頻率出現(xiàn),那么b成為術(shù)語的概率就比較大,a是術(shù)語的概率就比較小。同時(shí),a在多個(gè)詞的集合中反復(fù)出現(xiàn),那么包含a的詞串集合就越大,也就意味著a具有較高的獨(dú)立性,成為術(shù)語的可能性就越大。f(b)和Cvalue呈負(fù)相關(guān)關(guān)系,Ta和Cvalue呈正相關(guān)關(guān)系。

        C值法雖然優(yōu)點(diǎn)突出,但并沒有考慮到候選術(shù)語的單元性,對術(shù)語抽取的技術(shù)依賴于詞頻,較難區(qū)分高頻詞語和高頻術(shù)語,此外對于大量存在于語料庫中的低頻術(shù)語也沒有很好的處理策略,所以就需要繼續(xù)引入TF-IDF的領(lǐng)域術(shù)語抽取方法。

        2.2 TF-IDF在術(shù)語抽取中的設(shè)定

        TF-IDF是目前廣泛使用于搜索引擎等互聯(lián)網(wǎng)領(lǐng)域,基本思想是如果一個(gè)詞w在某一篇文檔d里面出現(xiàn)了較多次,即具有較高詞頻,同時(shí)在其他的文檔中出現(xiàn)的頻率[16]較少,那么就可以認(rèn)為該詞w具有較好的區(qū)分度,成為領(lǐng)域術(shù)語的可能性就越高。TF的計(jì)算公式為

        (3)

        式(3)中:count(w)為關(guān)鍵詞w在文章中出現(xiàn)的次數(shù);|Di|為文章里所有詞的總和,TFw,Di為文檔中TF數(shù)值。

        但僅用詞頻高低來確定文本特征是不夠的,如“的”是一個(gè)常見詞,比“冬小麥”在文檔里出現(xiàn)的頻率高得多,但并不能以此來確定“的”就是術(shù)語。由此引入逆文本頻率IDF才能更好反映向量化特征,其計(jì)算公式為

        (4)

        式(4)中:IDF(w)為詞的逆文本頻率數(shù)值;N為文本總數(shù);I(w,Di)為文檔是否包含關(guān)鍵詞w,如果是,那么值為1;如果否,那么值為0,如果關(guān)鍵詞w過于生僻,以至于在所有文檔中均未出現(xiàn),則I(w,Di)的值為0,分母為0,逆文本頻率也就失去了意義,所以在分母上加上1,以實(shí)現(xiàn)對逆文本頻率的平滑處理。

        IDF反映了關(guān)鍵詞普遍性的問題,當(dāng)一個(gè)詞在文檔集合里高頻率出現(xiàn)時(shí),IDF值就低,反之則高。然后把TF和IDF相乘,就可以得出TF-IDF值了,其計(jì)算公式為

        TF-IDF=TFw,DiIDF(w)

        (5)

        總之,TF-IDF的特點(diǎn)是如果一個(gè)詞在文檔中高頻出現(xiàn)且普遍度低,那么TF-IDF的值就越高,成為術(shù)語的可能性就越高。TF-IDF雖然在信息檢索、文檔挖掘等很多領(lǐng)域得到普遍使用,但也存在精度不高的問題,此外如果文檔集合中的部分文檔長度較短的話,文本特征不足會(huì)影響術(shù)語的準(zhǔn)確抽取,擁有相同關(guān)鍵詞的多個(gè)文本也存在相互干擾的問題,這些關(guān)鍵詞計(jì)算的TF-IDF的值就低。所以才需要配合詞性特征、詞長比特征以及C值法共同使用。

        3 領(lǐng)域術(shù)語自動(dòng)抽取模型建構(gòu)

        由于傳統(tǒng)的單一領(lǐng)域術(shù)語自動(dòng)抽取方法都有缺陷,所以需要綜合使用語言特征和復(fù)合測量方法,總體模型建構(gòu)如下:首先進(jìn)行分詞和詞性標(biāo)注處理,其次按照詞性特征中的數(shù)值排列,篩選出數(shù)值為1的詞,最后根據(jù)語言特征和復(fù)合測量方法計(jì)算綜合的數(shù)值,過濾掉非領(lǐng)域術(shù)語的詞語,模型流程圖如圖1所示。

        圖1 領(lǐng)域術(shù)語自動(dòng)抽取模型流程圖Fig.1 Flow chart of domain term automatic extraction model

        3.1 分詞和詞性標(biāo)注

        對文檔集合進(jìn)行分詞及詞性標(biāo)注其實(shí)是文檔預(yù)處理的過程。分詞和詞性標(biāo)注工具目前有比較成熟的若干種,如Hanlp分詞器、Jieba分詞、IKAnalyzer等,以上工具各有所長。其中,Hanlp分詞器具有功能完善、架構(gòu)清晰、語料時(shí)新等特點(diǎn);Jieba分詞安裝簡單,支持語言廣,比較流行;IKAnalyzer開源輕量,可以模擬語義分詞。從權(quán)威性的角度出發(fā),采用NLPIR分詞系統(tǒng),該系統(tǒng)所使用的詞性標(biāo)記集,主要用于中科院計(jì)算技術(shù)研究所研制的詞法分析器、句法分析器和機(jī)器翻譯系統(tǒng),具有相當(dāng)?shù)臋?quán)威性。在分詞流程時(shí),把名詞和名詞詞組作為同意類型的詞語進(jìn)行處理,其他詞語按NLPIR默認(rèn)規(guī)則處理。在分詞的同時(shí),NLPIR分詞系統(tǒng)還會(huì)自動(dòng)進(jìn)行詞性標(biāo)注,按22個(gè)一類、66個(gè)二類、11個(gè)三類確定詞性類別。

        3.2 詞性特征初篩

        在分詞和詞性標(biāo)注完成后,根據(jù)表1中所列的詞性類別以及其數(shù)值,排除掉數(shù)值為0的詞,保留數(shù)值為1的詞。數(shù)值為0的詞一般都是語氣助詞、狀態(tài)詞、介詞、感嘆詞、方位詞、擬聲詞、代詞,這些詞成為術(shù)語的概率是極低的,只保留名詞及名詞性短語、簡稱和英文單詞。但需要注意的是NLPIR分詞系統(tǒng)是以單個(gè)的詞為分詞單位的,如“土壤”和“消毒”在NLPIR分詞系統(tǒng)中是兩個(gè)詞,而實(shí)際上術(shù)語應(yīng)該是“土壤消毒”,也就是說在得出NLPIR分詞系統(tǒng)的詞語列表后,要明確候選的術(shù)語也可以是名詞性短語。同樣,在文檔中的領(lǐng)域術(shù)語不僅存在名詞加名詞的情況,還存在形容詞加名詞的情況,一樣也構(gòu)成名詞短語。另外,對單個(gè)連續(xù)漢字合并,如“桃”“蚜”合并為“桃蚜”,“瓜”“蚜”合并為“瓜蚜”。

        3.3 語言特征和復(fù)合測量方法

        在詞語完成初篩之后,對候選術(shù)語集綜合計(jì)算數(shù)值,以此來確定最終的術(shù)語。將候選術(shù)語的綜合數(shù)值定為WN,設(shè)候選術(shù)語為wt包括語言特征和復(fù)合測量方法兩個(gè)部分。語言特征包括詞性特征數(shù)值、詞長比特征數(shù)值,復(fù)合測量方法包括C值法和TF-IDF,其計(jì)算公式為

        WN(wt)=POS(wt)+WLR(wt)+Cvalue(wt)+

        TF-IDF(wt)

        (6)

        式(6)中:POS(wt)為詞性特征數(shù)值;WLR(wt)為詞長比;Cvalue為C值;TF-IDF(wt)為詞頻-逆文本頻率;WN(wt)為術(shù)語綜合數(shù)值。

        根據(jù)式(6)可以得出結(jié)論,候選術(shù)語綜合數(shù)值越高,成為術(shù)語的可能性就越大,反之則成為術(shù)語的可能性越小。需要注意的是,候選術(shù)語的數(shù)值高低還可以用來說明術(shù)語對于文檔的區(qū)分度以及預(yù)測性,對于機(jī)器自動(dòng)翻譯、互聯(lián)網(wǎng)搜索、大數(shù)據(jù)挖掘[]等都具有現(xiàn)實(shí)的意義。

        4 實(shí)驗(yàn)與分析

        由于領(lǐng)域術(shù)語自動(dòng)抽取研究的對象是農(nóng)業(yè)領(lǐng)域上的術(shù)語,在文本選擇上需要講究專業(yè)性和權(quán)威性,因此選取的文本來自中華人民共和國農(nóng)業(yè)農(nóng)村部網(wǎng)站公開欄目中的文件和公告,隨機(jī)選取了500篇,內(nèi)容覆蓋了農(nóng)事指導(dǎo)、農(nóng)業(yè)提案、農(nóng)業(yè)規(guī)劃、農(nóng)業(yè)管理、農(nóng)業(yè)政策等多個(gè)領(lǐng)域,具有相當(dāng)?shù)钠毡樾砸饬x。

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        首先將實(shí)驗(yàn)所使用的語料進(jìn)行分詞處理并標(biāo)注詞性,在NLPIR分詞系統(tǒng)中,將實(shí)驗(yàn)的語料輸入,對500篇選取的文檔分詞處理后,得到的總詞語數(shù)量為663 195個(gè),除去數(shù)字等,其中漢字詞語為518 210個(gè),英文單詞為1 830個(gè)。在進(jìn)行術(shù)語抽取時(shí),部分術(shù)語的語言特征和復(fù)合測量方法數(shù)值如表2所示。

        由表2可知,隨機(jī)列舉的術(shù)語都是名詞或名詞短語,所以詞性特征數(shù)值都為1,文檔集合的平均詞長為1.96,也就是說語料中的絕大部分詞都是雙字詞,那么詞長比在1~3都被認(rèn)為是符合領(lǐng)域術(shù)語抽取要求的。根據(jù)C值法可以看出,“農(nóng)業(yè)”這樣的詞語數(shù)值都相對偏低,像“結(jié)鈴期”這樣的詞語數(shù)值都較高。TF-IDF的數(shù)值也反應(yīng)了類似的結(jié)果,最后所得到的WN值就是各項(xiàng)數(shù)值相加的總和,若設(shè)定下限閾值為4,則大于4的候選術(shù)語都將被確定為最終的農(nóng)業(yè)領(lǐng)域術(shù)語。

        表2 部分術(shù)語的語言特征和復(fù)合測量方法數(shù)值Table 2 Linguistic features of some terms and composite measurement method values

        4.2 實(shí)驗(yàn)結(jié)果分析

        為了了解和傳統(tǒng)的基于規(guī)則、基于統(tǒng)計(jì)學(xué)的方法的區(qū)別,實(shí)驗(yàn)首先采用語言學(xué)模板,在排除掉數(shù)值為0的詞后,在分詞和詞性標(biāo)注完成,得到518 210個(gè)詞語,顯然噪聲詞匯大量出現(xiàn),在抽取術(shù)語時(shí),把很多詞語的子串也一并抽取出來了。其次使用統(tǒng)計(jì)學(xué)詞頻的方法,在實(shí)驗(yàn)語料的準(zhǔn)備階段,文檔分詞和詞性標(biāo)注的同時(shí),統(tǒng)計(jì)了詞頻,其中詞頻最高的是“的”,共出現(xiàn)了5 365次,但它顯然不是術(shù)語。在抽取的頻率最高的前100個(gè)詞語中,只有32個(gè)是術(shù)語,準(zhǔn)確度較低,可見傳統(tǒng)的詞頻統(tǒng)計(jì)等方法有著較大的缺陷,對于高頻詞語和高頻術(shù)語不能進(jìn)行高效準(zhǔn)確的區(qū)分。與此相比,用語言特征和復(fù)合測量方法抽取出來的農(nóng)業(yè)領(lǐng)域術(shù)語,自動(dòng)排除了介詞、感嘆詞、方位詞等明顯不是術(shù)語的詞,具有較高的準(zhǔn)確率。對于領(lǐng)域術(shù)語的抽取效果進(jìn)行評價(jià),一般有兩個(gè)指標(biāo):精確度Precision和召回率Recall。精確度就是指抽取出來的領(lǐng)域術(shù)語中正確術(shù)語中所占的比例。召回率就是指抽取出來的領(lǐng)域術(shù)語占全部術(shù)語的比例。精確度可以使用系統(tǒng)正確標(biāo)記的術(shù)語總數(shù)占全部術(shù)語的總數(shù)比例表示,而召回率用系統(tǒng)正確標(biāo)記的名詞術(shù)語數(shù)量占找到的名詞術(shù)語總數(shù)的比例表示,其計(jì)算公式為[18]

        (7)

        式(7)中:Fscore為F值評價(jià)指標(biāo),取值范圍為0~100%,越接近100%,那么抽取出的領(lǐng)域術(shù)語的精確度和召回率就越高,領(lǐng)域術(shù)語的抽取效果就越好。

        對抽取出來的術(shù)語進(jìn)行人工判定真?zhèn)?,?dāng)閾值為4時(shí),精確度是71%,召回率是80%。當(dāng)閾值是5時(shí),精確度是80%,召回率是74%。由此可見,閾值的設(shè)定對于最終的領(lǐng)域術(shù)語抽取結(jié)果有著相當(dāng)關(guān)鍵的影響。應(yīng)該通過多次實(shí)驗(yàn)來尋找最理想的閾值。

        5 結(jié)論

        (1)針對傳統(tǒng)單一的領(lǐng)域術(shù)語抽取方法的缺陷提出了綜合使用語言特征和復(fù)合測量方法來抽取領(lǐng)域術(shù)語的模型。首先使用詞性特征初篩候選術(shù)語集合,再根據(jù)詞性特征數(shù)值、詞長比特征數(shù)值、C值法和TF-IDF的綜合數(shù)值確定術(shù)語的權(quán)值。用這種方法抽取出來的領(lǐng)域術(shù)語,具有較高的精確度和召回率,不但可以使用在所研究的農(nóng)業(yè)領(lǐng)域,還可以廣泛應(yīng)用在多種領(lǐng)域,實(shí)現(xiàn)術(shù)語抽取的高效率和正確率。

        (2)由于所使用的方法是多種抽取方法的綜合,所以在單項(xiàng)方法上存在覆蓋面不足,精度不夠的問題,比如詞性特征數(shù)值就存在遺漏現(xiàn)象,很容易影響最終的統(tǒng)計(jì)結(jié)果,使抽取出來的術(shù)語存在不全面的問題。詞長比特征的概念在中文術(shù)語的使用中也可能存在掛一漏萬的現(xiàn)象,遺漏多字術(shù)語的可能始終存在。C值法在區(qū)分高頻詞和高頻術(shù)語上存在不足,對低頻術(shù)語識(shí)別也較困難。TF-IDF始終存在精度不足的問題。

        (3)在下一步的研究里應(yīng)該加強(qiáng)對各個(gè)單項(xiàng)規(guī)則的細(xì)化,完善規(guī)則的機(jī)制,提高術(shù)語抽取的效率和準(zhǔn)確度,同時(shí)對于閾值的設(shè)定也要進(jìn)一步細(xì)化,以探索最佳的閾值范圍,實(shí)現(xiàn)術(shù)語抽取的最佳效果。

        国产自拍视频在线观看免费| 亚洲AV无码一区二区三区ba| 日本嗯啊在线观看| 亚洲一区二区三区色偷偷| 曰韩内射六十七十老熟女影视 | 久久九九国产精品怡红院| 久久国产亚洲精品超碰热| 亚洲成人色黄网站久久| 国产91精品高潮白浆喷水| 亚洲色国产欧美日韩| 国产成人啪精品| 亚洲一区久久久狠婷婷| 一区二区三区字幕中文| 国产精品ⅴ无码大片在线看| 精品人妻中文av一区二区三区| 人妻少妇偷人精品久久人妻 | 免费看泡妞视频app| 免费精品美女久久久久久久久久| 日本免费三片在线视频| 亚洲日韩精品a∨片无码加勒比| 国内a∨免费播放| 无码区a∨视频体验区30秒| 91色综合久久熟女系列| 国产美女做爰免费视频| 狠狠久久久久综合网| 伊人影院在线观看不卡| 亚洲av日韩一区二区| 欧洲熟妇色xxxxx欧美老妇伦| 毛片无码高潮喷白浆视频| 国产影片免费一级内射| 国产精品久久久亚洲| 亚洲成色在线综合网站| 国产日韩亚洲中文字幕| 在线观看国产成人自拍视频| 欧美最大胆的西西人体44| 欧洲亚洲视频免费| 午夜一区二区三区福利视频| 欧美精品videosse精子| 亚洲视频毛片| 日本人妻系列一区二区| 国产乱子伦精品无码专区|