亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        術(shù)語(yǔ)定義的聚類(lèi)研究

        2011-01-04 01:31:10
        中國(guó)科技術(shù)語(yǔ) 2011年1期
        關(guān)鍵詞:術(shù)語(yǔ)語(yǔ)義聚類(lèi)

        張 榕

        (北京語(yǔ)言大學(xué)漢語(yǔ)速成學(xué)院,北京 100083)

        術(shù)語(yǔ)定義的聚類(lèi)研究

        張 榕

        (北京語(yǔ)言大學(xué)漢語(yǔ)速成學(xué)院,北京 100083)

        術(shù)語(yǔ)定義的領(lǐng)域聚類(lèi)是一項(xiàng)較新的研究課題。本文采用自下而上的層級(jí)聚類(lèi)的方法,基于知網(wǎng)進(jìn)行語(yǔ)義相似度計(jì)算,并根據(jù)不同詞類(lèi)對(duì)領(lǐng)域區(qū)分的貢獻(xiàn)度以及構(gòu)建領(lǐng)域聚類(lèi)特有的停用詞表來(lái)進(jìn)行聚類(lèi)的特征項(xiàng)選取,實(shí)現(xiàn)了術(shù)語(yǔ)定義的領(lǐng)域聚類(lèi)。實(shí)驗(yàn)取得了較好的聚類(lèi)結(jié)果。

        術(shù)語(yǔ),術(shù)語(yǔ)定義,語(yǔ)義相似度,領(lǐng)域聚類(lèi)

        一 前言

        新事物、新概念的出現(xiàn)帶來(lái)了大量的術(shù)語(yǔ)及術(shù)語(yǔ)定義。對(duì)術(shù)語(yǔ)定義進(jìn)行分類(lèi)加工,按領(lǐng)域劃分為不同的類(lèi)別,有利于領(lǐng)域?qū)W科專(zhuān)家建立領(lǐng)域術(shù)語(yǔ)數(shù)據(jù)庫(kù),以及系統(tǒng)地研究領(lǐng)域術(shù)語(yǔ)之間的概念層次關(guān)系、語(yǔ)義關(guān)系,提高術(shù)語(yǔ)檢索的準(zhǔn)確率與知識(shí)的系統(tǒng)化加工的效率。

        由于術(shù)語(yǔ)在領(lǐng)域之間的相互借用,使得有些術(shù)語(yǔ)可以在多個(gè)應(yīng)用領(lǐng)域被使用,這些術(shù)語(yǔ)在不同的領(lǐng)域具有不同的義項(xiàng)。以“病毒”這一術(shù)語(yǔ)為例,“病毒”可以是生物領(lǐng)域的“病毒”,也可以是計(jì)算機(jī)領(lǐng)域的“病毒”,而兩個(gè)領(lǐng)域的“病毒”顯然是不同的義項(xiàng),當(dāng)有若干條“病毒”定義時(shí),如何從中鑒別出哪些是生物領(lǐng)域的病毒定義,哪些是計(jì)算機(jī)領(lǐng)域的病毒定義,需要人工的參與。我們以幾組同名術(shù)語(yǔ)定義為例來(lái)闡述術(shù)語(yǔ)定義領(lǐng)域聚類(lèi)的必要性。例如:

        1.病毒

        病毒是一種可以在其他生物體間傳播并感染生物體的微小生物,一般包含核酸以及外殼蛋白,有些動(dòng)物的病毒的外面也偶爾覆蓋一層細(xì)胞膜。

        計(jì)算機(jī)病毒是指編制或者在計(jì)算機(jī)程序中插入的破壞計(jì)算機(jī)功能或者毀壞數(shù)據(jù),影響計(jì)算機(jī)使用,并能自我復(fù)制的一組計(jì)算機(jī)指令或者程序。

        2.防火墻

        防火墻:用于將因特網(wǎng)的子網(wǎng)與因特網(wǎng)的其余部分相離,以達(dá)到網(wǎng)絡(luò)和信息安全效果的軟件或硬體設(shè)施。

        防火墻:兩所房子之間或者一所房屋的兩個(gè)部分之間的厚而高的墻,可以防止火災(zāi)蔓延。

        3.蠕蟲(chóng)

        蠕蟲(chóng)是指一種可以不斷復(fù)制自己并在網(wǎng)絡(luò)中傳播的程序。

        蠕蟲(chóng)是無(wú)脊椎動(dòng)物的一大類(lèi),構(gòu)造比腔腸動(dòng)物復(fù)雜,身體長(zhǎng)行,左右對(duì)稱(chēng),質(zhì)柔軟,沒(méi)有骨骼,沒(méi)有腳。

        4.樹(shù)

        樹(shù)是指生成語(yǔ)法采用的一種二維圖形表示,能方便地顯示由一組規(guī)則生成句子的內(nèi)部層級(jí)結(jié)構(gòu)。

        樹(shù)是木本植物的統(tǒng)稱(chēng)。

        例 1中的“病毒”分別是生物領(lǐng)域的術(shù)語(yǔ)和計(jì)算機(jī)領(lǐng)域的術(shù)語(yǔ);例2中的“防火墻”分別是計(jì)算機(jī)領(lǐng)域的術(shù)語(yǔ)和建筑領(lǐng)域的術(shù)語(yǔ);例3中的“蠕蟲(chóng)”是屬于計(jì)算機(jī)領(lǐng)域的術(shù)語(yǔ)和生物領(lǐng)域的術(shù)語(yǔ);例 4中的“樹(shù)”分別是計(jì)算機(jī)領(lǐng)域的術(shù)語(yǔ)和通用領(lǐng)域的詞語(yǔ)。

        在領(lǐng)域數(shù)據(jù)庫(kù)的構(gòu)建和用戶的使用過(guò)程中,有必要將這些定義區(qū)分開(kāi)來(lái)。通過(guò)聚類(lèi)將計(jì)算機(jī)科學(xué)術(shù)語(yǔ)聚合在一起,將生物學(xué)術(shù)語(yǔ)聚合在一起。但是當(dāng)待處理的數(shù)據(jù)足夠龐大時(shí),人工將這些術(shù)語(yǔ)定義進(jìn)行領(lǐng)域分類(lèi),將耗費(fèi)大量的人力、物力,因此本文提出了計(jì)算機(jī)自動(dòng)處理的術(shù)語(yǔ)定義的領(lǐng)域聚類(lèi)方法。

        二 術(shù)語(yǔ)定義聚類(lèi)的流程

        聚類(lèi)是知識(shí)發(fā)現(xiàn)的重要方法,通過(guò)聚類(lèi),能夠發(fā)現(xiàn)事物的內(nèi)部規(guī)律和特征。聚類(lèi)沒(méi)有事先預(yù)定的類(lèi)別,類(lèi)別數(shù)在聚類(lèi)過(guò)程中自動(dòng)生成,無(wú)需人工標(biāo)注和預(yù)先訓(xùn)練分類(lèi)器。聚類(lèi)作為一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,具有較高的靈活性和自動(dòng)化處理能力[1]。本文聚類(lèi)的具體過(guò)程如下圖所示:

        圖 1 術(shù)語(yǔ)定義聚類(lèi)流程圖

        三 特征項(xiàng)選取

        術(shù)語(yǔ)定義集,由漢語(yǔ)詞法分析器 I CTCLAS進(jìn)行分詞和詞性標(biāo)注,進(jìn)入特征項(xiàng)選取階段。術(shù)語(yǔ)定義聚類(lèi)的過(guò)程是將相似的一組定義歸為一類(lèi),如何將術(shù)語(yǔ)定義的文本內(nèi)容轉(zhuǎn)換成計(jì)算機(jī)可處理的形式,從而用于計(jì)算定義之間的相似度是整個(gè)聚類(lèi)過(guò)程的關(guān)鍵。

        本文通過(guò)將術(shù)語(yǔ)定義用詞與普通文本用詞對(duì)比發(fā)現(xiàn),術(shù)語(yǔ)定義中的名詞與普通文本中的名詞具有很大的差別。在領(lǐng)域的判別過(guò)程中,定義句子中的名詞起到的支持作用最大。考察其他詞性的詞語(yǔ)在兩種文體上用詞的區(qū)別,發(fā)現(xiàn)術(shù)語(yǔ)定義中的動(dòng)詞與普通文本中的動(dòng)詞的差別相對(duì)較小一些,但依然具有領(lǐng)域的區(qū)分度,應(yīng)該作為聚類(lèi)的特征,這些詞性對(duì)術(shù)語(yǔ)定義的領(lǐng)域所屬類(lèi)別的判定,也起到了一定的貢獻(xiàn)作用。形容詞、副詞對(duì)領(lǐng)域聚類(lèi)的貢獻(xiàn)度不大,不作為聚類(lèi)的特征。

        1.名詞的領(lǐng)域區(qū)分度

        術(shù)語(yǔ)定義的領(lǐng)域分類(lèi),也就是將被定義的術(shù)語(yǔ)做一個(gè)領(lǐng)域分類(lèi),被定義項(xiàng)屬于什么領(lǐng)域,那么該術(shù)語(yǔ)定義就屬于什么領(lǐng)域。術(shù)語(yǔ)在詞性上大都是名詞或者名詞短語(yǔ)。定義句子中的名詞對(duì)區(qū)分被定義項(xiàng)屬于哪個(gè)領(lǐng)域具有最大的支持度。比如:

        “卵磷脂是血管的清道夫:能將附著在血管壁上的膽固醇,中性脂肪乳化成微粒子,溶于血液中并運(yùn)回肝臟而被代謝,從而改善血清脂質(zhì),清除過(guò)氧化物,使血液中膽固醇及中性脂肪含量降低,防止由膽固醇引起的血管內(nèi)膜損傷?!?/p>

        “膽固醇是體內(nèi)最豐富的固醇類(lèi)化合物,它既作為細(xì)胞生物膜的構(gòu)成成分,又是類(lèi)固醇類(lèi)激素、膽汁酸及維生素 d的前體物質(zhì)。”

        “核酸是細(xì)胞內(nèi)的生物大分子,是細(xì)胞的核心物質(zhì),由脫氧核糖核酸 (DNA)和核糖核酸 (RNA)組成。”

        上面三個(gè)定義中的“血管”“肝臟”“細(xì)胞”“生物”“分子”“維生素”等詞對(duì)領(lǐng)域聚類(lèi)起到了絕對(duì)的支持作用。

        2.動(dòng)詞的領(lǐng)域區(qū)分度:

        “語(yǔ)音信號(hào)處理是指語(yǔ)音信號(hào)輸入計(jì)算機(jī)后對(duì)其進(jìn)行分析處理的過(guò)程,語(yǔ)音通過(guò)話筒轉(zhuǎn)換成電信號(hào),再經(jīng)放大或轉(zhuǎn)換變成數(shù)字信號(hào),用模式分類(lèi)方法分析和識(shí)別這些信號(hào)?!?/p>

        “二值化是指把一組數(shù)據(jù)按一定的規(guī)則映射為0或 1的過(guò)程?!?/p>

        “漢字信息處理是指用計(jì)算機(jī)對(duì)漢字表示的信息進(jìn)行操作和加工,如漢字的輸入、存儲(chǔ)、識(shí)別、生成和輸出等?!?/p>

        上面三個(gè)句子中的動(dòng)詞“輸入”“分析”“處理”“轉(zhuǎn)化”“識(shí)別”“映射”“操作”“加工”“存儲(chǔ)”“生成”“輸出”對(duì)領(lǐng)域類(lèi)型判別,起到了支持作用。

        連詞、介詞和虛詞對(duì)領(lǐng)域聚類(lèi)幾乎不起任何的作用,因此也可以認(rèn)定,這些詞性的詞不具有領(lǐng)域區(qū)分度。

        另外,還有一些詞語(yǔ)不具有領(lǐng)域區(qū)分度,比如“所謂”“也就是”等等,這些作為停用詞存在。

        由于本文的目的是將術(shù)語(yǔ)定義按照領(lǐng)域聚類(lèi),所以特征項(xiàng)的選取,與普通文本聚類(lèi)有所區(qū)別。我們通過(guò)停用詞過(guò)濾以及定義用詞的詞性過(guò)濾將對(duì)領(lǐng)域聚類(lèi)貢獻(xiàn)極小的詞語(yǔ)過(guò)濾掉,不參與到聚類(lèi)的計(jì)算。

        四 定義相似度的計(jì)算

        術(shù)語(yǔ)定義領(lǐng)域聚類(lèi)的本質(zhì)就是通過(guò)計(jì)算術(shù)語(yǔ)定義之間的句子相似度,將句子相似度高的術(shù)語(yǔ)定義劃分為一類(lèi),將相似度低的句子劃分到不同的類(lèi)。相似度是一個(gè)很復(fù)雜的概念,不同應(yīng)用領(lǐng)域?qū)ο嗨贫扔胁煌慕缍?。相似度?jì)算的常用方法有基于向量空間模型的 TF/ IDF方法以及基于語(yǔ)義的方法。向量空間模型的方法把文本看成為詞的線性序列,不考慮詞語(yǔ)之間的相互關(guān)系,不對(duì)語(yǔ)句進(jìn)行語(yǔ)法結(jié)構(gòu)分析,只考慮了利用句子的表層信息;而基于語(yǔ)義的方法則是對(duì)文本進(jìn)行語(yǔ)義分析,屬于深層結(jié)構(gòu)分析法[2]。

        本文的聚類(lèi)方法是基于語(yǔ)義相似度,在計(jì)算相似度的過(guò)程中,將句子作為一個(gè)詞語(yǔ)的集合進(jìn)行處理。這樣句子的相似度計(jì)算就轉(zhuǎn)化為集合之間的相似度計(jì)算。本文采用劉群的集合相似度的計(jì)算方法[3]來(lái)計(jì)算句子的相似度:

        其中m、n表示兩個(gè)句子中詞匯集合的大小, a、b分別表示兩個(gè)句子中對(duì)應(yīng)的詞。對(duì)于沒(méi)有建立起對(duì)應(yīng)關(guān)系的詞,我們賦給它一個(gè)很小的值σ作為它與空元素的相似度。通過(guò)上面的公式,定義的相似度計(jì)算轉(zhuǎn)化為定義中出現(xiàn)的詞語(yǔ)的相似度計(jì)算。

        詞語(yǔ)的相似度受到詞語(yǔ)的詞法、句法、語(yǔ)義、語(yǔ)用各個(gè)因素的影響。聚類(lèi)的目的是把分屬不同領(lǐng)域的句子按領(lǐng)域聚類(lèi),顯然語(yǔ)義的因素對(duì)詞語(yǔ)和句子相似度的影響最大。詞義相似度計(jì)算是自然語(yǔ)言處理中一個(gè)重要的研究方向,被應(yīng)用在文本分類(lèi)、信息檢索、詞義排歧等領(lǐng)域。我們使用董振東先生創(chuàng)建的知網(wǎng) (HowNet)作為語(yǔ)義知識(shí)資源庫(kù),進(jìn)行語(yǔ)義之間的相似度計(jì)算[4-5]。按照知網(wǎng)的定義,概念是對(duì)詞匯語(yǔ)義的一種描述。一個(gè)詞匯可能表示多種概念,而每個(gè)概念可以分解為若干義原,義原是用于描述一個(gè)概念的最基本的、不能再分割意義的最小單位。

        若有兩個(gè)詞語(yǔ)W1和W2,如果W1有 m個(gè)概念,W2有 n個(gè)概念:s11m,s12…stm,則兩個(gè)詞語(yǔ)之間的相似度,由這兩個(gè)詞之間所有概念之間的相似度的最大值來(lái)決定,用公式表示為:

        通過(guò)上述公式,詞語(yǔ)之間的相似度計(jì)算就轉(zhuǎn)化為概念之間的相似度計(jì)算。

        知網(wǎng)的每個(gè)概念由多個(gè)義原來(lái)描述:

        1)第一基本義原描述:兩個(gè)概念的基本義原的相似度為 Sim1(S1,S2);

        2)其他基本義原描述:是一個(gè)除第一基本義原以外基本義原的集合,其他基本義原相似度為Sim2(S1,S2);

        3)關(guān)系義原描述:是一個(gè)特征結(jié)構(gòu),對(duì)于該特征結(jié)構(gòu)的每一個(gè)特征,屬性是一個(gè)關(guān)系義原,值是一個(gè)基本義原,或一個(gè)具體詞。關(guān)系義原描述的相似度為 Sim3(S1,S2);

        4)關(guān)系符號(hào)描述:是一個(gè)特征結(jié)構(gòu),對(duì)于該特征結(jié)構(gòu)的每一個(gè)特征,屬性是一個(gè)關(guān)系義原,值是一個(gè)集合,該集合的元素是一個(gè)基本義原,或一個(gè)具體詞。關(guān)系符號(hào)描述的相似度為 S im4(S1,S2)。

        這樣,兩個(gè)概念語(yǔ)義表達(dá)式的整體相似度記為:

        其中βi(1≤i≤4)是可調(diào)節(jié)的參數(shù),且有:

        第一基本義原是概念最主要的特征,所以權(quán)值最高,其他的特征賦予一個(gè)遞減的權(quán)重。

        若有兩個(gè)義原 S1,S2,其相似度記為 S im(S1, S2),并用以下公式表達(dá):

        其中Dis(S1,S2)為兩個(gè)義原在這個(gè)層次體系中的路徑距離,是一個(gè)可以調(diào)節(jié)的參數(shù)。兩個(gè)義原之間的距離越大,它們的語(yǔ)義相似度越小,兩者成反比。

        五 聚類(lèi)處理

        給定一個(gè)數(shù)據(jù)樣本集 X{X1,X2,…,Xn},根據(jù)對(duì)象間的相似程度將樣本集合分成 k簇:{C1,C2,…,Ck}的過(guò)程稱(chēng)為聚類(lèi)。通??梢苑譃閷哟问胶头菍哟问絻煞N[6]。本文采用自底向上的層級(jí)聚類(lèi)方法。該方法的優(yōu)點(diǎn)是易于理解,實(shí)現(xiàn)簡(jiǎn)便。具體步驟如下:

        輸入:待聚類(lèi)的定義集合(n個(gè)定義)

        1)初始化成 n類(lèi)使每個(gè)類(lèi)包含一個(gè)定義;

        2)計(jì)算所有 n個(gè)類(lèi)兩兩之間的相似度;

        3)找出相似度最大的兩個(gè)類(lèi)合并成一個(gè)類(lèi),n =n-1;

        4)重復(fù)步驟 2、3直到最大的相似度小于設(shè)定的閾值或最后只有一類(lèi)時(shí)停止。

        六 聚類(lèi)結(jié)果分析

        術(shù)語(yǔ)定義的聚類(lèi)實(shí)驗(yàn)結(jié)果使用準(zhǔn)確率來(lái)進(jìn)行評(píng)價(jià),用公式表示如下:

        本文從中國(guó)標(biāo)準(zhǔn)化研究院提供的術(shù)語(yǔ)數(shù)據(jù)庫(kù)語(yǔ)料中隨機(jī)抽取 1000條術(shù)語(yǔ)定義來(lái)做實(shí)驗(yàn),聚類(lèi)結(jié)果被分為19類(lèi),其中被正確分類(lèi)的術(shù)語(yǔ)定義 778條。實(shí)驗(yàn)的聚類(lèi)正確率為 77.8%。

        本文選用知網(wǎng)作為術(shù)語(yǔ)定義領(lǐng)域聚類(lèi)的知識(shí)庫(kù)是因?yàn)橹W(wǎng)里具有大量區(qū)分不同領(lǐng)域的義原。例如:commercial|商、medical|醫(yī)、computer|電腦、education|教育、weather|天象、politics|政、information|信息、agricultural|農(nóng)、industrial|工、Animal-Human|動(dòng)物、animate|生物、chemical|化學(xué)物、material|材料、vehicle|交通工具、MusicTool|樂(lè)器、machine|機(jī)器、music|音樂(lè)、sport|體育、law|律法等。這些義原對(duì)定義的領(lǐng)域區(qū)分與判別起到了很大的支持作用。

        實(shí)驗(yàn)中我們也發(fā)現(xiàn)使用知網(wǎng)進(jìn)行領(lǐng)域聚類(lèi)的局限性。由于知網(wǎng)使用的義原的個(gè)數(shù)為 2200個(gè),但是它所涵蓋的詞語(yǔ)達(dá) 65 000條,概念達(dá)80 000多。義原的個(gè)數(shù)遠(yuǎn)遠(yuǎn)小于詞語(yǔ)和概念的個(gè)數(shù),這樣就出現(xiàn)多個(gè)概念之間共用同一個(gè)義原的情況,影響了領(lǐng)域聚類(lèi)的準(zhǔn)確度。

        我們以“phenomena|現(xiàn)象”這個(gè)義原為例進(jìn)行分析,包含該義原的詞語(yǔ)有:白色恐怖、雹災(zāi)、飽嗝兒、暴洪、悲歡離合、弊病、表面現(xiàn)象、兵荒馬亂、病蟲(chóng)害、波譜、擦網(wǎng)球、差錯(cuò)、車(chē)流、春寒等。顯而易見(jiàn),在聚類(lèi)的過(guò)程中,這些詞語(yǔ)由于共用一個(gè)“phenomena|現(xiàn)象”義原,而且該義原在大多數(shù)情況下屬于第一基本義原,被賦予了一個(gè)較高的權(quán)重,通過(guò)詞語(yǔ)的相似度計(jì)算,這些詞語(yǔ)之間容易獲得較大的相似度。由于句子的相似度是建立在詞語(yǔ)相似度基礎(chǔ)之上,進(jìn)而又影響到句子的相似度計(jì)算,影響了聚類(lèi)的結(jié)果。

        同時(shí)知網(wǎng)中部分詞語(yǔ)的義原描述不夠詳盡,無(wú)法提供對(duì)領(lǐng)域聚類(lèi)的足夠支持。例如,颶風(fēng)只有一個(gè)義原描述“wind|風(fēng)”;泥石流同樣只有一個(gè)義原描述“stone|土石”。這兩個(gè)詞語(yǔ)屬于自然現(xiàn)象,但知網(wǎng)的知識(shí)庫(kù)卻不能提供領(lǐng)域聚類(lèi)的支持。

        詞條的完備性也會(huì)產(chǎn)生一定的影響,由于術(shù)語(yǔ)定義中包含的術(shù)語(yǔ)較多,有些詞語(yǔ)未被知識(shí)庫(kù)所收錄,中文是一個(gè)開(kāi)放集合,知網(wǎng)也并不能涵蓋所有詞語(yǔ)??梢?jiàn)一個(gè)知識(shí)庫(kù)的構(gòu)建是項(xiàng)非常艱巨的工作,同時(shí)它的構(gòu)建總會(huì)受一些主觀因素的影響。因此,借助知識(shí)庫(kù)進(jìn)行自然語(yǔ)言處理的相關(guān)工作既有可操作性又有其局限性。

        七 結(jié)束語(yǔ)

        術(shù)語(yǔ)定義的領(lǐng)域聚類(lèi)的研究相對(duì)來(lái)說(shuō)是一個(gè)新課題。定義的自動(dòng)聚類(lèi)有助于系統(tǒng)化地研究某個(gè)特定領(lǐng)域的術(shù)語(yǔ)以及術(shù)語(yǔ)定義的詞匯、句法,以及語(yǔ)義的內(nèi)在固有規(guī)律。對(duì)領(lǐng)域術(shù)語(yǔ)庫(kù)的建設(shè)、領(lǐng)域知識(shí)的提取與研究具有一定的理論意義和應(yīng)用價(jià)值。將同屬于一個(gè)領(lǐng)域類(lèi)別的術(shù)語(yǔ)定義劃分到一類(lèi),不僅可以自動(dòng)區(qū)分開(kāi)不同領(lǐng)域的同名術(shù)語(yǔ),而且可以集中得到一批同領(lǐng)域的術(shù)語(yǔ)定義,對(duì)特定領(lǐng)域的術(shù)語(yǔ)研究提供了方便。術(shù)語(yǔ)定義聚類(lèi)與通常的文本聚類(lèi)、句子聚類(lèi)不同,本文通過(guò)考察不同詞類(lèi)對(duì)于領(lǐng)域區(qū)分程度的差異,作為聚類(lèi)領(lǐng)域特征的選取準(zhǔn)則,將不具有領(lǐng)域區(qū)分程度的詞類(lèi)排除在聚類(lèi)計(jì)算過(guò)程之外,通過(guò)自底而上的層級(jí)聚類(lèi)的方法,有效地解決了術(shù)語(yǔ)定義的領(lǐng)域聚類(lèi)問(wèn)題。

        [1]趙世奇,劉挺,李生.一種基于主題的文本聚類(lèi)方法[J].中文信息學(xué)報(bào),2007(2):58-61.

        [2]趙妍妍,秦兵.基于多特征融合的句子相似度計(jì)算[G].全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議 (JSCL-2005). 2005:168-174.

        [3]劉群,李素建.基于知網(wǎng)的詞匯語(yǔ)義相似度計(jì)算 [J]. Computational Linguistics and Chinese Language Processing,2002,7(2):59-76.

        [4][EB/OL]http://www.keenage.com.

        [5]許石,樊孝忠,張鋒.基于知網(wǎng)的語(yǔ)義相關(guān)度計(jì)算 [J].北京理工大學(xué)學(xué)報(bào),2005(5):411-414.

        [6]姚清耕,劉功申,李翔.基于向量空間模型的文本聚類(lèi)算法[J].計(jì)算機(jī)工程,2008(9):39-41.

        Cluster Research on Term Definition

        ZHANG Rong

        D om a in c lus te ring of te rm definition is a re la tive ly new resea rch top ic.In this resea rch,w e took bottom-up hie ra rchica l c lus te ring m e thod for sem antic s im ila rity ca lcula tion based on HowN e t,and se lec ted c lus te r-sp ec ific cha rac te ris tics based on w ords w ith d iffe rent contribution to c lus te ring and s top-used w ords cons truc ting dom a in c lus te r.O ur resultsrea lized the dom a in c lus te r of te rm definition,and achieved a des ired exp e r im enta l result.

        te rm,te rm definition,sem antic s im ila rity,dom a in c lus te ring

        H083;N04

        A

        1673-8578(2011)01-0014-05

        2010-07-02

        張榕 (1975—),女,江蘇溧水人,博士,北京語(yǔ)言大學(xué)漢語(yǔ)速成學(xué)院講師,主要研究計(jì)算語(yǔ)言學(xué)、術(shù)語(yǔ)學(xué)等。通信方式:zhangrong@blcu.edu.cn。

        猜你喜歡
        術(shù)語(yǔ)語(yǔ)義聚類(lèi)
        語(yǔ)言與語(yǔ)義
        基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
        一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
        認(rèn)知范疇模糊與語(yǔ)義模糊
        自適應(yīng)確定K-means算法的聚類(lèi)數(shù):以遙感圖像聚類(lèi)為例
        有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
        從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)
        語(yǔ)義分析與漢俄副名組合
        国产精品无码久久综合网| 成人欧美一区二区三区黑人| ZZIJZZIJ亚洲日本少妇| 亚洲成aⅴ人片久青草影院| 美女狂喷白浆网站视频在线观看| 78成人精品电影在线播放| 欧美精品国产综合久久| 插我一区二区在线观看| 欧美午夜一区二区福利视频| 久久精品视频按摩| 国产精品成人一区二区在线不卡| 乱人伦中文视频在线| 欧美变态口味重另类在线视频| 丰满人妻AV无码一区二区三区| 日本午夜艺术一区二区| 丰满熟女高潮毛茸茸欧洲视频| 蜜臀av一区二区| 看黄色亚洲看黄色亚洲| 亚洲中文字幕久久在线| 亚洲av中文无码乱人伦在线播放| 精品午夜中文字幕熟女| 中文字幕亚洲无线码高清| 久久久亚洲欧洲日产国码是AV| 国产激情综合五月久久| 亚洲av成人精品日韩在线播放| japanesehd中国产在线看| 亚洲中文字幕人妻诱惑| 色综合天天综合网国产成人网 | 久久亚洲私人国产精品va| 最近日本中文字幕免费完整| 精品国产AⅤ一区二区三区V免费| 色婷婷在线一区二区三区| 亚洲午夜成人精品无码色欲| 精品推荐国产精品店| 久久迷青品着产亚洲av网站| 所有视频在线观看免费| 色屁屁www影院免费观看入口| 在线观看亚洲精品国产| 亚洲中文字幕无码一区| 免费黄色影片| 亚洲中文字幕无码永久在线|