亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞向量空間的大規(guī)模中文語義網(wǎng)絡(luò)構(gòu)建與復(fù)雜性分析

        2014-12-16 05:25:01曹茂元等
        電腦知識與技術(shù) 2014年32期

        曹茂元等

        摘要:當(dāng)前對于漢語語義層次的語言網(wǎng)絡(luò)研究方法僅限于靜態(tài)詞典生成以及人工手動生成兩種方法,具有很大的局限性。對此,該文從大規(guī)模語料庫生成的語義空間出發(fā),結(jié)合語義空間豐富的語義信息和義類詞典資源,提出一種新穎的基于分布語義的語義網(wǎng)絡(luò)構(gòu)建策略,并在此基礎(chǔ)上探究了由不同性質(zhì)的語義空間所構(gòu)建的語義網(wǎng)絡(luò)的統(tǒng)計特性。相比前人的方法,該文提出的方法優(yōu)勢在于無需依賴人工標(biāo)注,支持大規(guī)模動態(tài)語料的網(wǎng)絡(luò)自動構(gòu)建。實驗結(jié)果表明,語義網(wǎng)絡(luò)具有復(fù)雜網(wǎng)絡(luò)兩個典型的特性:小世界效應(yīng)和無標(biāo)度特性。此外,由于語義網(wǎng)絡(luò)描述的是詞之間最為本質(zhì)的語義關(guān)系,與不同文體中的措辭、使用習(xí)慣、風(fēng)格等不存在直接的關(guān)系,因此當(dāng)語義網(wǎng)絡(luò)節(jié)點(diǎn)到達(dá)一定規(guī)模時,語義網(wǎng)絡(luò)的某些統(tǒng)計特性可能會趨于一致。

        關(guān)鍵詞:語義網(wǎng)絡(luò);語義空間;小世界;無標(biāo)度

        中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)32-7703-07

        復(fù)雜網(wǎng)絡(luò)研究方法的出現(xiàn)使對語言網(wǎng)絡(luò)進(jìn)行大規(guī)模實證性研究成為可能[1]。語義研究是當(dāng)前研究的熱點(diǎn),如何借助復(fù)雜網(wǎng)絡(luò)方法研究語言的語義特性是一個十分關(guān)鍵的問題。唐璐、張永光等[2]在兩個大型詞典HowNet和WordNet基礎(chǔ)上,利用詞典信息構(gòu)建了兩個語義網(wǎng)絡(luò)。劉海濤[3]通過人工語義標(biāo)注的語料,構(gòu)建了一個小型的語義網(wǎng)絡(luò),借此探究語義網(wǎng)絡(luò)的復(fù)雜特性。Steyvers 和Tnenenbaum[4]利用WordNet、羅杰分類詞典等資源分別構(gòu)建了大規(guī)模英語語義網(wǎng)絡(luò),并對其進(jìn)行復(fù)雜統(tǒng)計分析。但現(xiàn)有的工作依賴手工標(biāo)注或者完全借助詞典(如WordNet)的方法來構(gòu)建語義網(wǎng)絡(luò),這些方法數(shù)據(jù)規(guī)模小,移植拓展性差,無法很好的說明問題。而分布語義是語義表示的重要方法,由大規(guī)模語料所構(gòu)建的語義空間里已經(jīng)包含了可以計算的語義信息。其優(yōu)勢是不需要依賴人工標(biāo)注,可以從語料中獲得大量語義表示。如果能從大規(guī)模分布語義空間中自動構(gòu)建語義網(wǎng)絡(luò)并應(yīng)用復(fù)雜網(wǎng)絡(luò)方法加以探究,則將能很好地推動語義網(wǎng)絡(luò)復(fù)雜特性方面的研究。該文將開展這方面的工作。該文主要關(guān)注中文的情況,但相關(guān)的方法也可以擴(kuò)展到其他語言。

        Harris提出語言學(xué)的分布假設(shè)[8]:兩個詞之間的相似度可由它們共現(xiàn)詞的分布相似度近似,換而言之,即具有相似上下文的詞具有相似語義。這里,我們對基于分布假設(shè)理論計算的相似度給出定義,稱為分布語義相似度:

        定義1.1 分布語義相似度,指在分布假設(shè)理論下,通過借助上下文共現(xiàn)分布的相似性對兩個詞相似性進(jìn)行的度量。

        從上文可知,分布語義相似度的計算是根據(jù)兩個詞語出現(xiàn)的上下文重疊程度計算它們之間的相似度,換而言之,上下文背景越相似,詞的相似度就越大。目前對分布語義的表示、比較,采用的是基于向量空間模型的語義空間的方法[9]。由于語義空間內(nèi)蘊(yùn)含著豐富的語義信息,因此在語義空間的基礎(chǔ)上構(gòu)建語義網(wǎng)絡(luò)是具有理論依據(jù)且十分有意義的。

        2 語義網(wǎng)絡(luò)構(gòu)建算法

        2.2 節(jié)點(diǎn)拓展

        利用語義空間自帶的豐富的語義信息可以計算兩個詞之間的分布語義相似度,將相似度高于一定閾值的兩個詞連邊,認(rèn)為二者具有語義關(guān)系,從而將語義空間拓展成對應(yīng)的語義網(wǎng)絡(luò)。

        對每一個當(dāng)前進(jìn)行拓展的新節(jié)點(diǎn)(拓展詞)分配集合NewSet保存該節(jié)點(diǎn)拓展信息,集合OldSet保存已拓展詞的歷史信息??紤]到復(fù)雜度以及作為基元(維度)的詞的豐富語義信息,該文采用貪心思想進(jìn)行節(jié)點(diǎn)的拓展來生成語義網(wǎng)絡(luò),即假定詞w1的語義向量對應(yīng)某基元的值大于某個閾值e,則認(rèn)為詞w1與該基元存在語義關(guān)系,則將二者相連,并將拓展到的節(jié)點(diǎn)(基元)加入集合NewSet。在此假定下,繼續(xù)按相同方法拓展基元直至無可再拓展基元,則認(rèn)為該詞w1拓展結(jié)束。為防止出現(xiàn)不連通圖,即若出現(xiàn)NewSet和OldSet兩集合不相交的情況,則以概率1/size(OldSet)將兩個集合進(jìn)行連邊,否則計算拓展詞與OldSet里非基元詞的相似度進(jìn)行連邊。最后將NewSet并入OldSet中。

        按本節(jié)所提算法對語義空間進(jìn)行邊的拓展生成語義網(wǎng)絡(luò),但發(fā)現(xiàn)其與人工標(biāo)注生成的語義網(wǎng)絡(luò)結(jié)構(gòu)存在較大的差異,主要原因是由于語義分布相似度描述的特性混合了相似性與相關(guān)性,因此產(chǎn)生了多余的、與語義分析相違背的連邊,故需要對所生成的初始語義網(wǎng)絡(luò)里不合理的邊進(jìn)行過濾,以生成更接近人工生成的語義網(wǎng)絡(luò)。

        2.3 過濾不合理的連接

        本節(jié)首先對相似性和相關(guān)性給出定義及其度量方法,再據(jù)此提出2條啟發(fā)式的過濾規(guī)則,實現(xiàn)對語義網(wǎng)絡(luò)里不合理的連接進(jìn)行過濾。

        4 總結(jié)及展望

        語義網(wǎng)絡(luò)介于句法網(wǎng)絡(luò)和概念網(wǎng)絡(luò)之間,是人類知識的高級表示。而當(dāng)前對語義網(wǎng)絡(luò)的研究僅有人工手動生成與使用義類詞典資源兩種方式,對進(jìn)行大規(guī)模語義網(wǎng)絡(luò)研究有很大的局限性。由于語義空間內(nèi)蘊(yùn)含著大量準(zhǔn)確而豐富的語義信息,因此本文提出了基于語義空間和義類詞典資源結(jié)合的語義網(wǎng)絡(luò)生成算法,能夠?qū)Υ笠?guī)模語料進(jìn)行語義網(wǎng)絡(luò)復(fù)雜特性的探究,網(wǎng)絡(luò)節(jié)點(diǎn)更加豐富,更能體現(xiàn)語言在真實文本中的動態(tài)特性。實驗結(jié)果發(fā)現(xiàn):基于語義空間生成的語義網(wǎng)絡(luò)符合小世界和無標(biāo)度特性;當(dāng)語義網(wǎng)絡(luò)節(jié)點(diǎn)到達(dá)一定規(guī)模時,語義網(wǎng)絡(luò)的某些統(tǒng)計特性可能會趨于一致;一定規(guī)模下,不同方式生成的語義空間對最終生成的語義網(wǎng)絡(luò)的某些統(tǒng)計特性不會造成重大的影響。未來的工作主要有:分布語義受訓(xùn)練文本的影響較大,也僅能表現(xiàn)出現(xiàn)在文本內(nèi)的語義,因此在一個更大規(guī)模語料上進(jìn)行本文的研究是必要的;當(dāng)前對語言網(wǎng)絡(luò)的研究還多局限于總體宏觀統(tǒng)計特性,在未來的研究工作中應(yīng)該關(guān)注于復(fù)雜網(wǎng)絡(luò)局部所表現(xiàn)出的特性,比如社區(qū)發(fā)現(xiàn)等。

        參考文獻(xiàn):

        [1] 劉海濤.語言網(wǎng)絡(luò):隱喻,還是利器? [J].浙江大學(xué)學(xué)報:人文社會科學(xué)版,2011,41(2):169-180.

        [2] Tang L, Zhang Y G, Fu X. Structures of semantic networks: How do we learn semantic knowledge[J]. Journal of Southeast University (English Edition), 2006, 22(3):413-417.endprint

        [3] 劉海濤.漢語語義網(wǎng)絡(luò)的統(tǒng)計特性[J].科學(xué)通報,2009,54(16):2781-1785.

        [4] Steyvers M, Tenenbaum J B. The large-scale structure of semantic networks: statistical analyses and a model of semantic growth[J]. Cognitive Science: A Multidisciplinary Journal, 2005,29(1): 41-78.

        [5] 汪小帆,李翔,陳關(guān)榮.復(fù)雜網(wǎng)絡(luò)理論及其應(yīng)用[M].北京:清華大學(xué)出版社,2006.

        [6] Watts D J, Strogatz S H. Collective dynamics of ‘small-world network[J].Nature,1998, 393(6648):440-442.

        [7] Barab A L, Albert R. Emergence of scaling in random networks[J].Science, 1999,286(5439):509-512.

        [8] Harris Z S. Distributional structure[M]. Springer Netherlands, 1970.

        [9] Jurgens D, Stevens K. The S-Space package: An open source package for word space models[C]//Proceedings of the ACL 2010 System Demonstrations. Association for Computational Linguistics, 2010: 30—35.

        [10] Burgess C, Cottrell G. Symposium at the cognitive science society conference : using high - dimensional semantic spaces derived from large text corpora[C]//Proceedings of the Cognitive Science Society. Hillsdale, NJ: Erlbaum Publishers, 1995:13-14.

        [11] Rohde D L T, Gonnerman L M, Plaut D C. An improved model of semantic similarity based on lexical co-occurrence[J]. Communications of the ACM, 2006,8:627-633.

        [12] Pado S, Lapata M. Dependency-based construction of semantic space models[J]. Computational Linguistics, 2007, 33(2): 161-199.

        [13] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[C]//第三屆漢語詞匯語義學(xué)研討會論文集.臺北,2002,7:59-76.

        [14] Agirre E, Alfonseca E, Hall K, et al. A study on similarity and relatedness using distributional and WordNet-based approaches[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North America Chapter of the ACL. Association for Computational Linguistics, 2009:19-27.endprint

        [3] 劉海濤.漢語語義網(wǎng)絡(luò)的統(tǒng)計特性[J].科學(xué)通報,2009,54(16):2781-1785.

        [4] Steyvers M, Tenenbaum J B. The large-scale structure of semantic networks: statistical analyses and a model of semantic growth[J]. Cognitive Science: A Multidisciplinary Journal, 2005,29(1): 41-78.

        [5] 汪小帆,李翔,陳關(guān)榮.復(fù)雜網(wǎng)絡(luò)理論及其應(yīng)用[M].北京:清華大學(xué)出版社,2006.

        [6] Watts D J, Strogatz S H. Collective dynamics of ‘small-world network[J].Nature,1998, 393(6648):440-442.

        [7] Barab A L, Albert R. Emergence of scaling in random networks[J].Science, 1999,286(5439):509-512.

        [8] Harris Z S. Distributional structure[M]. Springer Netherlands, 1970.

        [9] Jurgens D, Stevens K. The S-Space package: An open source package for word space models[C]//Proceedings of the ACL 2010 System Demonstrations. Association for Computational Linguistics, 2010: 30—35.

        [10] Burgess C, Cottrell G. Symposium at the cognitive science society conference : using high - dimensional semantic spaces derived from large text corpora[C]//Proceedings of the Cognitive Science Society. Hillsdale, NJ: Erlbaum Publishers, 1995:13-14.

        [11] Rohde D L T, Gonnerman L M, Plaut D C. An improved model of semantic similarity based on lexical co-occurrence[J]. Communications of the ACM, 2006,8:627-633.

        [12] Pado S, Lapata M. Dependency-based construction of semantic space models[J]. Computational Linguistics, 2007, 33(2): 161-199.

        [13] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[C]//第三屆漢語詞匯語義學(xué)研討會論文集.臺北,2002,7:59-76.

        [14] Agirre E, Alfonseca E, Hall K, et al. A study on similarity and relatedness using distributional and WordNet-based approaches[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North America Chapter of the ACL. Association for Computational Linguistics, 2009:19-27.endprint

        [3] 劉海濤.漢語語義網(wǎng)絡(luò)的統(tǒng)計特性[J].科學(xué)通報,2009,54(16):2781-1785.

        [4] Steyvers M, Tenenbaum J B. The large-scale structure of semantic networks: statistical analyses and a model of semantic growth[J]. Cognitive Science: A Multidisciplinary Journal, 2005,29(1): 41-78.

        [5] 汪小帆,李翔,陳關(guān)榮.復(fù)雜網(wǎng)絡(luò)理論及其應(yīng)用[M].北京:清華大學(xué)出版社,2006.

        [6] Watts D J, Strogatz S H. Collective dynamics of ‘small-world network[J].Nature,1998, 393(6648):440-442.

        [7] Barab A L, Albert R. Emergence of scaling in random networks[J].Science, 1999,286(5439):509-512.

        [8] Harris Z S. Distributional structure[M]. Springer Netherlands, 1970.

        [9] Jurgens D, Stevens K. The S-Space package: An open source package for word space models[C]//Proceedings of the ACL 2010 System Demonstrations. Association for Computational Linguistics, 2010: 30—35.

        [10] Burgess C, Cottrell G. Symposium at the cognitive science society conference : using high - dimensional semantic spaces derived from large text corpora[C]//Proceedings of the Cognitive Science Society. Hillsdale, NJ: Erlbaum Publishers, 1995:13-14.

        [11] Rohde D L T, Gonnerman L M, Plaut D C. An improved model of semantic similarity based on lexical co-occurrence[J]. Communications of the ACM, 2006,8:627-633.

        [12] Pado S, Lapata M. Dependency-based construction of semantic space models[J]. Computational Linguistics, 2007, 33(2): 161-199.

        [13] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[C]//第三屆漢語詞匯語義學(xué)研討會論文集.臺北,2002,7:59-76.

        [14] Agirre E, Alfonseca E, Hall K, et al. A study on similarity and relatedness using distributional and WordNet-based approaches[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North America Chapter of the ACL. Association for Computational Linguistics, 2009:19-27.endprint

        免费亚洲一区二区三区av| 人成午夜免费大片| 亚洲国产成人va在线观看天堂| 国产精品99久久久久久98AV| 亚洲熟伦在线视频| 亚洲精品女同在线观看| 久久精品国产亚洲av沈先生 | 精品久久精品久久精品| 久久无码高潮喷水抽搐| 少妇性bbb搡bbb爽爽爽| 99久久伊人精品综合观看| 奇米狠狠色| 爆乳无码AV国内| 久久精品国产白丝爆白浆| 国产av一区二区三区性入口| 九九久久自然熟的香蕉图片| 久久不见久久见免费影院www| 区二区欧美性插b在线视频网站 | 亚洲AV永久无码精品导航| 一区二区三区国产亚洲网站| 草逼视频免费观看网站| 人妻久久久一区二区三区蜜臀| 精品久久久久香蕉网| 国产免费丝袜调教视频| 亚洲精品成人av观看| 精品国产97av一区二区三区| 自拍视频在线观看国产| 亚洲精品国产第一区二区| a级特黄的片子| 成人在线激情网| 国产一区二区欧美丝袜 | 内射爆草少妇精品视频| 亚洲av无码一区二区三区天堂古代 | 日韩AV无码中文无码AV| 久久亚洲中文字幕精品二区| www夜插内射视频网站| 中文亚洲av片在线观看| 欧美巨大xxxx做受中文字幕| 国产精品不卡无码AV在线播放| 亚洲精品中文字幕导航| 日本丰满熟妇videossexhd|