亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        齊普夫定律在中文字頻測定的推廣①

        2014-06-14 03:37:44
        關(guān)鍵詞:常用字用詞詞頻

        吳 冰

        (黑龍江省圖書館,黑龍江哈爾濱 154000)

        1 齊普夫定律的定義與推論

        齊普夫定律(Zipf’s law)的表述為:當(dāng)文章作者給出的文獻(xiàn)語料庫中的詞匯足夠多時(shí),單詞出現(xiàn)頻率呈現(xiàn)出一定的分布規(guī)律.研究發(fā)現(xiàn):不同的作者的用詞取向和用詞頻度是不同的,這種規(guī)律被稱為“語言指紋”.

        所謂用詞頻度(詞頻)是指每一個(gè)詞在一定長?之文件中出現(xiàn)的頻率占總詞數(shù)的比,如對一個(gè)由K個(gè)詞組成的總長度為L的語料庫中,詞的出現(xiàn)頻率由高到低排序?yàn)閞的詞頻為Pr.而依詞頻從高到低將詞排序的序號則是計(jì)量的另一個(gè)最基本的數(shù)量指標(biāo).早在1916年,法國速記學(xué)家艾思杜(J.Estoup)發(fā)現(xiàn)了在較長文章中,詞的出現(xiàn)頻率分布的定量化形式,即:

        (1)式中r詞依詞頻從高到低排列的序號,Pr是第r個(gè)詞相應(yīng)的詞頻,c是一個(gè)常數(shù).

        1932年,哈佛大學(xué)的語言學(xué)家齊普夫(G K Zipf)在研究英文單詞的出現(xiàn)頻率時(shí),發(fā)現(xiàn)如果把單詞頻率從高到低的次序排列,每個(gè)單詞出現(xiàn)頻率和它的符號訪問排名存在簡單反比關(guān)系:

        (2)式對應(yīng)圖像為截距為lgc,斜率為-α(α=tanθ)的直線.

        上式中,r表示詞在詞表中的序號,Pr表示序號為r的詞的頻率,c和γ都是常數(shù),齊普夫由實(shí)驗(yàn)測出,α ≈1,c≈0.1.

        對于一個(gè)總詞數(shù)匯容量為L,共有詞K個(gè)的語料庫,r=K時(shí):

        顯然:Pk≥1/L

        此后,朱斯(M.Joos)、曼德爾布洛特(B.Mandelbrot)以及齊普夫本人,先后對上述定律進(jìn)行過研究,因而又稱齊普夫定律為齊普夫—朱斯—曼德爾布洛特定律(Zipf-Joos-Mandelbrot law).新定律表述為:如果詞表包含詞足夠多(1×105詞以上),則其中前1000個(gè)最常用的詞占該語言的各種文章中全部出現(xiàn)的詞的80%.

        用數(shù)學(xué)算式表現(xiàn)為:

        因?yàn)?調(diào)和數(shù)列的和

        上式:C≈0.57722,C為歐拉常數(shù)(歐拉初始)將(5)入(4)式得:

        設(shè)前r1個(gè)詞的詞頻和為30%,由上式得:

        即英文語料庫中前15個(gè)高頻詞的詞頻和即可達(dá)到30%.

        以上式檢驗(yàn)齊普夫?qū)rown語料庫前135個(gè)單詞的出現(xiàn)詞頻的和:

        計(jì)算結(jié)果表明,齊普夫所選的語料庫長度小于朱斯等人的研究對象.

        針對不同的作者的寫作用詞頻率的研究發(fā)現(xiàn),不同的作者對同一詞的用“力”是大小不同的,即同一詞在不同作者的文章中出現(xiàn)的頻率是不同的,而在同一作者的不同文章中出現(xiàn)的頻率是基本相同的,這個(gè)現(xiàn)象被稱為“語言指紋”.

        造成不同的作者在寫作中所使用的詞匯及其頻率的不同的原因有很多,如受教育的程度,個(gè)人性格、從事研究的領(lǐng)域、年齡、性格、出生地的方言、宗教信仰、對文字的避諱等各種因素的不同或差異都可能造成作者在寫作中無意識的用詞頻率不的同,這種在語言表達(dá)上的特征即“語言指紋”.

        2 齊普夫定律對漢語言文本字頻的測定

        與拼音文字不同,漢語多是以單字作為詞素來組成一個(gè)或多個(gè)詞素的詞語的,目錄,收錄漢字最多的1994年出版的《中華字海》收入了87019個(gè)漢字,北京國安咨詢設(shè)備公司的漢字字庫,收入漢字91251個(gè),而我國1988年公布的《現(xiàn)代漢語常用字表》選收的常用字為2500個(gè)、次常用字為1000個(gè),合計(jì)3500字.

        而根據(jù)國家出版局的抽樣統(tǒng)計(jì),漢字中最常用字560個(gè),常用字807個(gè),次常用字1033個(gè).三者合計(jì)2400個(gè),占一般書刊用字的99%.國家標(biāo)準(zhǔn)GB2312-80《信息交換用漢字編碼字符集* 基本集》中一級字庫3755個(gè)為常用字,二級字庫3008個(gè),為不常用字.一級字庫的3755個(gè)字,使用頻率合計(jì)達(dá)99%,而二級字庫的3008個(gè)字,使用頻率合計(jì)為0.3%,余下的80256個(gè)漢字的使用頻率之和為 0.7%.

        國家出版局的統(tǒng)計(jì)結(jié)果顯示,最高頻的“的一是了我”5個(gè)漢字的字頻率之和為10%.次高頻的“不人在他有這個(gè)上們來到時(shí)”12個(gè)漢字的字頻之和為10%.再次高頻的“大地為子中你說生國年著就那和要她出也得里后自以會(huì)”25個(gè)漢字的字頻之和為10%.即僅42個(gè)漢字的字頻之和為30%,可見,漢字字頻的分布與拼音文字存在很大的差異,其圖像中的|α|值更小,即圖像中的直線下降更緩慢.

        將上述結(jié)果用數(shù)學(xué)版式表達(dá)為:

        下面以《紅樓夢》文本為語料庫對上式進(jìn)行驗(yàn)證:

        統(tǒng)計(jì)《紅樓夢》120回本正文部分共872247個(gè)字符,除去標(biāo)點(diǎn)符號,共731017漢字,累計(jì)使用4462個(gè)單字.

        即:L=731017 >1×105,K=4462 >1×103,語料庫滿足研究要求.

        考慮到時(shí)代不同對作者用詞的影響,本次選取“的一是了我不人在他有這個(gè)上們來到時(shí)大地為子中你說生國年著就那和要她出也得里后自以會(huì)”42個(gè)高頻詞進(jìn)行比對,并將作者時(shí)代還沒有的“她”合并為“他”.增補(bǔ)《紅樓夢》中統(tǒng)計(jì)所得高頻字“玉兒女又才賈見”共48個(gè)漢字,統(tǒng)計(jì)其詞頻得出下表:

        的一是了我不人在他有這個(gè)14890 12166 10452 21176 9202 15068 10544 3996 7682 6005 7841 5682上們來到時(shí)大地為子中你說

        ?

        按字頻從高到低排序,前五個(gè)分別是:了(21176),不(15068),的(14890),一(12166),來(11511),列表如下:

        1 2 3 4 5 Pr 0.029 0.022 0.020 0.017 0.015 r

        選取前 17個(gè)高頻字:了(21176),……,道(11061),人(10544),是(10452),說(9686),我(9202),這(7841),他(7682),和(6138),生(6123),兒(6059),玉(6063),有(6005)

        列表如下:

        r 1 …… 6 7 8 ……17 Pr0.029 …… 0.015 0.014 …… 0.008

        以上測算,驗(yàn)證了齊普夫定律對中文文本的適用性的推測,并驗(yàn)證了c和α的近似值,同時(shí)也通過字頻序號的變化證明了清代文本語言特征與當(dāng)代的差異,進(jìn)一步研究詞或詞組的頻度可以找出同一時(shí)代不同作者的語言指紋.

        [1]馬費(fèi)城,布拉德福特一齊普夫分布系的概率模型[J].情報(bào)科學(xué),1982(2):22-33.

        [2]Malcolm Coulthard.Author Identification,Idiolect and Linguistic Uniqueness[J].Applied Linguistics 25,4,2004:431-447.

        [3]中國百科網(wǎng).常用漢字[EB/OL].http://www.chinabaike.com/article/baike/1056/2008/200811071597607.html.

        猜你喜歡
        常用字用詞詞頻
        需注意的規(guī)范醫(yī)學(xué)用詞
        強(qiáng)化詩詞用詞的時(shí)代性
        中華詩詞(2022年2期)2022-12-31 05:57:58
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        蒼涼又喧囂:《我與地壇》中的用詞
        關(guān)于常用字覆蓋率統(tǒng)計(jì)算法的研究
        寫話妙計(jì)之用詞準(zhǔn)確
        根字練習(xí)(十九)
        詞頻,一部隱秘的歷史
        云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
        以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        AⅤ无码精品视频| 亚洲欧美国产国产综合一区| 精品无码一区二区三区亚洲桃色| 精品久久久久久蜜臂a∨| 亚洲国产av午夜福利精品一区| 性色视频加勒比在线观看| 亚洲日本va中文字幕| 久草午夜视频| 国产性感主播一区二区| 无码专区一ⅴa亚洲v天堂| 无码国产精品一区二区高潮 | 偷拍网日本一区二区三区| 精品蜜桃av免费观看| 精品日韩亚洲av无码| 欧美巨大性爽| 香蕉久久夜色精品国产| 久久中文字幕一区二区| 无码国产69精品久久久久孕妇| 亚洲自拍另类制服在线| 91大神蜜桃视频在线观看| 日产一区二区三区免费看| 国产一区二区三精品久久久无广告| 欧美成人精品三级在线观看| 国产视频免费一区二区| 色与欲影视天天看综合网| 亚洲熟伦熟女新五十路熟妇| 香蕉亚洲欧洲在线一区| 国产无套一区二区三区久久| 国产又爽又黄又刺激的视频| 999国产精品视频| 91国产视频自拍在线观看| 亚洲国产精品一区二区成人片国内 | 亚洲日韩乱码中文无码蜜桃臀| 国产人妖在线免费观看| 国产精品主播在线一区二区| 无码人妻一区二区三区在线视频| 黑人巨大精品欧美在线观看| av在线免费观看麻豆| 国产精品www夜色视频| 99热这里只有精品69| 久久久国产精品首页免费|