亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        齊夫定律在古漢語文本中的適用性研究
        ——以《夢溪筆談雜志一》的文獻(xiàn)計(jì)量為例

        2020-10-14 02:01:02秦克霄
        晉圖學(xué)刊 2020年4期
        關(guān)鍵詞:文本

        秦克霄

        (山西大學(xué) 圖書館,太原 030006)

        19世紀(jì)以來,隨著語言學(xué)的發(fā)展以及文學(xué)風(fēng)格和速記研究的需要,人們開始對(duì)語言的成分進(jìn)行統(tǒng)計(jì)分析。德國語言學(xué)家F·W·凱丁(F.W.Kaeding)歷時(shí)七年,編纂了世界上第一部頻率詞典——《德語頻率詞典》(《H?ufigkeits w?rter buch der Deutschen Sprache》)被認(rèn)為是第一次現(xiàn)代意義上以統(tǒng)計(jì)調(diào)查方法完成的詞匯研究工作;20世紀(jì)初,美國教育學(xué)家兼心理學(xué)家E·L·桑迪克(E.L.Thorndike)先后編寫了《教師二萬詞詞書》(《Teacher’s Word Book of 20 000 Words》)和《教師三萬詞詞書》(《Teacher’s World Book of 30 000 Words》),對(duì)英語的詞匯作了大量的頻率統(tǒng)計(jì)工作。伴隨著不同語言中有關(guān)詞頻資料的大量積累,詞語頻次的特征也不斷被揭示,人們開始從理論上思考詞頻差異的現(xiàn)象。由于頻率詞典實(shí)際上就是一種詞表,而其中字詞的出現(xiàn)頻次與字詞序排列的序號(hào)等級(jí)是最基本的兩個(gè)數(shù)據(jù)指標(biāo),反映了字詞的地位和性質(zhì),因此,人們首先著重研究的就是這兩個(gè)基本數(shù)據(jù)之間的相互關(guān)系,試圖在一定的篇章范圍內(nèi)總結(jié)出語言成分出現(xiàn)頻次所滿足的嚴(yán)格的數(shù)學(xué)原理。哈佛大學(xué)語言學(xué)教授齊夫(G.K.Zipf)在前人研究的基礎(chǔ)上,對(duì)英語文獻(xiàn)中單詞出現(xiàn)的頻次進(jìn)行大量統(tǒng)計(jì)以檢驗(yàn)前人的定量化公式,在此基礎(chǔ)上,進(jìn)行系統(tǒng)的分析并提出了齊夫定律[1]:若把一篇較長的文章中每個(gè)字詞出現(xiàn)的頻次從高到低進(jìn)行遞減排列,字詞出現(xiàn)的頻次f與它的位序r的乘積為一個(gè)常數(shù)c,即:

        f·r=c。

        該公式可以理解為:在自然語言的語料庫里,一個(gè)單詞出現(xiàn)的頻次與它在頻率表里的排名成反比(又稱省力法則)。后又提出更加普適的公式:

        將上式兩邊取自然對(duì)數(shù)可得:lnf+alnr=lnc,繪制lnf與lnr的關(guān)系曲線并作線性回歸,即可得到斜率a與截距l(xiāng)nc。齊夫定律表明,在英語單詞語料庫中,只有極少數(shù)的詞被經(jīng)常使用,而絕大多數(shù)詞很少被使用。

        近些年來,在文獻(xiàn)計(jì)量學(xué)和其它學(xué)科領(lǐng)域,針對(duì)齊夫定律或與其相關(guān)的領(lǐng)域有許多補(bǔ)充和深化的研究,國內(nèi)也有很多學(xué)者展開了對(duì)齊夫定律本身[2]及其應(yīng)用[3-6]的研究。近年來,江南大學(xué)的研究者以諾貝爾文學(xué)獎(jiǎng)得主莫言的《紅高粱》《蛙》和《透明的紅蘿卜》為主要研究對(duì)象,統(tǒng)計(jì)莫言作品中字頻、詞頻,發(fā)現(xiàn)都能滿足齊夫定律[7]。所得結(jié)果與包括英語、西班牙語、法語等在內(nèi)的多種語言研究結(jié)果一致。此研究結(jié)果從統(tǒng)計(jì)學(xué)角度闡明了莫言成為中國大陸首位諾貝爾文學(xué)獎(jiǎng)得主的可能原因之一。

        本文以中國古代具有代表性的百科全書《夢溪筆談》為例,考察齊夫定律對(duì)中國古代漢語語料的適用性。在統(tǒng)計(jì)詞語頻次時(shí),確定詞語等級(jí)多采用以下兩種方法:

        (1)并列法。并列法是指遇到同頻詞時(shí),將這些同頻詞并列為一個(gè)詞級(jí),并延承上一個(gè)詞級(jí)。比如詞序?yàn)榈?至第8的詞是同頻詞,同時(shí),第5個(gè)詞的詞級(jí)為5,那么這些第5至第8的詞的詞級(jí)都是5;若詞序第9至第12的詞也是同頻詞,那么這些詞的詞級(jí)則延承上一詞級(jí),為6。在許文霞的《齊夫定律與中文詞頻分布機(jī)理》一文中采用的詞級(jí)確定方法就是并列法[8]。

        (2)隨機(jī)法。齊夫第一定律在確立時(shí),最先使用的方法是隨機(jī)法。所謂隨機(jī)法,就是指在確立詞級(jí)的過程中,遇到同頻詞時(shí),按照詞語在統(tǒng)計(jì)文本的詞表中的自然詞序或隨機(jī)排列確定詞語的等級(jí),這樣每個(gè)詞的自然或隨機(jī)詞序就是這個(gè)詞的詞級(jí)。比如詞序?yàn)榈?至第8的詞是同頻詞,那么這些詞的詞級(jí)隨機(jī)排列為5、6、7、8。

        1 分詞原則

        (1)根據(jù)漢語自身的語言特點(diǎn),采用計(jì)算機(jī)自動(dòng)分詞統(tǒng)計(jì),以齊夫定律理論為基礎(chǔ),再參照《現(xiàn)代漢語詞典》條目所列出的詞語形態(tài),以保留詞語語義的完整性為前提。

        (2)人名、地名等專有名詞均作為獨(dú)立的詞來劃分。

        (3)統(tǒng)計(jì)時(shí),標(biāo)點(diǎn)符號(hào)等非漢字書寫符號(hào)不計(jì)入內(nèi)。

        根據(jù)文獻(xiàn)中出現(xiàn)的詞頻(字頻)與等級(jí)序號(hào)的統(tǒng)計(jì)數(shù)據(jù),建立橫坐標(biāo)表示詞的位序r,縱坐標(biāo)表示相應(yīng)的頻次f的直角坐標(biāo)系,得到一條雙曲線,即:齊夫分布曲線。再將位序r與頻次f都取對(duì)數(shù)坐標(biāo),則上圖中的圖像就變成一條直線,即:齊夫分布對(duì)數(shù)曲線。若滿足這種類型的詞頻(字頻)分布,就叫做齊夫分布?!秹粝P談》作為我國古代的科學(xué)技術(shù)百科全書,在科學(xué)史和文學(xué)史上都具有重要的地位和代表性,故此,我們選擇《夢溪筆談雜志一》作為研究對(duì)象,考證齊夫定律對(duì)我國古漢語文本的適用性。

        2 文本分析

        2.1 字頻的統(tǒng)計(jì)數(shù)據(jù)(并列法)

        通過對(duì)文本《夢溪筆談雜志一》的統(tǒng)計(jì)分析,此段語料共有4 740個(gè)書寫符,其中,漢字共有4 739個(gè),累計(jì)總字?jǐn)?shù)為3 903個(gè),不同字?jǐn)?shù)為1 905個(gè),不同頻次數(shù)為39次(見表1)。

        表1 以遞增順序排列的位序r和以遞減順序排列的頻率f

        2.2 字頻的統(tǒng)計(jì)分析(并列法)

        (1)圖1為頻次與詞級(jí)圖:

        由圖1齊夫分布曲線的反比例函數(shù)分布特性和齊夫?qū)?shù)分布的線性特性可以看出,采用并列法,該文的字頻與位序大致滿足齊夫定律。

        圖1 詞頻f-詞序r分布圖

        (2)由公式lnf+alnr=lnc所知,繪制lnf與lnr的關(guān)系曲線,并進(jìn)行擬合,即可得到斜率a與lnc,如圖2所示。

        圖2 lnf-lnr圖以及線性擬合

        (3)求a和lnc以及c,如表2所示。

        表2 圖2的線性擬合分析

        由表2可知,修正決定系數(shù)Adj.R-Square=0.705 41,反應(yīng)了線性回歸的良好;a=-0.979 32,標(biāo)準(zhǔn)誤差為0.102 11。由結(jié)果可知,采用并列法得到的統(tǒng)計(jì)結(jié)果比較符合齊夫定律[7]。

        2.3 字頻的統(tǒng)計(jì)數(shù)據(jù)(隨機(jī)法)(見表3)

        表3 以遞增順序排列的位序r和以遞減順序排列的頻率f

        2.4 字頻的統(tǒng)計(jì)分析(隨機(jī)法)

        (1)圖3為頻次與詞級(jí)圖。由圖3可以看出,采用隨機(jī)法時(shí)字頻與詞級(jí)很好地滿足齊夫定律。

        圖3 詞頻f-詞序r分布圖

        (2)由公式lnf+alnr=lnc所知,繪制lnf與lnr的關(guān)系曲線,并進(jìn)行擬合,即可得到斜率a與lnc,如圖4。

        圖4 lnf-lnr圖以及線性擬合

        (3)求a和lnc以及c,如表4所示。由表4可知,修正決定系數(shù)Adj.R-Square=0.957 68,反應(yīng)了線性回歸良好;斜率a=-0.869 05接近值-1,標(biāo)準(zhǔn)誤差為0.005 52。由此可知,采用隨機(jī)法得到的結(jié)果非常符合齊夫定律。

        表4 圖4的線性擬合分析

        2.5 詞頻的統(tǒng)計(jì)數(shù)據(jù)(并列法)

        此段語料共有4 740個(gè)書寫符,其中漢字共有4 739個(gè),累計(jì)總詞數(shù)為3 120個(gè),不同詞數(shù)為1 439個(gè),不同頻次數(shù)為30次(見表5)。

        表5 以遞增順序排列的位序r和以遞減順序排列的頻率f

        2.6 詞頻的統(tǒng)計(jì)分析(并列法)

        (1)圖5為頻次與詞級(jí)圖。由圖5可以看出,采用并列法古漢語《夢溪筆談雜志一》文本的詞頻與詞級(jí)也基本滿足齊夫定律。

        圖5 詞頻f-詞序r分布圖

        (2)由公式lnf+alnr=lnc所知,繪制lnf與lnr的關(guān)系曲線,并進(jìn)行擬合,即可得到斜率a與lnc,如圖6所示。

        圖6 lnf-lnr圖以及線性擬合

        (3)求斜率a和lnc以及c,如表6所示。

        表6 圖6的線性擬合分析

        由表6可知,修正決定系數(shù)Adj.R-Square=0.731 27,說明線性回歸良好;斜率a=-0.992 51接近標(biāo)準(zhǔn)值-1,標(biāo)準(zhǔn)誤差為0.109 18。從結(jié)果可知,采用并列法得到的結(jié)果也比較符合齊夫定律,但不如隨機(jī)法符合效果好。

        2.7 詞頻的統(tǒng)計(jì)數(shù)據(jù)(隨機(jī)法)(見表7)

        表7 以遞增順序排列的位序r和以遞減順序排列的頻率f

        2.8 詞頻的統(tǒng)計(jì)分析(隨機(jī)法)

        (1)圖7為頻次與詞級(jí)圖。由圖7可以看出,用隨機(jī)法時(shí)詞頻與詞級(jí)符合齊夫分布定律非常好。

        圖7 詞頻f-詞序r分布圖

        (2)由公式lnf+alnr=lnc所知,繪制lnf與lnr的關(guān)系曲線,并進(jìn)行擬合,即可得到斜率a與lnc,如圖8所示。

        圖8 lnf-lnr圖以及線性擬合

        (3)求a和lnc以及c,如表8所示。

        表8 圖8的線性擬合分析

        由表8可知,修正決定系數(shù)Adj.R-Square=0.918 08,反映了線性回歸優(yōu)良;斜率a=-0.655 7接近標(biāo)準(zhǔn)值-1,標(biāo)準(zhǔn)誤差=0.005 16,說明詞頻的統(tǒng)計(jì)分析采用隨機(jī)法得到的結(jié)果非常好地符合齊夫定律。

        2.9 總結(jié)

        本文同時(shí)采用并列法和隨機(jī)法對(duì)我國古代極具代表性的古漢語文本《夢溪筆談雜志一》語料的字頻(詞頻)和字序(詞序)數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)和分析,繪制出字頻(詞頻)和字序(詞序)的分布圖及對(duì)數(shù)化后的散點(diǎn)分布圖。研究結(jié)果表明:古漢語文本的字頻(詞頻)和字序(詞序)分布曲線呈現(xiàn)出較為明顯的雙曲線特征;利用專業(yè)Origin軟件對(duì)字頻(詞頻)和字序(詞序)的對(duì)數(shù)化后的散點(diǎn)圖作線性回歸處理,其分布曲線呈現(xiàn)出線性關(guān)系,斜率在-1左右,符合齊夫第一定律的設(shè)定,驗(yàn)證了齊夫定律對(duì)古漢語文本的適用性。從頻次與位序的數(shù)據(jù)統(tǒng)計(jì)分析結(jié)果可以看出,無論字頻還是詞頻,采用隨機(jī)法擬合的結(jié)果修正決定系數(shù)大,標(biāo)準(zhǔn)誤差小,與齊夫定律符合得更好。從詞頻統(tǒng)計(jì)結(jié)果我們知道,頻次最高的十一個(gè)詞為“之、有、為、以、其、也、中、而、謂、皆、者”;字頻統(tǒng)計(jì)結(jié)果中頻次最高的十個(gè)為字“之、有、人、為、其、中、以、不、大、山”。由此可知,俗語云古人只懂“之乎者也”是有一定科學(xué)依據(jù)的,如同英文中的定冠詞“the”、介詞“of”和連詞“and”。

        不同時(shí)代以及同時(shí)代不同作者具有不同的語言風(fēng)格特征。如果進(jìn)行大規(guī)模文本統(tǒng)計(jì),通過對(duì)語言的字頻詞頻等的分析,有助于甄別作品的作者和寫作年代。比如:關(guān)于古典名著《紅樓夢》的前八十回與后四十回的作者素有爭議,齊夫定律可以成為文獻(xiàn)考證的一個(gè)工具。事實(shí)上,齊夫定律除了在語言學(xué)、情報(bào)學(xué)領(lǐng)域運(yùn)用較多外。在非語言學(xué)領(lǐng)域如:地理學(xué)、經(jīng)濟(jì)學(xué)、信息科學(xué)等領(lǐng)域也有廣泛的應(yīng)用,例如:社會(huì)學(xué)領(lǐng)域中城市人口數(shù)量分析[9]、公司規(guī)模大小分析[10]等。研究表明,無論英語、漢語以及許多國家的語言,只有極少數(shù)的詞被經(jīng)常使用,而絕大多數(shù)詞很少被使用——人類的語言具有經(jīng)濟(jì)省力性原則(或曰“惰性”)。莫言在一次訪談中說到,他就上了小學(xué)五年級(jí),認(rèn)識(shí)大概五百多個(gè)漢字就開始寫作,后來可能又增加了五百多個(gè)漢字,現(xiàn)在大概是一千多個(gè)字。誠如此言,紀(jì)錄片《搖搖晃晃的人間》的拍攝對(duì)象、2018年湖北文學(xué)獎(jiǎng)獲得者、央視《朗讀者》節(jié)目特邀嘉賓、湖北農(nóng)村腦癱女詩人余秀華創(chuàng)作詩歌二千多首,其語言使用的局限性和地域性也同樣值得研究和關(guān)注。

        齊夫定律是描述詞頻分布規(guī)律的強(qiáng)大數(shù)學(xué)工具,作為經(jīng)驗(yàn)定律,它仍然有待進(jìn)一步完善[11]。比如:對(duì)高頻詞匯和低頻詞匯引入不同的權(quán)重因子或參數(shù),結(jié)果會(huì)更好地符合齊夫定律。這需要分析和研究大規(guī)模的文本語料庫,如今在大數(shù)據(jù)和高性能計(jì)算機(jī)的時(shí)代將變?yōu)榭赡?。我們相信齊夫定律的運(yùn)用將會(huì)取得更豐碩的成果。

        猜你喜歡
        文本
        文本聯(lián)讀學(xué)概括 細(xì)致觀察促寫作
        重點(diǎn):論述類文本閱讀
        重點(diǎn):實(shí)用類文本閱讀
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        作為“文本鏈”的元電影
        在808DA上文本顯示的改善
        “文化傳承與理解”離不開對(duì)具體文本的解讀與把握
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        從背景出發(fā)還是從文本出發(fā)
        色偷偷噜噜噜亚洲男人| 婷婷开心五月亚洲综合| 精品国产一区二区三区三| 午夜毛片不卡免费观看视频| 无码中文字幕在线DVD| 成人国产乱对白在线观看| 91久久精品美女高潮喷白浆| 人妻丰满熟av无码区hd| 中国丰满大乳乳液| 亚洲一区二区在线视频播放| 国产在线视频一区二区三| 中国杭州少妇xxxx做受| 久久99精品国产麻豆| 国产视频最新| 亚洲中文字幕精品久久久| 久久精品国产99久久无毒不卡| 亚洲色欲色欲www在线播放| 久久与欧美视频| 亚洲一区二区蜜桃视频| 亚洲av无码国产精品色午夜字幕 | 欧美性xxx久久| 人妻少妇偷人精品一区二区三区| 狠狠躁18三区二区一区| 中文字幕无线码中文字幕| 北岛玲精品一区二区三区| 亚洲av毛片在线免费看| 亚洲中文字幕久久无码精品| 日韩在线不卡免费视频| 中文天堂一区二区三区| 亚洲成av人片在www鸭子| 日韩在线一区二区三区免费视频| 亚洲网站免费看| 久久久人妻一区二区三区蜜桃d | 国产成人美女AV| 一二三四在线观看韩国视频| 色多多性虎精品无码av| 欧性猛交ⅹxxx乱大交| 看全色黄大黄大色免费久久| 日本女优在线一区二区三区 | 人妖av手机在线观看| 男女一边摸一边做爽爽的免费阅读 |