亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于歷時語料的詞語穩(wěn)定性度量

        2017-06-15 15:07:01張衛(wèi)華
        河南科技 2017年7期
        關(guān)鍵詞:歷時詞頻大綱

        張衛(wèi)華

        (鄭州大學(xué)電氣工程學(xué)院,河南鄭州 450001)

        基于歷時語料的詞語穩(wěn)定性度量

        張衛(wèi)華

        (鄭州大學(xué)電氣工程學(xué)院,河南鄭州 450001)

        詞語是能獨立使用的最小語法單位,詞匯大綱是語言教學(xué)的基礎(chǔ),研制一個科學(xué)的、反映語言生活現(xiàn)實與人類認(rèn)知規(guī)律的詞表,對于提高漢語教學(xué)效果具有重要意義。本文基于歷時語料,從詞頻和詞義兩方面對詞語的穩(wěn)定性進(jìn)行度量,以期為漢語詞表的構(gòu)建提供參考。對詞頻穩(wěn)定性的2種統(tǒng)計指標(biāo)進(jìn)行相關(guān)性分析,在詞義穩(wěn)定性度量中引入詞向量,對詞語的穩(wěn)定性分布情況進(jìn)行考察。通過對HSK漢語水平考試詞匯等級大綱(2012年修訂)的分析表明,總體上,本文提出的穩(wěn)定性度量能較好地體現(xiàn)出大綱的等級分布,即大綱級別越低,詞語穩(wěn)定性越高,并可以為大綱的更新與調(diào)整提供依據(jù)。

        歷時語料;詞語穩(wěn)定性;詞頻穩(wěn)定性;詞義穩(wěn)定性;HSK詞匯大綱

        隨著社會的快速發(fā)展,語言也在不斷發(fā)展和演化,社會語言學(xué)與自然語言處理的許多任務(wù)都依賴于詞匯信息,研究和度量詞匯穩(wěn)定性必不可少。自然語言是動態(tài)的,隨時間演變適應(yīng)其用戶和環(huán)境的需要[1],根據(jù)詞匯的歷時信息不僅可以判斷其在特殊時期及相應(yīng)領(lǐng)域的使用情況,而且還能反映相應(yīng)的社會狀況和人民生活的變化。每個時間段上的詞匯都帶有以往的語言歷史,是歷史的混合產(chǎn)物。

        詞匯穩(wěn)定性的研究有助于現(xiàn)代漢語水平大綱的編寫,詞匯的歷時信息更能幫助漢語學(xué)習(xí)者了解和認(rèn)識漢語的歷時演變。例如,通過對比和分析《漢語水平詞匯與漢字等級大綱》[2]與統(tǒng)計穩(wěn)定度得到漢語詞匯的異同,不僅發(fā)現(xiàn)和收錄詞匯大綱未錄用的常用詞,而且可以刪除穩(wěn)定度較低的歷史詞匯。通常利用統(tǒng)計分析方法,如詞頻、信息熵等度量詞匯的穩(wěn)定性。王治敏[3]利用語料的頻次信息和時間跨度,通過不同的時間點,統(tǒng)計得到歷時變化的漢語常用詞表。統(tǒng)計詞表不僅為《漢語水平詞匯與漢字等級大綱》新詞的錄用和歷史性詞語的刪除提供了有價值的數(shù)據(jù),也為初學(xué)漢語者提供了可靠的參考。

        本文基于歷時語料,從詞頻和詞義兩方面對詞語的穩(wěn)定性進(jìn)行度量,以期為漢語詞表的構(gòu)建提供參考。對詞頻穩(wěn)定性的2種統(tǒng)計指標(biāo)進(jìn)行相關(guān)性分析,以了解不同指標(biāo)之間的關(guān)系。在詞義穩(wěn)定性度量中引入詞向量,利用“觀其伴,知其義”的思想,通過觀察詞義相近詞的情況來度量詞義穩(wěn)定性。最后把詞語穩(wěn)定性應(yīng)用于HSK漢語水平考試詞匯大綱的分析,并為詞匯大綱的修訂提供依據(jù)。

        1 相關(guān)研究

        研究人員針對歷時語料的詞語穩(wěn)定性研究已經(jīng)采取了諸多方法。針對詞頻穩(wěn)定性方面,荀恩東等[4]采用自然語言處理的相關(guān)技術(shù),基于詞語的頻次、頻率以及香農(nóng)熵的方法分析研究歷時新聞?wù)Z料,開發(fā)了現(xiàn)代漢語詞匯歷史檢索系統(tǒng),此系統(tǒng)對詞匯的語義、語用等方面的研究較為突出,反映新詞的變化過程及公共領(lǐng)域的詞語信息;王治敏[5]根據(jù)歷時語料詞語的頻繁和穩(wěn)定程度判斷常用詞匯,提出詞語穩(wěn)定程度參數(shù)U來判斷詞語隨時間變化的穩(wěn)定性,該方法得出的常用詞詞表可實現(xiàn)《漢語水平詞匯與漢字等級大綱》(簡稱HSK詞匯大綱)的半自動更新,以及為利用新聞?wù)Z料研究常用詞提供強有力的依據(jù);Kulkarni等[6]利用詞頻模型捕捉詞語隨時間變化的各個方面,頻率的變化與詞語產(chǎn)生新詞義或失去詞義的變化相一致,所以利用詞頻變化獲取詞義變化。

        關(guān)于詞義穩(wěn)定性方面,Yoon Kim等[7]利用神經(jīng)語言模型訓(xùn)練歷時語料得到詞向量,其中利用前一年的詞向量來初始化后一年詞向量的訓(xùn)練,根據(jù)計算詞語在不同時間段的余弦相似度衡量語義的穩(wěn)定性;Popescu和Strapparava[8]采用政治、社會等某些術(shù)語與情感詞語的頻率統(tǒng)計檢驗識別語言變化和時間段之間的相關(guān)性;胡俊峰等運用點互信息(Pointwise Mutual Information,PMI)計算每個詞對的分布相似性,而PMI是采用構(gòu)建共現(xiàn)向量和余弦的權(quán)重或歸一化點積的方法,根據(jù)語義相似的交集揭示了詞語的語義或用法在較短時間間隔內(nèi)趨于穩(wěn)定,以及可以獲得歷時敏感詞語和歷時不敏感詞語;Jey-Han Lau等將主題模型應(yīng)用到詞義歸納(Word Sense Induction,WSI)上,通過歷時語料分析具有高邊際概率的主題詞識別隨時間變化的詞語語義。

        2 詞頻的穩(wěn)定性度量

        本文基于歷時語料,使用統(tǒng)計分析方法即詞頻和信息熵度量詞語穩(wěn)定性。衡量詞語穩(wěn)定程度的參數(shù)U(公式1)和信息熵(公式4)作為衡量詞語穩(wěn)定性的指標(biāo),其中衡量詞語穩(wěn)定程度的參數(shù)U反映詞語在語料中出現(xiàn)的平均頻次及詞語隨時間波動等因素[5],即:

        式(1)中,fˉ表示詞語出現(xiàn)的平均頻次,計算公式如(2)所示,stdev(f)代表詞語出現(xiàn)的頻次標(biāo)準(zhǔn)差,計算公式如(3)所示。

        其中,式(2)與式(3)中的n為詞語統(tǒng)計頻次f的個數(shù)。

        詞語穩(wěn)定度參數(shù)U值與詞語在歷史語料庫中出現(xiàn)的平均頻次成正比,與詞語出現(xiàn)頻次的標(biāo)準(zhǔn)差成反比,根據(jù)U值的排序,判斷詞語的穩(wěn)定性。

        信息熵作為衡量詞語穩(wěn)定性的指標(biāo),描述詞語的不確定性的數(shù)量,熵越大,不確定性越大。H(X)代表詞語的信息熵,即:

        式(4)中,p(x)為詞語x每一年的概率,即詞語在每一年出現(xiàn)的頻次與該詞語在歷年出現(xiàn)總頻次的比值,R為該詞歷年出現(xiàn)情況的集合。

        3 詞義的穩(wěn)定性度量

        與傳統(tǒng)語言模型相比,本文基于歷時語料,采用神經(jīng)語言模型獲取更深層次的詞義信息。神經(jīng)語言模型依賴的一個核心概念就是詞向量,而詞向量是用一個向量來表示一個詞,一定程度上可以刻畫詞之間的語義距離。利用上下文信息進(jìn)行詞表示,具有相同(類似)上下文信息的詞應(yīng)該具有相同(類似)的詞表示即詞向量。我們使用Mikolov等提出的Word2vec模型中的Skip-gram模型訓(xùn)練詞向量。Skip-gram模型是通過語料庫中每個詞預(yù)測周圍的詞語,Skip-gram的輸入是當(dāng)前詞的詞向量,而輸出是周圍詞的詞向量。

        詞語在詞義上彼此接近同樣在詞向量空間里也相近,通過余弦距離表示詞語在向量空間里的距離,從而得到詞語詞義相近的詞。定義詞語w從時間y1到時間y2的語義穩(wěn)定性指數(shù)(Sense Stability Index,SSI),計算公式如(5)所示。

        4 實驗與分析

        實驗考察1946-2005年度的《人民日報》詞語穩(wěn)定性,包括詞頻穩(wěn)定性和詞義穩(wěn)定性度量。利用中科院ICTCLAS漢語分詞系統(tǒng)對60年《人民日報》進(jìn)行分詞,在分詞結(jié)果基礎(chǔ)上度量詞語穩(wěn)定性。同時,利用詞頻穩(wěn)定性和詞義穩(wěn)定性指標(biāo)與2012年版《漢語水平詞匯與漢字等級大綱》(簡稱HSK詞匯大綱)詞語等級進(jìn)行比較。

        4.1 詞語的詞頻穩(wěn)定性實驗與分析

        通過spearman相關(guān)系數(shù)比較詞語穩(wěn)定度U與信息熵的相關(guān)程度,計算得到詞語穩(wěn)定度U值與信息熵的spearman相關(guān)系數(shù)值為0.98,顯著性水平p<0.001。詞語穩(wěn)定度U值和信息熵高度相關(guān),選擇其一即可,本文采用詞語穩(wěn)定度U值度量詞頻穩(wěn)定性。spearman相關(guān)系數(shù)的計算公式如(6)所示。

        式(6)中,di為信息熵和詞語穩(wěn)定度的排行差分集合,N為詞語的個數(shù)。

        度量詞語的詞頻穩(wěn)定性,統(tǒng)計1946-2005年度《人民日報》中每年的詞頻,計算每個詞語的平均頻次fˉ和詞語出現(xiàn)的頻次標(biāo)準(zhǔn)差stdev(f),根據(jù)公式(1)計算出衡量詞語穩(wěn)定程度的參數(shù)U,將U值進(jìn)行排序,選取數(shù)值排名靠前的10個詞語,如表1所示。根據(jù)詞語的詞頻穩(wěn)定性U值大小,統(tǒng)計每個穩(wěn)定度階段詞語的個數(shù),如表2所示,詞頻穩(wěn)定參數(shù)階段的U值越大,其詞語的詞頻穩(wěn)定性越高,而其包含的詞語個數(shù)越少,說明使用量大的漢語穩(wěn)定性不高,其穩(wěn)定性容易受歷史事件等影響。

        表1 U值排名靠前的詞語

        詞語穩(wěn)定度參數(shù)U值與詞語在歷史語料庫中出現(xiàn)的平均頻次成正比,詞語的平均頻次反應(yīng)在語料中使用該詞語的頻繁程度,而與詞語出現(xiàn)頻次的標(biāo)準(zhǔn)差成反比,標(biāo)準(zhǔn)差反應(yīng)該詞語頻次波動程度,在歷年語料中詞語分布越不穩(wěn)定,標(biāo)準(zhǔn)差越大,U值越小,比如和年度突發(fā)事件的詞語標(biāo)準(zhǔn)偏差很大,參數(shù)U就會把這些詞語排除在外。本文針對1946-2005年度的《人民日報》,“部隊”“干部”“列隊”這些詞語在早期就被頻繁使用,隨著時間的推移,這類詞語的使用頻次一直穩(wěn)定且幅度較為平穩(wěn),所以U值排名較高,詞語比較穩(wěn)定。

        表2 詞語詞頻穩(wěn)定度分布表

        4.2 詞語的詞義穩(wěn)定性實驗與分析

        度量詞語的詞義穩(wěn)定性,使用Word2vec模型中的Skip-gram模型對每一年《人民日報》語料訓(xùn)練詞向量,模型參數(shù)設(shè)置為窗口大小為2,向量維度為200維。每個詞語在每一年的詞向量通過余弦距離計算,選取與其距離最近的K=100個詞語,本文選擇2005年與1946年作為時間y1到時間y2,根據(jù)公式(5)計算得到語義穩(wěn)定性指數(shù)(SSI),將SSI值進(jìn)行排序,選取數(shù)值排名靠前的10個詞語,如表3所示。根據(jù)詞語“只有”在60年《人民日報》中語義分布畫出曲線變化圖,將2005年作為y2,1946-2004年中每一年作為y1,計算SSI值,如圖1所示。

        根據(jù)表3中語義穩(wěn)定性指數(shù)SSI值排名,發(fā)現(xiàn)SSI值較高的詞語中虛詞居多,這符合虛詞的語義穩(wěn)定特征,根據(jù)“只有”的語義變化曲線,分布平穩(wěn),因此,該詞語的穩(wěn)定性較高。而SSI值較低的詞語的詞義穩(wěn)定性隨時間發(fā)生變化,選取詞語“透明”(SSI=0),畫出“透明”在60a《人民日報》中語義分布畫出曲線變化圖,如圖2所示。

        根據(jù)圖2顯示,詞語“透明”在1997年左右SSI值變化幅度巨大,說明該詞語的詞義發(fā)生巨大變化,根據(jù)“透明”在2005年和1998年的語義相似詞語的交集:“公正,公開,陽光,公平,有序,無色,專賬,參與權(quán),整潔,暗箱,自由,嚴(yán)格,一望,明亮”,表明“透明”詞義發(fā)生隱喻變化,產(chǎn)生抽象的新詞義,指的是市場、政府和法律等的公開化;起初,“透明”的詞義是玻璃,水和其他物理事物的性質(zhì)。因此,“透明”的詞義穩(wěn)定性低。

        表3 SSI值排名靠前的詞語

        圖1 詞語“只有”60年的語義變化曲線

        圖2 詞語“透明”60年的語義變化曲線

        4.3 詞語的穩(wěn)定性指標(biāo)與HSK詞匯大綱等級比較

        《漢語水平詞匯與漢字等級大綱》(簡稱HSK詞匯大綱)的詞語具有等級劃分,根據(jù)詞語的常用度分為1~6個等級。利用本文提出的詞頻穩(wěn)定性指標(biāo)U值和詞義穩(wěn)定性指標(biāo)SSI值對HSK詞匯進(jìn)行詞頻穩(wěn)定性和詞義穩(wěn)定性度量,將詞匯U值和SSI值按照HSK的等級劃分為6個區(qū)間,分別對每個區(qū)間的U值和SSI值求均值,如表4所示,計算公式如(7)(8)所示。

        式(7)(8)中,n為每個區(qū)間所求U值和SSI值詞語的個數(shù)。

        表4 詞語穩(wěn)定性與HSK詞匯大綱比較

        HSK詞匯等級越低其常用性就越高,根據(jù)表4所示HSK等級低的詞語的U值和SSI值高,因此,這些詞語的穩(wěn)定性就高、常用性高。因此,可以利用本文提出的度量詞語穩(wěn)定性指標(biāo)對HSK詞匯大綱中的詞匯進(jìn)行更新,若某些詞語的詞頻穩(wěn)定參數(shù)U或詞義穩(wěn)定性指數(shù)SSI低于上述標(biāo)準(zhǔn),就可以過濾HSK中過時的詞匯或者更新其等級,實現(xiàn)HSK的半自動更新。例如,詞語“政府”在HSK詞匯大綱里的等級為5,根據(jù)本文提出的詞語穩(wěn)定性指標(biāo)計算出U值為1.758,SSI值為0.09,明顯大于表中所求的值。所以,可以考慮調(diào)低其在HSK詞匯大綱里的等級。

        5 結(jié)語

        本文提出基于歷時語料的詞語穩(wěn)定性度量方法,包括詞頻穩(wěn)定性和詞義穩(wěn)定性兩方面。在詞頻穩(wěn)定性度量中,得出了詞頻穩(wěn)定參數(shù)與信息熵兩個統(tǒng)計指標(biāo)的一致性結(jié)論。在詞義穩(wěn)定性度量中,引入了深度學(xué)習(xí)中的詞向量方法。在60年人民日報歷時語料基礎(chǔ)上,對詞語穩(wěn)定性度量結(jié)果進(jìn)行了定量考察。最后,嘗試把詞語穩(wěn)定性度量結(jié)果應(yīng)用于HSK詞匯等級大綱的分析與調(diào)整。

        詞語穩(wěn)定性作為詞語的一個重要屬性,也可以為詞匯語義研究的目標(biāo)詞選擇提供依據(jù),可以從使用最穩(wěn)定的那些詞作為切入點開始某一項研究任務(wù)。詞義的歷時演變將是下一步研究的重點,詞語的穩(wěn)定性可以表明哪些詞發(fā)生了變化,但具體怎樣變化、變化的模式是什么需要進(jìn)一步研究。

        鄭州大學(xué)信息工程學(xué)院研究生鄭一對本文的數(shù)據(jù)處理和實驗分析等工作有重要貢獻(xiàn)。

        [1]Aitchison J.Language Change:Progress or Decay?[J].Language in Society,1983(2):411.

        [2]國家漢語水平考試委員會辦公室考試中心.漢語水平詞匯與漢字等級大綱[M].北京:經(jīng)濟(jì)科學(xué)出版社,2001.

        [3]王治敏,楊爾弘.面向漢語教學(xué)的常用動詞計量研究[J].語言教學(xué)與研究,2012(1):1-6.

        [4]荀恩東,饒高琦,謝佳莉,等.現(xiàn)代漢語詞匯歷時檢索系統(tǒng)的建設(shè)與應(yīng)用[J].中文信息學(xué)報,2015(3):169-176.

        [5]王治敏.基于時間跨度的漢語教學(xué)常用詞表統(tǒng)計研究[J].華文教學(xué)與研究,2010(4):49-55.

        [6]Kulkarni V,Alrfou R,Perozzi B,et al.Statistically Significant Detection of Linguistic Change[J].Computer Science,2014:625-635.

        [7]Kim Y,Chiu Y,Hanaki K,et al.Temporal Analysis of Language through Neural Language Models[J].Computer Science,2014 (3):153-178.

        [8]FBK-irst,Trento,Popescu O,et al.Strapparava.2013.Behind the Times:Detecting Epoch Changes using Large Corpora[A]// International Joint Conference on Natural Language Processing,2013:347-355.

        Measuring Word Stability Based on a Diachronic Corpus

        Zhang Weihua
        (School of Electrical Engineering,Zhengzhou University,Zhengzhou Henan 450001)

        Word is the smallest grammatical unit that can be used independently while lexicon is the foundation of language teaching.To improve the effectiveness of Chinese teaching,it is of great significance to develop a scientific vocabulary that reflects the reality of language life and the laws of human cognition.Based on a diachronic corpus, This paper measured the stability of words from two aspects,word frequency and word meaning,to provide a reference for the construction of Chinese vocabulary.This paper made a statistical correlation analysis of the two word frequency stability measures,and introduced word embeddings into the word sense stability measure.Quantitative analysis of word stability distribution was carried out based on the diachronic corpus.After investigation of the HSK vocabulary level outline,it showed that the computed word stability could correlate well with the vocabulary levels,and provided a good knowledge source for the updating and adjustment of the outline.

        diachronic corpus;word stability;word frequency stability;word sense stability;HSK vocabulary outline

        TP391.1

        A

        1003-5168(2017)04-0056-04

        2017-03-25

        張衛(wèi)華(1963-),女,大專,研究方向:圖書情報。

        猜你喜歡
        歷時詞頻大綱
        50個重要的知識點 一份“學(xué)習(xí)大綱”幫您梳理黨的二十大報告
        工會博覽(2022年33期)2023-01-12 08:53:34
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        量詞“只”的形成及其歷時演變
        常用詞“怠”“惰”“懶”的歷時演變
        對《紅樓夢》中“不好死了”與“……好的”的歷時考察
        古今字“兌”“說”“悅”“敚”歷時考察
        緊貼實戰(zhàn)落實《大綱》要求推進(jìn)航空體育訓(xùn)練創(chuàng)新發(fā)展
        詞頻,一部隱秘的歷史
        云存儲中支持詞頻和用戶喜好的密文模糊檢索
        以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報》學(xué)術(shù)研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        99精品久久精品一区二区| 少妇勾引视频网站在线观看| 一区二区三区四区免费国产视频| 亚洲第一黄色免费网站| 国产成a人亚洲精品无码樱花 | 久久精品国产自产对白一区| 国产亚洲自拍日本亚洲| 夫妇交换性三中文字幕| 116美女极品a级毛片| 欧美日韩一区二区三区视频在线观看 | 亚洲国产综合久久天堂| 在线观看视频播放| 日韩人妻精品无码一区二区三区| 国产在视频线精品视频二代| 亚洲中文字幕免费精品| 久久久精品国产性黑人| 久久久av波多野一区二区| 一本色道av久久精品+网站| 成人无码激情视频在线观看| 国产av麻豆精品第一页| 亚洲av成人精品一区二区三区| 手机看片久久国产免费| 综合五月网| 精品国产一品二品三品| 国产成人综合精品一区二区| 婷婷丁香五月激情综合| 亚洲av无码专区国产乱码不卡 | 免费看一级a女人自慰免费| 国产三级av在线播放| 亚洲国产成人久久精品不卡| 亚洲加勒比久久88色综合| 精品欧美一区二区在线观看| 一区二区三区免费观看在线视频| 国产91成人精品高潮综合久久| 国产乱人偷精品人妻a片| 在线观看国产成人av片| 亚洲熟伦在线视频| 亚洲av色av成人噜噜噜| 国产亚洲成av人片在线观黄桃| 成人无码一区二区三区网站| 亚洲AⅤ乱码一区二区三区|