亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)藏文詞頻統(tǒng)計調(diào)查分析

        2011-12-31 00:00:00馬偉
        絲綢之路 2011年10期

        [摘要]互聯(lián)網(wǎng)時代,人類語言的發(fā)展更加迅速,語言的發(fā)展更直接地反映在詞匯的運用中?;ヂ?lián)網(wǎng)時代針對藏文網(wǎng)絡(luò)語言的定量研究,能夠為語言學(xué)相關(guān)研究帶來更為可靠的數(shù)據(jù)依據(jù)。本文通過使用計算機詞頻統(tǒng)計軟件,用統(tǒng)計計量的研究方法,針對藏文網(wǎng)絡(luò)中的用詞情況進行了初步調(diào)查分析。

        [關(guān)鍵詞]藏文詞頻;網(wǎng)絡(luò)語言;詞匯運用

        [中圖分類號]H214 [文獻標(biāo)識碼]A [文章編號]1005-3115(2011)010-0085-02

        藏語是我國藏族使用的語言,屬漢藏語系藏緬語族,藏族的發(fā)展受到中國乃至世界的矚目,藏語的發(fā)展也受到各方面的關(guān)注。隨著藏文信息技術(shù)的不斷發(fā)展,藏文網(wǎng)絡(luò)的發(fā)展已經(jīng)有了可喜的進步。針對網(wǎng)絡(luò)上大量的藏文文本資源,我們可以通過建立相應(yīng)的語料庫,對語料庫中的詞匯通過計算機技術(shù)進行詞頻等方面的研究,其意義不言而喻。藏文網(wǎng)絡(luò)詞頻統(tǒng)計等工作,可以為藏語言文字研究提供有力的科學(xué)數(shù)據(jù),為藏文詞典編纂、藏語言規(guī)范化、藏語言教學(xué)等方面提供一定的參考。網(wǎng)絡(luò)語言文字調(diào)查研究工作,還可以為網(wǎng)絡(luò)輿情分析提供可參考的數(shù)據(jù),對網(wǎng)絡(luò)上出現(xiàn)的不良信息可以及時預(yù)警和處理。如何對網(wǎng)絡(luò)上海量的信息通過獲取建立語料庫,并對語料中的詞匯進行統(tǒng)計方面的分析,從而得出一個調(diào)查結(jié)果,是本文需要解決的問題。

        一、藏文網(wǎng)絡(luò)資源的采集與預(yù)處理

        (一)采集對象的確定

        自2000年零點世界上第一個藏文文字網(wǎng)站——同元藏文網(wǎng)站開通,藏文網(wǎng)頁在互聯(lián)網(wǎng)中逐步增多?,F(xiàn)在,藏文網(wǎng)站上的內(nèi)容已經(jīng)相對豐富,數(shù)據(jù)量大,信息正在走向全面化。比如中國西藏信息中心使用了三種語言來發(fā)布內(nèi)容,其中有20多個專題欄目、150多個資訊欄目。除了文本信息外,還擁有數(shù)萬幅精美圖片以及大量的影音文件可供網(wǎng)友下載瀏覽。現(xiàn)在藏文網(wǎng)頁的主要內(nèi)容有兩類:一類是新聞,另一類是旅游信息。新聞類藏文網(wǎng)頁在網(wǎng)絡(luò)上的數(shù)量居首位。由于現(xiàn)在的藏文網(wǎng)站中藏文的編碼方式和碼位都不統(tǒng)一,為了避免不同編碼而需要進行統(tǒng)一編碼,筆者在選擇網(wǎng)站時主要考慮了采用同元編碼的網(wǎng)站。

        在現(xiàn)有藏文網(wǎng)站中,影響比較廣泛、新聞量比較大的網(wǎng)站主要有新華網(wǎng)西藏頻道http://xizang.news.cn/、中國西藏信息中心藏文網(wǎng)站 http://ti.tibet.cn以及中國西藏新聞網(wǎng)http://tb.chinatibetnews.com/。這三個網(wǎng)站每天都有新聞方面的更新,內(nèi)容較其他網(wǎng)站更加翔實,可供下載的文本數(shù)量多。所以,在網(wǎng)站選擇上,本文選擇了這兩個大網(wǎng)站作為主要的下載站點,而在內(nèi)容上選擇了新聞類網(wǎng)頁作為主要調(diào)查對象。

        (二)藏文網(wǎng)絡(luò)資源的采集

        抓取網(wǎng)頁就是要把互聯(lián)網(wǎng)上的數(shù)據(jù)下載到本地計算機,想隨心所欲的抓取到自己需要的頁面,需要通過網(wǎng)頁爬蟲軟件去實現(xiàn)這一目的。在本次藏文網(wǎng)絡(luò)用詞使用情況調(diào)查中,筆者通過網(wǎng)而爬蟲軟件總共下載到了新華網(wǎng)西藏頻道http://xizang.news.cn/、中國西藏信息中心藏文網(wǎng)站 http://ti.tibet.cn以及中國西藏新聞網(wǎng)http://tb.chinatibetnews.com/三個網(wǎng)站中的3571個藏文網(wǎng)頁文件,共計173兆。

        (三)藏文網(wǎng)絡(luò)資源的預(yù)處理

        抓取下來的網(wǎng)頁,多數(shù)為超文本標(biāo)記頁面,這些網(wǎng)頁上眾多的網(wǎng)絡(luò)信息,除了網(wǎng)頁中的主題外,比如文本類的新聞內(nèi)容,還有導(dǎo)航條和雜亂的廣告信息以及版權(quán)信息等,通常稱這些與主題無關(guān)的內(nèi)容為“噪音”,而調(diào)查中所需要的只是網(wǎng)頁中的文本,而所有的網(wǎng)頁當(dāng)中都有或多或少的噪聲數(shù)據(jù),因此,網(wǎng)頁的凈化處理在整個調(diào)查研究工作中成為不可或缺的關(guān)鍵步驟。網(wǎng)頁去噪就是通過分析超文本標(biāo)記網(wǎng)頁結(jié)構(gòu),找到需要抽取內(nèi)容的準(zhǔn)確位置,之后把需要的內(nèi)容從有噪音的網(wǎng)頁中抽取出來,從而達到凈化網(wǎng)頁,提取純文本的目的。

        目前,能做到將超文本標(biāo)記文檔中去掉超文本標(biāo)記,抽取文本的軟件很多,在實驗當(dāng)中選擇的超本文到純文本的轉(zhuǎn)換器,是一個轉(zhuǎn)換超文本標(biāo)記文檔為純文本格式的免費小工具。它不僅可以移除標(biāo)記,并且可以重新定義文本格式以獲取更可讀的結(jié)果。支持批量處理的功能更是對大量網(wǎng)頁的處理提供了事半功倍的幫助。但是這個軟件軟換后還是沒有處理干凈,在使用這個軟件抽取文本的過程中發(fā)現(xiàn),有一部分網(wǎng)頁的標(biāo)記轉(zhuǎn)換為文本文件后沒有移除,運用絕對查找替換軟件,它可以批量處理這些沒有被移除掉的標(biāo)記,將他們從文本文件中刪除。在整個網(wǎng)頁的凈化處理過程中,通過兩個軟件,獲得了比較理想的純文本文件。

        由于從網(wǎng)頁上獲得的純文本文件為未經(jīng)加工的生語料,還不能為后期詞匯使用情況調(diào)查所用,而藏文和中文有個共同點就是句子中詞語和詞語之間沒有專門的分隔符,所以要做藏文詞匯的統(tǒng)計和調(diào)查工作,第一步就需要將生語料進行分詞。在基于大規(guī)模語料庫做自然語言信息處理方面,分詞技術(shù)至關(guān)重要?!安卣Z自動分詞研究是藏語自然語言處理的關(guān)鍵技術(shù)之一,也是語言智能化處理的基礎(chǔ)工程。只有對藏語句子正確無誤的分詞,才有可能實現(xiàn)對藏語自然語言的理解。” 現(xiàn)在,有關(guān)分詞的方法有很多種,如最大匹配算法、最小匹配算法等,關(guān)于藏文分詞的研究也有了很大進步。最大匹配算法是最常用的分詞方法,它是基于所給定的詞表而進行的基于規(guī)則的分詞方法,本次調(diào)查中的分詞方法就是采用了基于規(guī)則的分詞方法。其中分詞所使用的詞表主要使用了藏漢大辭典中約89132條詞匯。

        在詞頻統(tǒng)計中所說的詞是指語料中由分詞模塊已經(jīng)分隔好的藏文詞或短語,分詞模塊將符合條件的字符串導(dǎo)入詞頻表格中,這樣就獲得了語料中所有的藏文詞匯,分別查詢每一個詞匯在預(yù)料中出現(xiàn)的次數(shù),也就獲得了詞的頻度。

        通過分詞及詞頻統(tǒng)計軟件,筆者將先前獲得的網(wǎng)絡(luò)語料進行了初步的分詞,并將詞頻表導(dǎo)出為微軟的表格文件,微軟辦公軟件中的表格數(shù)據(jù)處理文件是一個功能十分強大而且非常易用的數(shù)據(jù)統(tǒng)計工具,可以在其中做出相應(yīng)的藏文網(wǎng)絡(luò)用詞調(diào)查報告。

        二、藏文網(wǎng)絡(luò)用詞的使用情況

        (一)調(diào)查內(nèi)容

        本次的調(diào)查對象主要是藏文網(wǎng)絡(luò)語料中的詞。對這些詞的調(diào)查項目主要有頻次、頻率、累加頻率等。其中頻次即每一調(diào)查對象在所有語料中出現(xiàn)的次數(shù);文本數(shù)指語料中包含該調(diào)查對象的文本個數(shù);頻率即每一調(diào)查對象的頻次與整個語料所含調(diào)查對象總次數(shù)的比值;累加頻率指所有調(diào)查對象按照頻次降序排列,每一調(diào)查對象的頻次同其前調(diào)查對象出現(xiàn)的總次數(shù)與整個語料所含調(diào)查對象總次數(shù)的比值。本次統(tǒng)計沒有甄別文本中的新詞。

        (二)調(diào)查結(jié)果

        第一,共處理了 3020 個文件;第二,共有 18864 個詞,指不同的藏文詞匯種數(shù);第三,總計 2102777 詞次,指全部語料中藏文詞出現(xiàn)的總次,計2102777 字次;第四,總計 5210541 字次,指全部語料中所有字符的總量,共計5210541字符次。

        藏文網(wǎng)絡(luò)用詞高頻詞的使用情況為,前111字覆蓋率達50%;當(dāng)覆蓋率達90%時,使用詞匯2253個。覆蓋率與字?jǐn)?shù)的關(guān)系見表1。

        (三)有關(guān)齊普夫法則的調(diào)查分析

        齊普夫在自己的著作中,闡述了自己發(fā)現(xiàn)的一個統(tǒng)一原理,即最小精力付出原理,它在本質(zhì)上是人類活動的基礎(chǔ)。最小精力付出原理認為人類將會盡可能最小化他們可能的平均工作率。而這一法則在語料庫語言學(xué)中得到了應(yīng)用,本文將語料庫中所有的詞按照出現(xiàn)次數(shù)的多少進行順序排列,發(fā)現(xiàn)一個詞出現(xiàn)的頻度和它所在排列位置的關(guān)系,這種關(guān)系合乎齊普夫法則,即存在一個常數(shù),使得頻度和位置相乘得出的值保持在一個恒定的數(shù)值上。

        通過對網(wǎng)絡(luò)預(yù)料庫中前1000個詞的實驗數(shù)據(jù),做出了如表2所示的詞匯排列位置和常數(shù)值之間的關(guān)系表,通過這個表可以看出,在排列位置低于200的情況下,這個常數(shù)值是不穩(wěn)定的,曲線偏離度較大,而在200~1000的位置上,常數(shù)值恒定在250000~300000的數(shù)值區(qū)間。

        筆者繼續(xù)觀察了位置在10000以后的常數(shù)值情況,通過觀察數(shù)據(jù),可以看出在排列位置偏低時常數(shù)值低于恒定在250000~300000的數(shù)值區(qū)間,而在位置偏高時,發(fā)現(xiàn)常數(shù)值在大于10000以后發(fā)生了比較大的偏離。

        三、小結(jié)

        藏文網(wǎng)絡(luò)在用詞方面的調(diào)查分析為藏語言文字研究提供了一定的科學(xué)數(shù)據(jù),為藏文詞典編纂、藏語言規(guī)范化、藏語言教學(xué)等方面提供參考。本文從詞頻出發(fā)對藏文三大網(wǎng)站中出現(xiàn)的詞匯做出了較為細致的統(tǒng)計和分析,用統(tǒng)計數(shù)據(jù)客觀反映了網(wǎng)絡(luò)詞匯的實際情況。一方面為藏文網(wǎng)絡(luò)用詞用語調(diào)查提供了一個可擴充的語料庫;另一方面也為藏文網(wǎng)絡(luò)詞匯的發(fā)展?fàn)顩r做了統(tǒng)計語言學(xué)方面的調(diào)查。需要說明的是,進行藏文網(wǎng)絡(luò)在用詞方面的調(diào)查,由于受到調(diào)查技術(shù)等方面的限制和經(jīng)驗的不足,文章還有許多不盡如人意之處,有待在今后的工作、學(xué)習(xí)中繼續(xù)改進。

        精品人妻无码一区二区色欲产成人| a黄片在线视频免费播放| 在线精品亚洲一区二区动态图| 久久人妻内射无码一区三区| 国产综合色在线视频| 在线一区二区三区视频观看| 精品三级国产一区二区三| 一本精品99久久精品77| 两个人看的www中文在线观看| 亚洲无码毛片免费视频在线观看 | 日本久久久| 91精品国产乱码久久久| 亚洲人妻调教中文字幕| 国产一极内射視颍一| 小12箩利洗澡无码视频网站| 日本免费三片在线播放| 久久精品免费一区二区喷潮| 国产福利一区二区三区在线观看| 国产免费久久精品99re丫y| 国产成人高清视频在线观看免费 | 99久久精品国产自在首页| 精品一区二区三区a桃蜜| 亚洲中文字幕无码不卡电影| 日韩精品无码久久一区二区三| 国产一区二区三区亚洲天堂| 伊人久久大香线蕉av色婷婷色| 亚洲avav天堂av在线网毛片| 欧美三级免费网站| 免费人成网在线观看品观网| 国产精品午夜福利视频234区| 国产成人无码免费网站| 手机AV片在线| 亚洲一区二区三区2021| 亚洲av无码国产精品色软件下戴| 亚洲国产A∨无码影院| 人妻有码中文字幕在线| 亚洲av无码一区二区三区网址| 精品国产成人亚洲午夜福利| 黑人一区二区三区啪啪网站| 精品国产亚洲亚洲国产 | 日本人妻系列一区二区|