亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏文期刊論文檢索系統(tǒng)研究

        2018-07-10 09:49:46仁青東主安見才讓
        電腦與電信 2018年4期
        關(guān)鍵詞:期刊論文藏文分詞

        仁青東主 安見才讓

        (青海民族大學(xué)計(jì)算機(jī)學(xué)院,青海 西寧 810007)

        1 引言

        隨著國家教育事業(yè)的飛速發(fā)展,國內(nèi)藏區(qū)教育教學(xué)水平也得到了全方位的提高,而期刊論文發(fā)表是其中一項(xiàng)非常重要的組成部分,其主要目的是分享科學(xué)研究成果,進(jìn)行學(xué)術(shù)交流。為用戶提供一個在最短的時(shí)間內(nèi)要找到自己需要的信息的平臺是現(xiàn)實(shí)迫切的需求。本系統(tǒng)目的就是將分散在各處雜志上的論文收集整理,并按照論文結(jié)構(gòu)分類存儲到一個數(shù)據(jù)庫中,并提供統(tǒng)一的查詢接口,方便用戶在更大的范圍內(nèi)查找所需內(nèi)容,提高查詢效率,同時(shí)也增加了電子論文潛在的讀者。以上這些問題引出了本課題的研究內(nèi)容:藏文期刊論文檢索系統(tǒng)的研究。

        2 藏文期刊論文檢索系統(tǒng)相關(guān)技術(shù)分析

        在自然語言處理中,詞是最小的、能獨(dú)立活動的、有意義的語句成分,而英文、漢文、藏文對字符、字、詞各有不同的含義。英文是以詞為單位的,詞與詞之間按照空格進(jìn)行分割,劃分很明顯,即字與詞是合二為一的,而詞是由字符構(gòu)成,界限很清楚;漢文是以字為單位,根據(jù)漢文組詞的語法規(guī)則構(gòu)成詞語,詞與詞之間又沒有明顯的標(biāo)記區(qū)分,即由字構(gòu)成詞,而字與字符是合二為一的;藏文同漢文,也是以字為單位根據(jù)組詞規(guī)則由字構(gòu)成詞,而字又由字符構(gòu)成,即藏文中字符構(gòu)成字、字構(gòu)成詞,只是字與字之間由音節(jié)符隔開,以此可以區(qū)分字與字符。例如,英文句子“He is a teacher”,翻譯成漢文“他是一名老師”,翻譯成藏文計(jì)算機(jī)可通過空格識別“teacher”是一個單詞,但是無法識別也是一個單詞,所以需引入分詞技術(shù)。

        2.1 最大概率法分詞技術(shù)

        本研究使用了最大概率法分詞技術(shù),其主要思路是:(1)一個待切分的藏文字符串可能包括多種分詞結(jié)果;(2)將其中概率最大的分詞結(jié)果作為該文本的分詞結(jié)果。我們用這個例子來進(jìn)行說明,該字符串各種可能的分詞結(jié)果可以用一個有向圖1來顯示如下:

        圖 1 “ ”正向與逆向切分結(jié)果的有向圖表示

        其中(1)表示正向分詞結(jié)果,(2)表示逆向分詞結(jié)果,把這兩種分詞結(jié)果分別表示為W1和W2,則有如下兩種分詞結(jié)果:

        W1如果采用最大匹配法進(jìn)行分詞,W1是正向最大匹配的結(jié)果,W2是逆向最大匹配結(jié)果。對于這個例子來說,很顯然,W2是正確的分詞結(jié)果。如果用最大概率法來進(jìn)行分詞,就是計(jì)算W1和W2的概率P(W1)和P(W2),從中挑選一個概率大的作為分詞結(jié)果輸出。P(W)的概率可以有不同的計(jì)算方法,其中最為簡便直接的一種是將W中的各個詞看作互不相干的獨(dú)立事件,以每個候選詞的概率乘積來求得整個詞串的概率。公式如下:

        而P(Wi)可由詞語在一定規(guī)模的語料庫中的出現(xiàn)頻次來近似估計(jì),即

        詞語的概率信息可以按公式2事先計(jì)算好,存儲在詞典中。假設(shè)詞典中記錄有概率信息如下表1,則可以計(jì)算相應(yīng)的概率值,并選擇最大的作為詞串輸出。

        通過計(jì)算可以發(fā)現(xiàn)P(W2)>P(W1),從概率角度看,詞串W2比W1具有更大的可能性[4]。

        2.2 基于排序法的索引創(chuàng)建技術(shù)

        排序法在創(chuàng)建索引期間,始終占用固定的分配空間,以保存索引的中間結(jié)果和詞典信息,當(dāng)分配空間被占滿時(shí),將中間結(jié)果導(dǎo)入磁盤,內(nèi)存空間就得到了釋放,為下一次保存索引中間結(jié)果做準(zhǔn)備??梢?這種方法占用的內(nèi)存空間是固定的,從而可對不同大小的文檔集合創(chuàng)建索引,詳見下圖2。

        圖2為排序法創(chuàng)建索引的流程圖。在讀取文檔后,立即對文檔作編號處理,不僅使每個文檔都有專屬的ID,還完成了文檔內(nèi)容解析。對于經(jīng)常出現(xiàn)的單詞,可運(yùn)用查詞典法將單詞轉(zhuǎn)換為相匹配的單詞ID,如果在詞典中未發(fā)現(xiàn)這個單詞,表明這是首次遇到這個單詞,同時(shí)將賦予ID并存儲至詞典。

        表1 詞語概率信息表

        圖2 排序法

        3 論文檢索模塊設(shè)計(jì)

        檢索模塊分為普通檢索和相關(guān)性檢索兩種方式。普通檢索時(shí),先讓用戶選擇檢索方式,即論文的題目、作者、期刊、關(guān)鍵字等,輸入檢索內(nèi)容之后可預(yù)覽論文基本信息。如果需要閱讀詳細(xì)內(nèi)容,就要雙擊題目進(jìn)行PDF格式閱覽。操作界面如圖3所示:

        圖3 檢索結(jié)果預(yù)覽界面

        為了進(jìn)一步提高用戶的檢索體驗(yàn),當(dāng)用戶輸入錯誤關(guān)鍵詞不知道如何檢索關(guān)鍵詞時(shí),通過借鑒系統(tǒng)提供的相關(guān)檢索,從而可以提高檢索質(zhì)量,能夠快速地找到自己所需的論文。首先要對論文進(jìn)行分詞處理,然后要對分詞好的論文進(jìn)行詞頻統(tǒng)計(jì),根據(jù)詞頻計(jì)算逆文檔頻率,得到了逆文檔頻率就能得到相應(yīng)的詞項(xiàng)權(quán)重值[1]。相似度計(jì)算模塊界面由兩個小模塊組成。第一個小模塊是相關(guān)檢索,相關(guān)檢索根據(jù)計(jì)算查詢詞條與論文之間的相似度,按照相似度的評分高低,對查詢結(jié)果列表進(jìn)行排序。第二個模塊是根據(jù)用戶輸入的詞條檢索與此相關(guān)的詞條,對論文進(jìn)行查詢,例如查詢詞條,意思為導(dǎo)師,跟導(dǎo)師相關(guān)的詞條有老師,通過建立相關(guān)詞詞典,能夠?qū)崿F(xiàn)類似查詢[2]。

        4 實(shí)驗(yàn)—壓力測試

        壓力測試是一個必不可少且有益的過程,它提供了對Web和移動應(yīng)用程序在極端負(fù)載下的性能測試,可確定應(yīng)用程序中的潛在漏洞,并在出現(xiàn)問題前對其進(jìn)行更正[3]。Visual Studio 2017企業(yè)版自帶測試功能。為了確保網(wǎng)站的效能及容量可以滿足上線需求,首先需要預(yù)設(shè)負(fù)載測試時(shí)間、并發(fā)人數(shù)。本次實(shí)驗(yàn)預(yù)設(shè)并發(fā)人數(shù)為200人,從初始10個用戶開始,每10秒增加30個用戶,直到200個用戶為止,測試時(shí)間為5分鐘。

        在系統(tǒng)壓力測試中通過逐漸增加用戶訪問人數(shù)的方法,從初始的10個用戶到200個用戶同時(shí)訪問網(wǎng)頁的實(shí)驗(yàn)中,我們可以發(fā)現(xiàn)隨著用戶數(shù)量的增多,響應(yīng)時(shí)間最高達(dá)到1.81秒,最低響應(yīng)時(shí)間是1.07秒,平均響應(yīng)時(shí)間是1.52秒。實(shí)驗(yàn)證明,該系統(tǒng)基本上能夠達(dá)到預(yù)期效果。

        5 結(jié)論

        圖4 相關(guān)性檢索模塊界面

        圖5 測試響應(yīng)時(shí)間圖

        本文實(shí)現(xiàn)了最基本的藏文期刊論文檢索功能,該系統(tǒng)基本上能夠達(dá)到預(yù)期效果,但仍存在不足之處,離實(shí)際的藏文期刊論文檢索系統(tǒng)的標(biāo)準(zhǔn)還有一定的差距,在下一步的研究工作中將繼續(xù)改善。比如,當(dāng)兩個句子意義相似而使用了不同的詞性時(shí),借助近義詞典進(jìn)行替換,由于近義詞典的詞量相對較少,因此,該算法的計(jì)算結(jié)果與人的主觀判斷誤差較大。因此,需要更科學(xué)、適用的藏文近義詞典,盡可能減少相似度計(jì)算誤差。

        [1]陳玉忠,李保利,俞士汶.藏文自動分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2006,20(5):10-16.

        [2]安見才讓.藏語句子相似度算法的研究[J].中文信息學(xué)報(bào),2011(4):111-113.

        [3]伊文斌,鄭劍.基于Load Runner的Web負(fù)載測試[J].江西理工大學(xué)學(xué)報(bào),2008,29(04):13-15.

        [4]王瑞雷,欒靜,潘曉花,等.一種改進(jìn)的中文分詞正向最大匹配算法[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(3):195-197.

        猜你喜歡
        期刊論文藏文分詞
        醫(yī)學(xué)期刊論文中常見統(tǒng)計(jì)學(xué)錯誤
        西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
        布達(dá)拉(2020年3期)2020-04-13 10:00:07
        結(jié)巴分詞在詞云中的應(yīng)用
        黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
        西夏學(xué)(2019年1期)2019-02-10 06:22:34
        值得重視的分詞的特殊用法
        藏文音節(jié)字的頻次統(tǒng)計(jì)
        現(xiàn)代語境下的藏文報(bào)刊
        新聞傳播(2016年17期)2016-07-19 10:12:05
        公共圖書館不應(yīng)認(rèn)可的職稱期刊論文探析——基于重慶圖書館職稱期刊論文的實(shí)證調(diào)研
        人文社科期刊論文被引頻次和下載頻次相關(guān)性研究
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        午夜影院免费观看小视频| 香蕉成人啪国产精品视频综合网| av深夜福利在线| 亚洲国产av精品一区二| 久久久精品国产亚洲av网深田| 亚洲国产一区二区av| 亚洲欧洲av综合色无码| 欧美日韩一区二区综合| 无码h黄动漫在线播放网站| 欧美精品日韩一区二区三区| 国产伦奸在线播放免费| 中文字幕日韩精品有码视频| 国产精品网站在线观看免费传媒| 亚洲精品免费专区| 中文字幕日韩人妻在线| 在线精品首页中文字幕亚洲| 久久久亚洲欧洲日产国码αv| 亚洲成人福利在线观看| 亚洲中文字幕高清乱码毛片| 亚洲日本高清一区二区| 强开少妇嫩苞又嫩又紧九色| a在线观看免费网站大全| 国产一级三级三级在线视| 国产网友自拍视频在线观看| 欧美日韩午夜群交多人轮换| 亚洲国产av导航第一福利网 | 国产中文字幕乱人伦在线观看| 精品国产福利在线观看网址2022| 国产成人自拍视频在线观看网站| 国产一区高清在线观看| 久久久久亚洲精品无码网址色欲| 亚洲欧美日韩国产精品网| 久久精品国产黄片一区| 一区二区三区免费看日本| 亚洲国产美女精品久久久久∴ | 久久99国产伦精品免费| 91久久精品一二三区色| 女人张开腿让男人桶爽| 亚洲精品久久久久中文字幕二区| 白白青青视频在线免费观看| 中文字日产幕码三区国产|