亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        移動圖書館詞典構(gòu)建與應(yīng)用

        2019-12-16 06:14:30朱婷婷鄭德俊
        圖書館理論與實踐 2019年11期
        關(guān)鍵詞:詞庫詞條分詞

        朱婷婷,鄭德俊

        (1.寧波職業(yè)技術(shù)學(xué)院圖書館;2.南京農(nóng)業(yè)大學(xué)信息管理系)

        1 引言

        移動圖書館研究如火如荼,已有研究主要關(guān)注服務(wù)模式、平臺建設(shè)推廣、用戶體驗、用戶需求等方面,尤其重視對用戶的研究,近年來,移動圖書館用戶評論挖掘也成為研究熱點。[1]對于移動圖書館用戶評論挖掘,評論數(shù)據(jù)的預(yù)處理工作尤為重要,預(yù)處理將影響到后續(xù)的評論數(shù)據(jù)處理效果,其中,中文分詞是最關(guān)鍵的一步。分詞詞典是機械分詞的基礎(chǔ),通用的分詞詞典主要收集的是日常用語及中華大辭海的詞匯。但是通用詞典不能滿足特定領(lǐng)域語料的分詞要求,且通用詞典中生僻字?jǐn)?shù)量龐大,影響了分詞的準(zhǔn)確性、合理性和時間性能。

        對移動圖書館用戶評論進行預(yù)處理需要用到分詞詞典,但目前國內(nèi)還沒有一部完善的大規(guī)模移動圖書館詞典。移動圖書館詞典是進行移動圖書館用戶評論預(yù)處理的前提,如何多渠道獲取移動圖書館相關(guān)詞條,構(gòu)建移動圖書館詞典,并將其應(yīng)用到分詞中來,已成為移動圖書館研究亟需解決的問題。

        2 國內(nèi)外研究現(xiàn)狀

        目前,有三種構(gòu)造分詞詞典的方法:① 人工輸入詞條信息為主、機器操作為輔的方式;② 從印刷版的詞典里獲取詞條并手動錄入的方式;③ 對大規(guī)模文本采用簡單的語言模型和概率統(tǒng)計,并分析有關(guān)詞匯信息的方式。前兩種方法主要是從印刷版文本中獲取信息,利用人工參與的方式去描述詞條信息,已有的很多語言信息庫、語義詞庫和詞典都是利用前兩種方法實現(xiàn)的。但前兩種方法存在明顯缺點:費時、費力、成本高,相較而言,第三種方法更為實用。[2]

        在為構(gòu)建詞典收集詞條時,可以采用基于現(xiàn)有詞庫資源的方法、基于語料庫的方法、兩者結(jié)合的方法。[3]①基于現(xiàn)有詞庫資源的方法主要利用現(xiàn)有詞庫資源(如,英文的WordNet、GI,中文的HowNet、同義詞詞林)來進行詞條擴展。Hu 和Liu 選取了一些褒義和貶義的形容詞作為種子集,利用WordNet 的同義詞和反義詞聯(lián)系對種子集進行擴展,建立情感詞典;[4]路斌等利用同義詞詞林中的同義詞詞群,根據(jù)褒貶義種子詞進行擴展,建立情感詞典;[5]張啟宇等利用網(wǎng)絡(luò)詞庫設(shè)置了農(nóng)業(yè)詞匯的詞性編碼,以 MySQL 數(shù)據(jù)庫為例設(shè)計了農(nóng)業(yè)領(lǐng)域?qū)S玫姆衷~詞典。[6]②基于語料庫的方法是指通過對相關(guān)語料庫進行抽詞獲得詞條信息,從而構(gòu)建詞典。Huang 等使用句法分析和主觀線索字典抽取情感詞,根據(jù)PMI 建立情感詞之間的聯(lián)系圖,并以語言學(xué)規(guī)則以及語料中的并列、轉(zhuǎn)折關(guān)系作為限制條件;[7]孫霞等對領(lǐng)域生語料進行分詞處理,提出了基于切分單元的最大匹配算法得到候選詞串集,并最終生成領(lǐng)域詞典。[8]

        經(jīng)過文獻調(diào)研,筆者發(fā)現(xiàn),面向移動圖書館領(lǐng)域的詞典研究幾乎空白。移動圖書館服務(wù)既包含傳統(tǒng)圖書館服務(wù)的數(shù)字化、信息化,又包含信息化、電子化時代用戶新需求所帶來的新型的圖書館服務(wù),不斷更新、不斷拓展是移動圖書館服務(wù)的一大特點。移動圖書館用戶在評論語言的表達上具有一定的隨意性,口語化程度高,單一的收集詞條的方法難以保證收詞的全面性與可靠性。因此,本文提出一種移動圖書館詞典構(gòu)建的收詞方法,并構(gòu)建了一部移動圖書館詞典,為后續(xù)移動圖書館用戶評論的分詞研究提供便利。

        3 詞典構(gòu)建思路與方法

        本研究以機器操作為主、人工判別為輔的方式構(gòu)建移動圖書館詞典,旨在為移動圖書館用戶評論分析提供依據(jù)和基礎(chǔ)。移動圖書館詞典構(gòu)建的詞條收集框架見圖1:①對移動圖書館用戶評論進行切分、詞頻統(tǒng)計,構(gòu)造基礎(chǔ)詞典;②應(yīng)用CiteSpace 分析中國知網(wǎng)期刊數(shù)據(jù)庫中與“移動圖書館”相關(guān)的文章的摘要與關(guān)鍵詞,并將其添加到基礎(chǔ)詞典中;③ 借鑒圖情領(lǐng)域相關(guān)詞典擴展詞條;④ 考慮到用戶評論語言口語化特點,融合輸入法詞庫;⑤基于《同義詞詞林》進行同義詞擴展,保證移動圖書館詞典全面而實用。

        圖1 詞條收集框架圖

        3.1 基于評論語料的基礎(chǔ)詞庫的構(gòu)建

        筆者將結(jié)巴分詞包導(dǎo)入Python 2.7 平臺,并對移動圖書館用戶評論進行分詞及詞頻統(tǒng)計。詞頻分析法利用關(guān)鍵詞或主題詞在領(lǐng)域文獻中出現(xiàn)的頻次來確定該領(lǐng)域的研究熱點和發(fā)展動向,其依據(jù)的基本理論為齊普夫定律(Zip’s law)。[9]依據(jù)關(guān)鍵詞頻次的高低排序,筆者去除專指度低、無法反映出具體研究內(nèi)容的詞(如價值、越來越好等),最終得到符合集中分散“二八定律”的1,431 個關(guān)鍵詞,其中頻次top30 的關(guān)鍵詞樣例見表1。

        表1 詞頻統(tǒng)計結(jié)果樣例

        3.2 基于“中國知網(wǎng)”語料的詞匯擴展

        本文選擇中國知網(wǎng)的中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫為數(shù)據(jù)源,檢索時間截至2018 年12 月31 日。為了保證檢索質(zhì)量,筆者對檢索工作做了要求:① 以“移動圖書館”為中心詞,檢索篇名包括“移動圖書館”“數(shù)字圖書館”“移動信息服務(wù)”“手機圖書館”“掌上圖書館”的文獻;②選擇核心期刊和CSSCI 來源刊里的文獻作研究,其余的不作考慮;③ 將會議通知、簡訊、稿約、征文通知、編者序等不相關(guān)的文獻排除在外。筆者在Note-Express 里建立了題錄,題錄包括年份、標(biāo)題、作者、刊名、關(guān)鍵詞、摘要等字段,題錄里共收錄了4,987 篇相關(guān)文獻。

        以CiteSpace Ⅱ為分析工具,將文獻數(shù)據(jù)導(dǎo)入CiteSpaceII 中進行分析,設(shè)置相關(guān)參數(shù):時間為1998-2018 年;主題詞來源選擇為標(biāo)題(Title)、摘要(Abstract) 和關(guān)鍵詞(Author Keywords),最終得到13,409 個主題詞,其中top20 見表2。

        表2 詞頻統(tǒng)計樣例表(部分)

        3.3 基于圖情領(lǐng)域已有詞庫的借鑒

        國家圖書館的圖書情報紙本詞典收藏全面,可通過各館館藏目錄或聯(lián)合目錄進行檢索。20 世紀(jì)90 年代以來,隨著網(wǎng)絡(luò)和信息技術(shù)的發(fā)展,基于互聯(lián)網(wǎng)開發(fā)的數(shù)字化參考源及其檢索系統(tǒng)有了迅速發(fā)展,圖書情報詞典也如其他參考工具書一樣有了新的發(fā)展平臺,出現(xiàn)了網(wǎng)絡(luò)版,如《圖書情報詞典》(1990 年)、《英漢-漢英文獻信息詞典》(1996 年)、《英漢圖書館學(xué)情報學(xué)詞匯》(2006 年)等。[10]本文借鑒已有的圖書情報相關(guān)詞典和圖書館詞典,在人工大致判別后將其加入基礎(chǔ)詞庫,共收集到18,416 個關(guān)鍵詞。

        3.4 網(wǎng)絡(luò)詞語擴展

        移動圖書館的用戶評論屬于在線評論,用戶輸入多采用拼音輸入法??紤]到詞條收集的完整性與全面性,筆者借助網(wǎng)絡(luò)上的詞庫進行詞條擴展。輸入法提供的詞庫都有其固定格式,筆者下載搜狗拼音輸入法、百度輸入法、紫光輸入法等相關(guān)詞庫,并利用深藍詞庫轉(zhuǎn)換工具將其轉(zhuǎn)換成無拼音格式的txt 文件。通過借鑒各輸入法的相關(guān)詞庫,整理合并得到7,152個關(guān)鍵詞,將其加入基礎(chǔ)詞庫。

        3.5 基于《同義詞詞林》的詞匯擴展

        漢語言博大精深,一詞多義、一義多詞,把名稱不同但表達意思相同的詞條叫做同義詞。哈爾濱工業(yè)大學(xué)信息檢索研究中心同義詞詞林?jǐn)U展版[HIT-CIR Tongyici Cilin(Extended)] 是一部比較完善的同義詞的參考詞典,共收錄了77,343 條詞語,不僅包括同義詞,還包括同類詞,即廣義的相關(guān)詞。《同義詞詞林》為了明顯區(qū)分每個詞的分類,在每行詞的前邊用編碼標(biāo)記(見圖3)。編碼的第八位有3 種不同的表示符號,分別是:“=”“#”“@”,其中,“=”代表相等且同義,“#”代表不等但同類,“@”代表自我獨立、封閉(該類詞在詞典中既沒有同義詞也沒有相關(guān)詞)。

        圖3 《同義詞詞林》樣例

        本文中用到的只有同義詞,因此要先對《同義詞詞林》進行篩選整理。從《同義詞詞林》的編碼規(guī)則可以判斷出,只有末尾是“=”組詞是同義詞。

        Step1:把整個《同義詞詞林》讀入list,循環(huán)對每個編碼的第八位進行識別,選出第八位為“=”的編碼組放在list_U 中,即list_U 中存放的就是同義詞;

        Step2:按空格對list_U 中每個元素進行分詞,存入s_Word[]中,再比對s_Word[]中的詞匯與詞典中已有的詞匯;

        Step3:把 Step2 中找到的情感詞與詞典進行比對,除了詞典中已經(jīng)有的詞之外的所有的詞按照:“詞” “屬性” “值”的形式寫入到詞典中。

        通過以上流程,筆者篩選出《同義詞詞林(擴展版)》中符合條件的擴展詞匯17,632 個。

        最終,在對基礎(chǔ)詞典中的關(guān)鍵詞進行去重處理后,共得到51,930 個關(guān)鍵詞。至此,已完成了移動圖書館詞典的構(gòu)建工作。

        4 自定義詞典分詞測評

        目前,國內(nèi)移動圖書館主要有兩種形式,一是購買商業(yè)公司的移動圖書館App 服務(wù),二是自建移動圖書館服務(wù)平臺。受限于圖書館自有的技術(shù)團隊和后期維護水平,國內(nèi)絕大多數(shù)圖書館的移動圖書館服務(wù)以購買為主,因此,用戶評論數(shù)據(jù)也在商業(yè)公司服務(wù)器上,一般很難被公開查詢。2017 年以來,在國內(nèi)某著名商業(yè)公司移動圖書館服務(wù)平臺的支持下,本研究獲取了26,976 條數(shù)據(jù),筆者隨機抽取1,850 條有效評論作為實驗數(shù)據(jù)進行分詞,分詞結(jié)果的部分樣例見表3。

        表3 分詞結(jié)果樣例(部分)

        評判分詞效果的指標(biāo)主要包括分詞的正確率和分詞速度。[11,12]移動圖書館詞典和結(jié)巴自帶詞典的分詞效果對比見表4。本文以P 為分詞正確率,N 為參與實驗的用戶評論數(shù),n 為分詞錯誤的評論數(shù),定義P=(N-n)/N;人工判別分詞結(jié)果,發(fā)現(xiàn)有17 條用戶評論分詞錯誤,分詞準(zhǔn)確率為P=94.08%。在時間性能上,使用結(jié)巴自帶詞典耗時6 秒01,使用自定義專屬詞典耗時1 秒77,顯然使用自定義專屬詞典更高效。

        表4 分詞效果對比

        在分詞合理性上,使用自定義專屬詞典明顯優(yōu)于結(jié)巴自帶詞典。由表5 可以看出,結(jié)巴自帶詞典分詞對于很多雙字詞識別不了,如“連接”“平臺”“及時”“字體”“改進”等,所以只能拆分成單字詞,而使用自定義專屬詞典則可大大減少此類分詞錯誤。

        表5 分詞合理性對比(部分)

        自定義詞典并不能實現(xiàn)100%的正確率。人工判別分詞結(jié)果時,發(fā)現(xiàn)有一些詞結(jié)巴自帶詞典和自定義詞典均不能識別,一共有17 條用戶評論出現(xiàn)錯誤(見表6),如“學(xué)號”“予人方便”“觸控系統(tǒng)”“越辦越好”“音量鍵”等??梢姡远x詞典還有很大的改進完善空間。

        表6 分詞錯誤樣例(部分)

        綜上,將自定義的移動圖書館詞典運用到移動圖書館用戶評論分詞中,其準(zhǔn)確率、合理性和時間性能得到了明顯提升,可見本文一系列收集詞條的方法構(gòu)建出的移動圖書館詞典具有較高的可靠性與有效性。

        猜你喜歡
        詞庫詞條分詞
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        值得重視的分詞的特殊用法
        詞庫音系學(xué)的幾個理論問題芻議
        英語知識(2016年1期)2016-11-11 07:07:54
        2016年4月中國直銷網(wǎng)絡(luò)熱門詞條榜
        2016年3月中國直銷網(wǎng)絡(luò)熱門詞條榜
        2016年9月中國直銷網(wǎng)絡(luò)熱門詞條榜
        大數(shù)據(jù)相關(guān)詞條
        環(huán)境變了,詞庫別變
        電腦迷(2014年14期)2014-04-29 00:44:03
        高考分詞作狀語考點歸納與疑難解析
        QQ手機輸入法如何導(dǎo)入分類詞庫
        電腦迷(2012年15期)2012-04-29 17:09:47
        国产精品人成在线观看| 在办公室被c到呻吟的动态图 | 亚洲av综合色区无码一二三区| Y111111国产精品久久久| 蜜臀av中文人妻系列| 按摩少妇高潮在线一区| 黑人老外3p爽粗大免费看视频| av鲁丝一区鲁丝二区鲁丝三区| 国产精品黄在线观看免费软件| 亚洲av不卡电影在线网址最新| 亚洲av乱码一区二区三区观影| 美腿丝袜日韩在线观看| 国产a∨天天免费观看美女| 日韩欧群交p片内射中文| 国产七十六+老熟妇| 无码精品日韩中文字幕| 999精品免费视频观看| 日韩精品高清不卡一区二区三区| 精品人妻av一区二区三区麻豆| 97se狠狠狠狠狼鲁亚洲综合色| 无码人妻丰满熟妇片毛片| 亚洲精品自拍视频在线观看| av成人资源在线观看| 午夜福利影院成人影院| 少妇被粗大的猛烈进出69影院一| 欧美最猛黑人xxxxx猛交| 黑人一区二区三区在线| 久久国产精品美女厕所尿尿av| 成年美女黄的视频网站| 免费国产裸体美女视频全黄 | 视频一区精品中文字幕| 日日噜噜夜夜狠狠久久丁香五月| 中文字幕天天躁日日躁狠狠躁免费| 老熟妇Av| 国产一级自拍av播放| 亚洲天堂成人av影院| 欧美内射深喉中文字幕| 国产亚洲精品自在久久77| 青青草视频在线观看9| 先锋影音人妻啪啪va资源网站| 久久久日韩精品一区二区三区 |