亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自動(dòng)應(yīng)答系統(tǒng)中文處理策略和算法

        2010-10-16 01:51:02
        關(guān)鍵詞:分詞詞典文本

        佟 欣

        (赤峰學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系,內(nèi)蒙古 赤峰 024000)

        自動(dòng)應(yīng)答系統(tǒng)中文處理策略和算法

        佟 欣

        (赤峰學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系,內(nèi)蒙古 赤峰 024000)

        自動(dòng)應(yīng)答系統(tǒng)是一種對(duì)用戶用自然語言提出的問題能夠做出盡可能簡(jiǎn)潔、準(zhǔn)確回答的計(jì)算機(jī)程序.在設(shè)計(jì)自動(dòng)應(yīng)答系統(tǒng)時(shí)先要解決中文分詞及字符串匹配等問題,以便快速準(zhǔn)確地搜索到需要的答案.本文主要討論了自動(dòng)應(yīng)答系統(tǒng)中的中文處理策略和算法.

        自動(dòng)應(yīng)答;分詞;匹配算法

        自動(dòng)應(yīng)答系統(tǒng)是一種對(duì)用戶用自然語言提出的問題能夠做出盡可能簡(jiǎn)潔、準(zhǔn)確回答的計(jì)算機(jī)程序.這樣的程序需要具備對(duì)自然語言進(jìn)行分析和處理的能力,它是自然語言處理技術(shù)的一個(gè)重要的應(yīng)用.

        自動(dòng)應(yīng)答系統(tǒng)首先需要解決的問題就是漢語的詞條切分,并從自然語言文本中抽取出能夠代表問題的關(guān)鍵詞.而關(guān)鍵詞全文搜索的目的是查找與問題相關(guān)的答案.為了使系統(tǒng)能最大效率地工作,必須選擇切實(shí)可行并且匹配精度較高的算法.

        1 分詞策略

        本文采用了三種分詞算法保證分詞的匹配度.分詞詞典與關(guān)鍵詞詞典為同一文本文件,這樣在分詞的同時(shí)就能提取出關(guān)鍵詞,自動(dòng)篩掉停止詞標(biāo)點(diǎn)符號(hào).這就簡(jiǎn)化了步驟提高了效率,也降低了錯(cuò)誤率.詞典中包括一些專業(yè)詞匯和限制條件的詞匯.當(dāng)用戶以自然語言進(jìn)行提出問題,此語句中會(huì)包含關(guān)鍵詞、無用詞、停止詞和語義限定詞.為減少打開文檔的次數(shù),詞典中包含了限定詞匯,在分詞中能自動(dòng)檢索出來.

        例如:?jiǎn)栴}1:土地用途包括哪些種類?

        分詞程序處理后:土地/種類(土地是關(guān)鍵詞,種類是語義詞)

        問題2:土地來源及性質(zhì)?

        分詞程序處理后:土地/來源(土地是關(guān)鍵詞,來源及性質(zhì)是語義詞)

        問題3:土地

        分詞程序處理后:土地(只含有關(guān)鍵詞)

        問題1與問題2關(guān)鍵詞是相同的,但是語義詞是不同的,這樣匹配后返回的答案結(jié)果是不相同的.如果開始的時(shí)候只提出問題3,那么系統(tǒng)會(huì)認(rèn)為知識(shí)庫中無此問題的答案.因此,建議用戶提問題的時(shí)候應(yīng)該加入語義限定詞,這樣才會(huì)返回準(zhǔn)確的答案,否則,會(huì)顯示用戶并不想要的結(jié)果.

        2 分詞算法

        2.1 正向最大匹配分詞

        正向減字最大匹配法切分的過程是從自然語言的中文語句中提取出設(shè)定長(zhǎng)度字串,與詞典比較,如果在詞典中,就算一個(gè)有意義的詞串,并用分隔符分隔輸出,否則縮短字串,在詞典中重新查找(詞典是預(yù)先定義好的).

        算法思想:從待切分的文本D中提取,對(duì)于每個(gè)句子S1從左向右以MAXLEN為界選出候選字串W,如果W在字典中,處理下一個(gè)長(zhǎng)為MAXLEN的侯選字段;否則,將W最右邊一個(gè)字去掉,繼續(xù)與字典比較;S1切分完之后,構(gòu)成詞的字符串或者此時(shí)W已經(jīng)為單個(gè)字,用分隔符隔開輸出給S2.從S1中減去W,繼續(xù)處理后續(xù)的字串.S1處理結(jié)束,取D中的下一個(gè)句子賦給S1,重復(fù)前述的步驟,直到整篇文本D都切分完畢.

        具體算法:輸入:中文詞典,待切分的文本D,D中有若干被標(biāo)點(diǎn)符號(hào)分割的句子S1,設(shè)定最大長(zhǎng)度MAXLEN(是一個(gè)經(jīng)驗(yàn)值,通常設(shè)為8個(gè)字節(jié),過小,長(zhǎng)詞會(huì)被切斷,過長(zhǎng),又會(huì)導(dǎo)致切分效率低)流程圖如圖1所示:

        偽代碼:

        算法分析:設(shè)文本還有句子的數(shù)目為M,句子的平均長(zhǎng)度為K,詞典的條目為N,實(shí)際中M和K遠(yuǎn)遠(yuǎn)小于N,這個(gè)算法復(fù)雜度中起決定作用的步驟在于N相關(guān)的語句,因此整個(gè)算法的時(shí)間復(fù)雜度為 O(MKLOGN).

        實(shí)驗(yàn)表明:正向最大匹配算法的錯(cuò)誤率為1/169.

        2.2 基于鄰詞的分詞算法

        算法思想:從D中提取,依次掃描輸入串,按照從左到右的順序截取1到MAXLEN長(zhǎng)度的子串作為全部的候選詞 w1、w2、…、wi,記錄方式為該子串在輸入串中的起點(diǎn)位置i,以及子串長(zhǎng)度l(偏移量),在輸入字串中查出每個(gè)候選詞右鄰詞和左鄰詞;如果當(dāng)前詞wi在關(guān)鍵詞詞典中,則wi是分詞結(jié)果輸出,wi+1作為新的后選詞循環(huán)此過程.

        假定對(duì)字串從左到右進(jìn)行掃描,可以得到w1,w2,…,wi-1,wi,…等若干候選詞,如果 wi的尾字跟wi-1的首字鄰接,就稱wi為wi-1的右鄰詞.

        算法:

        輸入:中文詞典,待切分的文本D,D中有若干被標(biāo)點(diǎn)符號(hào)分割的句子S1

        偽代碼描述:

        這種方法優(yōu)點(diǎn)主要體現(xiàn)在詞表較小,分詞速度比較快,但是要完善這個(gè)算法,關(guān)鍵是要加入一個(gè)動(dòng)態(tài)學(xué)習(xí)的過程,可以是需要人工干預(yù)的,也可以是在分詞過程中自動(dòng)豐富學(xué)習(xí)的,這樣才能有效地保證計(jì)算一個(gè)字符串是否切分為一個(gè)詞的值更準(zhǔn)確,更能識(shí)別出新詞、未登錄詞等.

        3 結(jié)論

        筆者參與了房產(chǎn)自動(dòng)應(yīng)答系統(tǒng)的開發(fā),并將上述算法應(yīng)用于該系統(tǒng),事實(shí)證明本文所描述的算法在應(yīng)用的過程中起到了很好的分詞作用,保證了系統(tǒng)的正常高效運(yùn)行.

        〔1〕余正濤,樊孝忠,康海燕.基于自然語言理解的受限領(lǐng)域自動(dòng)應(yīng)答系統(tǒng) [J].計(jì)算機(jī)工程,2004,18:35-37.

        〔2〕張恒,楊文昭,屈景輝,盧虹冰,張亮,趙飛.基于詞典和詞頻的中文分詞方法[J].軟件時(shí)空,2008(3):239-240+232.

        〔3〕朱代華.基于分詞技術(shù)的智能答疑系統(tǒng)[D].四川.重慶大學(xué),碩士學(xué)位論文,2004.

        〔4〕戴華,李喬良.一種有效的多模式并行匹配算法[J].電腦知識(shí)與技術(shù)(學(xué)術(shù)交流),2007(5):1373-1375.

        TP311.1

        A

        1673-260X(2010)02-0038-02

        猜你喜歡
        分詞詞典文本
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        在808DA上文本顯示的改善
        結(jié)巴分詞在詞云中的應(yīng)用
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        評(píng)《現(xiàn)代漢語詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        值得重視的分詞的特殊用法
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        如何快速走進(jìn)文本
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        成人性生交大片免费看激情玛丽莎 | 日本丰满妇人成熟免费中文字幕| 国产av普通话对白国语| 人妻精品人妻一区二区三区四区| 东京热人妻系列无码专区| 午夜不卡久久精品无码免费| 久久精品成人免费观看97| 国产视频免费一区二区| 久久精品国产一区二区涩涩 | 国产极品美女高潮无套| 久久国产精品精品国产色婷婷 | 成年女人片免费视频播放A| 亚洲岛国一区二区三区| 2019日韩中文字幕mv| 国产a三级久久精品| 亚洲精品午夜精品国产| 熟妇人妻丰满少妇一区| 国产禁区一区二区三区| 人人妻人人妻人人片av| 亚洲精品乱码久久久久久麻豆不卡 | 无码少妇a片一区二区三区| 久久亚洲日本免费高清一区| 看全色黄大色大片免费久久久| 男人天堂亚洲天堂av| 少妇高潮惨叫久久久久久电影 | 免费看黄视频亚洲网站| 色狠狠色噜噜av天堂一区| 国产成人影院一区二区| 最新国产成人自拍视频| 人人澡人人妻人人爽人人蜜桃麻豆 | 特级毛片a级毛片100免费播放 | 日本黄网色三级三级三级| 少妇伦子伦精品无吗| 青青草国产成人99久久| 久久亚洲午夜牛牛影视| 今井夏帆在线中文字幕| 精品久久久久久无码人妻蜜桃| 中文字幕aⅴ人妻一区二区| 午夜影视免费| 中文字幕一区在线观看视频| 亚洲阿v天堂2018在线观看|