亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于樸素貝葉斯分類器的海上執(zhí)法查詢系統(tǒng)

        2015-07-17 01:25:47應(yīng)忠于公安海警學(xué)院浙江寧波315801
        山東工業(yè)技術(shù) 2015年7期
        關(guān)鍵詞:文本分類

        張 清,應(yīng)忠于(公安海警學(xué)院,浙江 寧波 315801)

        基于樸素貝葉斯分類器的海上執(zhí)法查詢系統(tǒng)

        張 清,應(yīng)忠于
        (公安海警學(xué)院,浙江 寧波 315801)

        摘 要:中國(guó)海警局正式掛牌成立后,因海洋法律未成體系,執(zhí)法人員在法律和職責(zé)的學(xué)習(xí)上存在時(shí)間和執(zhí)法需求的矛盾。本設(shè)計(jì)立足海警執(zhí)法中的切實(shí)需求,將法典與案例相結(jié)合,設(shè)計(jì)出供海上法律查詢系統(tǒng),供執(zhí)法人員查詢、參考。常用的文本分類方法中樸素貝葉斯具有容易實(shí)現(xiàn),運(yùn)行速度快的特點(diǎn)。本設(shè)計(jì)使用樸素貝葉斯分類器,設(shè)計(jì)出海上執(zhí)法查詢系統(tǒng)。

        關(guān)鍵詞:樸素貝葉斯;文本分類;海上執(zhí)法

        在我國(guó)海上執(zhí)法力量整合初期,海上執(zhí)法人員來(lái)自海警、海監(jiān)、漁政、海關(guān)等多個(gè)部門(mén),這造成了海上執(zhí)法人員對(duì)原其他部門(mén)職責(zé)和法律監(jiān)管的范圍不清楚。而我國(guó)涉及海洋的法律數(shù)目眾多,對(duì)所有人員進(jìn)行培訓(xùn)需要一個(gè)不短的時(shí)間。本設(shè)計(jì)針對(duì)這一問(wèn)題,整合相關(guān)法律法規(guī),并收集了大量的多部門(mén)的執(zhí)法案例,建立系統(tǒng)模型,形成一個(gè)全面的數(shù)據(jù)庫(kù),為法典與案例模糊查詢系統(tǒng)的開(kāi)發(fā)提供知識(shí)庫(kù)。

        1 樸素貝葉斯分類器在文本分類的應(yīng)用

        常用的文本分類方法有支持向量機(jī)、決策樹(shù)和樸素貝葉斯。其中樸素貝葉斯具有易實(shí)現(xiàn),運(yùn)行速度快的特點(diǎn),被廣泛應(yīng)用。

        1.1 樸素貝葉斯算法簡(jiǎn)介

        令C={c1,……c|c|}是預(yù)定義的類別集,d={w1,……wn}是一個(gè)文檔向量,則文檔d屬于類ci的概率可由條件概率P(ci|d )表示。為了最大限度地減小分類誤差,文檔d將被分到使P(ci|d )最大的類別ci中。而要求得條件概率,必須要先建立訓(xùn)練集。

        事件的空間是整個(gè)文檔空間,由于d是一個(gè)n維向量,為了簡(jiǎn)化計(jì)算出P(d|ci)的計(jì)算,樸素貝葉斯假定(屬性間相互獨(dú)立),即假定d屬于類ci時(shí),d中的元素wk的取值與wi的取值是相互獨(dú)立的。這樣由文檔d對(duì)于類ci的條件概率就可以得到P(ci|d )的估計(jì)值。整個(gè)算法分為:

        訓(xùn)練階段:對(duì)每一個(gè)wk、ci估計(jì)先驗(yàn)條件概率P(wk|ci)和概率P(ci)。

        分類階段:計(jì)算后驗(yàn)概率,返回使后驗(yàn)概率最大的類。

        1.2 文本分類問(wèn)題

        在文本分類中,假設(shè)文檔d∈X,X為文檔的向量空間,C={c1,……c|c|}是預(yù)定義的類別集。文檔集合<d,c>作為訓(xùn)練樣本。

        例如:<d,c>={持偽造證件}

        “持偽造證件“這句話在《中華人民共和國(guó)海事行政處罰規(guī)定》可以找到,因此將其標(biāo)記為“海事行政處罰”。我們期望用某種訓(xùn)練算法,訓(xùn)練出一個(gè)函數(shù)γ,能夠?qū)⑽臋n映射到某一個(gè)類別:γ:X→C。這種類型的學(xué)習(xí)方法叫做有監(jiān)督學(xué)習(xí)。樸素貝葉斯分類器是一種有監(jiān)督學(xué)習(xí)。常見(jiàn)有兩種模型,多項(xiàng)式模型和伯努利模型。二者的計(jì)算粒度不一樣,多項(xiàng)式模型以單詞為粒度,伯努利模型以文件為粒度。在伯努利模型中,給定一組已分類的文本訓(xùn)練數(shù)據(jù),如下:類別No中d1=<未持有防污文書(shū)>,d2=<偽造他人入境證件>,d3=<必須持有有關(guān)證書(shū)>,類別Yes中d4=<持用偽造海員證件>,判斷c=海事行政處罰規(guī)定?

        假設(shè)文本中詞之間相互獨(dú)立,將文本用屬性向量表示為d=(持,偽,造,證,件),類別集合為Y={Yes, No}。按照語(yǔ)言習(xí)慣,將文本中的詞語(yǔ)進(jìn)行約定劃分。已知類No下總共有3個(gè)文件,類Yes下有1個(gè)文件,訓(xùn)練樣本文件總數(shù)為18,因此P(No)=3/4, P(Yes)=1/4,

        P(造|No)= P(未|No)= P(防 污|No) =P(文 書(shū) |No)= P(有|No)= P(他人|No)= P(入境|No)= P(必須|No)= P(偽|No)= (1+1)/ (3+2)=2/5

        P(持|No)=P(證|No)=(2+1)/(3+2)=3/5

        P(海員|No)= P(件|No)= (0+1)/(3+2)=1/5

        P(持|Yes)= P(偽|Yes)= P(海員|Yes)= P(證|Yes)= P(件|Yes)=(1+1)/(1+2)=2/3

        P(造|Yes)= P(必須|Yes)= P(有|Yes)= P(入境|Yes)= P(他人|Yes)= P(未|Yes)= P(防污|Yes)= P(文書(shū)|Yes) =(0+1)/(1+2)=1/3

        后驗(yàn)概率計(jì)算:

        P(Yes | d)=1/4×2/3×2/3×1/3×2/3×2/3 ×(1-2/3) × ≈0.00032

        P(No | d)= 3/4×3/5×2/5×2/5×3/5×1/5×(1-1/5)× ≈0.00019

        因此,這個(gè)文檔屬于類別Yes,即屬于標(biāo)記為“海事行政處罰”的類別。

        2 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)

        2.1 系統(tǒng)結(jié)構(gòu)

        基于樸素貝葉斯分類器的海上執(zhí)法查詢系統(tǒng)設(shè)計(jì),主要進(jìn)行了人機(jī)接口,分類器以及系統(tǒng)知識(shí)庫(kù)的設(shè)計(jì)。

        系統(tǒng)結(jié)構(gòu)分為:用戶接口模塊、輸入分析模塊、查詢匹配模塊、結(jié)論模塊。

        用戶接口模塊:實(shí)現(xiàn)用戶數(shù)據(jù)的輸入及系統(tǒng)結(jié)果的反饋功能;輸入分析模塊:實(shí)現(xiàn)輸入文本的分析,關(guān)鍵詞的搜索等功能;查詢匹配模塊:對(duì)輸入的案例特征在訓(xùn)練集中進(jìn)行查詢匹配;結(jié)論模塊:主要實(shí)現(xiàn)系統(tǒng)結(jié)論的合理性判定,診斷過(guò)程以及結(jié)論的給出等功能。

        2.2 系統(tǒng)工作流程

        建立查詢系統(tǒng)的法典庫(kù)和案例庫(kù),并與樸素貝葉斯分類器結(jié)合。其工作流程:(1)用戶輸入查詢信息;(2)系統(tǒng)對(duì)此分析分類,根據(jù)訓(xùn)練集,將用戶的檢索請(qǐng)求信息轉(zhuǎn)換為系統(tǒng)特定格式,自動(dòng)定位到關(guān)鍵詞;(3)系統(tǒng)根據(jù)分類器提供的特征信息,進(jìn)行法典和案例匹配,給出查詢結(jié)果,過(guò)程終止。查詢結(jié)果對(duì)應(yīng)的相應(yīng)法律條文信息,按文檔關(guān)聯(lián)度排序輸出;(4)當(dāng)匹配失敗時(shí),系統(tǒng)返回。

        3 開(kāi)發(fā)平臺(tái)

        采用Web技術(shù),建立以Browser/Server 為結(jié)構(gòu)模式、利用asp.net開(kāi)發(fā)設(shè)計(jì)方法、以數(shù)據(jù)庫(kù)為后臺(tái)核心的查詢系統(tǒng)建立適合于海上執(zhí)法人員的應(yīng)用信息平臺(tái)。

        4 結(jié)語(yǔ)

        傳統(tǒng)信息檢索技術(shù)都是基于關(guān)鍵字查找和全文檢索技術(shù),主要借助索引和關(guān)鍵詞等方法來(lái)實(shí)現(xiàn)。用戶難以簡(jiǎn)單地用關(guān)鍵詞來(lái)忠實(shí)地表達(dá)出其真正的檢索目的。而法律文本的表述具有其特有的確定性和模糊性,案例的描述也有其固有的特點(diǎn)。將樸素貝葉斯分類器運(yùn)用到系統(tǒng)當(dāng)中,能自動(dòng)抽取用戶描述內(nèi)容的概念,用關(guān)鍵詞或與之相應(yīng)的主題詞加以標(biāo)引從而完成匹配,為海上執(zhí)法提供法律參考系統(tǒng)。

        參考文獻(xiàn):

        [1]程顯毅,朱倩.文本挖掘原理[M].第一版,北京:科學(xué)出版社,2010.

        [2]楊林.基于文本的關(guān)鍵詞提取方法研究與實(shí)現(xiàn)[D],安徽:安徽工業(yè)大學(xué),2013:1—17.

        [3] 石志偉,吳功宜.“基于樸素貝葉斯分類器的文本分類算法”,第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議,2004.

        作者簡(jiǎn)介:張清(1990-),女,四川成都人,學(xué)員,研究方向:電子信息工程。

        猜你喜歡
        文本分類
        基于樸素貝葉斯的Web文本分類及其應(yīng)用
        基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
        基于貝葉斯分類器的中文文本分類
        基于蟻群智能算法的研究文本分類
        基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
        基于K—means算法的文本分類技術(shù)研究
        文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
        科技視界(2016年24期)2016-10-11 09:36:57
        不同情境下中文文本分類模型的表現(xiàn)及選擇
        基于內(nèi)容的英語(yǔ)錄音教材標(biāo)注研究與應(yīng)用
        多核SVM文本分類研究
        軟件(2015年5期)2015-08-22 08:02:45
        亚洲综合综合在线| 一女被多男玩喷潮视频| 国内成+人 亚洲+欧美+综合在线| 国产主播一区二区三区蜜桃| 国产区精品一区二区不卡中文| 黄瓜视频在线观看| 亚洲国产精品嫩草影院久久| 色伊人国产高清在线| 国产大陆av一区二区三区| 白白色免费视频一区二区在线| 日韩a级精品一区二区| 妺妺窝人体色www聚色窝| www插插插无码免费视频网站| 亚洲一区区| 国产免费人成视频在线观看播放| 精品国产亚洲av高清日韩专区| 日本av天堂一区二区三区| 久久偷看各类wc女厕嘘嘘偷窃| 久久综合精品国产二区无码| 国产精品自产拍在线观看中文| 国产精品三级国产精品高| 三区中文字幕在线观看| 潮喷大喷水系列无码久久精品| 久久久久99精品成人片试看| 国产精品久久久久久久y| 亚洲中文字幕第一页免费| 久久天天躁夜夜躁狠狠85麻豆| 成 人免费va视频| 欧美日韩亚洲国内综合网| 丰满熟妇人妻av无码区| 国产在线观看黄片视频免费| 伦伦影院午夜理论片| 人妻无码一区二区视频| 亚洲AⅤ无码片一区二区三区| 久久夜色精品国产九色| 亚洲综合偷自成人网第页色| 插我一区二区在线观看| 国产亚洲美女精品久久久| 久久精品国产一区二区涩涩| 免费看黄片视频在线观看| 草草影院发布页|