亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        人工智能技術(shù)的企業(yè)文件智能監(jiān)察系統(tǒng)的研發(fā)

        2018-06-22 02:59:30肖招娣
        微型電腦應(yīng)用 2018年6期
        關(guān)鍵詞:規(guī)則智能系統(tǒng)

        肖招娣

        (廣東電網(wǎng)有限責(zé)任公司 佛山供電局, 佛山 528000)

        0 引言

        對(duì)企業(yè)的審計(jì),已經(jīng)成為常態(tài)化工作,故企業(yè)內(nèi)部常態(tài)化的審計(jì)和監(jiān)察也成為必要。在企業(yè)的生產(chǎn)、經(jīng)營(yíng)、管理過(guò)程中,產(chǎn)生大量的非結(jié)構(gòu)化文本。傳統(tǒng)的企業(yè)文件監(jiān)察與審計(jì)通過(guò)人工完成,需要投入大量的人力、物力、財(cái)力,無(wú)法避免人的主觀因素的影響,面對(duì)海量的企業(yè)文件只能采用抽查的方式開(kāi)展,難免留有死角和潛在的風(fēng)險(xiǎn)。本文提出基于NLP(Natural Language Processing,自然語(yǔ)言處理)的企業(yè)文件智能監(jiān)察系統(tǒng)。其核心技術(shù)是使用NLP算法,把非結(jié)構(gòu)化的文檔轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫(kù)中;將相關(guān)的企業(yè)的規(guī)章制度、管理辦法以及國(guó)家的法律法規(guī)拆分成一條條審計(jì)規(guī)則,存放在知識(shí)庫(kù)中;基于知識(shí)庫(kù),使用專(zhuān)家系統(tǒng)及統(tǒng)計(jì)分析,對(duì)企業(yè)文件進(jìn)行智能監(jiān)察。

        1 系統(tǒng)架構(gòu)

        該企業(yè)文件智能監(jiān)察系統(tǒng)包括3個(gè)核心功能模塊:

        非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化處理模塊,該模塊主要使用自然語(yǔ)言處理技術(shù),借助R語(yǔ)言或者Python的函數(shù),將文檔轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)存放在數(shù)據(jù)庫(kù)中,減少數(shù)據(jù)的體量,大幅度降低數(shù)據(jù)處理的技術(shù)難度。

        文件監(jiān)察規(guī)則管理模塊:該模塊主要運(yùn)用知識(shí)庫(kù)管理系統(tǒng),實(shí)現(xiàn)對(duì)監(jiān)察規(guī)則的管理。這也是智能監(jiān)察功能的基礎(chǔ)。

        智能監(jiān)察模塊:通過(guò)運(yùn)用專(zhuān)家系統(tǒng)或者統(tǒng)計(jì)建模分析,實(shí)現(xiàn)對(duì)文件的智能監(jiān)察。

        如圖1所示。

        圖1 系統(tǒng)架構(gòu)圖

        2 系統(tǒng)功能及其實(shí)現(xiàn)

        2.1 非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化處理

        2.1.2 數(shù)據(jù)去重

        從非結(jié)構(gòu)化數(shù)據(jù)中結(jié)構(gòu)化處理過(guò)程得到的數(shù)據(jù)最終將存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中。為了避免數(shù)據(jù)冗余,為了避免重復(fù)對(duì)一個(gè)文件進(jìn)行兩次或者兩次以上的結(jié)構(gòu)化處理(該處理過(guò)程需要花費(fèi)一定的時(shí)間和計(jì)算資源),需要進(jìn)行必要的去重。文檔查重常用的算法有simHash和minHash算法,通常使用局部敏感散列LSH。其中simHash是Google提出并且使用查重的算法。

        本文使用simHash算法查重,如圖2所示。

        圖2 simHash原理圖

        簡(jiǎn)單說(shuō)來(lái),simHash的原理是:將一份文檔轉(zhuǎn)換為64字節(jié)的特征字,然后判斷重復(fù)只需要判斷他們的特征字的距離是不是

        2.1.2 數(shù)據(jù)轉(zhuǎn)換

        由于結(jié)構(gòu)化數(shù)據(jù)的處理相對(duì)半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的處理更為簡(jiǎn)單,且有不少現(xiàn)成的工具和方法可用。為了降低非結(jié)構(gòu)化文件的智能監(jiān)察的技術(shù)難度,也為了減少數(shù)據(jù)的量體,本文首先對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理。非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化處理的過(guò)程,其核心為正則表達(dá)式的使用,從海量的非結(jié)構(gòu)化數(shù)據(jù)中提取出關(guān)鍵信息。R語(yǔ)言和Python均提供了一系列的方法幫助實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化處理。

        在R語(yǔ)言中,需要用到幾個(gè)重要的函數(shù),包括gregexpr( )、substring( )、strsplit( )和grep( )函數(shù)。其中,gregexpr( )、strsplit( )和grep( )函數(shù)是正則表達(dá)式相關(guān)的函數(shù)。而substring( )函數(shù)為字符串函數(shù),用于提取字符串子集。

        在Python中,更是提供了強(qiáng)大的正則表達(dá)式功能,相關(guān)函數(shù)有match( )、search( )、split( )、group( )、compile( )、sub( )和subn( )等函數(shù)。同時(shí),在處理海量文本時(shí),由于單純使用正則表達(dá)式的效率較低,可以使用Python的開(kāi)源庫(kù)FlashText提取關(guān)鍵字,提高效率。

        2.2 審查規(guī)則管理

        對(duì)企業(yè)文件的審計(jì)和監(jiān)察,無(wú)非是對(duì)海量的企業(yè)文件進(jìn)行合規(guī)性和合法性的審查,及時(shí)發(fā)現(xiàn)存在審計(jì)風(fēng)險(xiǎn)的問(wèn)題,第一時(shí)間提醒相干人在文檔修訂過(guò)程中完成整改,防患于未然。本文使用Wiki的知識(shí)庫(kù)管理系統(tǒng)進(jìn)行審查規(guī)則的管理,包括添加、修改、刪除和查詢(xún)等功能。知識(shí)庫(kù)分主題進(jìn)行規(guī)則管理,對(duì)于每一類(lèi)文件的審查,均會(huì)將相應(yīng)的法律法規(guī)、公司內(nèi)部的規(guī)章制度和管理辦法拆分成一條條規(guī)則。

        2.3 智能監(jiān)察

        專(zhuān)家系統(tǒng)是一個(gè)智能計(jì)算機(jī)程序系統(tǒng),基于其內(nèi)部存放的大量的某個(gè)領(lǐng)域?qū)<业慕?jīng)驗(yàn)及知識(shí),應(yīng)用人工智能技術(shù)和計(jì)算機(jī)技術(shù),模擬人類(lèi)專(zhuān)家的決策過(guò)程,進(jìn)行推理和判斷,能夠利用人類(lèi)專(zhuān)家的知識(shí)和解決問(wèn)題的方法來(lái)處理該領(lǐng)域問(wèn)題。 本文應(yīng)用的是基于規(guī)則的專(zhuān)家系統(tǒng),如圖3所示。

        圖3 專(zhuān)家系統(tǒng)架構(gòu)圖

        專(zhuān)家系統(tǒng)通常由人機(jī)交互界面、知識(shí)庫(kù)、綜合數(shù)據(jù)庫(kù)、推理機(jī)、解釋器、知識(shí)獲取等6個(gè)部分構(gòu)成。在本系統(tǒng)中,知識(shí)數(shù)據(jù)庫(kù)有專(zhuān)門(mén)的功能模塊,其中包括了知識(shí)獲取的功能;綜合數(shù)據(jù)庫(kù)即用于存放非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化處理后得到的數(shù)據(jù)的數(shù)據(jù)庫(kù)。系統(tǒng)需要著重實(shí)現(xiàn)的功能是解釋器和推理機(jī)部分,為了簡(jiǎn)化開(kāi)發(fā)過(guò)程,本系統(tǒng)使用了開(kāi)源的專(zhuān)家系統(tǒng)。

        在智能審查方面,涉及兩類(lèi)的主要的方法。大部分情況下,使用專(zhuān)家系統(tǒng),結(jié)合知識(shí)庫(kù)固化的規(guī)則,即可完成智能審查。但是專(zhuān)家系統(tǒng)具有其優(yōu)點(diǎn)的同時(shí),也具有其缺點(diǎn),具體說(shuō)來(lái)包括:

        (1) 規(guī)則之間的關(guān)系不透明。在基于規(guī)則的系統(tǒng)中,由于基于規(guī)則的專(zhuān)家系統(tǒng)缺乏分層的知識(shí)表達(dá),難以觀察單條規(guī)則如何對(duì)整個(gè)策略起作用。

        (2) 低效的搜索策略。推理引擎在每個(gè)周期中搜索所有的規(guī)則。當(dāng)規(guī)則很多時(shí),系統(tǒng)速度會(huì)很慢。

        (3) 沒(méi)有學(xué)習(xí)能力。修改和維護(hù)系統(tǒng)的任務(wù)仍然由知識(shí)工程師來(lái)做。

        故而對(duì)于一些審計(jì)規(guī)則較為復(fù)雜的情形,本文使用統(tǒng)計(jì)建模進(jìn)行分析,通過(guò)編程為特定的審計(jì)規(guī)則實(shí)現(xiàn)專(zhuān)用的功能,以此提高系統(tǒng)的效率。

        2.4 輔助整改

        發(fā)現(xiàn)問(wèn)題最終是為了解決問(wèn)題。智能監(jiān)察模塊的存在,主要是為了及時(shí)發(fā)現(xiàn)企業(yè)文件編寫(xiě)過(guò)程中存在的風(fēng)險(xiǎn),將監(jiān)察結(jié)果及時(shí)反饋到合同起草、項(xiàng)目文檔審查等過(guò)程中相關(guān)干

        系人環(huán)節(jié),提出問(wèn)題及整改意見(jiàn),避免錯(cuò)誤成為定局,避免給企業(yè)和個(gè)人帶來(lái)不必要的風(fēng)險(xiǎn),實(shí)現(xiàn)安全從業(yè)。

        為了實(shí)現(xiàn)輔助整改的功能,該系統(tǒng)在開(kāi)發(fā)的過(guò)程中,開(kāi)發(fā)了一系列的API供各信息系統(tǒng)在流程中調(diào)用。同時(shí),為了提高系統(tǒng)的實(shí)時(shí)計(jì)算的性能和效率,負(fù)責(zé)計(jì)算的應(yīng)用服務(wù)器采用負(fù)載均衡的方式進(jìn)行部署。

        3 總結(jié)

        針對(duì)企業(yè)日常生產(chǎn)、經(jīng)營(yíng)、管理活動(dòng)過(guò)程中產(chǎn)生了大量的文件,僅依靠法務(wù)工作者及監(jiān)察審計(jì)人員肉眼審閱,已經(jīng)無(wú)法滿足監(jiān)管需求的現(xiàn)狀,本文研發(fā)了一套基于人工智能技術(shù)的企業(yè)文件智能監(jiān)察系統(tǒng)。該系統(tǒng)首先利用自然語(yǔ)言處理技術(shù)對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理;再結(jié)合知識(shí)庫(kù)對(duì)審計(jì)規(guī)則進(jìn)行管理;最后使用專(zhuān)家系統(tǒng)及統(tǒng)計(jì)建模分析,完成對(duì)企業(yè)文件的智能審查。

        通過(guò)該系統(tǒng)的研發(fā)與應(yīng)用,使得對(duì)企業(yè)文件實(shí)現(xiàn)全面監(jiān)察成為可能,解放了勞動(dòng)力,保證了監(jiān)察結(jié)果的客觀性,提升了工作效率,為企業(yè)員工的安全從業(yè)提供了技術(shù)保障。

        [1] Rishi Nalin Kumar.從原始數(shù)據(jù)到數(shù)據(jù)科:使非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化,以推動(dòng)產(chǎn)品開(kāi)發(fā)[EB/OL].周元昊,譯.(2016-12-28). http://www.infoq.com/cn/articles/raw-data-to-data-science.

        [2] 文檔去重算法:SimHash和MinHash[EB/OL].[2017-01-01].http://m.blog.csdn.net/lafeedfh/article/details/51997814.

        [3] simhash算法原理及實(shí)現(xiàn)[EB/OL].(2014-01-30).https://yanyiwu.com/work/2014/01/30/simhash-shi-xian-xiang-jie.html.

        [4] 使用SimHash進(jìn)行海量文本去重[EB/OL].[2016-05-30].https://www.cnblogs.com/maybe2030/p/5203186.html.

        [5] 基于規(guī)則的專(zhuān)家系統(tǒng)的優(yōu)點(diǎn)和缺點(diǎn)[EB/OL].(2012-09-13).http://book.51cto.com/art/201209/356613.htm.

        [6] 丁世飛.人工智能(第二版)[M].北京:清華大學(xué)出版社,2015.

        [7] 蔡自興,(美)約翰·德?tīng)柦?龔濤.高級(jí)專(zhuān)家系統(tǒng):原理設(shè)計(jì)及應(yīng)用(第2版)[M].北京:科學(xué)出版社,2017.

        [8] 王眾托,吳江寧,郭崇慧.信息與知識(shí)管理(第2版)[M].北京:電子工業(yè)出版社,2014.

        [9] Steven Bird.Python自然語(yǔ)言處理[M].北京:人民郵電出版社.2014.

        [10] 章宗慶.統(tǒng)計(jì)自然語(yǔ)言處理(第2版)[M].北京:清華大學(xué)出版社,2013:73-104.

        [11] [印度] Deepti Chopra, Nisheeth Joshi, Iti.精通Python自然語(yǔ)言處理[M].北京:人民郵電出版社.2017.

        [12] [印度]Deepti Chopra, Nisheeth Joshi,Iti Mathur. Mastering Natural Language Processing with Python[M].Packt Publishing,2016:79-103.

        [13] 鄭捷.NLP漢語(yǔ)自然語(yǔ)言處理原理與實(shí)踐[M].北京:電子工業(yè)出版社,2017.

        [14] 張文宇,薛昱,蘇錦旗,等.知識(shí)發(fā)現(xiàn)與智能決策[M].北京:科學(xué)出版社有限責(zé)任公司,2017.

        [15] Yoshua Bengio.人工智能中的深度結(jié)構(gòu)學(xué)習(xí)[M].北京:機(jī)械工業(yè)出版社,2017.

        猜你喜歡
        規(guī)則智能系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        撐竿跳規(guī)則的制定
        數(shù)獨(dú)的規(guī)則和演變
        WJ-700無(wú)人機(jī)系統(tǒng)
        ZC系列無(wú)人機(jī)遙感系統(tǒng)
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        韩国主播av福利一区二区| 国产精品vⅰdeoxxxx国产 | 伊人色综合视频一区二区三区| 国产精品免费久久久免费| 日本免费一区精品推荐| 中文字幕乱码在线人妻| 国产精品乱码一区二区三区| 日本欧美小视频| 国产av一区二区三区香蕉| 精品少妇一区二区av免费观看 | 极品人妻少妇av免费久久| 18禁真人抽搐一进一出在线| 99久久国产视频| 成人免费毛片在线播放| 丝袜美腿一区二区国产| 女人下面毛多水多视频| 99热成人精品国产免| 美女被强吻并脱下胸罩内裤视频| 色婷婷五月综合激情中文字幕| 午夜精品久久久久久中宇| 中文字幕乱码人妻无码久久久1| 激情视频在线观看好大| 国产在线视频一区二区三区| 老熟女的中文字幕欲望| 国产丝袜视频一区二区三区| 亚洲人成人99网站| 亚洲a级视频在线播放| 少妇性bbb搡bbb爽爽爽| 久操视频新免费伊人| 日本人妻伦理片在线观看| 中文字幕人成人乱码亚洲av| 欧美日韩不卡合集视频| 亚色中文字幕| 天堂丝袜美腿在线观看| 亚洲a∨国产av综合av下载| 日韩我不卡| 国产av大片久久中文字幕| 亚洲av中文无码乱人伦在线视色| 国产一区二区不卡老阿姨| 五月激情狠狠开心五月| 手机在线观看免费av网站|