亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)背景下公平競爭審查文本的排查研究

        2021-03-01 06:08:34鐘錦鴻林瑞娜龍熠燚孔蔭瑩
        關(guān)鍵詞:排查卷積文本

        鐘錦鴻,林瑞娜,龍熠燚,孔蔭瑩

        (1.廣東財經(jīng)大學(xué)經(jīng)濟(jì)學(xué)院,廣東 廣州 510320;2.廣東財經(jīng)大學(xué)會計學(xué)院,廣東 廣州 510320;3.廣東財經(jīng)大學(xué)信息學(xué)院,廣東 廣州 510320)

        0 引言

        國務(wù)院2016年6月14日頒布的《關(guān)于在市場體系建設(shè)中建立公平競爭審查制度的意見》標(biāo)志著我國公平競爭審查制度開始確立[1].公平競爭審查制度的含義是公平競爭審查主體針對立法及行政機(jī)關(guān)制定出來的法律及政策進(jìn)行市場競爭影響評估,將不利于市場競爭秩序的法律及政策修改或廢止的一項(xiàng)評估制度[2].

        在現(xiàn)階段,各地市場監(jiān)管局開展公平競爭審查的依據(jù)主要是2017年國家發(fā)展改革委發(fā)布的《公平競爭審查實(shí)施細(xì)則(暫行)》(以下簡稱《實(shí)施細(xì)則》)[3].《實(shí)施細(xì)則》提出了違反公平競爭的四類審查標(biāo)準(zhǔn),對各類標(biāo)準(zhǔn)下的一些典型違背行為作了明確或概括性的規(guī)定,但這些規(guī)定并沒有涵蓋更多的違反公平競爭審查標(biāo)準(zhǔn)的行為,因此在實(shí)務(wù)審查中需要借助監(jiān)管人員的經(jīng)驗(yàn)積累;在審查范圍上,主要是對重點(diǎn)行業(yè)和地區(qū)開展專項(xiàng)審查,難以做到對各級政府單位的統(tǒng)一監(jiān)督審查;在審查方式上,主要是依據(jù)政府監(jiān)管人員對審查公文進(jìn)行逐一排查,客觀上受監(jiān)管人員能力和主觀性判斷的限制,且人工排查條件下效率較低.

        隨著各級政府不斷地發(fā)布新的法規(guī)和政策文件,積累了大量的文本數(shù)據(jù).這些數(shù)據(jù)可以通過一些大數(shù)據(jù)技術(shù)來更好地幫助公平競爭審查人員去排查疑似違反公平競爭標(biāo)準(zhǔn)的文本.目前國內(nèi)有關(guān)公平競爭審查的研究主要是集中于研究如何完善公平競爭的制度以及更好地落實(shí)公平競爭制度,如謝芳琳學(xué)者考察了目前公平競爭實(shí)施制度的現(xiàn)狀并提出了關(guān)于公平競爭制度的一系列問題及有關(guān)改善的意見[5],孫考利學(xué)者和劉瀾晶學(xué)者論述了如何更好地保障公平競爭制度的實(shí)施[6],金善明反思和檢討了公平競爭審查制度并提出了要將其拓展為外部的監(jiān)督機(jī)制[7].上述學(xué)者對于公平競爭審查研究是基于法律和政治層面,對于如何利用大數(shù)據(jù)技術(shù)去處理公平競爭審查的文本分類還尚未有相關(guān)的研究.目前篩選和分類文本最常用和簡單的方法是構(gòu)建關(guān)鍵詞詞典并基于關(guān)鍵詞詞典來篩選含有關(guān)鍵詞的文本[8].除此之外,還有應(yīng)用樸素貝葉斯、支持向量機(jī)、卷積神經(jīng)網(wǎng)絡(luò)、決策樹等算法進(jìn)行文本分類.在應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)于文本分類方面,自Yoon Kim把CNN從圖像領(lǐng)域轉(zhuǎn)入到NLP的領(lǐng)域,提出了TextCNN,將CNN用于處理文本數(shù)據(jù)進(jìn)行情感分析取得很好的效果后,涌現(xiàn)了許多應(yīng)用該卷積神經(jīng)網(wǎng)絡(luò)的成果,如楊銳等學(xué)者應(yīng)用了卷積神經(jīng)網(wǎng)絡(luò)對能源政策文本提取主題信息并進(jìn)行分類[9],明建華等學(xué)者將TextCNN用于直播彈幕的過濾[10].

        目前結(jié)合大數(shù)據(jù)技術(shù)去處理公平競爭審查文本的研究,國內(nèi)外還處于一片空白.針對該領(lǐng)域,本文創(chuàng)新性地提出了將當(dāng)前比較主流的數(shù)據(jù)分析技術(shù)和深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到公平競爭審查的人工排查過程中,能夠擴(kuò)大實(shí)務(wù)中審查范圍和提高人工審查效率;同時積累建立公平競爭審查疑似案例庫,對違反《實(shí)施細(xì)則》中規(guī)定的典型市場行為做進(jìn)一步補(bǔ)充和經(jīng)驗(yàn)性總結(jié),進(jìn)一步對公平競爭審查工作重點(diǎn)提出反饋意見,同時也為后來學(xué)者在公平競爭審查領(lǐng)域的研究提供另一種思路和研究方法.

        1 研究意義

        中國共產(chǎn)黨的十九大報告提出了加快完善社會主義市場經(jīng)濟(jì)體制,明確指出“深化商事制度改革,打破行政性壟斷,防止市場壟斷,加快要素價格市場化改革,放寬服務(wù)業(yè)準(zhǔn)入限制,完善市場監(jiān)管體制.”[11]公平競爭審查作為市場價格監(jiān)督與反壟斷排查的工作重點(diǎn),對打破行政性壟斷、提高市場活力起者關(guān)鍵性作用.下面分別從理論層面和應(yīng)用層面對項(xiàng)目意義進(jìn)行闡述.

        1.1 理論指導(dǎo)意義

        全面推進(jìn)依法治國.應(yīng)用數(shù)據(jù)政策工具健全行政機(jī)關(guān)內(nèi)部決策合法性審查機(jī)制,有助于監(jiān)督政府依法全面正確履行職能,加強(qiáng)政策文本的合憲性解釋,鞏固好經(jīng)濟(jì)憲法的地位,實(shí)現(xiàn)社會主義制度下的良法善治.

        促進(jìn)經(jīng)濟(jì)體制改革.通過大數(shù)據(jù)技術(shù)進(jìn)行公平競爭文本排查,有利于完善和建立公平競爭的中國特色社會主義市場體系,同時防止政府過度干預(yù)以及不當(dāng)干預(yù)市場的行為,更好地發(fā)揮市場在資源配置中所發(fā)揮的決定性作用,實(shí)現(xiàn)效益最大化和效率最優(yōu)化.

        釋放市場主體活力.我國經(jīng)濟(jì)發(fā)展正處于培育和催生經(jīng)濟(jì)發(fā)展新動能的關(guān)鍵時期[12],通過目前的大數(shù)據(jù)技術(shù)手段規(guī)范政府有關(guān)行為,廢除政府部門行政壟斷的政策,有利于調(diào)動各類市場主體的積極性和創(chuàng)造性,優(yōu)化營商環(huán)境,推動大眾創(chuàng)業(yè)、萬眾創(chuàng)新.

        實(shí)現(xiàn)創(chuàng)新驅(qū)動發(fā)展.隨著市場競爭機(jī)制的強(qiáng)化和統(tǒng)一的全國大市場的初步確立,營造公平競爭的市場環(huán)境成為了創(chuàng)新驅(qū)動發(fā)展的重要動力.通過大數(shù)據(jù)手段破除具有排除、限制競爭內(nèi)容的政策措施,能在新常態(tài)下推進(jìn)經(jīng)濟(jì)穩(wěn)定持續(xù)地健康發(fā)展.

        深化“放管服”改革.“放管服”改革其中一點(diǎn)提出政府部門要創(chuàng)新和加強(qiáng)監(jiān)管職能,利用新技術(shù)新體制加強(qiáng)監(jiān)管體制創(chuàng)新[13].通過利用大數(shù)據(jù)的技術(shù),可以提高市場監(jiān)管局的監(jiān)管能力,提高公平競爭審查工作效率,同時,通過建立公平競爭審查數(shù)據(jù)庫也可以為公平競爭審查工作起到借鑒作用.

        1.2 實(shí)際應(yīng)用價值

        針對政務(wù)審查中的“信息大爆炸困境”,引入大數(shù)據(jù)處理方法成為排查問題文本的有效手段和發(fā)揮監(jiān)督價值的關(guān)鍵.一方面,大數(shù)據(jù)作為信息時代的重要生產(chǎn)要素和戰(zhàn)略資源,能夠在海量信息中獲取所需要的關(guān)鍵信息;另一方面,深化電子政務(wù)審查技術(shù)的路徑革新,能夠提高國家治理能力的現(xiàn)代化水平.

        2 研究方法

        2.1 基于關(guān)鍵詞詞庫篩選文本

        需要排查的法律及政策的文本數(shù)據(jù)來源主要由廣東省市場監(jiān)督管理局官方提供和基于python的Selenium庫和Requests庫編寫的爬蟲程序從廣東省的各級政府爬取的地方性法規(guī)、政策、通告等文本數(shù)據(jù),兩者相加共2 808份文本數(shù)據(jù).將數(shù)據(jù)收集起來后,通過人工篩選先將數(shù)據(jù)分為違反了公平競爭標(biāo)準(zhǔn)和沒有違反公平競爭標(biāo)準(zhǔn)的兩類文本數(shù)據(jù),然后分別從兩類文本數(shù)據(jù)的標(biāo)題中篩選出各自的關(guān)鍵詞組成關(guān)鍵詞詞庫,如表1和表2所示列出了關(guān)鍵詞詞庫的關(guān)鍵詞,表1是通過人工篩選從違反了公平競爭審查標(biāo)準(zhǔn)的文本的標(biāo)題中篩選出來的關(guān)鍵詞,而表2是通過人工篩選從沒有違反公平競爭審查標(biāo)準(zhǔn)的文本的標(biāo)題中篩選出來的關(guān)鍵詞.將關(guān)鍵詞詞庫和需要篩選的數(shù)據(jù)導(dǎo)入到MySQL數(shù)據(jù)庫中,最后使用數(shù)據(jù)庫MySQL編寫的SQL程序?qū)?dǎo)入的數(shù)據(jù)進(jìn)行篩選,篩選出兩類文本數(shù)據(jù).

        2.2 基于TextCNN的文本分類

        2.2.1 研究思路

        基于TextCNN的法律及政策文本的分類流程如圖1所示.

        表1 違反公平競爭標(biāo)準(zhǔn)文本標(biāo)題的關(guān)鍵詞

        表2 沒有違反公平競爭標(biāo)準(zhǔn)文本標(biāo)題的關(guān)鍵詞

        圖1 基于TextCNN的文本分類流程

        上述提到的基于關(guān)鍵詞詞庫篩選文本的方法雖然是很高效,但由于準(zhǔn)確度不高,同時由于違反公平競爭標(biāo)準(zhǔn)的文本千變?nèi)f化所以關(guān)鍵詞的選擇需要不斷地更新,這種簡單的基于關(guān)鍵詞的方法難以符合當(dāng)前的實(shí)際需求,因此提出了基于TextCNN來分類需要排查的文本.

        首先將收集到的所有需要排查的文本數(shù)據(jù)進(jìn)行人工標(biāo)注,將違反了公平競爭標(biāo)準(zhǔn)的文本標(biāo)注為1,將沒有違反公平競爭標(biāo)準(zhǔn)的文本標(biāo)注為0.之后對數(shù)據(jù)進(jìn)行清洗,使用jieba進(jìn)行中文分詞等一系列數(shù)據(jù)預(yù)處理后將數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集和測試集.在訓(xùn)練數(shù)據(jù)集上訓(xùn)練模型,在驗(yàn)證數(shù)據(jù)集上評估模型.在訓(xùn)練數(shù)據(jù)集上訓(xùn)練好的模型會在驗(yàn)證數(shù)據(jù)集上評估模型的好壞[14],將模型在驗(yàn)證數(shù)據(jù)集上所表現(xiàn)出來的性能作為不斷調(diào)整模型參數(shù)的反饋信號從而達(dá)到最佳的參數(shù).模型達(dá)到最佳的參數(shù)后就在測試數(shù)據(jù)集上進(jìn)行最后一次測試,來衡量模型的泛化能力是否在其它新的數(shù)據(jù)集上也有像在驗(yàn)證數(shù)據(jù)集上這么良好的性能.將輸入的經(jīng)過數(shù)據(jù)預(yù)處理后的文本數(shù)據(jù)進(jìn)行one-hot編碼后輸入到基于python的keras框架搭建好的TextCNN的模型中,最后將訓(xùn)練好的模型對訓(xùn)練數(shù)據(jù)集進(jìn)行最后一次的測試并評估模型的性能.

        2.2.2 TextCNN理論模型

        TextCNN最基本的模型如圖2所示.

        圖2 TextCNN模型圖

        設(shè)xi∈Rk表示一個句子中第i個詞的k維詞向量,其中Rk表示k個Descartes乘積集,其數(shù)學(xué)表示為:

        一個長度為n的句子可以表示為:

        ⊕表示的是連接操作符.因此,圖2中所表示的句子“提高了準(zhǔn)入門檻”就可以表示為 x1:7=x1⊕x2⊕…⊕x7,其中 xi∈R6.

        設(shè)給定的句子的長度(詞匯數(shù))為s,用d表示詞向量的維數(shù),因此可以將句子轉(zhuǎn)化為一個s×d的維數(shù)矩陣.在圖2中有6個過濾器,每兩個過濾器分別對應(yīng)一個窗口大小,一共有3個窗口,大小分別為2、3和4.如圖3所示的是一個窗口大小為4的一個過濾器,圖中的數(shù)字表示的是過濾器的參數(shù).設(shè)窗口的大小為h,某個過濾器的參數(shù)化權(quán)向量為 ω∈Rh×d,ω 包含了 h×d 個參數(shù).用 A∈Rs×d表示句子矩陣,A[i,j]表示從 i行到j(luò)行的子矩陣,如A[1,2]表示x1:2=x1⊕x2.

        圖3 窗口大小為4的過濾器

        句子矩陣與過濾器進(jìn)行卷積運(yùn)算得到:

        其中,i=1…s-h(huán)+1,表示子矩陣與過濾器之間的點(diǎn)積運(yùn)算,輸出的序列長度為s-h(huán)+1,最后通過激活函數(shù)f與偏置項(xiàng)b得到對應(yīng)的特征向量c∈Rs-h(huán)+1:

        對特征向量進(jìn)行池化運(yùn)算池化成一個值,并將池化后的值全都連接起來組成一個新的特征向量,并使用softmax函數(shù)進(jìn)行分類.

        3 實(shí)驗(yàn)與結(jié)果

        3.1 實(shí)驗(yàn)環(huán)境配置

        表3 實(shí)驗(yàn)環(huán)境配置情況

        3.2 實(shí)驗(yàn)設(shè)計

        3.2.1 數(shù)據(jù)預(yù)處理

        對由廣東省市場監(jiān)督局收集和爬取到的數(shù)據(jù)共2 808份數(shù)據(jù)首先進(jìn)行人工標(biāo)注分類,之后進(jìn)行數(shù)據(jù)清洗,用jieba進(jìn)行中文分詞,分詞后對數(shù)據(jù)進(jìn)行去除停用詞處理,停用詞表采用哈爾濱工業(yè)大學(xué)的停用詞表hit_stopwords[15].將數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)集1581份,驗(yàn)證數(shù)據(jù)集678份,測試數(shù)據(jù)集549份.

        3.2.2 TextCNN

        TextCNN模型主要由輸入層、卷積層、池化層、全連接層和輸出層構(gòu)成,其中卷積層負(fù)責(zé)進(jìn)行卷積運(yùn)算,池化層負(fù)責(zé)進(jìn)行池化運(yùn)算而全連接層是將卷積運(yùn)算后的特征值連接起來[16].本文的TextCNN模型加入了嵌入層用于學(xué)習(xí)詞嵌入得到一個密集的詞向量.TextCNN模型使用基于python的keras深度學(xué)習(xí)框架來進(jìn)行搭建,具體的參數(shù)如表4所示,將訓(xùn)練數(shù)據(jù)集1 581份和驗(yàn)證數(shù)據(jù)集678份輸入到構(gòu)建好的TextCNN模型中,訓(xùn)練完成后載入訓(xùn)練完成的模型對測試數(shù)據(jù)集549份進(jìn)行最后一次測試,檢驗(yàn)?zāi)P偷姆夯芰?

        表4 TextCNN參數(shù)設(shè)置

        3.3 實(shí)驗(yàn)結(jié)果

        為了評估模型的性能,本文使用了準(zhǔn)確率、精確率以及召回率這3個指標(biāo)作為評估的標(biāo)準(zhǔn),計算公式如下:

        準(zhǔn)確率表示判斷正確的次數(shù)和所有判斷的次數(shù)的比值,精確率表示在所有被判斷為正樣本的樣本中有多大比例是真正的正樣本,召回率表示在所有真正的正樣本中有多大的比例是被判斷正確了[17].在本實(shí)驗(yàn)中正樣本是沒有違反公平競爭標(biāo)準(zhǔn)的文本數(shù)據(jù),負(fù)樣本是違反了公平競爭標(biāo)準(zhǔn)的文本數(shù)據(jù).從實(shí)驗(yàn)結(jié)果來看,該模型在判斷文本是沒有違反公平競爭標(biāo)準(zhǔn)的準(zhǔn)確度較高,而在判斷文本是違反了公平競爭標(biāo)準(zhǔn)的這個情況下準(zhǔn)確度卻較低,需要做進(jìn)一步的改進(jìn).

        表5 實(shí)驗(yàn)結(jié)果評估

        4 討論

        目前公平競爭審查流程如圖4所示,在人工工作模式下,對于公平競爭文本初步審查(即判斷公平競爭審查文本是否涉及市場經(jīng)濟(jì)活動這一部分)的工作難度不大,但是工作量龐大,對于經(jīng)驗(yàn)豐富的工作人員來說是簡單重復(fù)的工作,這在一定程度上增加了人工成本.在判斷公平競爭審查文本是否違反了18條標(biāo)準(zhǔn)的判斷階段,工作人員一般需要查閱大量的法律文獻(xiàn)和資料作為參考,這個階段不僅耗時長,過程繁瑣,還會給判斷結(jié)果帶來一定的誤差.

        圖4 公平競爭審查基本流程

        本文通過實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)對公平競爭審查文本的分類能夠在一定程度上幫助到工作人員進(jìn)行公平競爭審查文本的排查,初步快速地對大量的公平競爭的審查文本給出初步的判斷,同時在判斷沒有違反公平競爭審查的文本準(zhǔn)確率較高,但是目前該算法仍然不能完全替代人工,而是作為工作人員的輔助工具.其仍然存在一定的誤差項(xiàng)和局限性,在面對較為復(fù)雜的審查文本的時候可能無法精準(zhǔn)判斷仍需要人工判斷,仍然需要進(jìn)一步地研究.

        5 結(jié)束語

        本文針對公平競爭審查中的人工審查的過程首先提出了基于關(guān)鍵詞過濾篩選違反公平競爭審查標(biāo)準(zhǔn)的文本,由于該方法存在準(zhǔn)確度不是很高、難以抽全關(guān)鍵詞等問題,因此難以適應(yīng)目前的實(shí)際需求.接著提出了將深度學(xué)習(xí)結(jié)合到公平審查中的方法提升了分類的準(zhǔn)確率,實(shí)現(xiàn)通過電腦程序來自動進(jìn)行公平競爭審查文本的排查,模型在訓(xùn)練數(shù)據(jù)集中各項(xiàng)指標(biāo)都達(dá)到了92.22%,驗(yàn)證數(shù)據(jù)集中各項(xiàng)指標(biāo)達(dá)到了92.48%,測試數(shù)據(jù)集中的各項(xiàng)指標(biāo)也基本在90%左右,然而模型由于樣本數(shù)據(jù)不均衡導(dǎo)致了負(fù)樣本的精確率和召回率指標(biāo)數(shù)很低,因此模型仍存在著一些問題需要進(jìn)一步的改進(jìn).感謝廣東省市場監(jiān)督局為我們提供實(shí)習(xí)機(jī)會并提供相關(guān)的研究數(shù)據(jù)和公平競爭審查的標(biāo)準(zhǔn),幫助我們更好地了解和掌握公平競爭審查的流程,在之后的工作中,會更加深入地研究以提高排查的準(zhǔn)確度.

        猜你喜歡
        排查卷積文本
        高層建筑消防安全排查情況及處理對策
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實(shí)現(xiàn)
        配網(wǎng)二次回路故障的排查分析
        電子制作(2019年20期)2019-12-04 03:52:04
        在808DA上文本顯示的改善
        給家中來個危險排查吧
        媽媽寶寶(2019年10期)2019-10-26 02:45:42
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        如何排查并改錯
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        69堂在线无码视频2020| 久久综合狠狠色综合伊人| 九九99无码精品视频在线观看| 91精品国产免费青青碰在线观看| 国产一级自拍av播放| 久久精品一区午夜视频| 国产一区二区三区四区五区加勒比| 国产激情视频白浆免费| 国产精品白浆免费观看| 男女做羞羞事的视频网站| 51看片免费视频在观看| 久久久久亚洲av无码尤物| 亚洲精品午夜精品国产| 日本乱码一区二区三区在线观看| 67194熟妇人妻欧美日韩| 亚洲日本va中文字幕久久| 国产免费的视频一区二区| 丰满又紧又爽又丰满视频| 午夜男女很黄的视频| 欧美国产日产一区二区| 国产综合一区二区三区av| 久久精品国产亚洲av四叶草| 亚洲成av人片在线观看www| 综合网五月| 邻居少妇张开腿让我爽视频| 2021国产精品视频网站| a人片在线观看苍苍影院| 2020亚洲国产| 韩国日本一区二区在线 | 中文字幕在线码一区| 成人性生交大片免费看7| 国产精品久久久福利| 激情 人妻 制服 丝袜| 尤物蜜芽福利国产污在线观看 | 欧美成人久久久| 国产一区二区三区在线观看蜜桃| www婷婷av久久久影片| 精品人妻系列无码人妻免费视频 | 日本亲近相奷中文字幕| 亚洲xxxx做受欧美| 国产主播一区二区在线观看|