亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)不良圖片識別技術(shù)研究

        2018-07-12 10:42:54王宏宇
        電腦知識與技術(shù) 2018年12期
        關(guān)鍵詞:分類模型

        王宏宇

        摘要:黨的十九大報告提出“加強互聯(lián)網(wǎng)內(nèi)容建設(shè),建立網(wǎng)絡(luò)綜合治理體系,營造清朗的網(wǎng)絡(luò)空間?!?,這是對新時期網(wǎng)絡(luò)信息內(nèi)容安全及管理的新要求。該文介紹了不良圖片識別技術(shù)的發(fā)展現(xiàn)狀和相關(guān)概念,并從卷積神經(jīng)網(wǎng)絡(luò)、遷移學(xué)習(xí)、類別響應(yīng)圖可視化和損失函數(shù)五個方面,說明了不良圖片識別的有關(guān)技術(shù)特點和難點。

        關(guān)鍵詞:信息內(nèi)容安全;不良圖片識別

        中圖分類號:TP393 文獻標(biāo)識碼:A 文章編號:1009-3044(2018)12-0195-02

        當(dāng)前互聯(lián)網(wǎng)絡(luò)已經(jīng)成為影響廣泛、傳播力強大的大眾傳媒,各種信息通過文字、圖片、視頻等在網(wǎng)絡(luò)上傳播,極大地滿足了公眾的信息需求。但是虛假信息、垃圾信息、暴力色情等非法有害信息在網(wǎng)絡(luò)傳播中也不時出現(xiàn),這給國家和社會帶來了不可低估的破壞作用和負(fù)面影響。中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《第41次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示:“截至2017年12月,中國網(wǎng)民規(guī)模達7.72億,手機網(wǎng)民規(guī)模達7.53億;網(wǎng)民仍以10-39歲群體為主,其中10—19 歲年齡段群體占比分別為19.6%,網(wǎng)民中學(xué)生群體占比仍然最高,為25.4%?!彪S著近幾年移動社交類、UGC 類平臺、App等應(yīng)用每天產(chǎn)生大量圖片,無數(shù)暴力、淫穢色情圖片混雜其中,將會對青少年的身心健康成長帶來不良影響,如何應(yīng)對網(wǎng)絡(luò)信息傳播中出現(xiàn)的淫穢色情等不良圖片信息問題,保障網(wǎng)絡(luò)信息內(nèi)容安全,成為業(yè)界急需研究的內(nèi)容。以此為出發(fā)點,本文對如何識別網(wǎng)絡(luò)上的各種不良非法圖片進行了研究,以便有效及時的識別發(fā)現(xiàn)互聯(lián)網(wǎng)信息傳播中的各種不良非法圖片信息,保障網(wǎng)絡(luò)信息內(nèi)容安全。

        1 網(wǎng)絡(luò)不良圖片識別技術(shù)相關(guān)研究及概念

        1.1 論文統(tǒng)計

        在中國知網(wǎng)CNKI中以“不良圖片識別”為關(guān)鍵詞進行檢索,檢索時間從2005年1月1日到2017年12月31日,共檢索到關(guān)于不良圖片識別研究的論文2篇(含博、碩士論文)。以“不良圖片識別”為主題檢索,檢索到論文12篇,均為2010年以后發(fā)表論文。由此可見業(yè)界對此方面的研究還較少,今后還需各界加以重視,加大研究力度。

        1.2 相關(guān)概念

        不良圖片識別一般是指基于計算機視覺的不良圖片檢測。其發(fā)展過程主要經(jīng)歷以下三個階段。第一人工階段,互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)絡(luò)信息較少,網(wǎng)絡(luò)環(huán)境也不夠穩(wěn)定,網(wǎng)絡(luò)不良圖片識別主要靠“人肉攻略”,即人工肉眼查看,發(fā)現(xiàn)不良圖片及時刪除。第二算法過濾階段,隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)量開始劇增,人工識別已難以為繼。以膚色識別算法過濾“黃色”圖片成為“不良圖片識別”主流,此時計算機識別與人工審核分別占80%和20%。第三人工智能階段,移動互聯(lián)網(wǎng)的發(fā)展產(chǎn)生的網(wǎng)絡(luò)數(shù)據(jù)量使人工審核20%的數(shù)據(jù)也難易實現(xiàn),加上視頻、直播等業(yè)務(wù)和數(shù)據(jù)的爆發(fā)式增長,純靠膚色識別算法作為“過濾”的方式已經(jīng)落后,此時機器學(xué)習(xí)開始作為一種新的方式,承擔(dān)起網(wǎng)絡(luò)不良圖片識別的重任。

        不良圖片識別從機器學(xué)習(xí)的角度看,本質(zhì)上是一個圖像分類問題,即通過分類器來判斷圖片是否含有不良信息。一般來說主要有以下三個實現(xiàn)步驟:一是分類器數(shù)學(xué)模型預(yù)定義,即首先定義一個數(shù)學(xué)模型如[y=F(x)],把待識別的圖片[x]作為輸入值,然后通過定義設(shè)計的數(shù)學(xué)模型[F], 輸出該圖片為不良圖片的概率[y]。該步驟的關(guān)鍵在于分類標(biāo)準(zhǔn)的定義,即什么樣的圖片是不良圖片。這里的不良圖片不單單是指“露點”圖片,還包括不“露點”的色情、低俗圖片,另外還要排除雕塑、藝術(shù)作品等正常圖片。二是訓(xùn)練學(xué)習(xí),該步驟首先收集大量的樣本數(shù)據(jù),然后通過圖片識別訓(xùn)練學(xué)習(xí),進行特征提取,得到數(shù)學(xué)模型定義中的[F],由于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型在圖像識別技術(shù)中獲得了突破性的進展,目前一般不良圖片的識別通常采用CNN(卷積神經(jīng)網(wǎng)絡(luò))、GoogLeNet、ResNet(殘差網(wǎng)絡(luò))三種深度網(wǎng)絡(luò)模型結(jié)構(gòu)。通過模型,高效地將圖片數(shù)據(jù)轉(zhuǎn)變成可以運算的數(shù)學(xué)模型,以便更快更好地得到[F]。三是確定模型,通過第二步的訓(xùn)練學(xué)習(xí),經(jīng)過不斷地迭代、算法調(diào)參,最終確定越來越精準(zhǔn)的數(shù)學(xué)模型[F]。

        網(wǎng)絡(luò)視頻和直播中的不良信息鑒別,在本質(zhì)上與不良圖片識別類似。在鑒別視頻和直播中的不良信息時,動態(tài)的內(nèi)容可以解碼成圖像幀進行判斷,這樣就與靜態(tài)圖片鑒別方法相似了。

        2 網(wǎng)絡(luò)不良圖片識別技術(shù)綜述

        如上所述,網(wǎng)絡(luò)不良圖片識別雖然是個圖像分類問題,但是和常見的MNIST、CIFAR、ImageNet等分類任務(wù)不同,不良圖片識別有如下特點和難點:一是多標(biāo)簽數(shù)據(jù)。和 ImageNet 等單標(biāo)簽數(shù)據(jù)集不同,不良圖片識別模型面對的圖片沒有特定類型,畫面中包含的物體也沒有限制。如穿著暴露的人和全裸露點的人物同時出現(xiàn)在畫面內(nèi),輸出的最終結(jié)果不能是色情和性感,而是判定為色情圖片,也就是說是個帶優(yōu)先級的分類任務(wù)。二是非符號化圖像。在 ImageNet、CIFAR 等數(shù)據(jù)集中,圖像內(nèi)容往往是比較明確的,而在不良圖片識別中,面向的是真實場景中的圖像,包含大量的非符號化數(shù)據(jù)。三是數(shù)據(jù)特殊性。在不良圖片識別任務(wù)中,色情和性感圖片在像素空間占據(jù)的只是很小的區(qū)域,其他類別占據(jù)了絕大部分像素空間。而在模型中,一般則是期望模型學(xué)習(xí)到的特征主要是和色情和性感圖片相關(guān)的特征。在用于分類的特征空間中,因為其他類別圖片種類非常豐富,所以和色情、性感類別的分類邊界是難以捉摸的,另一方面色情、性感類別圖片因為常常很相似,所以分類邊界的求解非常有難度。針對不良圖片識別的特點和難點,現(xiàn)階段的關(guān)鍵技術(shù)研究如下。

        2.1 卷積神經(jīng)網(wǎng)絡(luò)

        目前卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)已經(jīng)應(yīng)用在幾乎所有圖像分類任務(wù)中。早在 1989 年,LeCun等就發(fā)明了卷積神經(jīng)網(wǎng)絡(luò),并且被廣泛應(yīng)用于美國的很多銀行系統(tǒng)中,用來識別支票上的手寫數(shù)字。2012 年,Krizhevsky使用擴展了深度的卷積神經(jīng)網(wǎng)絡(luò) AlexNet 在 ILSVRC 比賽中的取得了當(dāng)時最佳的分類效果,使得卷積神經(jīng)網(wǎng)絡(luò)逐漸受到研究者們的重視。2014年,Network in Network 被提出,[1×1]卷積和 GlobalPooling 被廣泛應(yīng)用。同年的 GoogLeNet 開始把“并聯(lián)”卷積路徑的方式發(fā)揚光大,并在 ILSVRC 中拿下了分類指標(biāo)的冠軍。2015 年,為了解決深度網(wǎng)絡(luò)隨著層數(shù)加深性能卻退化的問題,何愷明提出了 Residual Block 并基于此和前人經(jīng)驗推出了 ResNet,ResNet 雖然看上去更深了,直觀來理解其實是不同深度網(wǎng)絡(luò)的一個 ensemble。沿著這個思路,Gao Huang等在 2016 年合作提出了 DenseNet,并獲得了 2017 年 CVPR 最佳論文。也有沿著 GoogLeNet 繼續(xù)把“并聯(lián)”卷積研究到極致的,其主要的觀點是,卷積核的維度和學(xué)習(xí)難度也直接相關(guān),讓卷積響應(yīng)圖之間去掉關(guān)聯(lián),既能學(xué)習(xí)到?jīng)]有相關(guān)性的特征,還能降低卷積核學(xué)習(xí)的難度??傊芯空邆冊趦?yōu)化網(wǎng)絡(luò)結(jié)構(gòu)的道路上還在繼續(xù),不過從實用的角度看,越是復(fù)雜的網(wǎng)絡(luò),訓(xùn)練的難度也常常越高。研究者們在不良圖片識別模型研發(fā)的長時間摸索中,發(fā)現(xiàn) ResNet 是在訓(xùn)練難度和模型性能上最平衡的一種結(jié)構(gòu)。

        2.2 遷移學(xué)習(xí)

        盡管網(wǎng)絡(luò)上的不良圖片比比皆是,但樣本數(shù)據(jù)的積累卻不是一蹴而就的。而且訓(xùn)練數(shù)據(jù)與所需進行的分類任務(wù)中的測試數(shù)據(jù)的特征分布不相同,這種情況下采用合適的遷移學(xué)習(xí)方法則可以大大提高樣本不充足任務(wù)的分類識別結(jié)果。也就是通常所說的將知識遷移到新環(huán)境中的能力,這一般被稱為遷移學(xué)習(xí)。具體應(yīng)用到不良圖片識別上,就是在基于其他經(jīng)過大量數(shù)據(jù)訓(xùn)練過的卷積神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)上,利用有限的數(shù)據(jù)進行參數(shù)微調(diào)。

        微調(diào)的思路是:在神經(jīng)網(wǎng)絡(luò)中,特征是分層一步步組合的。低層參數(shù)學(xué)習(xí)的一般是線條,紋理,顏色等信息,再高一些的層學(xué)習(xí)到簡單圖案,形狀等,最高層的參數(shù)學(xué)習(xí)到的是由底層特征組合成的語義信息。所以在不同任務(wù)中,低層的特征往往是差不多的,那么只需要改變高層的參數(shù)就可以在不同任務(wù)間最大化共享信息,并達到很好的泛化。也就是說在不良圖片的檢測中,背景畫面部分就是一般的圖片,色情內(nèi)容其實也是人,很多信息是和一般數(shù)據(jù)集,如 ImageNet 數(shù)據(jù)共享的。所以只需要學(xué)習(xí)到針對色情圖片的高層語義信息就可以用少量數(shù)據(jù)訓(xùn)練一個良好泛化的模型。為了實現(xiàn)微調(diào),一般首先會找一個常見的基礎(chǔ)模型,比如 ImageNet預(yù)訓(xùn)練好的各種流行網(wǎng)絡(luò)結(jié)構(gòu)。然后凍結(jié)低層參數(shù)的學(xué)習(xí)率,只讓模型高層和語義相關(guān)的參數(shù)在少量樣本上進行學(xué)習(xí)。

        2.3 類別響應(yīng)圖可視化

        當(dāng)一個模型訓(xùn)練好之后,為了提升指標(biāo)研究者會探索一些模型本身的特性,然后做針對性的改進,可視化是這一步驟中最常見的手段之一。較常用的方法是類別激活響應(yīng)圖(Class Activation Map,CAM)。該方法的基本思想是把 Global Pooling 之后,特定類別的權(quán)重應(yīng)用在 pooling 之前的 feature channel上,然后按照像素加權(quán)求和,得到該類別激活在不同位置上的響應(yīng)。通過這種方法可以了解當(dāng)前類別中圖像的哪些部分是主要的激活圖案。在分析模型的漏檢和誤檢樣本的時候,研究者可通過這種方法分析模型對圖像中人眼能立即識別的圖案是否敏感,以確定改進模型時更新數(shù)據(jù)的策略。

        2.4 損失函數(shù)

        在進行機器學(xué)習(xí)任務(wù)時,一般來說使用的每一個算法都有一個目標(biāo)函數(shù),算法便是對這個目標(biāo)函數(shù)進行優(yōu)化,特別是在分類或者回歸任務(wù)中,通常使用損失函數(shù)(Loss Function)作為其目標(biāo)函數(shù),又稱為代價函數(shù)(Cost Function)。

        損失函數(shù)是用來評價模型的預(yù)測值 [Y∧=F(x)]與真實值[Y]的不一致程度,它是一個非負(fù)實值函數(shù)。通常使用 [L(Y,F(xiàn)(x))]來表示,損失函數(shù)越小,模型的性能就越好。選擇一個合適的損失函數(shù),是成功訓(xùn)練一個深度學(xué)習(xí)模型的關(guān)鍵,也是機器學(xué)習(xí)研究者專注改進的目標(biāo)。各種各樣的損失函數(shù)層出不窮,其中包括:適用于訓(xùn)練回歸任務(wù)的歐式距離損失函數(shù)(Euclidean Loss),適用于 Siamese 網(wǎng)絡(luò)的對比損失函數(shù)(Contrastive loss),適用于一對多分類任務(wù)的鉸鏈損失函數(shù)(Hinge Loss),預(yù)測目標(biāo)概率分布的 Sigmoid 交叉熵?fù)p失函數(shù)(Sigmoid Cross Entropy Loss),信息增益損失函數(shù)(InformationGain Loss),多項式邏輯損失函數(shù)(Multinomial Logistic Loss),Softmax損失函數(shù) (SoftmaxWithLoss) 等等。

        TripletLoss 是一種基于歐式距離的損失函數(shù),自從 Google 提出后,在人臉識別等領(lǐng)域得到了廣泛應(yīng)用。優(yōu)化 TripletLoss 時,算法盡量減小正樣例對的歐氏距離,增大負(fù)樣例對的歐式距離?;跉W式距離的分類,主要缺陷是對銳化圖像和模糊圖像缺少區(qū)分能力。SoftmaxWithLoss 是深度學(xué)習(xí)分類任務(wù)中最常用的損失函數(shù),softmax 采用了連續(xù)函數(shù)來進行函數(shù)的逼近,最后采用概率的形式進行輸出,這樣弱化了歐氏距離損失函數(shù)帶來的問題。

        3 結(jié)語

        隨著網(wǎng)絡(luò)信息量的日益劇增,網(wǎng)絡(luò)不良圖片也隨之泛濫。不良圖片的識別技術(shù)也從以人工審核為主逐漸轉(zhuǎn)變到以機器學(xué)習(xí)等人工智能技術(shù)為主的階段。以機器學(xué)習(xí)為主的不良圖片識別技術(shù)的重點雖然在算法上,但是算法本身的迭代優(yōu)化速度沒有數(shù)據(jù)迭代快,而且各種圖片識別算法差距并不是多大,所以目前不良圖片識別技術(shù)的優(yōu)化差異依然是基于數(shù)據(jù)本身, 而數(shù)據(jù)的難點是數(shù)據(jù)多樣化,而不是數(shù)據(jù)的純數(shù)量。擁有更多數(shù)據(jù)類型,并且能針對不同數(shù)據(jù)應(yīng)用場景提出最合適的數(shù)據(jù)模型,才是不良圖片識別技術(shù)的關(guān)鍵所在。

        參考文獻:

        [1] 陳驍,金鑫,譚曉陽.基于軀干檢測的單人不良圖片識別[J].中國圖象圖形學(xué)報,2016(3).

        [2] 楊虹,王一丁.一種不良圖片快速過濾方法[J].軟件時空,2008(4).

        [3] 周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機學(xué)報,2017(6).

        [4] 常亮,鄧小明,周明全,等.圖像理解中的卷積神經(jīng)網(wǎng)絡(luò)[J].自動化學(xué)報,2016(9).

        [5] 盧慶武,胡輝,胡松,等.實際網(wǎng)絡(luò)環(huán)境中不良圖片的過濾方法分析[J].信息與電腦,2016(5).

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        欧美日韩激情在线一区二区| 成人国产精品一区二区网站公司| 曰批免费视频播放免费| 中文字幕人妻少妇引诱隔壁| 久久精品国产夜色| 综合久久久久6亚洲综合| 日本女优久久精品观看| 久久久久九九精品影院| 日韩a无v码在线播放| 婷婷色国产精品视频一区| 久久夜色精品国产三级| 国精产品一区一区三区有限在线| 无码人妻精品一区二区三区9厂| 免费少妇a级毛片人成网| 一国产区在线观看| 性色av手机在线观看| 免费在线观看播放黄片视频| 老司机亚洲精品影院| 国产乱人视频在线看| 人妻少妇精品视频中文字幕国语| 日本加勒比精品一区二区视频| 久久久久亚洲av无码a片| 中文成人无码精品久久久不卡| 一本色道久久99一综合| 久久无码高潮喷水抽搐| 中文资源在线一区二区三区av| 中文人妻av久久人妻水蜜桃| www国产精品内射熟女| 9丨精品国产高清自在线看| 日韩女优视频网站一区二区三区| 99久久免费视频色老| 日本丰满熟妇hd| 一区二区视频观看在线| 96中文字幕一区二区| 国产乱妇无乱码大黄aa片| 免费一区二区三区久久| 久久迷青品着产亚洲av网站| 精品久久亚洲中文字幕| 欧美大肥婆大肥bbbbb| 就国产av一区二区三区天堂| 亚洲男同免费视频网站|