亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        雙11直播內(nèi)容風(fēng)險防控的AI力量

        2016-02-07 06:06:10阿里巴巴集團安全部業(yè)務(wù)安全產(chǎn)品技術(shù)部
        關(guān)鍵詞:檢測

        阿里巴巴集團安全部業(yè)務(wù)安全產(chǎn)品技術(shù)部 威 勢

        雙11直播內(nèi)容風(fēng)險防控的AI力量

        阿里巴巴集團安全部業(yè)務(wù)安全產(chǎn)品技術(shù)部 威 勢

        直播作為近來新興的互動形態(tài)和今年雙十一的一大亮點,其內(nèi)容風(fēng)險監(jiān)控是一個全新的課題,技術(shù)的挑戰(zhàn)非常大,管控難點主要包括業(yè)界缺乏成熟方案和標(biāo)準(zhǔn)、主播行為、直播內(nèi)容不可控、峰值期間數(shù)千路高并發(fā)處理、對算法的高實時響應(yīng)要求等等。

        阿里巴巴集團安全部今年在直播管控中的特色在于大量采用人工智能和深度學(xué)習(xí)等技術(shù),配合優(yōu)化后的高性能多媒體計算集群,大幅度降低人工審核成本的同時,提升了對內(nèi)容風(fēng)險的防控能力。系統(tǒng)在峰值期間成功處理5400路直播視頻,以及共計25萬場粉絲連連看游戲,對違規(guī)內(nèi)容進行警告或阻斷。

        主要技術(shù)體現(xiàn)在主播實人認證、直播內(nèi)容實時過濾以及多媒體處理集群的優(yōu)化上。

        1 主播實人認證

        主播的實人認證,基于自主研發(fā)的證件OCR、人臉識別等實現(xiàn)了88%以上的自動化認證率,并且采用云(3D、翻拍檢測等)+端(交互動作等)相結(jié)合的活體檢測技術(shù)來防御虛假認證的風(fēng)險攻擊,以確認主播的真實身份,降低違法風(fēng)險。

        對主播進行了嚴(yán)格的實人認證:做到人證合一,即根據(jù)認證過的賬號身份信息,能準(zhǔn)確找到對應(yīng)的真實的自然人。

        圖1 實人認證系統(tǒng)示意圖

        其中涉及的智能技術(shù)很多,介紹其中兩項。

        1.1 身份證OCR

        身份證OCR是把身份證圖像中的文字識別為計算機能認識的文本,自動與公安網(wǎng)等權(quán)威數(shù)據(jù)庫比對,驗證姓名、號碼等信息的真?zhèn)巍?/p>

        基于自由拍攝證件圖像,流程見下圖。為保證識別率和速度,同時融合了傳統(tǒng)算法和深度學(xué)習(xí)算法。

        圖2 身份證信息檢測流程圖

        OCR算法對“姓名”字段的識別準(zhǔn)確率達98%以上,對“身份證號碼”和“有效期”達99.5%。系統(tǒng)具有很強魯棒性,以下case都可以輕松識別。

        圖3 OCR可以識別的身份證舉例

        1.2 生物特征識別

        只介紹人臉識別和人臉活體檢測。

        人臉識別在學(xué)術(shù)界已超肉眼的識別水平,但能在實際中的大規(guī)模應(yīng)用還比較少,原因是實際場景復(fù)雜和數(shù)據(jù)缺乏。挑戰(zhàn)來自光照、姿態(tài)、翻拍、化妝、衰老以及低照片質(zhì)量。

        我們對用戶真人人像、身份證照、權(quán)威數(shù)據(jù)庫的頭像進行兩兩比對,以驗證身份的真實性。算法能在0.1%的認假率下,使得合法用戶自動通過率達93%以上。

        人臉識別包括圖像獲取、人臉檢測、活體檢測、關(guān)鍵點定位、特征提取、識別引擎等模塊。

        圖4 人臉識別系統(tǒng)

        1.2.1 人臉檢測

        采用Boosting+RCNN框架。

        圖5 人臉檢測結(jié)果圖

        1.2.2 活體檢測

        活體檢測是為了確保待認證的用戶是“活人”,而不是事先拍好或翻拍的人臉照片、視頻,防止虛假認證,降低主播的違法風(fēng)險。

        圖6 活體檢測實例圖

        活體檢測模塊包括:

        (1)人臉檢測

        檢測是否出現(xiàn)人臉,且不能是多張臉,防止不同的人切換或人與照片的切換。

        (2)3D檢測

        驗證是否為立體人像,防止平面的照片或視頻攻擊。

        圖7 3D檢測示意圖

        (3)活體算法檢測

        驗證用戶的操作是否正常,指定用戶做隨機動作(凝視、搖頭、點頭、眨眼、上下移動手機等)。

        (4)連續(xù)性檢測

        防止中途切換人。

        (5)翻拍檢測

        利用深度學(xué)習(xí)技術(shù),區(qū)分獲取的人像是否為對屏幕、照片的翻拍。

        1.2.3 人臉關(guān)鍵點定位

        定位出眉毛、眼睛、鼻子、嘴巴等位置。主流方法有:基于參數(shù)模型的方法;基于回歸的方法;基于深度學(xué)習(xí)的方法。

        我們采用基于特征的回歸方式+深度學(xué)習(xí)的方法,來訓(xùn)練關(guān)鍵點定位模型。

        圖8 人臉關(guān)鍵點檢測示意圖

        1.2.4 特征提取

        圖9 Maxout結(jié)構(gòu)示意圖

        我們同時采用了傳統(tǒng)人臉特征(WLD,HOG,LBP,Gabor等)和基于深度學(xué)習(xí)(基于VGG、GoogleNet、Maxout三者的融合網(wǎng)絡(luò))的特征進行人臉識別。

        1.2.5 識別引擎

        傳統(tǒng)人臉特征,我們采用SVM進行pairwise距離度量;DL人臉特征,對已經(jīng)學(xué)習(xí)的分類模型進行微調(diào)。

        2 直播內(nèi)容實時過濾

        實人認證可以震懾一部分別有用心的人,但仍然有一些主播為了達到吸引眼球,或者推銷商品的目的而做出違規(guī)的事情。另外,本次雙11引入了買家之間的互動游戲:連連看,玩法是系統(tǒng)隨機抽取兩個游戲參與者,調(diào)起手機前置攝像頭拍攝視頻傳遞到對方手機展示。游戲雙方比賽干瞪眼、不許笑等動作。游戲的參與者并不會進行實人認證,需要對內(nèi)容做實時的管控。雙11期間預(yù)估高峰期會有5400路直播同時在線,而一個審核人員的極限承受能力大約是60路,需要大約90個審核人員同時在線審核,很浪費人力,并會因為人工因精力不集中而漏過風(fēng)險內(nèi)容,這就得靠人工智能技術(shù)來全面防控風(fēng)險。

        那么,直播中有哪些風(fēng)險呢?

        我們分析了淘寶直播開播以來的所有處罰記錄,以及在互聯(lián)網(wǎng)抓取的外部直播數(shù)據(jù),發(fā)現(xiàn)惡性違規(guī)集中在色情低俗,以及敏感人物肖像兩個方面。因此,我們在對畫面內(nèi)容做風(fēng)險判斷時調(diào)用了兩個算法服務(wù):視頻鑒黃和敏感人臉檢測。由此,實現(xiàn)99%的自動審核,只有約1%的視頻會流入到人工審核。

        2.1 智能鑒黃技術(shù)

        智能鑒黃,就是輸入一張圖片或視頻,算法模型返回一個0-100之間的分值。這個分值非線性地標(biāo)示圖片含色情內(nèi)容的概率:得分99及以上的圖片幾乎可以肯定是色情圖,可以機器自動處理;得分50-99的需要人工審核;得分50以下的認為是正常圖,因為50分及以上可以覆蓋>99%的色情圖片。智能鑒黃還有兩個特性:(1)將60%以上的色情圖片集中在99及以上的分?jǐn)?shù)段,也即機器可以自動處理掉大多數(shù)色情風(fēng)險;(2)需要人工審核的圖片占比非常低,在淘寶直播場景大約為0.1%。

        智能鑒黃的原理是什么呢?

        智能鑒黃是一個色情圖像智能識別引擎,為不同的場景和用戶提供了個性化的多尺度識別能力,識別準(zhǔn)確率高達99.6%,極大地降低了圖片內(nèi)容管控的成本。我們基于深度學(xué)習(xí)算法構(gòu)建了多層視覺感知機,采用改進的Inception神經(jīng)網(wǎng)絡(luò)層以及多模型級聯(lián),實現(xiàn)了快速地識別多尺度色情內(nèi)容。智能鑒黃的生成具體步驟如下圖所示。

        圖10 智能鑒黃模型生成步驟

        2.1.1 明確分類標(biāo)準(zhǔn)

        上面這張圖的步驟里,制定標(biāo)準(zhǔn)與標(biāo)注數(shù)據(jù)的難度比訓(xùn)練模型更大一些。因為現(xiàn)實世界是復(fù)雜的,不同的人對同一張圖片的認識往往不一樣。為了制定標(biāo)準(zhǔn),運營與算法人員一起討論修訂了數(shù)次才有了初版,并且在后續(xù)打標(biāo)過程中根據(jù)遇到的問題進行了幾次增補,標(biāo)準(zhǔn)才穩(wěn)定下來。

        2.1.2 收集樣本

        樣本的獲取環(huán)節(jié)在此略過。數(shù)據(jù)的規(guī)模:考察了近2000網(wǎng)站,以及阿里生態(tài)體系積累的色情違規(guī)case,共計6000+萬疑似色情圖片,已經(jīng)完成了1300+萬的高質(zhì)量標(biāo)注。這一塊是智能鑒黃最重要的基石。

        2.1.3 樣本打標(biāo)

        互聯(lián)網(wǎng)上的內(nèi)容重復(fù)度高,這6000+萬圖片中必然有相當(dāng)比例的相同/相似圖片,為了節(jié)省標(biāo)注資源,我們使用了圖像搜索技術(shù)進行去重,大約剩余2300萬圖片。圖搜是我們自己開發(fā)的基于局部特征視覺詞的針對圖像內(nèi)容的搜索技術(shù),可以檢出經(jīng)過尺寸放縮、剪切、旋轉(zhuǎn)、部分遮擋、顏色變換、模糊等諸多處理后的目標(biāo)圖像,效果如下圖所示。

        阿里巴巴開發(fā)了高效率的打標(biāo)平臺(mbox),提供了練習(xí)與考試功能作為標(biāo)前的質(zhì)量控制;提供校驗題的方式作為標(biāo)中的質(zhì)量控制,能夠自動化計算打標(biāo)者的準(zhǔn)確率,并能夠按照設(shè)置的條件終止低質(zhì)量標(biāo)注者的參與資格。我們觀察到,即便是熟練而負責(zé)的標(biāo)注者,其錯誤率仍然在1%左右波動,因此我們使用訓(xùn)練好的模型對打標(biāo)樣本進行判斷,如果機器結(jié)果與人肉結(jié)果不一致則進行復(fù)標(biāo)。這個過程反復(fù)進行,確保標(biāo)注樣本的高質(zhì)量。

        2.1.4 模型訓(xùn)練

        標(biāo)注的結(jié)果在次日凌晨自動回流到ODPS表中,可隨時讀取數(shù)據(jù)進行訓(xùn)練。訓(xùn)練使用了開源的基于Caffe框架的代碼,并根據(jù)實際情況做了一些修改。第一次訓(xùn)練時使用了大約100萬樣本,GPU機器單機單卡的情況下訓(xùn)練時間長達近一個月。后來更換了網(wǎng)絡(luò)結(jié)構(gòu),并使用了Pluto團隊提供的訓(xùn)練平臺,實現(xiàn)了多機多卡訓(xùn)練,可以將千萬級別樣本的訓(xùn)練時間控制在一周以下。

        圖13 鑒黃模型生成系統(tǒng)示意圖

        針對直播場景的管控尺度和時效性要求,我們設(shè)計了多階段分類模型,在召回率略有增加的同時,將響應(yīng)時間降低了約30%。

        圖14 多階段的分類模型

        連連看游戲上線后,智能鑒黃迅速命中了數(shù)個暴露狂,圖片不宜展示。

        還抓取到商家的一些違規(guī)行為(醫(yī)療廣告露點、展示成人用品、展示大尺度圖片、著裝不正等),圖片略去。

        從違規(guī)case看,直播中的色情風(fēng)險表現(xiàn)形式多樣,可能是翻拍屏幕、畫報、真人、成人用品、模型等等,姿態(tài)與動作也多種多樣。

        在整個雙11期間,因為色情低俗、著裝不整被處罰的直播一共82場,其中算法命中68場,抓取到了100%的色情低俗風(fēng)險,以及80%以上著裝不正的違規(guī)(淘寶直播對著裝尺度很嚴(yán)格,某些大街上可見的著裝也屬于違規(guī)),而且僅需要審核約0.1%的截圖。在風(fēng)險覆蓋和節(jié)省審核人力兩個方面都取得了成功。

        2.2 敏感人臉檢測

        直播中的敏感人物管控屬于人臉識別中(1:N)的問題,涉及人物載體形式多樣,如動漫、印刷品、PS處理、翻拍屏幕等。人像的表情、姿態(tài)、光照、距離、遮擋、模糊等均不可控。

        檢測系統(tǒng)包括敏感人物入庫及用戶圖片查詢兩大模塊。其中敏感人物入庫包括特征提取以及索引的建立。用戶圖片進行查詢的時候,系統(tǒng)會返回與被查詢?nèi)四樧钕嗨频娜宋飯D片、名字及相似度,然后根據(jù)業(yè)務(wù)規(guī)則判斷是否命中敏感人物。

        數(shù)據(jù)庫由國內(nèi)外各領(lǐng)域近2W知名人物人像圖片組成,并按敏感程度劃分不同等級,提供多層次的管控人名列表。

        敏感人物識別主要包括兩部分技術(shù),一是人臉的特征提取,二是檢索系統(tǒng)的構(gòu)建。我們選用深度學(xué)習(xí)算法構(gòu)建模型,采取五層卷積+兩層全鏈接的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu),并融合年齡+性別等屬性,融合回歸及分類多種損失函數(shù)進行訓(xùn)練。這種multi-data,multi-task的訓(xùn)練方式充分挖掘訓(xùn)練數(shù)據(jù)的多維度信息,從而構(gòu)建泛化性能更好的模型。

        圖15 敏感人物識別技術(shù)架構(gòu)圖

        簡要描述一下索引算法的流程:

        (1)選一組哈希函數(shù),將數(shù)據(jù)投影到離散的值上。所有的數(shù)據(jù)按哈希值分桶保存;

        (2)檢索時,被查詢數(shù)據(jù)使用相同的哈希函數(shù)計算桶編號,取出桶里所有的數(shù)據(jù),計算距離,排序,輸出。

        搜索性能:在百萬數(shù)據(jù)集上,單次查詢RT小于10ms,top10近鄰正確率90%(以遍歷檢索為基準(zhǔn))。

        算法系統(tǒng)主要用來管控政治敏感人物肖像,以及明星形象冒用,整個雙11期間算法系統(tǒng)命中產(chǎn)生的審核比為約0.01%。算法累計命中1613場直播,其中38場是正確命中。38場中,有17場背景包含管控人物形象,8場主播使用管控人物形象作為面具,7場與人民幣相關(guān),2場利用管控人物做廣告,3場丑化管控人物,1場新聞類直播。38場直播以業(yè)務(wù)管控標(biāo)準(zhǔn)判斷有14場違規(guī)。

        在整個雙11期間,一共有15場涉及99名核心管控人物的違規(guī)直播,只有1場未能被算法命中,算法整體召回率93.3%。。

        由于眾所周知的原因,政治敏感人物肖像的違規(guī)case不能展示。下面是一些用戶使用明星照片參與連連看游戲的case:

        圖16 用戶冒用明星形象參與連連看游戲的示意圖

        可能有人會覺得算法命中的準(zhǔn)確率不高,這有兩方面的原因:(1)整體審核比很低,為了保障召回,所以將閾值設(shè)置得比較低;(2)由于管控人物中包含一些女明星,容易出現(xiàn)主播與明星撞臉的尷尬,比如下面兩位女主播很容易被識別為楊冪。

        圖17 和明星撞臉的女主播

        3 多媒體處理集群的優(yōu)化

        為了平衡管控的時效性和計算資源之間的矛盾沖突,在實際操作中,我們對直播流每5秒截幀一次,圖片保存在OSS上,同時推送消息給安全部接口。接口層將消息傳遞到規(guī)則層,在這里配置規(guī)則,決定截圖需要調(diào)用的算法,以及對算法返回的結(jié)果進行判斷,向?qū)徍讼到y(tǒng)發(fā)送消息。

        圖18 直播管控整體系統(tǒng)框圖

        我們面臨的問題是5400路并發(fā)視頻需要在5秒之內(nèi)給出反饋,延時過長會造成風(fēng)險外露。圖片算法服務(wù)本身消耗計算資源多,是系統(tǒng)中的瓶頸,為此我們采取了以下應(yīng)對手段。

        3.1 通過消息接入解耦應(yīng)用

        同步接入算法服務(wù)是最簡單的也最容易維護的,但會面臨三個主要問題:(1)同步接入給接入方帶來了更多資源消耗;(2)一旦算法服務(wù)不正常,會影響主流程;(3)圖片量已遠遠超過審核人力的極限,運營只能覆蓋一些潛在重點風(fēng)險視頻,非重點風(fēng)險視頻流不需要流入審核。因此,雖然異步接入也會帶來維護成本,但最終決定還是采用異步接入。

        3.2 通過異步回調(diào)減少接入的成本

        收到異步消息后,節(jié)點會調(diào)用算法服務(wù),如果采用同步調(diào)用,會導(dǎo)致很多線程IO阻塞,需要大量的task,從而需要很多節(jié)點;采用異步回調(diào)服務(wù),task線程可以立即回收,能減少很多task線程,從而節(jié)省節(jié)點。本項目中節(jié)省了約70%的節(jié)點。

        3.3 通過批處理增加吞吐

        在直播防控中單張截圖會調(diào)用2個算法,之前的模式是每張圖發(fā)2個消息。由于內(nèi)部是可以并行且非阻塞過多個算法的,單張圖一個算法和多個算法成本一樣,所以我們將單張圖調(diào)用多個算法的多條消息合并成一條。吞吐翻倍,按qps評估的機器成本也減半。

        3.4 削峰和異常保護

        雖然直播的峰值是5400路并發(fā),考慮到截幀是每5秒進行一次,所以不必要按峰值準(zhǔn)備容量。我們按照4s來平滑峰值,機器數(shù)也可以減少75%。除了常規(guī)的限流措施之外,考慮到審核頁面每5秒刷新,如果超過4s沒處理的消息選擇丟棄,可以避免突發(fā)的消息堆積造成雪崩。所有的出錯消息都會回寫入SLS并同步到ODPS,以便之后的排查、分析和恢復(fù)。同時,我們將應(yīng)用部署在兩個機房來實現(xiàn)容災(zāi)。

        圖19 算法服務(wù)系統(tǒng)架構(gòu)圖

        上線之前按照電商圖片場景的經(jīng)驗是95%的算法請求在3s之內(nèi)返回,上線后實測98%的請求在600ms內(nèi)返回,平均耗時200ms,并且資源消耗更低。雖然兩個場景不完全具有可比性,但至少說明我們的算法服務(wù)完全勝任直播防控的實時場景。

        雙11直播剛剛落下帷幕,雙12直播就已啟動,直播并發(fā)數(shù)更大,游戲玩法更多,風(fēng)險控制的難度更大。我們會在已有的完整風(fēng)控方案基礎(chǔ)上,在效果和效率兩個方面持續(xù)提升。

        阿里綠網(wǎng)(由阿里聚安全提供支持)是基于如上技術(shù)和算法,經(jīng)過實踐檢驗的內(nèi)容風(fēng)險防控產(chǎn)品。通過低成本的一次接入,可提供音視頻,圖片,文字等形式內(nèi)容檢測,覆蓋暴恐,鑒黃,涉政,廣告等風(fēng)險。更提供靈活的服務(wù)方式,如既與OSS、ECS等云產(chǎn)品無縫對接,又可以通過API方式與用戶審核系統(tǒng)集成。更多產(chǎn)品信息或使用可參考:https://www.aliyun.com/product/lv wang。

        猜你喜歡
        檢測
        QC 檢測
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        “幾何圖形”檢測題
        “角”檢測題
        “有理數(shù)的乘除法”檢測題
        “有理數(shù)”檢測題
        “角”檢測題
        “幾何圖形”檢測題
        亚洲国产精品无码久久久| 日韩极品视频免费观看| 少妇一区二区三区久久| 丝袜美腿一区二区三区| 久久精品国产亚洲av四虎| 少妇被粗大的猛进69视频| 狠狠躁天天躁无码中文字幕图| 久久中文字幕人妻熟av女蜜柚m| 久久久精品3d动漫一区二区三区 | 一区二区激情偷拍老牛视频av| 色和尚色视频在线看网站 | 国产成人av无码精品| 人禽交 欧美 网站| 伊人色综合视频一区二区三区| 日本不卡视频免费的| 国产精品女同一区二区久| 青青草视频视频在线观看| 亚洲精品国产精品乱码视色| 亚洲sm另类一区二区三区| 又黄又爽又高潮免费毛片| 亚洲欧洲美洲无码精品va| 韩国黄色三级一区二区| av色一区二区三区精品 | 18女下面流水不遮图| 国产黄页网站在线观看免费视频 | 久久综合老鸭窝色综合久久 | 麻豆av一区二区天堂| 亚洲中文字幕一区av| 日本一卡二卡3卡四卡免费观影2022| 特黄特色的大片观看免费视频| 国产欧美一区二区精品性色| 国产欧美另类精品久久久| 亚洲视频综合在线第一页 | 亚洲精品乱码久久久久久| 国产日产综合| 亚洲男人第一av网站| 精品欧洲AV无码一区二区免费| 国产精品久久熟女吞精| 亚洲av成人av三上悠亚| 亚洲午夜久久久久久久久久| 四川丰满少妇被弄到高潮|