喬德地
自然語言理解一方面承載著機(jī)器與人的交流,另一方面直達(dá)知識與邏輯。視頻領(lǐng)域已經(jīng)有諸如商湯科技、face++等知名創(chuàng)業(yè)公司,但對自然語言(特別是復(fù)雜文本)的智能化處理才剛剛開始。
讓機(jī)器處理自然語言,難度在于人類信息表達(dá)的靈活性以及無處不在的長距離邏輯關(guān)聯(lián),這種邏輯關(guān)聯(lián)既包含來自語言結(jié)構(gòu)的依存關(guān)系,也包含語義層面上的邏輯關(guān)系,且二者相互滲透。同時,處理的過程也需要對知識(包含領(lǐng)域知識和常識)的大量依賴。
就自然語言理解來說,這項(xiàng)技術(shù)經(jīng)歷了從符號智能到統(tǒng)計(jì)學(xué)習(xí),再到深度學(xué)習(xí)的發(fā)展和演化。深度學(xué)習(xí)雖然風(fēng)頭正勁,但其擅長的是通過神經(jīng)網(wǎng)絡(luò)的“模糊表示”來處理信息表達(dá)的靈活性,長距離的邏輯關(guān)聯(lián)問題則需要符號智能來解決;而要解決對知識的依賴,則既需要神經(jīng)網(wǎng)絡(luò)的方法來記憶和運(yùn)用各種瑣細(xì)靈活的知識,又需要利用符號智能來進(jìn)行知識的存儲和調(diào)用。
深度好奇成立于2016年底。他們認(rèn)為,深度學(xué)習(xí)和符號智能的結(jié)合,或者說神經(jīng)符號智能,將是下一代自然語言理解的新范式,也是解決自然語言理解這個困難任務(wù)的唯一路徑。
目前在文本處理領(lǐng)域,深度好奇是全球第一家成功研發(fā)出基于神經(jīng)符號智能的商用化系統(tǒng)并實(shí)現(xiàn)場景落地的公司。具體來說,深度好奇以神經(jīng)符號系統(tǒng)為核心技術(shù)思想,構(gòu)建了以O(shè)ONP(面向?qū)ο蟮纳窠?jīng)規(guī)劃)為核心技術(shù)框架的自然語言理解技術(shù)平臺,其中包含多個自研技術(shù)模塊,具體體現(xiàn)為兩大功能平臺:復(fù)雜文本理解和對話系統(tǒng)。
目前深度好奇走的是“高技術(shù)壁壘+領(lǐng)域深度結(jié)合”的路線,專注公安和金融兩大領(lǐng)域,在上述平臺的基礎(chǔ)上開發(fā)了公安案情語義圖譜、智能視頻審核、語音視頻調(diào)度等產(chǎn)品,未來還會繼續(xù)以標(biāo)準(zhǔn)化產(chǎn)品賦能更多場景。
這不同于自然語言處理這條賽道上之前很多的創(chuàng)業(yè)公司:它們往往利用開源的技術(shù)完成文本基本的分類或者簡單的知識圖譜,而這離行業(yè)化落地的技術(shù)標(biāo)準(zhǔn)往往相距甚遠(yuǎn),同時也無法構(gòu)建有效的產(chǎn)品優(yōu)勢。
深度好奇創(chuàng)始人呂正東告訴創(chuàng)業(yè)邦(微信搜索:ichuangyebang),深度學(xué)習(xí)更偏向“端到端”的學(xué)習(xí)模型,比如讀一段局部文字,輸出一段內(nèi)容。這里的痛點(diǎn)在于輸出內(nèi)容往往顆粒度較低,不能結(jié)合上下文以及相應(yīng)的知識背景進(jìn)行推理。以和理解相關(guān)的常見應(yīng)用為例,“情感分析”往往只是判斷感情是正面還是負(fù)面,而“命名實(shí)體識別”也只是標(biāo)出實(shí)體(比如人、組織、地名等)的名稱;但即使是這樣的粗顆粒度,準(zhǔn)確率也往往在達(dá)到一定水平之后裹足不前。
而深度好奇搭建的以O(shè)ONP為架構(gòu)的平臺,則對人在理解文本時“一邊閱讀一邊理解”的方式實(shí)現(xiàn)了模仿。在讀一篇文本時,OONP會動態(tài)存儲關(guān)于所讀內(nèi)容的理解,生成相對應(yīng)的“不完全態(tài)的”語義圖譜,并在后面的閱讀中不斷訪問和完善這個知識圖譜,直至讀完全篇并生成整篇內(nèi)容的語義圖譜。OONP的框架允許神經(jīng)網(wǎng)絡(luò)和符號智能在表示、運(yùn)算及知識層面上的結(jié)合,就技術(shù)而言,已遠(yuǎn)遠(yuǎn)超出深度學(xué)習(xí)這種“端到端”模型所能實(shí)現(xiàn)的范疇。
深度好奇的第一款產(chǎn)品“語義圖譜”的落地場景是在公安領(lǐng)域,具體來說,其可以根據(jù)不同形式的復(fù)雜文本(比如警察整理的案情信息、報案人的詢問筆錄、勘察報告等文件)推演出一套已知案情的完整語義圖譜,實(shí)現(xiàn)信息的串聯(lián)和比對,提供串并案推薦和警情預(yù)警等決策輔助。這種圖譜既包括事件邏輯,也涵蓋有信息量的細(xì)節(jié),比如時間、地點(diǎn)、犯罪特點(diǎn)及犯罪手段等事件的核心要素。在這類解析任務(wù)上,深度學(xué)習(xí)的方法準(zhǔn)確率可以達(dá)到72%,OONP的準(zhǔn)確率則超過了90%。
同樣在公安領(lǐng)域落地的還有一款“語音調(diào)度”產(chǎn)品。公安系統(tǒng)長期存在的痛點(diǎn)是如何快速找到指定的攝像頭并對其進(jìn)行一系列操控。傳統(tǒng)的操作是基于GPS系統(tǒng)在地圖上點(diǎn)選攝像頭,或在系統(tǒng)多級目錄中一層層查找攝像頭,無論哪種方式都需要鼠標(biāo)操作;這其中還埋藏著更深層的痛點(diǎn):這些辦法都需要操作員了解明確的地址信息。
深度好奇的智能語音調(diào)度產(chǎn)品是以對話機(jī)器人的形態(tài),理解和執(zhí)行指揮員關(guān)于攝像頭的定位、控制、錄像操作等需求。具體來說是從公安的視頻平臺切入,通過指揮員與機(jī)器人進(jìn)行兩三輪語音對話,將語義信息轉(zhuǎn)化成后臺系統(tǒng)理解的信息。對于指揮員來說,他可以不知道攝像頭對應(yīng)的嚴(yán)格的地址名稱,而只需要了解和攝像頭相關(guān)的時間、空間、視頻內(nèi)容等關(guān)鍵信息。利用語音調(diào)度這種形式,平均可以節(jié)省指揮員三分之二的信息調(diào)取時間,單任務(wù)的操作成功率達(dá)到90%以上。
第三款已商用的產(chǎn)品“智能視頻審核”更像是跨NLP領(lǐng)域的反欺詐工具,一個典型的應(yīng)用場景是個人小額信貸。傳統(tǒng)的視頻識別能夠確定被審核人是誰,但無法確定這個人其他非視覺信息的準(zhǔn)確性,比如現(xiàn)居地、工作單位等。深度好奇的這款智能視頻審核產(chǎn)品,則在基于視頻的人機(jī)交互過程中通過語音追問來進(jìn)行交叉驗(yàn)證。具體來說,通過對接第三方數(shù)據(jù)平臺,結(jié)合人臉檢測/識別技術(shù),視頻終端會依據(jù)被審核人的回答提出不同問題,在語音交互中進(jìn)行信息碰撞,同時視頻實(shí)時記錄動作、表情等信息,進(jìn)一步勾勒待審批人的真實(shí)“面貌”,并在審批結(jié)束后提供信用評級及相關(guān)建議。
2018年深度好奇營收近千萬人民幣,主要營收來自語音調(diào)度和智能視頻審核產(chǎn)品,語義圖譜則是公司持續(xù)關(guān)注和大力投入的領(lǐng)域,目前市場已延拓至浙江、廣州、安徽等省市,涵蓋情報、刑偵、緝毒和反恐等領(lǐng)域。
呂正東告訴創(chuàng)業(yè)邦,深度定制化服務(wù)在保證用戶滿意度的同時,也是為了進(jìn)一步打磨產(chǎn)品。2019年深度好奇會繼續(xù)加大研發(fā),并以更多標(biāo)準(zhǔn)化產(chǎn)品的形式加深領(lǐng)域內(nèi)的價值挖掘。
呂正東是留美博士,曾任職于微軟亞洲研究院,之后創(chuàng)建并帶領(lǐng)華為諾亞方舟實(shí)驗(yàn)室的深度學(xué)習(xí)團(tuán)隊(duì)成為國際上可以和Deepmind,Google Brain,F(xiàn)acebook AI research比肩的語言智能研究團(tuán)隊(duì)之一;他在2015年發(fā)明了世界上第一個完全基于深度學(xué)習(xí)的聊天機(jī)器人“神經(jīng)響應(yīng)機(jī)”;在NLP領(lǐng)域國際頂會ACL近5年排名前30的高引用論文中有4篇來自中國,其中3篇出自他領(lǐng)導(dǎo)的團(tuán)隊(duì)。另外兩位聯(lián)合創(chuàng)始人李祥生、買天讓分別為資深商務(wù)及媒體人士,具有豐富的社會資源。目前深度好奇團(tuán)隊(duì)有40余人,其中80%為研發(fā)人員。
深度好奇成立之初就完成了合力資本及阿米巴資本的千萬級天使輪,目前正在進(jìn)行A輪融資,主要計(jì)劃將用于研發(fā)支出及市場推廣。