人工智能技術(shù)及創(chuàng)新產(chǎn)品介紹
為解決中文詞語在認(rèn)知語義方面的問題,神州泰岳推出了基于概念計算的智慧語義認(rèn)知技術(shù),將自然語言進(jìn)行符號化標(biāo)記,通過有限的語義網(wǎng)絡(luò),處理無限的語句表示。
神州泰岳是一家在創(chuàng)業(yè)板上市的公司。2016年,公司戰(zhàn)略布局已形成了“四輪驅(qū)動”模式,也稱“2+2模式”。所謂“四輪驅(qū)動”,是指包括傳統(tǒng)ICT業(yè)務(wù)、手游業(yè)務(wù)、大數(shù)據(jù)與人工智能和物聯(lián)網(wǎng)技術(shù)應(yīng)用在內(nèi)的四個主營業(yè)務(wù), 其中ICT運(yùn)營管理業(yè)務(wù)、手機(jī)游戲業(yè)務(wù)是目前的主要利潤構(gòu)成部分,物聯(lián)網(wǎng)技術(shù)應(yīng)用、大數(shù)據(jù)與人工智能是泰岳著力打造的戰(zhàn)略板塊,將引領(lǐng)未來泰岳的主營方向。
自從機(jī)器深度學(xué)習(xí)的方法從概念成為現(xiàn)實,人工智能在語音、圖像處理方面取得了長足的進(jìn)步。但在中文領(lǐng)域,由于詞語在不同語言環(huán)境下的紛繁語義,造成人工智能在認(rèn)知語義方面不能盡如人意。為此,神州泰岳推出了基于概念計算的智慧語義認(rèn)知技術(shù),此項技術(shù)通過概念的方式,將自然語言進(jìn)行符號化的標(biāo)記,通過有限的語義網(wǎng)絡(luò),處理無限的語句表示。如,“蘋果”一詞,當(dāng)它作為一個水果出現(xiàn)的時候,設(shè)置一個代碼,在代碼前加一個“1”代表它是植物,加個“9”代表它是食用植物,加個“B”代表是新鮮蘋果。神州泰岳花了幾年時間,人工完成了符號化標(biāo)記工作。
詞匯符號化標(biāo)記完成后,還需要對語義進(jìn)行理解。以前,語義理解都是通過句法分析,但是在具體語境下句法分析很難完美表達(dá)。我們的做法是,把一句話的幾種語義翻譯成語義網(wǎng)絡(luò),再計算幾個語義的相似性,從而判斷出當(dāng)下語境中,語義的正確表達(dá)。這是神州泰岳關(guān)于NLP底層的技術(shù)。
在日常應(yīng)用中我們發(fā)現(xiàn),盡管神州泰岳的NLP技術(shù)很強(qiáng),但在做行業(yè)創(chuàng)新時,這種模式還帶來了繁重的工作壓力。于是,神州泰岳基于智慧語義認(rèn)知技術(shù)再度研發(fā),開發(fā)出DINFO-OEC非結(jié)構(gòu)化大數(shù)據(jù)分析挖掘平臺。這個平臺是通過業(yè)務(wù)建模解決非結(jié)構(gòu)化的大數(shù)據(jù)分析挖掘,使大家快速做應(yīng)用創(chuàng)新。目前,在金融行業(yè)、公共安全方面應(yīng)用廣泛。
業(yè)務(wù)建模是DINFO-OEC平臺的重要應(yīng)用,可以提供本體-要素-概念,三位一體的分析挖掘模型。另外在算法上支持C計算、統(tǒng)計S計算、關(guān)聯(lián)R計算等多種算法,C和R計算目前在業(yè)界有一定的獨(dú)創(chuàng)性和領(lǐng)先性。OEC平臺對多語種的支持較強(qiáng),可通過簡體中文建模,對多國語言自動支持。比如順豐的分揀系統(tǒng),就是通過簡體中文建模,上線支持簡體、繁體和英文。另外,因為DINFO-OEC平臺具備平臺的集成性,所以和主流的Hadoop平臺、BI等都有集成。
在人工智能領(lǐng)域,語義云也是神州泰岳的一個發(fā)展方向。目前大數(shù)據(jù)的產(chǎn)業(yè)生態(tài)離不開非結(jié)構(gòu)化數(shù)據(jù)的分析挖掘,如果每家企業(yè)都做這項工作,人工成本會造成浪費(fèi),且時間投入較大。我們希望,神州泰岳的DINFO-OEC平臺以及文本處理技術(shù),通過語義云的方式開放給大家,企業(yè)可自己建模應(yīng)用。這個平臺計劃于明年1月左右推出。
關(guān)于DINFO-OEC平臺在公共安全方面,有一個串并案分析的應(yīng)用場景。因為公安部門在處理案件時,都會有案情紀(jì)要,也就是錄口供。在口供中含有很多寶貴信息,如果能夠及時地把它提取,進(jìn)行串并案分析,一方面可以提高辦案效率,同時也可以發(fā)現(xiàn)案件的新線索,這樣對整個社會的貢獻(xiàn)較大。DINFO-OEC平臺通過語義建模做信息關(guān)聯(lián)、要素提取,為案件的偵破提供信息支持。
DINFO-OEC平臺能夠?qū)崿F(xiàn)業(yè)務(wù)描述與語言表達(dá)的分離。本體可以用C計算、S計算做入室盜竊的分類,對案發(fā)現(xiàn)場的具體情況進(jìn)行本體建模;另一方面是要素建模,比如說根據(jù)犯罪現(xiàn)場,犯罪地點(diǎn)等信息,或者根據(jù)作案工具等情況進(jìn)行建模。
對于概念建模,比如說,服務(wù)態(tài)度好是一個概念,關(guān)于好的表達(dá)很難,需要多語種的支持。通過DINFO-OEC平臺,大家只需要在本體做中文簡體的建模,把其他概念導(dǎo)進(jìn)去,就可實現(xiàn)多語種支持。
通過DINFO-OEC平臺分析,我們可以得出,哪些小區(qū)在一年中的什么時候發(fā)生案件較多,以及案件性質(zhì)和類型,方便公安機(jī)關(guān)對小區(qū)進(jìn)行專案的整治行動。DINFO-OEC平臺還可以完成深度的案件畫像描繪,比如說對犯罪分子的作案手段、作案現(xiàn)場、發(fā)案處所、發(fā)案時間等進(jìn)行數(shù)據(jù)分析,可大幅度節(jié)省破案時間。把作案信息提取后,與歷史信息做關(guān)聯(lián),很容易找到新的破案線索,而且時間是實時的,錄口供的同時,分析結(jié)果就被DINFO-OEC平臺整理出來,此時的犯案人員可能來不及逃離本地。
北京神州泰岳軟件股份有限公司副總裁 楊凱程
我們也有機(jī)器人在銷售,聽說最近,一家銀行也中標(biāo)了,叫中國“富二代”機(jī)器人。我們希望做新一代的機(jī)器人,包括我們還有知識庫,還有像客服大數(shù)據(jù)系統(tǒng),我們2014年就上線了,遠(yuǎn)遠(yuǎn)領(lǐng)先業(yè)界!(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)