劉大雙
語義工廠顧名思義就是對自然語言進行加工處理,輸出結(jié)構(gòu)化的信息及其語義。今天,我們越來越意識到,自然語言處理技術(shù)要很好地跟業(yè)務(wù)場景相結(jié)合,才能更好地賦能行業(yè)應(yīng)用。
神州泰岳在超過16個領(lǐng)域、140個場景中抽象出相應(yīng)的語義模型,同時對這些模型進行訓(xùn)練,保證輸出效果。這么做的目的就是希望能夠為企業(yè)客戶和行業(yè)應(yīng)用開發(fā)商提供一個自然語言處理SaaS平臺。
其實,自然語言處理技術(shù)有一個很高的門檻,不僅是數(shù)學(xué)、語言學(xué)、計算機科學(xué)等諸學(xué)科綜合的體現(xiàn),同時還需要有很好的行業(yè)知識,給我們的企業(yè)客戶也帶來了一個新的挑戰(zhàn)。另外,人才也是一個很大的挑戰(zhàn)。今天在人工智能領(lǐng)域的人才非常缺乏,人才成本居高不下,要維護一個相對穩(wěn)定的、具有一定規(guī)模的自然語言處理團隊,還是比較奢侈的一件事。在行業(yè)應(yīng)用上,我們已經(jīng)有超過20年的行業(yè)應(yīng)用經(jīng)驗積累,今天已經(jīng)積累了將近100人的專注于自然語言處理的團隊,同時我們有超過400人的交付團隊,如果把這兩個團隊加起來的話,有將近600人。
基于這樣的積累,我們希望為市場做的是,授之以魚的同時還能授之以漁。我們更加強調(diào),希望通過場景化的自然語言處理平臺已經(jīng)抽象出的場景,將來從事自然語言處理的應(yīng)用開發(fā)團隊實際上不需要具備自然語言處理的知識,只需要提供調(diào)用接口,也不需要花時間做模型訓(xùn)練,就可以保證相對穩(wěn)定的輸出效果。我們希望為市場提供一個專業(yè)的、有質(zhì)量保證的、性價比高的一個SaaS服務(wù)平臺。
簡單說,語義工廠要提供幾類服務(wù):第一類是NLP基礎(chǔ)服務(wù),提供可以通用的技術(shù)服務(wù),比如中文分詞、簡轉(zhuǎn)繁、中文命名實體識別等。第二類是應(yīng)用場景服務(wù),到目前為止我們在16個行業(yè)抽象出了超過140個場景,針對這些場景都建立了語義模型,進行了充分的預(yù)訓(xùn)練,保證達到一個穩(wěn)定的、可用的輸出效果。第三類是數(shù)據(jù)服務(wù),我們本身也積累了一些行業(yè)的數(shù)據(jù),希望能夠跟合作伙伴在數(shù)據(jù)方面有所合作。
場景化,是我們所強調(diào)的。在應(yīng)用場景服務(wù)里我們提供了通用的場景,比如合同文本結(jié)構(gòu)化、裁判文書結(jié)構(gòu)化、客服工單分類及熱點發(fā)現(xiàn)、招投標(biāo)公告信息提取、企業(yè)風(fēng)險標(biāo)簽提取、簡歷、JD結(jié)構(gòu)化及信息匹配等。
語義工廠實際應(yīng)用到具體場景中會產(chǎn)生什么效果?在教育領(lǐng)域,利用語義工廠輸出的服務(wù)實現(xiàn)在線閱卷,目前我們能夠處理的題型有名詞解釋題、簡答題以及翻譯題。實際上,通過我們在實際工作中的數(shù)據(jù)驗證,準(zhǔn)確率達到95%,很多場合中可以超過人工判卷的準(zhǔn)確率。在公安刑偵領(lǐng)域,可以從現(xiàn)場案件盤查的筆錄和報案文字筆錄中發(fā)現(xiàn)類似案件,實現(xiàn)串并案分析,實現(xiàn)以案找案、以案找人、以人找案等,提升公安刑偵工作效果。
我們希望為市場、客戶、合作伙伴提供人工智能、大數(shù)據(jù)的技術(shù)來實現(xiàn)業(yè)務(wù)創(chuàng)新,實現(xiàn)行業(yè)賦能的目標(biāo),希望讓自然語言處理技術(shù)真正落地。(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)