許閑閑 復(fù)旦大學(xué)經(jīng)濟(jì)學(xué)院
當(dāng)今的時(shí)代是人工智能的時(shí)代,隨著人們對(duì)信息整合和知識(shí)獲取的要求越來(lái)越高,傳統(tǒng)的數(shù)據(jù)處理方式已經(jīng)捉襟見肘。為了滿足人們希望能夠更加快速、準(zhǔn)確而又高效地獲取知識(shí)和信息的需求,無(wú)數(shù)的專家和學(xué)者對(duì)此進(jìn)行了研究,并建立了一套系統(tǒng)的知識(shí)表示理論。知識(shí)圖譜技術(shù)作為人工智能的重要基礎(chǔ),憑借其強(qiáng)大的語(yǔ)義信息處理能力及支持知識(shí)推理和分析的能力,近年來(lái)吸引了大量的關(guān)注。
知識(shí)圖譜這一概念最早由谷歌公司在2012年提出,谷歌公司希望利用這項(xiàng)技術(shù),使其現(xiàn)有的搜索引擎轉(zhuǎn)變?yōu)槟軌蚶斫庥脩糨斎胄畔⒌闹悄苤R(shí)引擎。知識(shí)圖譜本質(zhì)上是一種大規(guī)模語(yǔ)義網(wǎng)絡(luò),整個(gè)網(wǎng)絡(luò)由無(wú)數(shù)個(gè)節(jié)點(diǎn)和節(jié)點(diǎn)之間的連線組成,每個(gè)節(jié)點(diǎn)代表現(xiàn)實(shí)世界中的一個(gè)實(shí)體,而節(jié)點(diǎn)之間的連線則代表不同實(shí)體之間的關(guān)系(如圖1所示),一般采用SPO(Subject-Property-Object)的表示形式。實(shí)體不僅可以是某一實(shí)物,如電腦、吉他、足球、自行車等,也可以是某一概念集合,如地名、人名、性別、職業(yè)等。節(jié)點(diǎn)之間的連線則可以表示豐富的關(guān)系,如包含關(guān)系、先后關(guān)系、因果關(guān)系等,圖譜中的實(shí)體和實(shí)體之間的關(guān)系通常用三元組的形式表示。除此之外,還能夠給實(shí)體賦予各種屬性,這使得知識(shí)圖譜具有十分突出的知識(shí)表示能力。
知識(shí)圖譜種種優(yōu)異的性質(zhì)使得近年來(lái)無(wú)論是學(xué)界還是業(yè)界都對(duì)其表現(xiàn)出了濃厚的興趣,紛紛嘗試建立了一系列大規(guī)模通用知識(shí)圖譜。其中比較著名的有基于WordNet的YAGO,它包含了一百萬(wàn)個(gè)實(shí)體和超過五百萬(wàn)的關(guān)系;也有基于Wikipedia和專家知識(shí)的Freebase和DBpedia,兩者包含的實(shí)體個(gè)數(shù)均在千萬(wàn)級(jí)別;還有基于機(jī)器學(xué)習(xí)方法建立的Knowledge Vault,它由Google在2014年建立,至今已經(jīng)收錄了16億個(gè)事實(shí)三元組,并且具有高準(zhǔn)確率的三元組多達(dá)2.7億個(gè)。另外,各個(gè)細(xì)分的垂直領(lǐng)域也在如火如荼地建設(shè)適用于自身的知識(shí)圖譜。如影視領(lǐng)域的IMDB、音樂領(lǐng)域的MusicBrianZ、醫(yī)療領(lǐng)域的SIDER等。知識(shí)圖譜技術(shù)具有廣闊的應(yīng)用前景已經(jīng)逐漸成為了各行各業(yè)的共識(shí)。
保險(xiǎn)行業(yè)一直以來(lái)都注重將創(chuàng)新思維融入到傳統(tǒng)商業(yè)模式之中,所以知識(shí)圖譜這項(xiàng)極具潛力的技術(shù)早已在保險(xiǎn)業(yè)內(nèi)成為了炙手可熱的話題。但是由于目前相關(guān)技術(shù)尚不成熟、相關(guān)領(lǐng)域的復(fù)合型人才的匱乏以及技術(shù)與業(yè)務(wù)的契合點(diǎn)尚不明晰等原因,使得目前大多數(shù)保險(xiǎn)公司或者保險(xiǎn)科技初創(chuàng)公司在知識(shí)圖譜技術(shù)上的實(shí)踐僅僅停留在十分初級(jí)的階段,有些打出知識(shí)圖譜口號(hào)的也只是出于營(yíng)銷的目的。對(duì)此,本文擬站在保險(xiǎn)行業(yè)的角度思考如何構(gòu)建真正適用于保險(xiǎn)領(lǐng)域的知識(shí)圖譜,從而建立保險(xiǎn)行業(yè)知識(shí)點(diǎn)之間的關(guān)系,并在此基礎(chǔ)上探討知識(shí)圖譜在保險(xiǎn)行業(yè)的應(yīng)用前景,為我國(guó)保險(xiǎn)行業(yè)的發(fā)展提供資源支持。
?圖1 知識(shí)圖譜示例
?圖2 知識(shí)建模示例
知識(shí)圖譜的構(gòu)建是一個(gè)浩大的工程,一般認(rèn)為,通用領(lǐng)域的知識(shí)圖譜構(gòu)建主要分為六個(gè)步驟,分別是知識(shí)建模、知識(shí)抽取、知識(shí)融合、知識(shí)儲(chǔ)存、知識(shí)推理和知識(shí)更新,保險(xiǎn)行業(yè)的知識(shí)圖譜構(gòu)建同樣可以遵循這一流程。
知識(shí)建模就是在結(jié)合自身領(lǐng)域知識(shí)特征的基礎(chǔ)之上對(duì)知識(shí)圖譜進(jìn)行頂層設(shè)計(jì),構(gòu)建一個(gè)適用于特定領(lǐng)域的知識(shí)體系。這個(gè)過程需要設(shè)計(jì)者進(jìn)行細(xì)致的思考與探索,設(shè)計(jì)者要決定在未來(lái)構(gòu)建好的圖譜中應(yīng)該包含哪些實(shí)體和哪些概念,以及實(shí)體與實(shí)體、概念與概念之間存在何種關(guān)系,這是整個(gè)知識(shí)圖譜構(gòu)建的重要基石。在構(gòu)建保險(xiǎn)行業(yè)的知識(shí)圖譜時(shí),要從保險(xiǎn)行業(yè)自身的特征出發(fā)構(gòu)建其知識(shí)體系。從宏觀的角度來(lái)看,知識(shí)體系中囊括的信息越豐富、涵蓋的維度越多越好,諸如保險(xiǎn)公司、保險(xiǎn)產(chǎn)品、產(chǎn)品消費(fèi)者以及第三方機(jī)構(gòu)等不同的維度均可以考慮納入到圖譜之中(如圖2所示)。另一方面,從微觀的角度來(lái)看,有著不同需求的主體對(duì)知識(shí)體系有不同的偏好。比如對(duì)于保險(xiǎn)公司而言,涉及到保險(xiǎn)公司的知識(shí)體系可能并不是很重要,那么在設(shè)計(jì)整個(gè)圖譜的架構(gòu)時(shí),可以不考慮保險(xiǎn)公司維度的知識(shí)。這種有針對(duì)性的設(shè)計(jì),不僅能更好地契合圖譜使用主體的需求,還能夠簡(jiǎn)化后續(xù)圖譜建設(shè)和維護(hù)的工作量,節(jié)省更多的人力和資本。
知識(shí)抽取需要探討的是從哪些途徑、運(yùn)用何種技術(shù)提取到能夠納入知識(shí)圖譜中的結(jié)構(gòu)化數(shù)據(jù)。與其他領(lǐng)域一樣,保險(xiǎn)行業(yè)的基礎(chǔ)數(shù)據(jù)以三種形式存在,即結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。保險(xiǎn)公司和保險(xiǎn)行業(yè)其他機(jī)構(gòu)內(nèi)部數(shù)據(jù)庫(kù)中的數(shù)據(jù)多以結(jié)構(gòu)化的形式存在,半結(jié)構(gòu)化的數(shù)據(jù)是指以百科或者表格形式儲(chǔ)存的數(shù)據(jù),而非結(jié)構(gòu)化數(shù)據(jù)則是指以文檔形式存在的數(shù)據(jù)。知識(shí)圖譜的數(shù)據(jù)通常表示為一個(gè)三元組結(jié)構(gòu),即實(shí)體—關(guān)系—實(shí)體,或者實(shí)體—屬性—屬性值。如何將三種來(lái)源的數(shù)據(jù)表示為標(biāo)準(zhǔn)的三元組結(jié)構(gòu),這涉及到一系列復(fù)雜的計(jì)算機(jī)技術(shù)。對(duì)于結(jié)構(gòu)化數(shù)據(jù),即數(shù)據(jù)庫(kù)或知識(shí)庫(kù)數(shù)據(jù),將其轉(zhuǎn)化為三元組結(jié)構(gòu)相對(duì)比較容易,可以用D2RQ、D2R Server等工具直接轉(zhuǎn)換。對(duì)于半結(jié)構(gòu)化數(shù)據(jù),如原保監(jiān)會(huì)官網(wǎng)上以表格形式展現(xiàn)的保險(xiǎn)公司經(jīng)營(yíng)狀況等數(shù)據(jù),可以設(shè)計(jì)包裝器進(jìn)行數(shù)據(jù)提取。上述兩種數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)三元組的方法已經(jīng)相對(duì)成熟,現(xiàn)有的工具已經(jīng)能夠應(yīng)付大部分的知識(shí)抽取場(chǎng)景。而構(gòu)建知識(shí)圖譜的最大瓶頸在于非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化,例如類似于保險(xiǎn)產(chǎn)品條款中蘊(yùn)藏的關(guān)于產(chǎn)品的知識(shí),由于不同條款表述的多樣性和知識(shí)本身的復(fù)雜性,單純利用算法很難對(duì)各種概念和關(guān)系進(jìn)行識(shí)別和提取,因此往往需要人工參與整個(gè)抽取工作中。
通過上述步驟得到的原始三元組往往包含很多冗余、重復(fù)甚至錯(cuò)誤的信息,因此還需要進(jìn)行數(shù)據(jù)的整合,即知識(shí)融合。在一個(gè)未經(jīng)處理的原始圖譜中,實(shí)體重復(fù)、實(shí)體屬性缺失是常態(tài)。如“平安”“平安保險(xiǎn)”“平安集團(tuán)”等實(shí)體可能均指向同一實(shí)體,那么在圖譜中同時(shí)存在這些實(shí)體是不必要且浪費(fèi)資源的。對(duì)此可以采用一系列定量方法判定哪些實(shí)體是重復(fù)的、相互沖突的,之后再將這些實(shí)體整合為統(tǒng)一的形式。通常采用的方式是計(jì)算各個(gè)實(shí)體及其屬性的相似度,實(shí)體相似度的計(jì)算方法主要有聚合、聚類和表示學(xué)習(xí),而屬性相似度的計(jì)算方式大致有三種,分別是編輯距離計(jì)算、集合相似度計(jì)算和基于向量的相似度計(jì)算。一旦某些實(shí)體計(jì)算的相似度超過了某一閾值,那么可以將這些實(shí)體融合為同一實(shí)體。
由于知識(shí)圖譜特殊的數(shù)據(jù)表示方式,如何對(duì)其進(jìn)行有效的儲(chǔ)存和檢索也成為了研究的重點(diǎn)。目前知識(shí)圖譜的儲(chǔ)存方式主要有兩種,一種是基于表結(jié)構(gòu)的儲(chǔ)存,另一種是基于圖結(jié)構(gòu)的儲(chǔ)存。在諸多的解決方案中,最受關(guān)注的是圖數(shù)據(jù)庫(kù)Neo4j,Neo4j是一個(gè)嵌入式、基于磁盤的開源的圖數(shù)據(jù)庫(kù)系統(tǒng),它是在圖(網(wǎng)絡(luò))中而不是表格中存儲(chǔ)數(shù)據(jù)。Neo4j提供了大規(guī)??蓴U(kuò)展性,在一臺(tái)機(jī)器上可以處理數(shù)十億節(jié)點(diǎn)/關(guān)系/屬性的圖,可以擴(kuò)展到多臺(tái)機(jī)器并行運(yùn)行。相對(duì)于關(guān)系數(shù)據(jù)庫(kù)來(lái)說,圖數(shù)據(jù)庫(kù)善于處理大量復(fù)雜、相互連接、低結(jié)構(gòu)化的數(shù)據(jù),這些數(shù)據(jù)變化迅速,需要頻繁的查詢——在關(guān)系數(shù)據(jù)庫(kù)中,這些查詢會(huì)導(dǎo)致大量的表連接,因此會(huì)產(chǎn)生性能上的問題。Neo4j重點(diǎn)解決了擁有大量連接的傳統(tǒng)RDBMS在查詢時(shí)出現(xiàn)的性能衰退問題。通過圍繞圖進(jìn)行數(shù)據(jù)建模,Neo4j會(huì)以相同的速度遍歷節(jié)點(diǎn)與邊,其遍歷速度與構(gòu)成圖的數(shù)據(jù)量沒有任何關(guān)系。此外,Neo4j還提供了非??斓膱D算法、推薦系統(tǒng)和OLAP風(fēng)格的分析,而這一切在目前的RDBMS系統(tǒng)中都是無(wú)法實(shí)現(xiàn)的。
知識(shí)推理就是通過各種方法獲取新的知識(shí)或結(jié)論,并且這些知識(shí)和結(jié)論在事實(shí)上成立。對(duì)于知識(shí)圖譜而言,就是從圖譜中發(fā)現(xiàn)實(shí)體之間隱藏的關(guān)系或者實(shí)體的隱藏屬性。在構(gòu)建圖譜的過程中,會(huì)出現(xiàn)實(shí)體之間關(guān)系的缺失和實(shí)體屬性的缺失等情況,因此知識(shí)圖譜需要具備一定的知識(shí)推理能力來(lái)補(bǔ)充漏掉的實(shí)體、關(guān)系或者屬性。例如,有三個(gè)實(shí)體,分別是“張×”“王×”和“李×”,他們都購(gòu)買了“××保險(xiǎn)”,且有如下三元組關(guān)系,(張×,父子,王×)、(李×,朋友,王×)、(張×,居住,上海)以及(李×,居住,上海),那么圖譜應(yīng)該有判斷三元組(王×,居住,上海)成立的概率的能力,一旦這個(gè)概率超過了設(shè)定的閾值,就將該三元組納入圖譜中。知識(shí)推理技術(shù)使得構(gòu)建高質(zhì)量的大規(guī)模知識(shí)圖譜成為可能。
知識(shí)更新并不是一個(gè)單獨(dú)的工作,知識(shí)更新要做的就是把前五個(gè)工作進(jìn)行循環(huán)迭代,即知識(shí)體系更新、知識(shí)抽取更新、知識(shí)融合更新、知識(shí)儲(chǔ)存更新、知識(shí)推理更新的循環(huán)往復(fù)??偠灾?,知識(shí)更新就是要結(jié)合現(xiàn)實(shí)世界的情況,對(duì)已經(jīng)建立的保險(xiǎn)行業(yè)知識(shí)圖譜進(jìn)行實(shí)時(shí)更新以保持其有效性。
截至2019年6月,在中國(guó)共有3146個(gè)疾病保險(xiǎn)的主險(xiǎn)和附加險(xiǎn)備案條款。借助圖譜的技術(shù),我們可以綜合分析這3146款產(chǎn)品的特征。我們發(fā)現(xiàn),2009年主險(xiǎn)有66款,附加險(xiǎn)有396款。2009年數(shù)據(jù)較多的一個(gè)原因是那一年《保險(xiǎn)法》修改,保險(xiǎn)公司的很多條款需要重新報(bào)備。但是,我們?cè)倏?010年到2018年,主險(xiǎn)和附加險(xiǎn)的增速都是非??斓?。2018年,主險(xiǎn)有256個(gè),附加險(xiǎn)有224個(gè)。2018年的數(shù)據(jù)非常有趣,大家會(huì)發(fā)現(xiàn),如果從增速上看,2010年到2017年備案產(chǎn)品的數(shù)量是穩(wěn)步增長(zhǎng)的,但是2018年有幾款產(chǎn)品基本上翻倍了。究其原因,竟然與這一年上映的一部電影——《我不是藥神》相關(guān),這部電影的熱映引發(fā)的社會(huì)關(guān)注導(dǎo)致很多保險(xiǎn)公司在這一年開發(fā)了大量的疾病保險(xiǎn),也就是我們看到的這個(gè)時(shí)間節(jié)點(diǎn)上疾病保險(xiǎn)的總體趨勢(shì)是上升的,而且它跟一些特定的時(shí)間、特定政策的制定是密切相關(guān)的。
那么在這3146個(gè)險(xiǎn)種里,我們可以看到,2009年到2018年的各類疾病保險(xiǎn)中主險(xiǎn)的數(shù)量也在逐年增加。以目前市場(chǎng)上占比約百分之六十的重大疾病保險(xiǎn)為例,當(dāng)然,這個(gè)險(xiǎn)種結(jié)構(gòu)我們也可以從圖譜分析得出,我們發(fā)現(xiàn),這些疾病保險(xiǎn)針對(duì)的人群也很有趣。保險(xiǎn)公司在設(shè)計(jì)產(chǎn)品的時(shí)候,大部分保險(xiǎn)產(chǎn)品都是沒有特定針對(duì)群體的,這一類產(chǎn)品占到了87%。但是針對(duì)兒童的保險(xiǎn)產(chǎn)品占第二位,即現(xiàn)在的三千多個(gè)保險(xiǎn)中,有8%的產(chǎn)品是針對(duì)兒童的疾病保險(xiǎn),而針對(duì)女性的保險(xiǎn)產(chǎn)品占比是3%,針對(duì)學(xué)生的保險(xiǎn)產(chǎn)品占比是1%,針對(duì)老年人的保險(xiǎn)產(chǎn)品占比是1%。這也就是說,我們的市場(chǎng)上兒童保險(xiǎn)產(chǎn)品已經(jīng)有很多,而老年保險(xiǎn)產(chǎn)品并不充足,未來(lái)我們可以給老年人群體開發(fā)更多的相關(guān)保險(xiǎn)產(chǎn)品,這個(gè)數(shù)據(jù)其實(shí)對(duì)業(yè)界也有很大啟發(fā)。
就行業(yè)的平均數(shù)據(jù)而言,整個(gè)知識(shí)圖譜顯示,現(xiàn)在有88家財(cái)產(chǎn)保險(xiǎn)或者人身保險(xiǎn)公司擁有疾病保險(xiǎn)產(chǎn)品,平均每一家保險(xiǎn)公司擁有35.75個(gè)主險(xiǎn)或者附加險(xiǎn)的疾病保險(xiǎn)產(chǎn)品。那么在這88家公司所銷售的三千多份疾病保險(xiǎn)產(chǎn)品中,我們通過做保單的責(zé)任提取發(fā)現(xiàn),這一類產(chǎn)品有九個(gè)主要的保險(xiǎn)責(zé)任,包括重大疾病保障、中癥、輕癥等,另外還有特定疾病的保障、醫(yī)療保障、住院津貼保障、身故保障、全殘保障、長(zhǎng)期護(hù)理保障等。我相信,可能很多人會(huì)跟我一樣覺得迷惑,十年前的保險(xiǎn)責(zé)任其實(shí)都沒有那么復(fù)雜,而現(xiàn)在一個(gè)條款里包含這么九類保險(xiǎn)責(zé)任,而且這已經(jīng)成為保險(xiǎn)業(yè)內(nèi)的一個(gè)常態(tài),那么這九類保險(xiǎn)責(zé)任在目前的保單里是怎樣分布的呢?圖譜顯示,其實(shí)平均的保單責(zé)任呈現(xiàn)逐年遞增的趨勢(shì)。2017年之前,保單責(zé)任里只包含重癥和輕癥,2017年,保單責(zé)任里開始出現(xiàn)一些中癥的疾病,而重癥的數(shù)量在整個(gè)保單責(zé)任中逐漸下降,輕癥和中癥一直在增加。這意味著隨著保險(xiǎn)產(chǎn)品的發(fā)展和更新,其所包含的疾病責(zé)任也在不斷地調(diào)整,一些疾病可能在疾病庫(kù)的擴(kuò)容過程中慢慢地變多,一些疾病慢慢由原來(lái)的重癥變成中癥甚至輕癥,同時(shí)也有一些新的疾病會(huì)增加進(jìn)疾病庫(kù)中來(lái)。
猶豫期也得到一個(gè)很有趣的結(jié)論。借助知識(shí)圖譜,我們比較容易地知道整個(gè)行業(yè)的保險(xiǎn)條款狀況及其發(fā)展趨勢(shì)。我們發(fā)現(xiàn),在這三千多個(gè)條款中,71%的條款規(guī)定的猶豫期是十天,23%規(guī)定的猶豫期是十五天,4%規(guī)定的猶豫期是二十天。2009年至2013年間,市場(chǎng)上所有的重疾險(xiǎn)規(guī)定的猶豫期都是十天,2014年以后開始有很多保單將猶豫期擴(kuò)展到十五天,2016年市場(chǎng)上開始出現(xiàn)一些新的產(chǎn)品,其猶豫期擴(kuò)展到了二十天。2013年以后,猶豫期慢慢變得越來(lái)越長(zhǎng)了,這意味著我們的保險(xiǎn)消費(fèi)者權(quán)益保護(hù)工作越來(lái)越重要,效果越來(lái)越好。
以上分享是我們的一些原創(chuàng)性工作,這里面我相信會(huì)有非常多的不足,我們做這個(gè)研究是希望給行業(yè)呈現(xiàn)一套方法、一套數(shù)據(jù)和一項(xiàng)技術(shù)。我們希望未來(lái)保險(xiǎn)公司可以借鑒這些經(jīng)驗(yàn)進(jìn)一步拓展科技在保險(xiǎn)行業(yè)的運(yùn)用,行業(yè)能夠走得更遠(yuǎn)更好。