本刊記者/王盈
星光數(shù)據(jù):文本大數(shù)據(jù)的價(jià)值挖掘
本刊記者/王盈
文本數(shù)據(jù)應(yīng)用需要思考如何實(shí)現(xiàn)商業(yè)模式的突破,這也是大數(shù)據(jù)發(fā)展的關(guān)鍵。目前的文本大數(shù)據(jù)比較好的出路就是APP新聞推薦,其商業(yè)模式的突破在于它賣的不是信息服務(wù)費(fèi),而全是廣告費(fèi)。
北京智慧星光信息技術(shù)有限公司董事長(zhǎng) 李青龍
我們?nèi)缃裆钤谝粋€(gè)“大數(shù)據(jù)時(shí)代”,政府、企業(yè)、個(gè)人每天都在制造海量數(shù)據(jù),文本大數(shù)據(jù)應(yīng)運(yùn)而生,越來(lái)越多的文本技術(shù)公司開始投身到這片藍(lán)海之中,挖掘藏在數(shù)據(jù)中的價(jià)值。北京智慧星光信息技術(shù)有限公司董事長(zhǎng)李青龍認(rèn)為,在大數(shù)據(jù)分析中,這類數(shù)據(jù)雖然至關(guān)重要,但如何大規(guī)模對(duì)這些數(shù)據(jù)進(jìn)行最有效地分析還較為模糊,目前我國(guó)絕大多數(shù)的數(shù)據(jù)分析公司尚不具備對(duì)其分析的能力。
當(dāng)下“數(shù)據(jù)”的概念也發(fā)生了巨大變化。過(guò)去似乎只有電子表單上那些數(shù)值型信息,才可以被稱為“數(shù)據(jù)”,但現(xiàn)在的“數(shù)據(jù)”可以是網(wǎng)絡(luò)上任何的非結(jié)構(gòu)化信息。
對(duì)此,李青龍進(jìn)行了詳細(xì)介紹:“數(shù)據(jù)分為兩類:一類是結(jié)構(gòu)化數(shù)據(jù),是可計(jì)算、可統(tǒng)計(jì)、可分析的數(shù)據(jù),統(tǒng)計(jì)學(xué)、運(yùn)籌學(xué)等學(xué)科都是在解決結(jié)構(gòu)化數(shù)據(jù)的問(wèn)題。經(jīng)過(guò)多年的發(fā)展,業(yè)界已經(jīng)做了大量的積累,對(duì)于數(shù)據(jù)的獲取、存儲(chǔ)、處理、檢索等,已經(jīng)具備了相當(dāng)多的技術(shù)儲(chǔ)備,難以再有大的突破;另一類是非結(jié)構(gòu)化數(shù)據(jù),即以文本為核心的文本、圖片、視頻等,表現(xiàn)的特征是碎片式,不可統(tǒng)計(jì)、不可計(jì)算、不可分析,這些特點(diǎn)賦予了文本數(shù)據(jù)巨大的價(jià)值??梢岳斫鉃椋瑢?duì)文本等非結(jié)構(gòu)化數(shù)據(jù)的分析比數(shù)值型這類結(jié)構(gòu)化數(shù)據(jù)的分析更為重要?!?/p>
對(duì)于非結(jié)構(gòu)化的大數(shù)據(jù),特別是文本大數(shù)據(jù),業(yè)界正在持續(xù)加大投入。
同時(shí),隨著硬件設(shè)備的提升,使得硬件設(shè)備處理非結(jié)構(gòu)化數(shù)據(jù)量遠(yuǎn)遠(yuǎn)高于結(jié)構(gòu)化數(shù)據(jù)量,兩者比例約為9:1。由此也可看出,文本等非結(jié)構(gòu)化數(shù)據(jù)中蘊(yùn)含著非常大的價(jià)值。
智慧星光的定位是全球領(lǐng)先的文本大數(shù)據(jù)服務(wù)商,即立足于文本的數(shù)據(jù)化提供各類服務(wù)?!拔覀冎饕姆?wù)內(nèi)容分為兩個(gè):一是實(shí)現(xiàn)信息對(duì)稱。要實(shí)現(xiàn)信息對(duì)稱,首先要在第一時(shí)間獲取數(shù)據(jù),并且是全量的數(shù)據(jù),才是數(shù)據(jù)挖掘的根本。再把文本等非結(jié)構(gòu)化數(shù)據(jù),通過(guò)數(shù)據(jù)化處理轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),只有成為可統(tǒng)計(jì)、可計(jì)算、可分析的數(shù)據(jù),才能實(shí)現(xiàn)信息對(duì)稱;二是挖掘文本數(shù)據(jù)的價(jià)值。通過(guò)各種創(chuàng)新的分析工具和手段,將其整合為有價(jià)值的分析結(jié)果。”李青龍如是說(shuō)。
在實(shí)際生活中,文本信息多是用于查看,結(jié)構(gòu)化或言之?dāng)?shù)據(jù)化處理的工作多是由大中型企業(yè)交給市場(chǎng)調(diào)查公司、公關(guān)公司等機(jī)構(gòu)完成,由其制作調(diào)查問(wèn)卷,然后對(duì)它賦予數(shù)據(jù),最后根據(jù)數(shù)據(jù)統(tǒng)計(jì)出結(jié)果,形成分析報(bào)告。此類公司提供的一般都是數(shù)據(jù)列表,是較淺層次的統(tǒng)計(jì)結(jié)果,因此價(jià)值比較小。此外,文本數(shù)據(jù)雖潛藏著巨大的價(jià)值,但囿于當(dāng)前的計(jì)算方法和硬件設(shè)備,其價(jià)值還未得到充分地發(fā)掘??梢哉f(shuō),目前無(wú)論國(guó)際還是國(guó)內(nèi),文本數(shù)據(jù)的應(yīng)用都才剛剛起步。
圖 星光數(shù)據(jù)服務(wù)平臺(tái)
文本處理尤其是中文文本處理的核心在于:一是建索引進(jìn)行搜索;二是分詞,提高準(zhǔn)確度。李青龍表示,“我們未來(lái)會(huì)向信息對(duì)稱方向聚焦。而我們的日常生活和互聯(lián)網(wǎng)之間隔著一堵無(wú)形的墻,造成了信息的不對(duì)稱。通常而言,我們每天能獲得信息的渠道包括各種搜索、各類網(wǎng)站和社交媒體。如果我就想關(guān)注某類事件,關(guān)于它的所有信息被淹沒(méi)在互聯(lián)網(wǎng)的汪洋大海里。”
為此,李青龍認(rèn)為:“我們需要建立一種機(jī)制,用工具和方法打通信息通道,在打通的過(guò)程中,傳統(tǒng)文本搜索常用的索引和分詞使其效率大大降低,必須創(chuàng)新方法?!?/p>
“只要有索引和分詞,大數(shù)據(jù)在整個(gè)體系中就施展不開?!崩钋帻埮e例說(shuō):“百度大數(shù)據(jù)的價(jià)值并未發(fā)揮,原因就在于百度的價(jià)值仍局限于是搜索入口,大家都在上面做廣告,而為它的大數(shù)據(jù)價(jià)值買單的少之又少。另外,百度對(duì)非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化處理程度仍處于淺層次,目前只對(duì)新聞進(jìn)行了結(jié)構(gòu)化處理。而百度網(wǎng)頁(yè)沒(méi)有進(jìn)行深度的結(jié)構(gòu)化處理,因?yàn)榫W(wǎng)頁(yè)中的數(shù)據(jù)量太大了,無(wú)法實(shí)現(xiàn)深度結(jié)構(gòu)化。這些因素造成百度文本大數(shù)據(jù)的價(jià)值尚未真正發(fā)揮。”
智慧星光的理念是“極致、極簡(jiǎn)、創(chuàng)新”。李青龍解釋道,“極致就是只要有相關(guān)的內(nèi)容馬上就能精準(zhǔn)獲得,這要求對(duì)中間環(huán)節(jié)進(jìn)行簡(jiǎn)化處理,于是,我們大膽提出去分詞。通過(guò)長(zhǎng)期積累,我們建立了一個(gè)以‘效率優(yōu)先,精準(zhǔn)優(yōu)化'為原則的反向分詞詞庫(kù)?!?/p>
傳統(tǒng)的分詞系統(tǒng)雖然也可以解決這個(gè)問(wèn)題,但需要把文章全文全部分詞,1000字的文章能夠分出1000~2000個(gè)詞來(lái),這就意味著要分詞后才能對(duì)應(yīng)用戶的關(guān)鍵詞?!暗ǔN覀?cè)陉P(guān)注一篇文章時(shí),只關(guān)注幾個(gè)詞,因此對(duì)那幾個(gè)詞使用反向詞庫(kù)就夠了。反向詞庫(kù)比傳統(tǒng)分詞的效率提高逾1000倍,這樣的效率意味著我們能夠?qū)崿F(xiàn)零時(shí)延,這就解決了系統(tǒng)越大越慢的問(wèn)題,系統(tǒng)再大也不會(huì)慢?!崩钋帻埲缡钦f(shuō)。
隨著“互聯(lián)網(wǎng)+”時(shí)代的到來(lái),互聯(lián)網(wǎng)正迅速融入于各行各業(yè)。對(duì)于擁有全球人數(shù)最多網(wǎng)民的中國(guó),更廣泛的網(wǎng)絡(luò)參與也帶來(lái)更多的互聯(lián)網(wǎng)數(shù)據(jù)和更全面的輿情內(nèi)容。面對(duì)互聯(lián)網(wǎng)上的海量信息,如何能做到準(zhǔn)確獲取、實(shí)時(shí)監(jiān)控、合理分析、綜合研判、定向?qū)Э?,是擺在輿情工作者面前的重要問(wèn)題。
李青龍表示,輿情是文本大數(shù)據(jù)典型的應(yīng)用,其特征之一是,客戶可以清楚地告知需求。而傳統(tǒng)索引的方式其實(shí)的應(yīng)用是不知道客戶的需求,因此需要建全詞量的索引,但是內(nèi)容非常復(fù)雜。而當(dāng)客戶可以清楚地告知需求,系統(tǒng)就可以把計(jì)算前置化,因此能輸出更好的結(jié)果。
李青龍把輿情公司分為三代:第一代為系統(tǒng)集成和軟件開發(fā)公司,第二代是提供傳統(tǒng)SaaS服務(wù)的公司,第三代是文本大數(shù)據(jù)應(yīng)用的創(chuàng)新型公司。系統(tǒng)集成公司就是在系統(tǒng)集中加入軟件開發(fā),根據(jù)客戶進(jìn)行項(xiàng)目定制開發(fā),形成輿情系統(tǒng),這種輿情的最大缺點(diǎn)就是數(shù)據(jù)質(zhì)量差。
2009年,SaaS在全球興起,一些公司很好的實(shí)現(xiàn)了轉(zhuǎn)型,有些公司轉(zhuǎn)型時(shí)卻跑離了軌道,仍采用系統(tǒng)集成和軟件開發(fā)的方法,未能真正解決輿情問(wèn)題?!爱?dāng)時(shí)我告誡團(tuán)隊(duì)做項(xiàng)目不要只圖一時(shí)之快,要堅(jiān)定把SaaS模式下的輿情監(jiān)測(cè)系統(tǒng)做下去,在數(shù)據(jù)質(zhì)量上超越別人。為此,我們投巨資建設(shè)了一個(gè)高標(biāo)準(zhǔn)的智能化信息采集和處理平臺(tái),為客戶大大降低了成本,同時(shí)在信息的及時(shí)性、全面性、精確性方面滿足客戶的需求。目前,我們Saas平臺(tái)服務(wù)1.5萬(wàn)多客戶,付費(fèi)用戶超過(guò)2000個(gè)?!?/p>
社會(huì)對(duì)互聯(lián)網(wǎng)輿情的關(guān)注程度也越來(lái)越高,與之相對(duì)應(yīng)的處理方式也產(chǎn)生了相應(yīng)的變化,從最初的不甚關(guān)注,到人工手動(dòng)搜索處理、外包處理、系統(tǒng)處理,目前發(fā)展為專業(yè)技術(shù)服務(wù)團(tuán)隊(duì)的托管服務(wù),輿情監(jiān)測(cè)經(jīng)歷了階梯式的發(fā)展。
對(duì)此,李青龍表示,“未來(lái),智慧星光將把握發(fā)展機(jī)遇,進(jìn)一步完善輿情監(jiān)測(cè)系統(tǒng),不斷尋求創(chuàng)新突破。”
圖 智慧星光數(shù)據(jù)分析模型
任何行業(yè)發(fā)展都會(huì)有瓶頸期,大數(shù)據(jù)也不例外。李青龍直言,目前的文本大數(shù)據(jù)比較好的出路就是APP新聞推薦,其商業(yè)模式的突破在于它賣的不是信息服務(wù)費(fèi),而全是廣告費(fèi),雖然面向的是C端,但付費(fèi)的是B端。對(duì)此,李青龍指出,“文本數(shù)據(jù)應(yīng)用需要思考如何實(shí)現(xiàn)商業(yè)模式的突破,這也是大數(shù)據(jù)發(fā)展的關(guān)鍵?!?/p>
大數(shù)據(jù)的作用和方向體現(xiàn)在兩方面:
第一、監(jiān)測(cè)。各種大數(shù)據(jù)工具、物聯(lián)網(wǎng)都是在監(jiān)測(cè)和發(fā)現(xiàn)問(wèn)題,這是大數(shù)據(jù)的典型特點(diǎn)。
第二、預(yù)測(cè)。大數(shù)據(jù)有可能顛覆各個(gè)行業(yè),但只是有可能,需要的周期可能很長(zhǎng)。
“比如我們現(xiàn)在體檢都要去現(xiàn)場(chǎng)排號(hào),如果通過(guò)鞋子或體內(nèi)的小機(jī)器人采集所有的健康數(shù)據(jù),直接能看到自己的體檢報(bào)告,這就可能取代傳統(tǒng)的體檢模式?!崩钋帻埿蜗蟮嘏e例說(shuō)。
李青龍認(rèn)為,目前大數(shù)據(jù)采集、處理、分析、應(yīng)用等的標(biāo)準(zhǔn)化產(chǎn)品的最大價(jià)值包括兩個(gè)層面:
一是效率提升。以往,要由人工提升效率,而大數(shù)據(jù)在一定意義上實(shí)現(xiàn)了人工智能化,這是大數(shù)據(jù)最大的價(jià)值。如以前需要幾個(gè)人不間斷地在各處做搜索、輿情監(jiān)測(cè)等工作,現(xiàn)在通過(guò)大數(shù)據(jù)技術(shù)可能只需要半個(gè)人。用戶打開手機(jī)客戶端,重要的信息直接推送顯示,節(jié)省了70~80%的人工工作,這就是效率的價(jià)值。
二是效果可查。對(duì)每天看的信息定性、定量的操作和分析。
據(jù)國(guó)際數(shù)據(jù)公司(IDC)在2011年的調(diào)查顯示,今后十年,非結(jié)構(gòu)化數(shù)據(jù)將占互聯(lián)網(wǎng)總數(shù)據(jù)的90%,是一個(gè)尚未得到充分開發(fā)的“信息金礦”。
對(duì)此,李青龍暢言:“我們相信,在未來(lái)的大數(shù)據(jù)分析技術(shù)中,非結(jié)構(gòu)化數(shù)據(jù)分析技術(shù)將逐漸取代傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)分析技術(shù),我們將通過(guò)海量的數(shù)據(jù)分析,來(lái)讓企業(yè)應(yīng)對(duì)更為復(fù)雜的商業(yè)模型,從而替企業(yè)提高市場(chǎng)洞察力并創(chuàng)造價(jià)值?!?/p>