亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        星光數(shù)據(jù):文本大數(shù)據(jù)的價(jià)值挖掘

        2016-12-09 05:23:47王盈
        軟件和集成電路 2016年11期
        關(guān)鍵詞:青龍分詞星光

        本刊記者/王盈

        星光數(shù)據(jù):文本大數(shù)據(jù)的價(jià)值挖掘

        本刊記者/王盈

        文本數(shù)據(jù)應(yīng)用需要思考如何實(shí)現(xiàn)商業(yè)模式的突破,這也是大數(shù)據(jù)發(fā)展的關(guān)鍵。目前的文本大數(shù)據(jù)比較好的出路就是APP新聞推薦,其商業(yè)模式的突破在于它賣的不是信息服務(wù)費(fèi),而全是廣告費(fèi)。

        北京智慧星光信息技術(shù)有限公司董事長(zhǎng) 李青龍

        我們?nèi)缃裆钤谝粋€(gè)“大數(shù)據(jù)時(shí)代”,政府、企業(yè)、個(gè)人每天都在制造海量數(shù)據(jù),文本大數(shù)據(jù)應(yīng)運(yùn)而生,越來(lái)越多的文本技術(shù)公司開始投身到這片藍(lán)海之中,挖掘藏在數(shù)據(jù)中的價(jià)值。北京智慧星光信息技術(shù)有限公司董事長(zhǎng)李青龍認(rèn)為,在大數(shù)據(jù)分析中,這類數(shù)據(jù)雖然至關(guān)重要,但如何大規(guī)模對(duì)這些數(shù)據(jù)進(jìn)行最有效地分析還較為模糊,目前我國(guó)絕大多數(shù)的數(shù)據(jù)分析公司尚不具備對(duì)其分析的能力。

        第一時(shí)間挖掘全量數(shù)據(jù)是根本

        當(dāng)下“數(shù)據(jù)”的概念也發(fā)生了巨大變化。過(guò)去似乎只有電子表單上那些數(shù)值型信息,才可以被稱為“數(shù)據(jù)”,但現(xiàn)在的“數(shù)據(jù)”可以是網(wǎng)絡(luò)上任何的非結(jié)構(gòu)化信息。

        對(duì)此,李青龍進(jìn)行了詳細(xì)介紹:“數(shù)據(jù)分為兩類:一類是結(jié)構(gòu)化數(shù)據(jù),是可計(jì)算、可統(tǒng)計(jì)、可分析的數(shù)據(jù),統(tǒng)計(jì)學(xué)、運(yùn)籌學(xué)等學(xué)科都是在解決結(jié)構(gòu)化數(shù)據(jù)的問(wèn)題。經(jīng)過(guò)多年的發(fā)展,業(yè)界已經(jīng)做了大量的積累,對(duì)于數(shù)據(jù)的獲取、存儲(chǔ)、處理、檢索等,已經(jīng)具備了相當(dāng)多的技術(shù)儲(chǔ)備,難以再有大的突破;另一類是非結(jié)構(gòu)化數(shù)據(jù),即以文本為核心的文本、圖片、視頻等,表現(xiàn)的特征是碎片式,不可統(tǒng)計(jì)、不可計(jì)算、不可分析,這些特點(diǎn)賦予了文本數(shù)據(jù)巨大的價(jià)值??梢岳斫鉃椋瑢?duì)文本等非結(jié)構(gòu)化數(shù)據(jù)的分析比數(shù)值型這類結(jié)構(gòu)化數(shù)據(jù)的分析更為重要?!?/p>

        對(duì)于非結(jié)構(gòu)化的大數(shù)據(jù),特別是文本大數(shù)據(jù),業(yè)界正在持續(xù)加大投入。

        同時(shí),隨著硬件設(shè)備的提升,使得硬件設(shè)備處理非結(jié)構(gòu)化數(shù)據(jù)量遠(yuǎn)遠(yuǎn)高于結(jié)構(gòu)化數(shù)據(jù)量,兩者比例約為9:1。由此也可看出,文本等非結(jié)構(gòu)化數(shù)據(jù)中蘊(yùn)含著非常大的價(jià)值。

        智慧星光的定位是全球領(lǐng)先的文本大數(shù)據(jù)服務(wù)商,即立足于文本的數(shù)據(jù)化提供各類服務(wù)?!拔覀冎饕姆?wù)內(nèi)容分為兩個(gè):一是實(shí)現(xiàn)信息對(duì)稱。要實(shí)現(xiàn)信息對(duì)稱,首先要在第一時(shí)間獲取數(shù)據(jù),并且是全量的數(shù)據(jù),才是數(shù)據(jù)挖掘的根本。再把文本等非結(jié)構(gòu)化數(shù)據(jù),通過(guò)數(shù)據(jù)化處理轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),只有成為可統(tǒng)計(jì)、可計(jì)算、可分析的數(shù)據(jù),才能實(shí)現(xiàn)信息對(duì)稱;二是挖掘文本數(shù)據(jù)的價(jià)值。通過(guò)各種創(chuàng)新的分析工具和手段,將其整合為有價(jià)值的分析結(jié)果。”李青龍如是說(shuō)。

        在實(shí)際生活中,文本信息多是用于查看,結(jié)構(gòu)化或言之?dāng)?shù)據(jù)化處理的工作多是由大中型企業(yè)交給市場(chǎng)調(diào)查公司、公關(guān)公司等機(jī)構(gòu)完成,由其制作調(diào)查問(wèn)卷,然后對(duì)它賦予數(shù)據(jù),最后根據(jù)數(shù)據(jù)統(tǒng)計(jì)出結(jié)果,形成分析報(bào)告。此類公司提供的一般都是數(shù)據(jù)列表,是較淺層次的統(tǒng)計(jì)結(jié)果,因此價(jià)值比較小。此外,文本數(shù)據(jù)雖潛藏著巨大的價(jià)值,但囿于當(dāng)前的計(jì)算方法和硬件設(shè)備,其價(jià)值還未得到充分地發(fā)掘??梢哉f(shuō),目前無(wú)論國(guó)際還是國(guó)內(nèi),文本數(shù)據(jù)的應(yīng)用都才剛剛起步。

        圖 星光數(shù)據(jù)服務(wù)平臺(tái)

        反向分詞:極致、極簡(jiǎn)、創(chuàng)新

        文本處理尤其是中文文本處理的核心在于:一是建索引進(jìn)行搜索;二是分詞,提高準(zhǔn)確度。李青龍表示,“我們未來(lái)會(huì)向信息對(duì)稱方向聚焦。而我們的日常生活和互聯(lián)網(wǎng)之間隔著一堵無(wú)形的墻,造成了信息的不對(duì)稱。通常而言,我們每天能獲得信息的渠道包括各種搜索、各類網(wǎng)站和社交媒體。如果我就想關(guān)注某類事件,關(guān)于它的所有信息被淹沒(méi)在互聯(lián)網(wǎng)的汪洋大海里。”

        為此,李青龍認(rèn)為:“我們需要建立一種機(jī)制,用工具和方法打通信息通道,在打通的過(guò)程中,傳統(tǒng)文本搜索常用的索引和分詞使其效率大大降低,必須創(chuàng)新方法?!?/p>

        “只要有索引和分詞,大數(shù)據(jù)在整個(gè)體系中就施展不開?!崩钋帻埮e例說(shuō):“百度大數(shù)據(jù)的價(jià)值并未發(fā)揮,原因就在于百度的價(jià)值仍局限于是搜索入口,大家都在上面做廣告,而為它的大數(shù)據(jù)價(jià)值買單的少之又少。另外,百度對(duì)非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化處理程度仍處于淺層次,目前只對(duì)新聞進(jìn)行了結(jié)構(gòu)化處理。而百度網(wǎng)頁(yè)沒(méi)有進(jìn)行深度的結(jié)構(gòu)化處理,因?yàn)榫W(wǎng)頁(yè)中的數(shù)據(jù)量太大了,無(wú)法實(shí)現(xiàn)深度結(jié)構(gòu)化。這些因素造成百度文本大數(shù)據(jù)的價(jià)值尚未真正發(fā)揮。”

        智慧星光的理念是“極致、極簡(jiǎn)、創(chuàng)新”。李青龍解釋道,“極致就是只要有相關(guān)的內(nèi)容馬上就能精準(zhǔn)獲得,這要求對(duì)中間環(huán)節(jié)進(jìn)行簡(jiǎn)化處理,于是,我們大膽提出去分詞。通過(guò)長(zhǎng)期積累,我們建立了一個(gè)以‘效率優(yōu)先,精準(zhǔn)優(yōu)化'為原則的反向分詞詞庫(kù)?!?/p>

        傳統(tǒng)的分詞系統(tǒng)雖然也可以解決這個(gè)問(wèn)題,但需要把文章全文全部分詞,1000字的文章能夠分出1000~2000個(gè)詞來(lái),這就意味著要分詞后才能對(duì)應(yīng)用戶的關(guān)鍵詞?!暗ǔN覀?cè)陉P(guān)注一篇文章時(shí),只關(guān)注幾個(gè)詞,因此對(duì)那幾個(gè)詞使用反向詞庫(kù)就夠了。反向詞庫(kù)比傳統(tǒng)分詞的效率提高逾1000倍,這樣的效率意味著我們能夠?qū)崿F(xiàn)零時(shí)延,這就解決了系統(tǒng)越大越慢的問(wèn)題,系統(tǒng)再大也不會(huì)慢?!崩钋帻埲缡钦f(shuō)。

        輿情監(jiān)測(cè):贏在數(shù)據(jù)質(zhì)量

        隨著“互聯(lián)網(wǎng)+”時(shí)代的到來(lái),互聯(lián)網(wǎng)正迅速融入于各行各業(yè)。對(duì)于擁有全球人數(shù)最多網(wǎng)民的中國(guó),更廣泛的網(wǎng)絡(luò)參與也帶來(lái)更多的互聯(lián)網(wǎng)數(shù)據(jù)和更全面的輿情內(nèi)容。面對(duì)互聯(lián)網(wǎng)上的海量信息,如何能做到準(zhǔn)確獲取、實(shí)時(shí)監(jiān)控、合理分析、綜合研判、定向?qū)Э?,是擺在輿情工作者面前的重要問(wèn)題。

        李青龍表示,輿情是文本大數(shù)據(jù)典型的應(yīng)用,其特征之一是,客戶可以清楚地告知需求。而傳統(tǒng)索引的方式其實(shí)的應(yīng)用是不知道客戶的需求,因此需要建全詞量的索引,但是內(nèi)容非常復(fù)雜。而當(dāng)客戶可以清楚地告知需求,系統(tǒng)就可以把計(jì)算前置化,因此能輸出更好的結(jié)果。

        李青龍把輿情公司分為三代:第一代為系統(tǒng)集成和軟件開發(fā)公司,第二代是提供傳統(tǒng)SaaS服務(wù)的公司,第三代是文本大數(shù)據(jù)應(yīng)用的創(chuàng)新型公司。系統(tǒng)集成公司就是在系統(tǒng)集中加入軟件開發(fā),根據(jù)客戶進(jìn)行項(xiàng)目定制開發(fā),形成輿情系統(tǒng),這種輿情的最大缺點(diǎn)就是數(shù)據(jù)質(zhì)量差。

        2009年,SaaS在全球興起,一些公司很好的實(shí)現(xiàn)了轉(zhuǎn)型,有些公司轉(zhuǎn)型時(shí)卻跑離了軌道,仍采用系統(tǒng)集成和軟件開發(fā)的方法,未能真正解決輿情問(wèn)題?!爱?dāng)時(shí)我告誡團(tuán)隊(duì)做項(xiàng)目不要只圖一時(shí)之快,要堅(jiān)定把SaaS模式下的輿情監(jiān)測(cè)系統(tǒng)做下去,在數(shù)據(jù)質(zhì)量上超越別人。為此,我們投巨資建設(shè)了一個(gè)高標(biāo)準(zhǔn)的智能化信息采集和處理平臺(tái),為客戶大大降低了成本,同時(shí)在信息的及時(shí)性、全面性、精確性方面滿足客戶的需求。目前,我們Saas平臺(tái)服務(wù)1.5萬(wàn)多客戶,付費(fèi)用戶超過(guò)2000個(gè)?!?/p>

        社會(huì)對(duì)互聯(lián)網(wǎng)輿情的關(guān)注程度也越來(lái)越高,與之相對(duì)應(yīng)的處理方式也產(chǎn)生了相應(yīng)的變化,從最初的不甚關(guān)注,到人工手動(dòng)搜索處理、外包處理、系統(tǒng)處理,目前發(fā)展為專業(yè)技術(shù)服務(wù)團(tuán)隊(duì)的托管服務(wù),輿情監(jiān)測(cè)經(jīng)歷了階梯式的發(fā)展。

        對(duì)此,李青龍表示,“未來(lái),智慧星光將把握發(fā)展機(jī)遇,進(jìn)一步完善輿情監(jiān)測(cè)系統(tǒng),不斷尋求創(chuàng)新突破。”

        圖 智慧星光數(shù)據(jù)分析模型

        商業(yè)模式的突破是關(guān)鍵

        任何行業(yè)發(fā)展都會(huì)有瓶頸期,大數(shù)據(jù)也不例外。李青龍直言,目前的文本大數(shù)據(jù)比較好的出路就是APP新聞推薦,其商業(yè)模式的突破在于它賣的不是信息服務(wù)費(fèi),而全是廣告費(fèi),雖然面向的是C端,但付費(fèi)的是B端。對(duì)此,李青龍指出,“文本數(shù)據(jù)應(yīng)用需要思考如何實(shí)現(xiàn)商業(yè)模式的突破,這也是大數(shù)據(jù)發(fā)展的關(guān)鍵?!?/p>

        大數(shù)據(jù)的作用和方向體現(xiàn)在兩方面:

        第一、監(jiān)測(cè)。各種大數(shù)據(jù)工具、物聯(lián)網(wǎng)都是在監(jiān)測(cè)和發(fā)現(xiàn)問(wèn)題,這是大數(shù)據(jù)的典型特點(diǎn)。

        第二、預(yù)測(cè)。大數(shù)據(jù)有可能顛覆各個(gè)行業(yè),但只是有可能,需要的周期可能很長(zhǎng)。

        “比如我們現(xiàn)在體檢都要去現(xiàn)場(chǎng)排號(hào),如果通過(guò)鞋子或體內(nèi)的小機(jī)器人采集所有的健康數(shù)據(jù),直接能看到自己的體檢報(bào)告,這就可能取代傳統(tǒng)的體檢模式?!崩钋帻埿蜗蟮嘏e例說(shuō)。

        李青龍認(rèn)為,目前大數(shù)據(jù)采集、處理、分析、應(yīng)用等的標(biāo)準(zhǔn)化產(chǎn)品的最大價(jià)值包括兩個(gè)層面:

        一是效率提升。以往,要由人工提升效率,而大數(shù)據(jù)在一定意義上實(shí)現(xiàn)了人工智能化,這是大數(shù)據(jù)最大的價(jià)值。如以前需要幾個(gè)人不間斷地在各處做搜索、輿情監(jiān)測(cè)等工作,現(xiàn)在通過(guò)大數(shù)據(jù)技術(shù)可能只需要半個(gè)人。用戶打開手機(jī)客戶端,重要的信息直接推送顯示,節(jié)省了70~80%的人工工作,這就是效率的價(jià)值。

        二是效果可查。對(duì)每天看的信息定性、定量的操作和分析。

        據(jù)國(guó)際數(shù)據(jù)公司(IDC)在2011年的調(diào)查顯示,今后十年,非結(jié)構(gòu)化數(shù)據(jù)將占互聯(lián)網(wǎng)總數(shù)據(jù)的90%,是一個(gè)尚未得到充分開發(fā)的“信息金礦”。

        對(duì)此,李青龍暢言:“我們相信,在未來(lái)的大數(shù)據(jù)分析技術(shù)中,非結(jié)構(gòu)化數(shù)據(jù)分析技術(shù)將逐漸取代傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)分析技術(shù),我們將通過(guò)海量的數(shù)據(jù)分析,來(lái)讓企業(yè)應(yīng)對(duì)更為復(fù)雜的商業(yè)模型,從而替企業(yè)提高市場(chǎng)洞察力并創(chuàng)造價(jià)值?!?/p>

        猜你喜歡
        青龍分詞星光
        行走的星光
        結(jié)巴分詞在詞云中的應(yīng)用
        少林功夫拳(三)
        少林與太極(2018年9期)2018-09-28 08:37:34
        星光閃耀
        小青龍說(shuō)“角”
        值得重視的分詞的特殊用法
        青龍現(xiàn)身記
        奧秘(2016年8期)2016-09-06 16:58:26
        青龍
        火花(2015年7期)2015-02-27 07:43:43
        星光擂臺(tái)
        夜如星光璀璨
        国内激情一区二区视频| 亚洲gv白嫩小受在线观看| 中文字幕亚洲综合久久菠萝蜜| 国产白浆精品一区二区三区| 青青河边草免费在线看的视频| 人人摸人人搞人人透| 国产亚洲精品久久久久久久久动漫 | 免费特级黄毛片| 亚洲成熟丰满熟妇高潮XXXXX| 国产一区二区黑丝美胸| 国产三级在线观看完整版| 中文字幕本久久精品一区| 精品视频一区二区三区在线观看| 国产精品午夜无码av天美传媒| 欧美日韩免费一区中文字幕| 中文字幕一区二区在线看| 人妖国产视频一区二区| 久久天天躁狠狠躁夜夜不卡| 色八区人妻在线视频免费| 久久九九青青国产精品| 亚洲国产精品成人一区二区三区| 成人av片在线观看免费| 成人免费看吃奶视频网站| 日本a在线免费观看| 精品国产一区二区三区av新片 | 岳毛多又紧做起爽| 又黄又爽的成人免费视频| 最新手机国产在线小视频| 最新国内视频免费自拍一区| 日本三级香港三级人妇99| 精品人妻伦九区久久aaa片69| 精品人妻少妇一区二区中文字幕| 亚洲视频综合在线第一页| 在线播放av不卡国产日韩| 亚洲av成人无码网站大全| 国产精品中文第一字幕| 大陆少妇一区二区三区| 国产成人午夜无码电影在线观看| 国产福利午夜波多野结衣| 黄片午夜免费观看视频国产 | 久草视频华人在线观看|