苑輝
在互聯(lián)網(wǎng)、移動(dòng)互聯(lián)盛行的當(dāng)下,充斥了海量的數(shù)據(jù)信息,在這樣一個(gè)數(shù)據(jù)爆炸、信息過載的時(shí)代,要如何在浩如煙海的數(shù)據(jù)中尋覓真正有價(jià)值的、滿足需求匹配的信息,已成為各大搜索引擎技術(shù)公司亟須解決的問題。
搜索引擎技術(shù)經(jīng)過了數(shù)十年的迭代更新已日趨成熟,作為一個(gè)以搜索引擎為核心業(yè)務(wù)的公司,可以是像Google、百度這樣的世界級(jí)頭部公司,同時(shí)也在不斷涌現(xiàn)出各類創(chuàng)新型企業(yè)。
雖然在搜索引擎的世界里,也基本遵循贏者通吃的規(guī)律,但是在精確細(xì)分的垂直領(lǐng)域,仍有一些專用搜索引擎在為客戶提供更專業(yè)、更精準(zhǔn)的服務(wù),這仍是一個(gè)充滿創(chuàng)新機(jī)會(huì)和市場潛力的專業(yè)領(lǐng)域,給了初創(chuàng)企業(yè)一個(gè)良好的生存環(huán)境和成長機(jī)遇。
在今年上海市科委等組織的2018“創(chuàng)業(yè)在上?!眹H創(chuàng)新創(chuàng)業(yè)大賽暨第七屆中國中心創(chuàng)新創(chuàng)業(yè)大賽(上海賽區(qū))比賽中,上海海納信達(dá)數(shù)據(jù)技術(shù)有限公司的參賽項(xiàng)目——具有自主知識(shí)產(chǎn)權(quán)的海納智能搜索引擎,就是一項(xiàng)專注于垂直搜索引擎領(lǐng)域的專業(yè)搜索引擎,在上海賽和國際賽中頗受好評(píng)。
專注知識(shí)領(lǐng)域,為科研服務(wù)
海納信達(dá)——這是一家年輕的初創(chuàng)公司,公司技術(shù)團(tuán)隊(duì)核心成員專注搜索引擎領(lǐng)域已經(jīng)十多年時(shí)間,同時(shí)擁有一批充滿創(chuàng)新精神的年輕技術(shù)人才,勇于直面挑戰(zhàn)、敢于創(chuàng)新嘗試。
公司致力于搜索引擎(Search Engine)的技術(shù)迭代更新,打破傳統(tǒng)搜索引擎的技術(shù)框架,自主研發(fā)了一套專業(yè)性更強(qiáng)的垂直搜索引擎。
傳統(tǒng)的搜索引擎指的是根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費(fèi)鏈接列表等。我們常見的Google、百度等通用搜索引擎就如同互聯(lián)網(wǎng)第一次出現(xiàn)的門戶網(wǎng)站一樣,是要實(shí)現(xiàn)大量的信息整合導(dǎo)航,以極快的查詢,將所有網(wǎng)站上的信息整理在一個(gè)平臺(tái)上供用戶使用,可以說這種模式使得信息的價(jià)值第一次普遍的被眾多商家認(rèn)可,迅速成為互聯(lián)網(wǎng)中最有價(jià)值的領(lǐng)域。
而垂直搜索引擎是應(yīng)用于某一個(gè)行業(yè)、專業(yè)的搜索引擎,是搜索引擎的延伸和應(yīng)用細(xì)分化。垂直搜索引擎為用戶提供的并不是上百甚至上千萬相關(guān)網(wǎng)頁,而是范圍極為縮小、極具針對(duì)性的具體信息。因此,很多特定行業(yè)的用戶更加青睞垂直搜索引擎。
人們?nèi)粘J褂玫闹T多檢索服務(wù)中,涵蓋了各類專業(yè)領(lǐng)域,比如查找喜歡的餐廳、查詢喜好的產(chǎn)品、搜索性價(jià)比高的機(jī)票或酒店等,種種此類都是搜索引擎的應(yīng)用場景。
海納信達(dá)智能搜索引擎更專注于知識(shí)發(fā)現(xiàn)與知識(shí)服務(wù),竭力為用戶提供精準(zhǔn)的知識(shí)發(fā)現(xiàn)工具和優(yōu)質(zhì)的知識(shí)服務(wù)平臺(tái),這亦是海納信達(dá)的經(jīng)營理念。
海納信達(dá)選擇這一經(jīng)營理念,首先是因?yàn)榭蒲蓄I(lǐng)域需要做大量的知識(shí)查詢、獲取和學(xué)習(xí)工作;更因?yàn)閳F(tuán)隊(duì)里核心成員大多長期從事科研工作,深知在科研工作中,經(jīng)常遭遇信息檢索的煩惱。
如今,各個(gè)學(xué)科領(lǐng)域已經(jīng)演變成相互延伸、相互交叉的復(fù)雜系統(tǒng),如果能夠通過一個(gè)專業(yè)搜索引擎高效地找到需要的知識(shí),快速了解該領(lǐng)域的研發(fā)趨勢,明確各學(xué)科之間的關(guān)聯(lián),無異于是找到巨人的肩膀。對(duì)科研管理者來說,這樣的專業(yè)搜索引擎方便實(shí)現(xiàn)創(chuàng)新成果的國際、國內(nèi)對(duì)標(biāo);對(duì)企事業(yè)單位來說,可以大大減少調(diào)研的時(shí)間,提高科研對(duì)接效率,可以說這樣的搜索引擎是各個(gè)領(lǐng)域“創(chuàng)新工具箱”中不可或缺的工具。選擇這個(gè)領(lǐng)域創(chuàng)業(yè),似乎是海納信達(dá)團(tuán)隊(duì)的“天性”使然,是長期從事科研工作的職業(yè)驅(qū)使、興趣所在,也是因?yàn)榍猩硇枨蠖a(chǎn)生的研發(fā)動(dòng)力,也是某種不可明狀的責(zé)任推動(dòng),即通過努力,為更多人實(shí)現(xiàn)知識(shí)的價(jià)值,讓更多人便捷、高效的獲得知識(shí)。
助力中國工程院,為創(chuàng)新賦能
海納信達(dá)自創(chuàng)業(yè)以來,自主開發(fā)的搜索引擎已經(jīng)廣泛應(yīng)用在圖書館、高等院校和大型科研機(jī)構(gòu),中國工程院的科技知識(shí)服務(wù)平臺(tái)就是其中最典型的一例。
他們研發(fā)的產(chǎn)品,是中國工程院為國內(nèi)外工程科技領(lǐng)域提供知識(shí)發(fā)現(xiàn)和服務(wù)平臺(tái)(KnowledgeGO,簡稱“K-GO”)的核心引擎(見圖1)。中國工程院是我國工程技術(shù)界的最高榮譽(yù)性、咨詢性學(xué)術(shù)機(jī)構(gòu),是國家工程科技思想庫,目前正按照國家要求致力于建設(shè)新型高端智庫,以科學(xué)咨詢支撐科學(xué)決策,以科學(xué)決策引領(lǐng)科學(xué)發(fā)展。K-GO平臺(tái)的目標(biāo)是建設(shè)一個(gè)國際先進(jìn)、國內(nèi)領(lǐng)先、具有廣泛影響力的工程科技領(lǐng)域信息匯聚中心、數(shù)據(jù)挖掘中心和知識(shí)服務(wù)中心。
中國工程院的知識(shí)服務(wù)平臺(tái)匯集了聯(lián)盟資源、網(wǎng)絡(luò)資源、合作資源、采購資源、自建資源等5大來源數(shù)據(jù),數(shù)據(jù)內(nèi)容涵蓋國內(nèi)外期刊、學(xué)位、會(huì)議等文獻(xiàn)資源,中國專利、外國專利、智庫、標(biāo)準(zhǔn)、學(xué)術(shù)報(bào)告、科研成果等特色資源和24個(gè)領(lǐng)域的統(tǒng)計(jì)數(shù)據(jù)和科學(xué)數(shù)據(jù)等,數(shù)據(jù)總量已經(jīng)超過46億條,打造了工程科技領(lǐng)域最大、最全、最及時(shí)的元數(shù)據(jù)海。
作為中國工程科技知識(shí)中心全力打造的搜索品牌,K-GO搜索引擎提供在檢索效率、數(shù)據(jù)整合清洗、特色數(shù)據(jù)庫展示等方面特色突出,完全體現(xiàn)了知識(shí)中心在科學(xué)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)、智庫報(bào)告、科技文獻(xiàn)等方面的資源整合能力。
K-GO目前還密切關(guān)注工程科技領(lǐng)域的趨勢研究、關(guān)聯(lián)研究、領(lǐng)域交叉、關(guān)聯(lián)學(xué)者等熱點(diǎn),并提供相似文獻(xiàn)、參考文獻(xiàn)、引證文獻(xiàn)、同作者文獻(xiàn)、年度引用量等文獻(xiàn)詳情信息,為科研工作者輕松方便的查找文獻(xiàn),快速高效的撰寫論文和報(bào)告,洞察和把握研究趨勢和熱點(diǎn)領(lǐng)域,提供了便利的渠道和方式(見圖2)。
釋放知識(shí)價(jià)值,為認(rèn)知計(jì)算而變
俗話說,錢花了才是你的,知識(shí)有用才有價(jià)值,檢索就是實(shí)現(xiàn)價(jià)值的第一步。人類知識(shí)的積累早已龐大到超越個(gè)體的認(rèn)知范圍。事實(shí)上,即便不是在數(shù)字時(shí)代,檢索早已是門學(xué)問,數(shù)據(jù)時(shí)代,信息沉積更是數(shù)量級(jí)的增長,而且在很多專業(yè)領(lǐng)域,數(shù)據(jù)是沉積在不同的數(shù)據(jù)庫中,且是些“異構(gòu)數(shù)據(jù)庫”。圖書館、高校往往要購買不同的數(shù)據(jù)庫,才能滿足需求,但是這不僅造成了檢索的困難、繁瑣,不同數(shù)據(jù)庫檢索后的信息,很難綜合分析。信息雖然爆炸,卻不能按照人們的意圖“運(yùn)行”,實(shí)在是信息的浪費(fèi)。
海納信達(dá)的搜索引擎,專為科研機(jī)構(gòu)定制。例如他們打造的某專業(yè)國防數(shù)字圖書館,整合了圖書館各類復(fù)雜、異構(gòu)數(shù)字資源,構(gòu)建了統(tǒng)一的檢索系統(tǒng)及門戶網(wǎng)站:已整合數(shù)據(jù)資源15大類,90多個(gè)資源庫,元數(shù)據(jù)量達(dá)1.5億條以上;是軍網(wǎng)中最受歡迎、訪問量最大的數(shù)字圖書館網(wǎng)站:系統(tǒng)平均日點(diǎn)擊量15萬次/日,峰值同時(shí)在線人數(shù)超過500人,峰值數(shù)據(jù)流量超過300Mbps/秒。
事實(shí)上,這種針對(duì)異構(gòu)數(shù)據(jù)源檢索的知識(shí)服務(wù)可以運(yùn)用于各種專業(yè)領(lǐng)域。例如實(shí)時(shí)采集法規(guī)、政策、標(biāo)準(zhǔn)、專利等信息;實(shí)時(shí)采集國內(nèi)外新聞、行業(yè)新聞、技術(shù)文章,助力行業(yè)分析,為行業(yè)研究提供專業(yè)知識(shí)服務(wù)。針對(duì)企業(yè)服務(wù),可以實(shí)現(xiàn)競爭分析、傳播評(píng)估、輿情監(jiān)測、客戶服務(wù)、危機(jī)公關(guān)。例如實(shí)時(shí)采集競爭對(duì)手及供應(yīng)商的新聞、人事、產(chǎn)品等信息;實(shí)時(shí)采集公共信源的商業(yè)信息、招投標(biāo)信息;實(shí)時(shí)采集本企業(yè)的品牌以及競爭對(duì)手的品牌信息,了解消費(fèi)者的需求與反饋;實(shí)時(shí)采集國內(nèi)外、地方新聞、政策法規(guī)、經(jīng)濟(jì)、產(chǎn)業(yè)等信息。這些應(yīng)用場景,正是當(dāng)前行業(yè)競爭、企業(yè)競爭加劇產(chǎn)生的需求,也是各行業(yè)創(chuàng)新加速的必然需求。
目前,在海納信達(dá)深耕的科教、軍事領(lǐng)域,除了打通知識(shí)庫,海納信達(dá)還在傾力打造自然語言知識(shí)搜索。未來,平臺(tái)將支持知識(shí)圖譜和人工智能的應(yīng)用,目標(biāo)是通過智能閱讀、知識(shí)關(guān)聯(lián)和綜合推理,實(shí)現(xiàn)智能化的認(rèn)知搜索。這意味著,我們可以通過一句日常的普通的語言,而不是關(guān)鍵字向系統(tǒng)提出問題,就能得到更加豐富、精準(zhǔn)和個(gè)性化的結(jié)果。