亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

Hadoop的專利現狀研究

2018-03-20 09:09:53成都柳沈知識產權服務有限公司王琦玥

電子世界 2018年4期

成都柳沈知識產權服務有限公司王琦玥

一、Hadoop概況

隨著計算機性能以及存儲能力的不斷增加，數據的產生以及獲取變得越來越容易。我們正處于一個數據爆炸的年代，然而面對海量的數據，如何通過計算機進行分析從而利用真正有用的信息是現代社會急需解決的問題。Hadoop是目前最流行的共享存儲和分析系統(tǒng)，為高效正確的處理海量的Web數據提供了可能性。它通過HDFS實現數據的存儲，然后通過MapReduce來實現數據的分析和處理，提高了數據的處理能力，并有機會針對海量的數據進行分析與創(chuàng)新。目前公開的國內外專利中與Hadoop技術相關的專利有11448篇，國內專利有4816篇，大多數申請均集中在2013年-2017年間。目前，Hadoop已經廣泛應用于各個領域中，比如，醫(yī)療物聯(lián)網，電力物聯(lián)網，地理時空數據采集與預測，監(jiān)控數據分析采集等，Hadoop為各個領域的數據挖掘提供了基礎的數據分析支持，給數據賦予了全新的意義。

二、Hadoop專利技術概況

1.概況

為了獲得用于Hadoop專利技術的相關情況，本文選擇Google Patent系統(tǒng)，選擇相關的關鍵詞，如云計算、Hadoop分布式文件系統(tǒng)、數據集、鍵值對、半結構化數據、Hadoop、cloud computing、HDFS、clust+、mapper、unstructured data、MapReduce等關鍵詞，檢索Google Patent數據庫來獲得進行統(tǒng)計分析的專利樣本。檢索的截止日期為2018年1月24日，由于未申請?zhí)崆肮_的發(fā)明專利申請通常在申請日之后18個月才公開，由此導致部分的專利申請由于未公開而不再本次文獻采集之列。

本章從Hadoop技術的分類、專利分布、主流技術發(fā)展等角度分析了Hadoop技術的技術演進過程以及Hadoop的主要技術特點。

2.專利技術分類

與Hadoop相關的技術相關的工具構成了Hadoop生態(tài)圈，各大工具從數據庫、存儲、管理、配置、一致性等方面對Hadoop進行了相關的改進。由于Hadoop技術的核心價值在于MapReduce和HDFS，這兩項技術使得Hadoop相比與其他的數據存儲分析系統(tǒng)具備了獨特的優(yōu)勢。下面就這兩方面進行重點分析。

(1)MapReduce

在Google Patent專利庫中涉及到MapReduce的專利文件約8000篇，中國專利申請約3000篇。MapReduce是一種數據并行處理的編程模型，其將大規(guī)模的數據分析任務分發(fā)給擁有足夠多機器的數據中心，可以在很短的時間內處理大規(guī)模數據集[1]。MapReduce相對于關系數據庫的優(yōu)勢是非常明顯的，它可以處理半結構化的數據，并僅在處理數據時才對數據進行解釋，即是是冗余或是不完整的數據也可以獲得可用的分析結果。MapReduce包括兩個處理階段，Map和Reduce。

Map（映射）是MapReduce中進行數據處理的數據準備階段，其主要目的是進行數據的提取以及去除受損數據，為之后的數據優(yōu)化做準備。在向中國專利局申請的專利中涉及到map函數的共2112篇，其主要改進點在于針對冗余數據的處理、負載均衡、聚類與屬性約簡。由于原始數據的特性不同，有近四分之一的專利申請將mapper針對其應用領域進行了定制化的改進，例如針對用電數據、行車記錄數據、物聯(lián)網、視頻數據使用特殊的聚類方式以及針對各個領域的特殊性建立與領域相適應的聚類表。

圖1 Hadoop技術演進年代圖

Reduce（歸約）的主要功能則在于將mapper的輸出作為輸入，進行數據的合并，最后將數據寫入HDFS系統(tǒng)中。Reduce通常是基于數據分析的需求，進而獲取與需求數據特征匹配的數據。在向中國專利局申請的專利中涉及到reduce函數共2774篇，其主要改進點在于數據的分類與聚類以及冗余、錯誤數據的清洗。由于Reduce函數是根據數據分析需求建立的，因此大約70%的專利均涉及了具體的數據類型的處理，例如針對人臉識別的圖像數據處理，針對用電量流量流向的分析處理等等。

(2)HDFS

在全球專利庫中涉及到HDFS的專利文件共4481篇，中國專利申請占2400項。HDFS作為Hadoop特有的分布式文件存儲系統(tǒng)，其具備超大文件、流式數據訪問、低時間延遲的數據訪問、支持多用戶寫入修改文件、以及將一個數據集分化為多個小文件等特性[1]。目前來看，近一半的Hadoop技術專利申請中涉及到HDFS系統(tǒng)。

HDFS通常具有兩類節(jié)點，namenode和datanode，分別在HDFS集群中擔任管理者和工作者的角色。Namenode管理以及維護文件系統(tǒng)的目錄，Dadanode則是文件系統(tǒng)的工作節(jié)點，定期向Namenode發(fā)送相應的塊列表。在Google patent中涉及到這兩類節(jié)點的專利共723篇，其多數改進在于故障修復，調度選擇，提高傳輸效率，完整性驗證等等。

HDFS作為一種文件存儲系統(tǒng)，其演進基本遵循存儲系統(tǒng)的改進特點，基本針對輸入輸出的改進、文件尋址索引、文件壓縮分片等方面進行相應的改進，同時由于HDFS是一種典型的分布式結構，因此針對各個文件的傳輸流程、傳輸方式的優(yōu)化也具備不錯的應用前景。目前HDFS在文件系統(tǒng)以及文件傳輸的主流工具包括：flume、sqoop、distcp、avro、sequencefile、mapfile、fuse、blob、hbase等，在Google patent中涉及到這些工具的使用的中國專利文獻占HDFS相關文件的39%左右。

三、Hadoop專利技術發(fā)展演進

從專利的角度進行分析，Hadoop的專利申請中的技術特征也基本遵循著Hadoop技術的發(fā)展歷史路線，根據Google最初設計的MapReduce框架以及HDFS存儲結構，針對資源/數據的在實際應用中的各個層面進行了相關的改進。作為一個共享存儲和分析系統(tǒng)，針對該系統(tǒng)的改進主要還是在數據管理（Data Management）、數據獲?。―ata Access）、數據處理（Data Processing）和數據存儲（Data Storage）這4個方面。圖1是根據技術分類表以及技術演進方向做出的年代圖。

由上述技術演進圖可以看到，目前Hadoop生態(tài)圈中主流的工具YARN、Hive以及Flume都能在公開的專利申請中找到其演變來源。

從HadoopV2中的YARN工具的發(fā)展分析，可以看到MapReduce框架的演變。目前MapReduce已經從一個版本0.0的簡單的集中式集群構架演變?yōu)榘姹?.0雙層調度架構，將單一的Jobtracker分成三個不同的管理角色Resource Manager、Node Manager和Application Master，簡化了Jobtracker的任務，提高了集群規(guī)模，并易于擴展。YARN的相關技術特征可以從亞馬遜公司獲得的兩篇公開號分別為US8260840B1和US9210048B1授權專利中一窺一二，這兩篇專利分別從MapReduce中集群節(jié)點的動態(tài)任務調配和通過網絡流量調配節(jié)點之間的任務負載的角度去優(yōu)化MapReduce的框架，以實現各個節(jié)點的負載均衡。尤其在US8260840B1中指出，采用一種動態(tài)決定集群的規(guī)模大小的框架，包括使用一部分節(jié)點作為核心節(jié)點參與任務的分配管理，另一部分節(jié)點作為輔助節(jié)點，可以進一步提高集群的運行速度。這兩篇專利的技術特征不僅體現在了工具YARN中，還應用于亞馬遜公司EC2云計算體系里，為亞馬遜公司的發(fā)展帶來了巨大的經濟利益?，F在YARN已經從MapReduce的結構中獨立出來，作為一個獨立的工具，使得MapReduce的工作更輕量。

Hive原本是Facebook構建在Hadoop的數據倉庫框架，其設計目的是為了讓Hadoop精通SQL技能[1]，它目前成為了應用于各種數據分析場景中的一個通用的、可伸縮的數據平臺。在Hive誕生之前，曾經就有兩篇專利嘗試將SQL技術與Hadoop技術結合起來，它們分別是Yahoo！公司的US7921416B2和US8150723B2，它們嘗試將結構化，正式化的SQL語言翻譯為可以被并行處理的語言，進而將SQL語言準確、冗余量少與Hadoop并行高速處理的特性，使得大量采用SQL搭建的數據庫也可以享受分布式運算的優(yōu)點。進一步，它們采取的方式是在SQL語言和可以被Hadoop處理的語言中建立一個新的綜合了聲明性和程序性的語言，以讓其支持多個數據表之間的協(xié)同工作，而在這兩篇專利中提到這種新型語言則演進成Hive中的HiveQL語言，輔助Hive外殼環(huán)境和HDFS的交互。

Flume是cloudera提供的一個高可用、高可靠的開源分布式海量日志收集系統(tǒng)，日志數據可以經過Flume流向需要存儲終端目的地[2]。關于日志數據收集早在2010年的專利US931772B2中提到，該授權專利就提出了需要對Hadoop集群中的各個節(jié)點進行日志分析與收集，以便于監(jiān)控各個節(jié)點的狀態(tài)。Cloudera公司的重點專利US8880592B2則進一步的在日志收集的基礎上，提出了部分日志的采集與更新，作為Hadoop的后臺進行集群節(jié)點監(jiān)管的軟件，其性能得到了進一步的提升。

四、總結

在Hadoop領域申請量排名靠前的國外主要申請人包括國家商業(yè)機器公司、威睿、雅虎、甲骨文、Cloudera等公司，主要涉及用于針對Hadoop系統(tǒng)的管理、配置、監(jiān)管和接入的相關改進。國內主要申請人包括南京大學、國家電網、華中科技大學。和國外相比，中國在Hadoop相關技術的申請主要是針對特定領域使用Hadoop技術，并根據該領域的特性，對Hadoop技術進行定制化改進，其主要的考慮還是希望通過專利的方式對相關產品（比如南京大學的醫(yī)藥軟件和國家電網的用電數據軟件）進行保護。

本文對用于Hadoop專利技術進行分析和整理，除了以上內容，還關注了本領域的核心專利以及專利技術發(fā)展演進路線，得出的結論對于相關公司的專利布局具有一定的參考意義。

[1]Tom White.Hadoop權威指南(第3版)[M].清華大學出版社,2010：19-23,49-50.

[2]http：//www.cnblogs.com/edisonchou/p/4445491.html,2017年7月24日訪問.