【IT168资讯】近日,缤纷的雪花和凛冽的寒风未能阻挡前来参加为期两天的Hadoop中国2011云计算大会的开发者。从2008年在计算所举办的只有几十人参加的首届Hadoop开发者技术沙龙到今天900多人参加的技术盛会,Hadoop在中国的发展速度已经超出了主办者的预期。国内企业和研究机构积极参与和关注,eBay、EMC2、IBM、Intel、微软等国际大厂也蜂拥而至,这成为本次大会的特色之一。
▲
▲
▲
大数据引爆Hadoop
2011年10月将成为Hadoop发展史上的一个里程碑。10月上旬,甲骨文在旧金山举办的Oracle Open World技术大会上首次推出基于Hadoop的大数据库机;10月中旬,微软在西雅图举办的SQL PASS 2011数据库大会上宣布将在Hadoop上实现搭建Windows Server以及Windows Azure平台;10月下旬,针对大数据的社交商务成为IBM在拉斯维加斯举办的IOD数据库大会上的热点。至此,三大数据库厂商不约而同地拥抱Hadoop。
“产业界和学术界都看好Hadoop并不是偶然现象。数据作为一种宝贵的资产越来越受到重视,从海量数据中获取有价值的信息正变得更加困难。据称,到2020年全球数据资产规模将达到35ZB(10的18次方字节)。” 本届大会主席、中科院计算所副总工程师程学旗表示。
程学旗说:“Hadoop最初是一套实现了Google的Map/Reduce和GFS的开源软件。对于学术研究来说它有两方面价值,一方面Hadoop可以看作是海量数据分析处理研究的平台和工具,利用它可以研究和验证一系列面向海量数据的精准分析,深度挖掘相关的网络化算法;另一方面,Hadoop可以看作是科研工作的放大器。”
Hadoop之父、Apache软件基金会(ASF)主席Doug Cutting在主题演讲中表示,处理器、存储等硬件的发展,使得人们能够处理和存储更多的数据,分析这些数据将会使大家变得更加智慧。Hadoop已经成为处理大数据的分布式操作系统的内核,同时这一内核也成为业界的事实标准,而Apache为Hadoop提供了生态环境。
Doug认为,Apache的强壮表现在4个方面:授权的多样性和透明性让用户可以主宰自己的命运;没有人能收买ASF,Apache不会被厂商锁定; 允许竞争性的项目存在;松散联盟式的生态系统促进了平台的演进。
“Hadoop一旦成为海量数据计算的事实标准,对于信息化应用将是颠覆性的,很多原来由于数据规模而难以解决的问题将迎刃而解。”程学旗强调说。
商务应用:Hadoop的新天地
海量数据存储与处理是互联网公司不可回避的问题。因此,Hadoop首先受到Yahoo等公司的青睐。社交网络和Web2.0的兴起使得数据,尤其是非结构化数据呈现指数级增长,云计算和移动互联网的趋势更是加剧了这一增长势头。然而,传统的数据库却难以处理海量的非结构化数据。
今年7月,赛迪传媒发布了《走向以人为本的信息化》白皮书。白皮书认为,当前基于流程的信息化侧重在处理占企业总数据量不到20%的与流程相关的结构化数据,对占数据总量80%的由人产生的非结构化数据却无能为力。非结构化数据不仅所占比重大而且数据量增速也高于结构化数据。充分发掘和利用非结构化数据背后的商业价值,将成为企业应对剧变的外部环境挑战的有效途径。可以预期,对非结构化数据价值的深度发掘和信息的充分利用将把企业信息化建设带入以人为本的新阶段。
“海量的非结构化数据的问题一直存在,只是现在更为突出,但在一项行之有效的新技术尚未成熟时,大家都在规避这个问题。”程学旗表示。Hadoop不仅能存储和处理海量数据,而且由于其硬件系统是基于错误常态存在的理念而设计的,这种思路能使用户在构建云计算环境时降低对硬件品质和性能的要求,从而使得Hadoop成为企业实施云应用时的首选。这就为Hadoop从典型的互联网服务领域的应用拓展到了更为广阔的企业商务应用提供了可能,这也是IBM、甲骨文和微软三大数据库方面厂商关注Hadoop的原因所在。
事实上,基于Hadoop的企业解决方案已经显示出其在性能和架构上的优势。早在2009年,中国移动将其属下某分公司的客户行为特征分析的商业智能应用放在基于Hadoop构建的x86架构云计算平台上进行对比测试,测试结果表明,在正确度符合商业标准的前提下,与该应用运行的基于Unix的平台相比,数据处理性能增加约30倍,数据挖掘性能增加约9倍,应用性能提高3~7倍;成本则只有Unix平台的1/6,同时还减少了机房的占地面积。
从Hadoop大会看中国社区成长
“2008年,计算所从举办Hadoop技术沙龙开始,就意识到海量数据的存储、管理、挖掘和服务等问题的科研价值,也意识到海量数据处理的实际需求是来源于生产,来源于企业的。同时,我们还希望维护一个良好的大规模软件系统的开发、利用的生态系统。因此,计算所创办了Hadoop中国社区和Hadoop中国大会,借此搭建Hadoop技术研发和海量数据计算与深度处理的交流平台。” Hadoop中国社区发起人、中科院计算所查礼博士表示。
在回顾Hadoop中国社区发展时,查礼说:“2008年,Hadoop还不成熟,bug一堆,功能特性也较少,除了国内少数几家大型互联网公司使用Hadoop处理海量数据外,其他开发者和企业还处于尝试阶段。到2009年,从参与Hadoop中国大会的企业来看,数量有所增加,但主要还是互联网企业,可以说国内处于起步阶段。到2010年,有600人参加了Hadoop中国大会,一些非互联网服务企业也开始使用Hadoop技术,Hadoop技术在国内的社区初步形成。”
查礼表示,今年,EMC、微软等公司宣布支持/兼容Hadoop软件栈的动作以及一些以Hadoop为技术基础的咨询服务公司的出现标志着Hadoop及其海量数据计算技术已经成为业界事实标准。今年参加Hadoop中国大会的人数大大超过往年,各大传统IT厂商也积极参与,从另一个方面说明了海量数据计算技术的前景和价值。
Hadoop未来在中国能否健康高速成长的关键在于是否有一个健康的生态环境。程学旗表示,计算所举办Hadoop中国大会的初衷之一就在于维护生态环境,这个会不同于一般的学术会议,更难得的价值在于让更多的与海量数据相关的开发、研究等从业人员了解Hadoop技术,了解Hadoop能够做什么,不能做什么。另外,开源软件是取之于大家,回馈于大家的,只有更多的人参与进来才能使Hadoop软件和技术发展得越来越好,计算所在这方面的科研成果也可以通过开源的方式造福社会。有人说,Hadoop是继Linux以来最成功的开源软件,这从一个侧面反映了目前Hadoop的发展是良性的。