【IT168 资讯】Hadoop技术无处不在,已经成为大数据时代的代名词。短短几年间,Hadoop从一种边缘技术发展成为事实上的标准。尽管不知在未来,Hadoop的地位是否会被撼动,但就目前来看,关于Hadoop的数据安全问题值得去重视。
本期采访我们邀请到了Ebay资深工程师苏良飞,他曾工作于sybase数据工具平台部、携程网机票部门,在数据库工具,云计算,和大数据领域都有较深的介入。目前在ebay的Analytic Data Infrastructure部门工作,主要专注在大数据系统的监控系统研发,包括系统监控和数据安全监控(Apache eagle项目)。
数据监控需同步跟上
大数据平台监控目前在内部主要作为平台运维人员的监控点,通过设置各式的规则来捕获平台的错误并报警。通过对各种指标的监控提供系统级的展示,比如集群容量管理。对于监控平台的关键要求是,准确迅速地捕捉系统问题,结合hadoop robot对系统错误进行自动修复。
苏良飞表示:“大数据监控平台的主要的目的,一是为大数据技术平台的运维人员提供快速的系统透视,尤其是问题出现时能进行问题原因追溯,并对系统状态进行监控;第二是通过对大数据平台job的分析,能够为系统调优提供一定程度的帮助。“
由于大数据的特点,hadoop集群一般有大量的机器,机器数量多,出错概率大,搭建大数据平台必须同步跟上监控,否则大数据平台运维将成为噩梦。
数据安全监控刻不容缓
苏良飞认为:“大数据技术挑战是大数据带来的存储、监控、安全方面的挑战,Ebay贡献的apache eagle项目是在这方面的一些尝试。“
Apache eagle 是Ebay开发并贡献给apache社区的hadoop监控系统,同时把apache eagle作为一个监控平台,Ebay在其之上建立了数据安全监控,目前数据安全监控已经在社区得到了积极响应。
Eagle 在设计中使用kafka作为log数据流来源;选用storm作为流式处理的框架;为了支持log/metric的动态规则部署,使用了siddhi cep作为事件处理引擎,核心框架是基于scala和java实现的。另外在metric/job data/metadata使用hbase作为存储,前端的框架是angular js。
Ebay有几千个节点的hadoop集群,在数据分析方面Ebay提供了apache kylin项目来对PB级数据提供秒级响应速度,这是大数据分析的利器。目前行业内有很多公司已经使用或者是正在使用apache kylin构建大数据分析工具。
另外,苏良飞还表示,在本次大会上将会分享使用apache eagle作为监控平台,来保护hadoop的数据安全。他将会介绍apache eagle的设计和实现,并介绍ebay使用apache eagle的一些经验。
▲更多大会的精彩内容请访问DTCC 2016官网:http://dtcc.it168.com/
2016第七届中国数据库技术大会(DTCC)将于2016年5月12日-14日召开,大会云集了国内外顶尖专家,共同探讨MySQL、智能数据平台、数据治理、大数据创业、大数据深度学习等领域的前瞻性热点话题与技术,为数据库人群、大数据从业人员、广大互联网人士及行业相关人士提供最具价值的交流平台。