网络通信 频道

571亿背后:DRC助阿里实现异地双活

  【IT168 技术】4月16日,2015第六届中国数据库技术大会在北京新云南皇冠酒店隆重登场,本次数据库大会以“大数据技术探索和价值发现”为主题。在4月18日上午的数据库运维专场上,来自美团网数据库负责人侯军伟、阿里巴巴技术保障部钱在晨、触控科技运维总监萧田国、赶集网DBA董泽润、某互联网DBA黄华亮,为在场的听众带来了一场数据库运维的饕餮盛宴,下面小编就各位嘉宾的精彩内容做一盘点。

571亿背后:DRC助阿里实现异地双活
▲美团网数据库负责人侯军伟

  数据库运维专场的第一位演讲嘉宾,来自美团网数据库负责人侯军伟就《美团数据库运维平台介绍》进行了主题演讲。侯军伟首先表示,按照IT人的生活习惯,周六早上9点大家平时应该都还在睡觉,非常感谢大家鼎力支持,也希望全场参会者不虚此行。

571亿背后:DRC助阿里实现异地双活

  侯军伟的主题演讲包含了自动化运维平台、慢查询系统、备份系统、运维报表、Percona使用经验,在演讲的过程中分享了很多工具,对于DBA因为慢查询导致的故障,侯军伟表示,我使用的工具是pt-query-digest和Box Anemometer,此外对于备份系统,采用了XtrabackUP和自动扩容的方式。

  对于工作中的挑战,侯军伟表示,“技术就是应该为产品服务,并且是在产品快速发展的时候,技术不应该拖产品的后腿,应该尽最大努力满足产品需求。对于在使用新的软件技术的时候,要耐心去分析问题,要有批评性想法,做技术要懂得验证问题。  

  

571亿背后:DRC助阿里实现异地双活
▲阿里巴巴技术保障 钱在晨

  数据库运维专场的第二位演讲嘉宾,来自阿里巴巴技术保障 钱在晨就《双十一异地双活实时数据同步基础设施DRC》进行了主题演讲。侯军伟表示,自我介绍到,自己阿里技术保障部数据库团队技术专家,三年来专注于DRC的产品研发和系统架构,对与数据库复制,产品可运维性以及高可用有着比较丰富经验。

  钱在晨从支付宝君的一条微博讲起,杭州供电缺口,导致支付宝机房被拉闸限电,所幸阿里最终还是熬过来了,但从那一刻起, 我们就明白了容灾需要,一个城市已经不能满足需求,而且阿里还带来了国际战略业务诉求。

571亿背后:DRC助阿里实现异地双活

  ▲异地双活目标

  由于异地机房距离较远,数据库要实现数据实时同步就非常困难,目前在跨异地的情况下很少看到数据库层面的双活案例, 大部分都是在应用层实现了数据的分片, 底层数据库还是相互独立的,普遍场景是应用双活+db容灾,但带来的问题是一旦跨域访问DB可能引起很高的延迟累积。

  部署双活数据中心难度也很大,尤其是异地双活,主要涉及到数据库同步效率的问题,如果数据库同步效率大不到要求, 在切换时就会导致一段时间的数据丢失, 在异地“双活”模式下,两地数据中心同时接受交易, 技术难度很大。


▲支撑2014年双11淘宝天猫571亿的交易架构

  钱在晨表示,“阿里的异地双活场景实际是分为不同维度的,分为卖家和买家这种情况,如果是仅仅满足数据库双向循环复制这些需求,我们设计了一套结构原理简单同步架构, 从源端数据库到目的端数据,大概经历的过程就是 提取日志,存储, 发送,通过网络传递,然后在目的端进行复制。”

  此外DRC除了数据库复制的功能,还可以承担数据库增量的消息分发中心的角色,在秒级(其实更小)将数据变更发送到应用/消息中间件/缓存和数据仓库。微博上有人问oceanbase的阳老师,是否有将数据库更新投递给消息中间件的功能, 这里其实DRC已经承担了一部分这样的功能,在oceanbase数据库需要的时候,以很短的时间通过标准化接口支持了ob的增量消息分发和投递。


▲DRC定义 Data Replication Center, 全球数据库数据同步和分发的基础设施

  基础设施DRC 一致性:基于日志流式抓取、回放库表结构变更、回放库表结构变更、基于事务的冲突检测。

  基础设施DRC 低延迟:最大延迟不超过1秒、消息协议优化、三级数据存储,预读优化IO、多连接复用和传输压缩、高效的并发复制算法。

  基础设施DRC 高可用:主备切换、拓扑变化、心跳跟踪、多维度容灾。

  钱在晨表示,正是有了以上特性地支持, DRC才能够在14年双11中成功地支撑了峰值流量地冲击,双11全天, 抽取了上百TB数据量地增量日志。对于这么强大的平台,DRC经历了三个时期的变化, 最终发展成为成熟的服务平台。

  好消息来了,“DRC将通过AMP提供实时数据增量给云用户, 会尽快邀请内测” 钱在晨说道。同时他还指出,“DRC实际上早已在阿里云通过提供实时的RDS增量日志,服务于内部的云产品客户,比如DRC帮助开放搜索服务OpenSearch, 同步用户实时产生的数据增量,提供实时搜索服务。 DRC同时提供同步增量到odps的功能,帮助用户获得最实时的数据分析能力。一个更好的消息是, DRC即将对外部用户直接开放服务,DTS (Data transformation service),中文名叫“南天门”将依靠DRC提供的底层服务,提供用户上云迁移,增量数据消费以及RDS跨域实例同步服务。

  在最后,钱在晨也分享了阿里云与某全球知名云计算服务商在用户数据库上云和云上迁移的对比,基本上他们的rds每个类型的数据库都必须要有一套或者几套专门的方案来进行迁移 比如对于mysql迁移的描述, 给出了25页的文档,而且是急于mysql自身提供的mysqldump和import,以此对比阿里云DTS,真正可以做到一站式服务, 一键迁移,增量导出和实例同步,并且整个迁移过程中不需要用户停止自己的服务进行切换。

  “数据中心异地双活”的意义在于可使电商网站具备跨地域的容灾能力,保障不受单地域的灾难的影响。此外,在日常的系统运行中,数据中心可根据用户地域就近接入,提升购物体验。  

   571亿背后:DRC助阿里实现异地双活

▲触控科技运维总监萧田国

  数据库运维专场的第三位演讲嘉宾,来自触控科技运维总监萧田国就《天灾还是人祸?Oracle连环严重故障及引发的思考》进行了主题演讲。萧田国对于自己接手Oracle数据库之后发生的连环故障进行了分析,并与现场参会者进行了互动讨论。

  分享的四个故障案例:

  1、Oracle软件bug导致的故障及解决(各种数据块恢复均失败)

  2、服务器系统假死导致的故障及解决(不完全恢复)

  3、服务器更换RAID卡后数据文件头部损坏导致的故障及解决

  4、Oracle无法正常关闭的原因分析及解决

  最后,萧田国表示,对于oracle来说有两个最大的故障,一个是起不来,一个是关不掉,经过这些故障之后,对于DBA而言技术才是专业最大的障碍。

  随后赶集网DBA董泽润分享了《赶集网SQL自动上线》,其中董泽润表示,“对于DBA而言、要有工匠精神,对于提升数据库单机性能,要软硬同时进行优化;优化架构,应对海量数据,分库分表中间件,服务化,各模块解耦; 自动化运维,提高工作效率,减少重复工作, 高可用,做到N个9。”

  来自某互联网DBA黄华亮,分享了《MySQL高可用之MHA的实现及大规模运维实践》,其中黄华亮对MHA的优缺点进行了阐述,优点包括了切换时间短、前后数据强一致性、无脑裂、支持多种切换方式、支持GTID,缺点是只对Master做了高可用,slave没有,依赖SSH及互信,接口参数多,配置维护困难 。


▲大会报道专题
 

1
相关文章