网络通信 频道

浪擎科技—大数据面临的问题与挑战!

        【IT168 厂商动态】作为一个新生领域,尽管大数据意味着大机遇,拥有巨大的应用价值,但同时也遭遇工程技术、管理政策、资金投入、人才培养等诸多领域的大挑战。只有解决这些基础性的挑战问题,才能充分利用这个大机遇,让大数据为企业为社会充分发挥的最大价值与贡献。

  一、当今大数据的运用仍面临多种技术难关的束缚。主要有大数据的去冗降噪技术;大数据的新型表示方法;高效率低成本的大数据存储;大数据的有效融合;非结构化和半结构化数据的高效处理;适合不同行业的大数据挖掘分析工具和开发环境;大幅度降低数据处理、存储和通信能耗的新技术等。这些技术问题目前都难于有效解决与完善。

  有些行业的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,而当前技术尚难以用传统的方法描述与度量,处理的复杂度很大。

  二、全社会开放与共享数据还很难,这让数据质量大打折扣。数据增值的关键在于整合,但自由整合的前提是数据的开放。在大数据的时代,开放数据的意义,不仅仅是满足公民的知情权,更在于让大数据时代最重要的生产资料、生活数据自由地流动起来,准确全面应用起来,以推动知识经济和网络经济的发展,促进中国的经济增长由粗放型向精细型转型升级。然而战略观念上的缺失、政府机构协调困难、企业对数据共享的认识不足及投入不够、科学家对大数据的渴望无法满足等都是大数据在当前我国发展应用中不得不面对的困难。

  三、大数据应用领域仍窄小,应用费用过高,制约大数据应用。国内能利用大数据背后产业价值的行业主要集中在金融、电信、能源、证券、烟草等超大型、垄断型企业,其他行业谈大数据价值为时尚早。随着企业内部的资料量愈来愈大,日后大数据将成为IT支出中的主要因素,特别是数据储存所耗费的成本,很可能造成企业负担,甚至望而却步。因此有远见的CIO必须预先做好准备。

  四、开放与隐私如何平衡,亦是一大难题。任何技术都是双刃剑,大数据也不例外。如何在推动数据全面开放、应用和共享的同时有效地保护公民、企业隐私,逐步加强隐私立法,将是大数据时代的一个重大挑战。

  总之,谁率先具备从各种各样类型的数据中快速获得有价值信息的能力与机会,谁就是赢家!

  浪擎科技作为国内最大的备份容灾软件厂商,始终致力于各种数据实时备份、数据库实时复制技术研发的厂商,具备完整的技术架构和多系列的产品。既有高端的基于应用层的、备端在线的镜像系统,以及基于私有云架构的大型灾备中心方案,又有基于逻辑卷层的实时数据复制产品,还有容错CDP级的产品线。

  基于已有的结构化数据和非结构化数据的复制传输技术来探讨大数据传输的实现。浪擎现有的核心关键技术有:分布式并行传输、重复数据删除、结构化数据的实时感知与捕捉、活动的、结构化数据的追逐式复制,通过使用分布式并行传输控制、镜像复制技术、重复数据删除等技术,可以显著缩短了迁移大量数据所需的时间。

  文件传输通信协议(OFTP),是浪擎科技为满足大规模的数据传输历经四年自主研发的一种高效传输协议,简称OFTP,可应用在长距离、低可靠性的窄带网络上进行数据传输复制。浪擎的文件传输通信协议(OFTBP协议具备以下技术特性:并行优化增量传输、数据压缩、传输一致性校验。并行优化增量传输技术(POIT)是文件传输采用复杂的并行优化增量传输算法实现大规模的文件系统复制。该算法对传输任务智能分解成更小的任务,然后并行控制传输,最大限度的利用可利用的网络带宽;其次,对于已经镜像过的文件在以后镜像时,将采用优化增量传输,仅复制不同的数据块,尽量降低网络流量,极大的提升传输速度。

  目前,一般的数据传输协议,如传统的 FTP协议或RCP协议,在进行网络传输的过程中存在着很多弊端。如传输的数据量、性能、准确性等都不能达到TB设置PB级要求。与这些传统的传输协议相比较,在安全性、可靠性、承载能力、扩展性上具有明显的优势。能够支持功能并行传输,增量传输,重复数据删除,断点续传功能,当传输某文件失败,下一次重新传输时,在优化增量传输控制下,将从上一次的传输点开始传输后续的文件块。

  浪擎科技支持各种文件格式,支持大文件备份,系统采用64位表达文件长度尺寸,支持超过2GB的大文件传输备份,例如500GB大小的文件。支持异构操作系统平台之间的传输备份,系统支持在不同操作系统之间的传输备份和存储。例如,将Windows的Office文档传输备份至AIX;或将Solaris的二进制数据文件传输备份至AIX。

  我们知道,证券交易的数据、社交网络的聊天数据、电信的计费数据、医疗的HIS数据、电子商务的交易数据,都是处于动态变化状态的,是在线业务系统的存储数据。这些业务系统都非常关键,支撑国民经济的正常运行,因此要保障其自身的安全与稳定。但是,这些业务系统的要求非常苛刻,必需要有适合这些用户群体的技术才能满足其需求。

  浪擎科技的双活数据复制技术正是满足这样的需求。一般而言,这些关键业务系统都把数据放到后台的关系数据库中,因此可以称这些数据为结构化数据。浪擎科技的双活数据复制技术其实质就是动态的、实时的从一个关系数据库复制或迁移到另外一个关系数据库。当然,目标关系数据库可以放置到异地。

  ACA引擎工作原理,是浪擎科技的核心技术,能够复制引擎架构包括代理、复制服务器软件两大部件。代理包含操作系统驱动程序、事务日志实时捕获器、事务日志分析器、传输控制器和任务队列等;复制服务器包含接收队列、SQL应用机构等。复制流程,事务日志实时捕获器通过操作系统内核驱动驱动程序实时监控源数据库事务日志文件和捕获其变化数据;事务日志分析器通过数据字典将日志数据解析还原成数据库记录,并过滤不需要复制的表或其他数据库对象;传输控制器从任务队列中取出记录数据传输至复制服务器。复制服务器接收队列将记录数据保存至事务队列和Snapshot文件中;SQL应用机构扫描事务队列,将提交事务应用到目标实例。

  追逐式全量复制也是浪擎核心技术,在实时增量复制之前,需要保障主、备数据库之间的数据同步,才能进行后续实时增量复制。有以下技术特性:(1)复制速度快 (2)源数据库无需停顿(3)保证源服务器数据与目标服务器数据完全一致,全量复制技术结合增量复制技术可实现在做全量复制的同时也可把新增的数据内容复制到目标端,确保源服务器和目标服务器数据完全一致。主要实现功能是实时单向数据复制,单向复制以主服务器系统作为复制的数据源,复制到备用数据库用于查询。定时全量复制计划,系统还提供便捷的定时全量复制计划。复制计划作业可配置信息字段:开始时间、结束时间和日期以及在这段时间之内的复制频率、需要复制数据库。数据一致性校验,系统提供对复制的表进行数据一致性校验,并修改目标表的数据。这种补偿性能力解决当复制系统停止时,源和目标产生的不一致性。

  浪擎科技创造性的融合上述两类数据传输技术的优点,研发出基于大数据的数据传输复制和容灾备份产品,在金融、电信、医疗、交通等行业已有大量的应用,为之做出了杰出的贡献,并正在开拓性的研发分布式海量数据并行传输系统,采用基于缓冲池的数据同步传输和日志传输技术,若干台传输处理机以并行分工方式处理传输任务,以期实现局域网/城域网/广域网等各种不同规模的网络系统间的数据传输,解决海量数据传输处理上的瓶颈。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
0
相关文章