网络通信 频道

管理海量信息的妙招

  想象一下你的数据库中的4490亿个对象,或是每周要新增40TB的新数据,你是否认为数据中心的存储系统已经失去了控制。

  管理海量的大数据所面临的挑战涉及到存储大型文件、创建一个长期的存档,当然还需要让这些数据能够被访问。

  Winter咨询服务公司分析师Richard Winter称,尽管数据管理是公司IT部门的一个关键职能,但是目前让人抓狂的情况已经将市场行为推到了一个新的水平。Winter咨询服务公司一直致力于研究大数据发展趋势。

  知名公司和新成立的公司都会定期推出一些新产品。他称,无论是Hadoop、MapReduce、NoSQL,还是数据仓库工具、文件系统、新架构,数据分析领域正在蓬勃发展。

  Winter称:“我们已经让产品的重点转向了移动、复制和联机分析数据。随着厂商致力于解决来自社交网络、传感器、医疗设备及其它数据源的海量数据,可扩展架构开始被普及。”

  一些厂商非常清楚在管理真正的大数据中所面临的与生俱来的挑战。在Amazon.com、尼尔森、马自达和美国国会图书馆,这一任务需要采取一些创新方式以处理数十亿个对象和千兆级存储媒体,以快速检索标记数据和发现错误。

  采用元数据方案

  美国国会图书馆每年需要处理2.5拍字节数据,相当于每周要处理40TB数据。国会图书馆企业系统工程组长Thomas Youkel评估认为,随着图书馆继续执行双重指令以为历史学家提供数据服务和保护所有形式的信息,数据负载在今后几年翻两番。

  国会图书馆在两个数据中心的600台服务器上配置了15,000至18,000个硬盘以存储信息。大约90%,超过3PB的数据被存储在光纤连接的SAN,剩下的被存储在网络连接的存储设备上。

  咨询公司StorageIO的分析师 Greg Schulz称:“国会图书馆有一个很有意思的模式,被存储的信息有一部分是元数据,另一部分是真正的内容。” Schulz称,尽管有大量的机构在使用元数据,但是让国会图书馆与众不同的是他们的数据存储的规模,以及为他们收集的所有东西都贴上标签,包括古老的录音、视频、照片和在其它类型媒体上的文件。

  Schulz解释称,对于那些很少被访问的真实内容最理想方式是离线保存在磁带上,同时一些小样或是低分辨率的拷贝保存在硬盘上。元数据可保存在一些不同的存储库中以进行搜索。

  为了最大程度的保护数据,国会图书馆使用了两套独立的系统。一套系统是大型的磁带库,拥有6000部磁带驱动器插槽,其使用的是IBM的通用并行文件系统(GPFS)。该文件系统使用的理念与Flickr.com的元标记照片相似,即通过算法对文件进行编码,以让这些数据能够被更容易处理和被更快的检索。

  第二套系统拥有9500部磁带驱动器插槽,由甲骨文/ Sun磁带库组成,其在甲骨文SL8550磁带库中使用了Sun快速文件系统(QFS)。

  目前,国会图书馆每个数据库拥有大约5亿个对象,不过Youkel预测这一数据将会增长到50亿。为了对这增长做好准备,Youkel的团队已经开始重新考虑命名空间系统。他称:“我们正在关注能够处理这么多对象的新文件系统。”

  Gartner公司存储分析师Gene Ruth称,正确的升级和扩展非常重要。当数据存储增长超过10PB,备份和处理这些文件的时间和成本将迅速攀升。一个方案是:在一个主要的场所设置一个基础设施用于处理主要数据的获取,然后再设置一个辅助性的长期文件存储设施。

0
相关文章