网络通信 频道

发现互联网数据中的知识与情报

  互联网数据挖掘

  互联网发展的同时,也引发了数据处理需求的高速增长。IDC最新“数字宇宙”研究结果显示,全世界的信息量每两年以超过翻番的速度增长,2011年将产生和复制1.8ZB的海量数据,其增长速度超过摩尔定律。视频、图片、音频等等非结构化媒体数据的应用越来越频繁,社交网络的不断增长和壮大,甚至于结构化数据个体容量和个体数量也在迅速飙升。

  企业将更多的关注放到了外部,而非内部,与制定“策略”有关的资讯,我们必须有组织地从外部环境获得,包括市场、顾客及非顾客、本身产业及其他产业的科技、全球金融环境及变动中的全球经济,这些才是企业创造成果的领域。

  将数据挖掘技术应用到互联网这个巨大的数据库上,理论上可行,但是由于互联网自身的特点,也使它面临一些需要克服的技术难点。

  1、海量。互联网上的数据是十分庞大的,而这种庞大的数据还是动态的,并且增长速度惊人。

  2、碎片化。超文本先天具有表达不连续、片段化的特征,web2.0使信息发布在时间、空间上也更加趋于分散。

  3、全天候。随时随地产生数据,7×24小时数据流,信息不再以网页文件的形式存在。

  4、非结构。非结构化数据量大,由于文本、图片、视频等形式存在,需要更多的智能分析手段支持。

  EMC公司首席市场官Jeremy Burton曾经表示:“大量杂乱无章的信息无休止地增加,带来了无穷无尽的机会,将促使社会、技术、科学和经济发生根本性改变。信息是企业最重要的资产,大数据正在促使企业改变信息管理方式,并从信息中挖掘出更大的价值。”

  全球一体化经济体系,影响企业经营和竞争环境发生变化的因素日趋复杂,企业的灵活性与敏捷性变得重要,这就要求更多关注外部,并提高对外部变化的相响应速度。如何从海量信息中发掘出有价值的知识和情报将是一个长久的话题。

0
相关文章