网络通信 频道

发现互联网数据中的知识与情报

  国内互联网数据挖掘应用

  国外已有多家厂商开始着眼于互联网数据挖掘,以求得帮助企业打开互联网数据宝库的“大门”。但是,在国内由于语言文化的差异,中文信息化处理一直远远落后于英文以及其他语种,其中的中文分词技术则是中文信息自动化处理技术发展的主要瓶颈。

  据了解,目前由海量信息科技有限公司(简称:海量)研发的中文分词技术是目前唯一被广泛应用的分词产品,海量以“砌词”为突破口,博采众长各个击破,采用复方概念平衡各算法,有效地提高了未登录词的识别率,降低了分词歧义的干扰。

  分词技术是中文自然语言理解最基本的前提,也是中文信息从“数据时代”向“情报时代”进程中的必经之路。对于互联网自然语言人工智能处理分词技术是其中一个重要的组成部分,命名实体和知识体系的建设也是必不可少的。海量作为一家学习型的企业,相关技术和产品正在不断的完善中。

  海量信息定位为基于互联网的智能计算的专家,希望通过自己的技术和产品让中国的互联网更智能、更聪明的,并在“云”的模式下面为客户提供更有价值的服务。据海量CEO郝玺龙介绍海量信息目前已将分词技术、智能计算技术及相关知识与规则转化为商业价值,推出了四款平台级和产品级服务。

  1、 Reidx在线智能计算平台服务

  Reidx是由计算网格、数据网格和知识网格组成的在线智能计算平台,以“云”计算模式为应用提供计算、数据、知识服务。

  语义(S)引擎、行为(F)引擎和形式(B)引擎按照语义网的标准把数据加工成机器可认知信息,从而实现真正完整意义的信息和知识共享。

  这是一个开放的平台,提供的是通用性的支持,在此之上面向于不同行业领域,可以开发各种应用。海纳、保10洁就是Reidx在互联网行业的应用,目前还有用户在Reidx提供的数据网格基础上开发了,舆情、竞争情报等应用。

 国内互联网数据挖掘应用

  ▲ Reidx在线智能计算平台服务整体架构

  2、 海纳互联网社区采编服务

  “海纳”互联网智能采编服务是一款为客户提供互联网资讯数据抓取、分析、加工的互联网在线技术服务。该产品在中央服务器集群上运行,通过连接互联网的客户端提供服务。

  “海纳”基于网页结构化、文本语义分析、图像分析等多项智能计算技术,实现网页一键转载、页面监控、多页自动合并、关键词摘要自动生成等多项功能。在降低成本的前提下为面向互联网的资讯收集、加工工作提供有力支持。

 国内互联网数据挖掘应用

 ▲ “海纳”互联网智能采编服务运行结构

  3、 保10洁互联网智能净化服务

  保10洁是面向社区中垃圾广告、违法广告等信息过滤的在线服务。该服务内嵌中文语义分析、行为分析和版式分析等多项智能计算技术,通过判断用户所发布信息的内容、版式,识别出所发布的信息是否为垃圾、广告信息,并能同时进行自动识别和清除工作。

 国内互联网数据挖掘应用

 ▲ 保10洁的信息运行结构

  保10洁智能计算引擎通过特征知识库中的规则,通过计算智能识别网站互动信息中的可疑、违法广告和垃圾广告等不良信息。

  来自用户系统的互动信息经过智能计算引擎的识别后:正常的健康信息直接返回用户系统实施发布;而被判断为垃圾的信息则被阻止不予发布,并呈现在用户审核平台中;还有少量系统不能明确判定的可疑信息,则暂缓发布,由审核人员通过用户审核平台来判定发布与否。

  其中被系统认定的垃圾信息和用户审核所判定的垃圾信息,又会经过智能计算抽象出其语义、版式等特征。这些特征会被系统自动更新到特征知识库中,这样,系统就具备了自行学习的能力,以此来应付互联网各种信息层出不穷、瞬息万变的情况。

  原文出自【比特网】,转载请保留原文链接:http://soft.chinabyte.com/346/12242346_4.shtml

0
相关文章