搜索方法:模式识别计算技术
当前,有包括关键词、布尔值、参数在内的各种传统搜索方法。而Autonomy采用了建立在模式识别计算技术(非线性自适应数字讯号处理)以及语境语言分析基础上的创新语义识别搜索功能。这种搜索方式避免了关键词搜索方式容易产生的不准确信息,在信息量巨大的搜索中显得更加有效。同时,这种搜索方式不依赖语言、语种或语意,它完全把语言和文字当成一种数学符号来处理,这样可以很快把系统移植到不同的语言中去。
模式识别计算技术主要基于两个基本理论:贝叶斯概率论和香农信息论。
如果一枚硬币被连续抛100次,每次都是正面朝上,那么,抛第101次时,正面朝上的概率是多少?传统统计学观点的推论是:50%。而贝叶斯概率论则认为:100次连续正面朝上,证明该硬币不均衡或两面均为正面,所以抛第101次时正面朝上的概率会大大高于50%。 可见,贝叶斯的理论更加接近人的大脑思维逻辑。
香农信息论则认为,出现频率越小的信息单元,代表的信息量越大。这也可以解释这样的现象:在一个嘈杂的房子中,我们尽管不能完全听清楚对方所有的话,但我们还是能听懂对方说话的意思。也就是说,每个信息载体会包含大量重复的冗余信息,在对这些信息的处理过程中,冗余信息的权重要低得多,甚至可以忽略。而在关键词搜索中,则相反,一个单词出现的频率越高,则该词的重要程度越高。
正是基于这两个基本理论,Autonomy在海量信息处理中取得了巨大成功。