“框”后面的技术战
框计算下,百度中文搜索已全面领先于世界。在“框计算”为网民勾勒出的美好前景背后,带给百度工程师们的,是一项项艰深的技术挑战。
李盈介绍,框计算背后有四个核心技术难点,包括“需求识别和解析”、“用户行为分析”、“检索技术”和“特效展现”,而这是搜索引擎最具技术难度的领域。
“需求识别和解析”的核心在于自然语言处理和语义识别,即机器要判断用户关键字搜索背后真实的需求。一个简单的天气查询需求,用户也许有94 种不同的表达方式;无论用户搜索的是人民币兑美元还是英镑、日元,结果出现的都将是“汇率换算器”。机器如何识别千变万化的用户需求,是自然语言处理团队面临的最大挑战。据框计算语义分析团队负责人春光介绍,他们将用户需求与资源提供方建立联系,一方面分析用户行为习惯,一方面让机器模拟人类认知学习的过程,去理解用户表达的内涵。
识别用户需求之后,要通过检索来调用最精准的信息或资源也并不容易。对于一般的信息需求,传统大搜索技术中的“倒排检索”即可实现,但对于更复杂的需求,就要引入单一数据值检索、数据库检索、交互操作等特殊检索方式。例如用户搜索“计算器”时,并不想找到文本中包含“计算器”的链接,而是想直接进行计算,搜索“三个火念什么”时,是想找 “焱”字的读音。
检索完成后,框计算检索策略团队就要分析资源的质量、用户的历史行为习惯等复杂的影响因素。例如“天龙八部”这一需求,百度的搜索结果是把电影排前面,还是把游戏排前面,就要根据搜索用户的历史行为进行匹配;又如“2012”,以往它可以直接指向一趟南宁至张家界的火车,而《2012》电影出现之后,搜索结果排序就要发生相应的变化。
结果展现方面,框计算的展现团队要保证用户从点“百度一下”到他看到结果,一定不超过0.5秒。为了保证用户最顺畅的浏览,展现团队还会定期到全国各地进行用户行为调研,不断优化各种技术细节。
框计算的每个技术点背后都有一个专门的团队:包括测试、自动化运维、自然语言处理、排序、架构、产品、用户行为评估、展现等,这可以将责任落实到每一个具体环节上,也能够发挥“专注”的效力。此外,还有一个由各技术团队派出专人组成的技术决策团队,每个团队中的任何人有任何新的想法,是否适合做成产品,都可以拿到这里来讨论做决定。
框计算,正引领着互联网产业进行一次彻底的技术革命。