网络通信 频道

让搜狗更懂网络

  互联网行业一直走在技术最前沿,总能引领科技浪潮并因此深刻改变人们的生活。就在普通民众越来越依赖搜索功能后,一场更为激烈的竞争正在互联网企业中轰轰烈烈的展开,对于三大门户网站之一的搜狐来说,如何在强手如林的搜索引擎市场占据有利地形,是一个必须解决的重要“命题”。而这个命题的解决就重重的落在了搜狗,这个名字颇有寓意的砝码身上。

  搜狗快速成长 位居中文搜索前三甲

  搜狗是搜狐于2005年推出的全球首个第三代互动式中文搜索引擎,在搜狐的整体发展战略中占据十分重要的地位。搜狗的产品线包括了网页应用和桌面应用两大部分。网页应用以网页搜索为核心,在音乐、地图、图片、视频等领域提供垂直搜索服务,并通过说吧和问答建立用户间的搜索型社区;桌面应用依托搜索引擎技术,主要包括搜狗输入法和搜狗浏览器,旨在提升用户的使用体验。

  据CNNIC(中国互联网络信息中心)刚刚发布的《2009年中国搜索引擎用户行为研究报告》显示,2009年搜狗的首选用户新增率为41.2%,在所有搜索品牌中用户新增率最高,搜狗的品牌渗透率为26.9%,紧随百度、谷歌之后居第三位。从“用户首选搜索引擎”、“用户二选搜索引擎”两个指标的数据综合来看,在全国市场的网民选择中,搜索引擎的排位应该是百度第一、谷歌第二、搜狗第三,这也被认为是目前为止针对中文搜索引擎相对科学的排名。

  另外,基于搜索引擎技术的搜狗输入法目前也已经占领了超过70%的市场,成为输入法领域当之无愧的王者。结合第三方的数据以及搜狗5年来的积累和沉淀,表明快速成长的搜狗已经跻身于中国三大首选搜索引擎之中。

  “搜狗”不断求“新” 满足用户需求获青睐

  互联网行业竞争激烈,能否得到更多用户的认可是企业生存的根本,而认可的关键就在于服务是否及时、优质、准确,这点在“搜狗”这样的搜索服务上尤为如此。搜狗深知搜索引擎的最大难题是正确理解和满足用户的需求,正是这种以“用户需求为导向”的发展理念使得搜狗不断优化产品体验、提高技术能力,并力争做中国最有特色的搜索引擎。而这一切,都必须基于一个强大的数据中心来完成,提升数据中心的效能,就成为提升用户满意度的关键要素。在此基础上,搜狐特别启动了搜狗新一代数据中心项目的建设,希望通过利用技术创新,提升搜狗的产品品质,从而赢得用户的青睐。在这一过程中,H3C提供的高性能、高可靠的新一代数据中心网络解决方案,成为了搜狗迈向未来的坚实基础。

  “搜狐追求新技术应用是有传统的,搜狗引擎就是搜狐在搜索技术领域追求创新的一个结果。我们希望能利用各种领先的技术与设备,让我们的产品与服务能够为用户带来更好的感受。尤其在搜狗数据中心上,我们更希望避免出现传统数据中心的‘短板’,进一步提升数据中心网络的性能、效率与可靠性,让用户访问起来感觉更加良好。”搜狐网络运维部总监解释了采用新一代数据中心解决方案的初衷。

  此外,搜狐在数据中心网络建设上不断“求新”是形势使然,从2007年搜狐正式推出搜狗网页搜索3.0版本之后,搜狗搜索引擎的中文网页收录量已达一百亿之上,每天的网页更新量则有5亿之多,激增的海量数据对搜狗数据中心带来了前所未有的压力。新的搜狗业务应用要求数据中心网络平台能支撑百亿海量网页收录、及时网页更新和网页评级体系,满足高密度服务器集群的高性能并行抓取,同时网络系统要能满足后期灵活的扩展能力。面对着超高的网络流量与数量庞大的服务器集群,原有的搜狗数据中心网络架构与设备性能已无法满足这一要求,采用新一代数据中心架构来建设搜狗IDC新机房成为必然的选择。

  根据这一需求,2009年初,搜狐征集了业内多家厂商的设备,进行了全方位考察。最终,H3C集S12508数据中心级核心交换机、S75E高端多业务路由交换机、S5800万兆交换机、iMC智能管理中心等软硬件设备为一体的统一交换架构数据中心解决方案,一举拿下了项目的全部份额,搜狗新一代数据中心网络建设的大幕也由此拉开。

  让“浪涌”不再是问题

  在搜狗数据中心网络体系中,部署了两台H3C S12500交换机作为了整个网络的核心,同时,两台S75E高端多业务路由交换机承担起数据传输网的重任,而数十台S5800交换机则作为接入交换机,将两千多台服务器连成了一个大的网络。

  这其中最为抢眼莫过于数据中心级核心交换机S12500。作为国内首款100G平台交换设备,S12500的超大交换容量、高密度的万兆端口、高级别的包缓存能力等特性,在搜狗数据中心派上了“大用场”,也成为了搜狐选择H3C解决方案的重要原因之一。

  据H3C网络产品线副总裁孙德和介绍,S12500的设计瞄准的就是数据中心高密度、大流量和大缓存的特点,其单台设备容量已达到5.76T,而且能支持多达576个万兆端口,能够充分满足搜狗数据中心高密度万兆应用的需求,这也是传统的万兆交换机很难做到的一点。

  众所周知,网页搜索最重要的就是搜索速度与结果准确性,这也是搜狗引擎持续不断优化改进的目标,它依托的是系统在瞬间对海量网页数据进行挖掘、分析、显示的结果。在这一过程中,数据中心网络承担的带宽压力非常巨大。为了保证用户能够得到及时、准确的搜索结果,当搜狗引擎接收到一个网页搜索请求时,往往会向高密度服务器群同时发起检索需求,并在非常短的时间内接收几百台服务器几乎同时发回的搜索结果,巨大的数据浪涌如果不能及时吸收,那么很容易出现网络拥塞的现象。

  而S12500的大缓存能力很好地解决了这个问题,不仅每个端口拥有256M的大缓存能力,更重要的是它支持分布式缓存机制,当搜索数据浪涌到来时,一部分报文被缓存在接入交换机S5800的8M缓存中,另一些则缓存在S12500的更大缓存中,有效地利用了各级设备的端口缓存能力,最大限度地吸收突发流量,这样,就减少了丢包的可能性,尽可能地减少了对业务的影响。在先期开展的实地测试结果表明,每次浪涌的收敛时间都控制在了几十毫秒之内,这样的结果也让搜狐刮目相看。

  搜狐网络运维部总监表示,通过建设新一代数据中心网络,解决了搜索引擎业务普遍感到“头疼”的浪涌问题,对普通用户来说,意味着搜索结果中的死链接也会更少,H3C S12500核心交换机的性能的确在其中起到了非常关键的作用。

  

0
相关文章