尽管目前全球经济正处于衰退之中,但是箱包零售商Ebags.com在2010年假日销售中还是取得了令人瞩目的业绩,销售额比上年增长了33%。Ebags 公司联合创始人Peter Cobb 称,公司在“黑色星期五”和“网络星期一”的销售额双双刷新了纪录。
语义网的发展及其可用工具
Cobb将大部分功劳归功于他们部署的由Endeca技术公司开发的网络零售平台。该平台使用语义技术分析购物者的关键字选择和点击情况,然后从类别到子分类中精选出结果。Cobb称:“最终的效果是什么?它可以快速将购物者引导至她们想要的包上。”
Endeca网站导航软件允许购物者使用类型、品牌、价格和尺寸等选项搜索结果。Cobb称:“由于我们拥有500多个品牌、40000多款样式的箱包,因此在许多年前我们就已经意识到语义搜索和导购对于购物体验来说非常重要。”
该公司首席技术官Chris Cummings称,由于对产品属性和类别提供了更为详实的描述,因此语义技术使得Ebags在网页搜索结果中处于很高的排名。
在上世纪九十年代后期,万维网之父Tim Berners-Lee曾表示“语义网”能够帮助人们更为精确的查找他们搜索的信息、答案或产品。他希望在精确查找时,用户无需输入大量繁琐的关键词,从大量不相关的URL中找到需要的信息。
为了实现这一构想,万维网联盟(W3C)在Berners-Lee的指导下开发出了允许计算机平台和软件从独立的网站、域和企业信息仓库中识别、访问和整合信息的标准。
BestBuy .com首席网站开发工程师Jay Myers举例称,通过W3C的资源描述框架(RDF)标准,零售商和制造商可以交流更多详细的产品信息。他称:“目前我们的许多供货商都是通过电子表格提供产品信息,这导致很难从中提取信息。”
Myers 称,BestBuy.com目前并没有充分利用W3C RDF标准,这是因为他们有一个更为远大的目标。实际上,尽管Berners-Lee的梦想距离现实越来越近,但是还是有很长的道路要走。许多商业决策者对于语义技术的投资回报和风险存在着疑虑。《下一轮技术浪潮》的作者Phil Simon称,目前所需要的是要有一个能够让大多数重要商业用户投资语义网软件的“重要应用”。
目前语义网技术正在慢慢普。从电子商务、电子出版物、保健到营销、金融服务等领域内的商业用户都在享受着语义网技术带来的便捷,即便他们不理解语义网技术的工作原理,甚至认为投资回报率不合算。此外,帮助公司掌握客户真实购物想法的情感分析技术目前也正受到语义技术的推动。
与此同时,IBM、甲骨文、SAS和微软等企业软件巨头也开始将语义搜索和W3C标准与他们的平台进行整合。谷歌、微软必应和雅虎等搜索引擎也在这么做。
BestBuy.com的Myers可以证实:在他的团队将语义元数据添加至产品页面后,有效搜索信息增长了30%。
语义网的工作原理
语义软件使用多种技术分析和描述数据物体和它们内在关系的意义。其中包括常用的行业术语字典,以及用于解决(如多义词等)语义含糊等问题的语法和内容分析。
比如,在“there are 40 rows in the table”中“rows”为名词,但是在“she rows five times a week”中“rows为动词。又如,“stock”在“I used beef bones for my soup stock”、“the supermarket keeps a lot of stock on hand”和“analysts are bearish on the stock”三个句中意思均不相同。
解决语义含糊问题可以确保使用诸如“used red cars(二手红色轿车)”进行搜索的购物者能够从网站上搜索到意思相同,但表述不同的产品,如“pre-owned red automobiles(红色二手机动车)”。
Simon称,这使得购物者通过输入复杂的疑问句子进行搜索成为可能,如在iTunes 或Amazon.com 等音乐网站上通过输入“上世纪七十年代具有迷幻与太空风格的前卫摇滚歌曲”搜索平克·弗洛伊德乐队的歌曲。
一旦被定义,内容将被描述性元数据标记,并被映射到本体论中。本体论是描述数据物体和它们之间关系的图表。研究它们经常需要理解语义图表的研发人员与理解商业语言的专家展开紧密协作。

▲
语义网络是意思不同的词之间的复杂关系网,包括所有词的定义以及它们之间的联系。
语义网技术指基于W3C标准,支持语义搜索、查询、检索的产品和架构,其包括网络本体语言(OWL)、资源描述框架(RDF)、简单协议与RDF 查询语言(SPARQL),以及现有的XML和HTTP网络协议。
商业系统的幕后英雄
Ebags.com首席技术官Cummings承认,他并不完全熟悉语义技术,但是他清楚地意识到,Endeca基于语义的在线零售平台在销售额增长中发挥了重要作用。
实际上,虽然许多商业用户,甚至一些IT执行官都不知道他们的电子商务或企业软件平台正在使用语义技术,不过他们却实实在在的从中得到了好处。
除了销售额增长外,语义技术带来的其他好处还包括来自网络搜索引擎的更多点击率、更高的客户满意度、更高效的决策,以及对竞争行市场变化做出更快的反应。
语义技术的最早应用之一是帮助商业用户更为容易地找到和访问他们需要的信息,无论这些数据放在哪里,也无论谁拥有这些数据。
Revelytix首席执行官Michael Lang认为语义平台将代替传统的商业智能系统。他的理由是语义技术可以消除从信息孤岛中提取、转换和负载相关数据到数据仓库的需求。
有了语义技术,这一切都可以在后台快速进行。
Gilbane集团分析师Lynda Moulton称,语义技术能够为面对具有以下数据特征的企业带来一些重大优势。
• 具有大量无序的文件。
• 在范围和程度上极为复杂。
• 对于终端用户具有价值,但又很小,互不相干。
• 需要由极为熟练的专业人员在各自的领域内使用。
• 无法根据搜索意图进行分化。这意味着这些信息缺乏元数据,在支持智能搜索的结构化格式无法使用。
•在被揭示时,可能会直接或间接的对底线带来影响。
Moulton称,语义技术能够处理这些信息,并进行整体精确的分析,从而揭示它们概念或意义。语义技术最期部署者主要是从事出版和生命科学的公司,目前一些担心内容增长规模超过人类管理极限的企业也开始部署语义技术。
精准搜索
语义技术能够让搜索引擎更为精准的查找相关内容。如果你的公司正运营着一个零售网站,这就意味着具有语义功能的搜索可将更多的购物者带到你的网站上,并帮助她们挑选她们希望购买的商品。
Myers以BestBuy.com网站为例解释称,由于网络上的商品和种类正急剧增长,他们已经意识到语义技术具有高投资回报率。尽管为网站上的1100余种商品增加语义元数据工作量不小,但是通过GoodRelations技术Myers的团队仍然省去了大量不必要的繁琐工作。GoodRelations 技术由德国大学教授Martin Hepp针对电子商务专门研发的。
GoodRelations为商品、价格和公司数据提供了标准化词汇。这些信息能够嵌入到现有网页中,然后被计算机、应用和支持W3C协议的搜索引擎处理。正如上面提到的,这使得支持W3C标准的搜索引擎可获取大量的产品信息。它还为跨电子商务网站进行跨域语义查询提供了可能,只要其它的电子商务公司将这些词汇整合到他们的数据中就能实现。迄今为止,只有包括BestBuy.com和Overstock.com在内的等少数零售商这样做了。
Myers表示部署GoodRelations并没有耗费太多的时间,这与以往部署新方法和新技术形成了鲜明的对照。他称:“我在部署GoodRelations时只花费了很少的时间。进行了初期介绍后,研发人员通常就已经非常熟悉GoodRelations了,这就如同HTML编码标准一样简单。”
BestBuy.com探索语义网搜索功能的强大和精准的初衷不仅仅是为了帮助购物者找到他们希望购买的商品,而且还是为了将购物者的注意力引向一些特殊类型的商品。在去年早些时候,Myers的团队开了一个基于语义网标准的程序。通过该程序,商店经理在公司博客上可以发布关于“开箱”或退换商品的信息。同于这些商品在价格上相当便宜,因此非常适合那些预算紧张的客户。
由Expert System、 Cambridge Semantics、 Sinequa和Lexalytics等厂商开发的语义网平台允许用户在公司内部数据和包括博客、脸谱等社交网络和Web 2.0媒体在内的网络资源中进行查询。
为雇员答疑解惑
法国布依格建筑集团电子服务与知识管理总监Eric Juin称,集团正在使用Sinequa开发的Context Engine让雇员与公司内能够回答他们疑问的专家接触。Juin称,“答疑解惑的人可能是来自于全球其它地方工作的律师、工程师,或是执行官。通过分析大量非结构性信息,语义平台可以将公司内部的或全球的所有经验进行识别和分类,包括训练材料、项目文件和其它内部资源,以及基于网络的新闻报纸和科学出版物。”
Juin称,该平台用于帮助工人迅速在内部系统上或网站上的信息,根据用户查询的关联性,语义引擎可以仔细查阅文件和来自内部专家的评论,并对材料进行打分。
Juin称,尽管很难获得投资回报率(ROI)数据,但是已经有大量的证据证明该平台正在帮助布依格建筑集团雇员们在建筑现场避开错误,因为他们可以快速与能够回答他们疑问的专家取得联系。这无疑可以帮助集团减少人员成本支出。Juin称,该项目花费并不多,其只相当于布依格建筑集团ERP项目的一小部分成本。
小贴士
专家一致认同数据内部管理是重要的初始阶段。Gilbane集团分析师Geoffrey Bock称,内容上添加元数据的丰富程度意味着你是否可以开始编写利用语义网特点的应用。
Simon称,他尝试了许多采用“突破性”信息技术的项目,他认为如果没有做好清理和删除重复数据等内部管理工作,那么用户访问坏数据的机率将增加。
Cambridge Semantics公司技术副总裁Lee Feigenbaum建议IT和商业人员协作确定项目,因为语义技术将在项目中会产生“不同的价值”。如它们是否会缩短研发周期,终端用户是否会推导出新的数据,客户和合作伙伴的体验是否会提高等等。
Simon建议,至少准备时要从容。随着人们逐渐习惯并开始意识到其中的好处时,项目将实现质的飞跃。
Myers称,百思买目前正在做这项工作,他们的语义网部署工作早在一年前已经启动,目前已经取得了很大的进展。
Myers称:“目前已经有大量的语义工具和开源项目。此外,SPARQL也是一款功能强大的语言。我们认为语义技术至少是解决大数据问题的一个办法。我们现在拥有大量没有利用起来的数据,如果我们找到洞察这些数据的办法,将他们提供给客户和商业合作伙伴,那么这无疑是一个巨大的优势。”