2008年11月16日星期日

[G4G] 中文搜索:公正性是实现准确性的根本(要和谐,不要公正)

—中国搜索行业应当立即行动起来、正视搜索公正性

 
 

参考消息 通过 Google 阅读器发送给您的内容:

 
 

于 08-11-16 通过 Google 黑板报 -- Google 中国的博客网志 作者:joydandan

发表者:谷歌中国工程研究院副院长 刘骏

这两天,互联网上出现了这样的观点:"垃圾信息是搜索不公正主因" 。

谷歌中国认为,这是在搜索的"公正性"与"准确性"两个不同层次的事情间偷换概念,我们认为中国搜索行业最需要做的、最紧迫的事情,就是正视公正性与客观性对中国搜索行业的根本性意义,没有搜索公正性,搜索的准确性就无从谈起。

或者让我们用反垃圾信息(这也只是搜索准确性的技术领域之一)来举例。

在海洋般浩瀚的互联网世界里,任何搜索引擎都会受到垃圾乃至不良信息影响,然而这些垃圾或不良信息在不同的商业模式面前面临着两种不同的生存可能:一种是鬼鬼祟祟千方百计去骗取网民的注意力;一种是掏点小钱就能"漂白"身份登堂入室畅通无阻。对于搜索厂商而言,能否杜绝前者,只是技术问题;能否根除后者,则是价值观问题。就好比一个人,人可以有能力的不同,但所有人都必须堂堂正正。

事实上,谷歌中国相信,今天搜索行业的技术水平已远远超出了靠人工干预解决垃圾信息的初级水准。在这方面的技术研发上,谷歌从诞生第一天开始就进行积累,至今已有10年历史,而通过机器、技术手段来解决垃圾信息早就成为世界通行的法则,现实已经证明了它的成功。所以,在垃圾信息和公正性上,我们旗帜鲜明的认为:

- 不能用搜索"准确性"混淆甚至代替搜索"公正性"的概念和基础地位
- 世界反垃圾信息技术水准无时无刻不在突飞猛进,不能让反垃圾信息成为大规模人工干预搜索结果的借口

在正式切入公正性的定义、搜索引擎的根本之前,我想讲两个故事,这两个故事都同中文搜索的公正性直接相关。这两个故事或许会让每一个致力于中文搜索技术进步的工程师感到痛心。我们不妨思索这样一个问题——如果搜索结果页面的黄金位置注定是广告,那搜索技术的创新还有什么意义?中文用户会有怎样畸形的体验?

1.迷失的中文搜索"黄金三角区"。
通常搜索引擎结果页面都有一个最最重要的黄金三角区——"搜索结果左上角",也就是最前面的五个搜索结果,这个区域就好比一张报纸的头版头条一样珍贵和重要。用户期待在这里看到最准确的他们最需要的信息。
我们看到一个调查报告,美国用户在他们最常使用搜索引擎的搜索结果页面上,目光主要聚焦在搜索结果的"黄金三角区",大概用时30秒,而中国用户的目光却散落在整个页面,用时超过60秒,所谓"黄金三角区"对中文搜索居然毫无意义。这很重要的一个原因,是用户在原本的关键位置无法找到非广告内容所致,他们需要自己满屏地、甚至翻屏的辛苦寻找有用信息。合计起来,中文用户每天比美国用户在搜索上浪费超过250万小时(或者超过10万天)的时间。

    


2."秦皇岛地图"的故事——搜索从第二页(才)开始。
2006 年年初,我们在做调研的时候发现了这样一个用户的故事。我们请用户搜索"秦皇岛地图",这个用户的行为非常奇特,在进入"秦皇岛地图"的结果页面后,用户直接下拉滚动条到页面底端。我们非常奇怪,问用户为什么这样做?用户为什么根本不看第一条搜索结果?用户说"反正前面都是广告,直接看后面几页好了"。
这个回答让我们非常震惊,因为用户已经不再信任那些排名靠前的搜索结果。这是非常可悲的,中文用户的搜索从第二页开始。

由此,让我们回到最基本、也是最关键的问题上——究竟什么是搜索的公正性?

搜索公正性,就是搜索页面最宝贵的区域不由广告价码来决定而由信息本身的质量决定,在中国也许还应该加上两点补充,即保护用户对搜索结果信息的知情权和不滥用自身的市场地位。

对于上周突然出现的一些奇怪声音,中国网民应当看清以下几个事实:

1. 垃圾信息和搜索公正是截然不同的两件事。
搜索公正性是负责任的搜索引擎公司对用户的一个承诺。搜索结果最终的公正排序,应当是以一定的算法系统对充满着庞大的人类智慧的网页和链接得出的运算结果,而不是出于一己利益人为干预和改变。当前危害中国搜索公正性最严重的问题,是在用户很难知情的情况下,将充满商业目的的广告按照价码的高低人为排列在正常的搜索结果之前。我们呼吁所有还在使用这种"过时商业模式"(竞价排名早在2002年就已被美国搜索行业彻底摒弃)的搜索引擎,立刻停止这种损害消费者利益的做法。这是保证中国互联网长期健康发展的根本所在。

打击垃圾信息的目的,是打击一些垃圾信息的发放者,避免他们企图通过不公平的作弊手段来操纵自己网站排名,让所有的用户受益于最佳的搜索质量。谷歌中国一直把处理垃圾信息作为重要目标。作为重点研究方向之一,我们已经研发了大批并行算法来发掘海量的数据,并在保护隐私和确保公正的前提下,检测垃圾信息。谷歌在这方面的研究已有10年历史,而在谷歌中国,从我们的中国工程研究院成立至今,每一个季度,谷歌中国处理垃圾信息的工作一直是中国搜索引擎里最好的,也是在谷歌全球所有搜索语言中保持领先的。

2. 公正性是搜索的根本。
在搜索结果中混入广告、按照广告价码的高低来排序的方式,违背了搜索公正性的根本。任何其可能带来所谓好处的讨论都是舍本逐末的。绝大多数垃圾信息是以商业目的为动机,如果一个搜索引擎收取好处,以广告的名义提高垃圾信息的排名,或者任意根据收费多少而主观决定何谓"搜索热点",这势必将损害绝大多数网民的根本利益。网民使用搜索引擎是来寻找"答案"的,而非仅仅是"广告",广告也许是"答案"的一部分,但绝不会是全部。

日前,有媒体报道称有多起用户因支付宝假冒客服热线而上当受骗的案例,这条报道是完全不负责任乃至颠倒黑白的。随后我们看到了支付宝的正式声明,指出文章中提到的骗子电话并非来自谷歌搜索结果,这让日夜与垃圾信息作战的谷歌工程师团队长舒了一口气。

3. 我们呼吁所有的搜索引擎,加入谷歌、腾讯、雅虎的行列,作出下列承诺:
(1) 明确标识和区分广告及自然搜索结果,以免误导用户;
(2) 珍惜搜索结果页面的黄金区域,决不让第一页搜索结果全部为广告充斥,让中文用户彻底告别搜索从第二页开始的历史;
(3) 绝不滥用自身的市场地位,绝不以收费或变相收费的形式来改变或删除搜索结果。

谷歌中国一直坚持的原则是:不人为干预搜索结果。我们不允许在自然搜索结果页上显示任何广告;谷歌刊登的广告只会出现在搜索页面的右边或者顶部的独立区域,并且用竖线、底色与其它的自然搜索结果明显地区别开来;最后,谷歌标识出的"广告"也不是纯粹根据广告主出价来排序,还会考虑到该广告对用户搜索词的相关度,而不只是出价最高的。谷歌所有广告信息均清晰地被标记为"赞助商链接"("Sponsored Links"),这一术语是目前世界公认的标准术语。

其它与公正性、搜索排名技术相关文章
谷歌排序的介绍:http://googlechinablog.com/2008/07/blog-post_21.html
谷歌排序背后的技术:http://googlechinablog.com/2008/07/blog-post_23.html
谈 Page Rank – Google 的民主表决式网页排名技术:http://googlechinablog.com/2006/02/page-rank-google.html

客观公正性是搜索行业的根本标准:http://googlechinablog.com/2008/04/blog-post_14.html
谷歌广告的成功利器:http://googlechinablog.com/2008/04/blog-post_16.html
说一说"谷歌资讯"的使用技巧与搜索行业"客观性"的基本原则:http://googlechinablog.com/2008/04/blog-post_07.html

 
 

可从此处完成的操作:

 
  --~--~---------~--~----~------------~-------~--~----~
您收到此信息是由于您订阅了 Google 论坛"参考消息(G4G)"论坛。
 要在此论坛发帖,请发电子邮件到 Go2group@googlegroups.com
 要退订此论坛,请发邮件至 Go2group+unsubscribe@googlegroups.com
 更多选项,请通过 http://groups.google.com/group/Go2group?hl=zh-CN 访问该论坛

-~----------~----~----~----~------~----~------~--~---

没有评论: