2010年6月30日星期三

[G4G] Re: Google 官方宣布新的网页索引系统 Caffeine

发表者:Carrie Grimes,软件工程师
原文链接:Our new search index: Caffeine
转载自:谷歌中文网站管理员博客
发布时间:2010年6月8日 星期二,下午5:00

今天,我们正式宣布:新网络索引系统Caffeine的开发完成了。Caffeine提供的网络搜索结果比上一个版本索引的结果新50%,它能给我们提供最多的网络内容。现在,无论是新闻报道、博客还是论坛帖,在其发表后,您都可以比以往任何时候更快地找到相关内容的链接。

对于那些不是和我们一样以构建搜索引擎谋生的人们来说,以下是一些背景知识:当您搜索谷歌时,您在搜索的不是实时网络;相反,您搜索的是谷歌的索引,它和书背面的清单一样,可以帮助您锁定需要的信息的位置。(点击这里,可以清楚了解索引是如何工作。)

那么,我们为什么要创建一个新的搜索索引系统呢?网络的内容日益剧增,这不仅仅是数目和容量在增多。随着视频、图片、新闻和实时内容的出现,普通网页的内容更丰富也更复杂。此外,人们对搜索的预期也比以往更高。搜索者希望找到最新的相关内容,内容发布者希望在发布内容后立即被人搜索到。

为了紧跟网络的发展趋势并满足不断增长的用户期望,我们创建了Caffeine。下图将为您演示Caffeine与旧索引系统的工作原理的对比:



我们的旧索引有多层结构,它们中间的更新速度不尽相同:有一些会比另外一些更新速度快,而主层则是几个星期更新一次。为了更新旧索引的一层,我们必须分析整个网络,这意味着,在我们找到网页与让您访问该网页之间,将会有很大的延迟。

在Caffeine系统下,我们分析网络的小部分,并在全球持续更新我们的搜索索引。当我们发现新网页,或现有网页出现新信息时,我们可以将其直接添加在索引中。这意味着您可以发现比以往任何时候都更新的信息――无论该信息是在什么时候、什么地方发布的。

凭借Caffeine我们可以检索规模巨大的网页。事实上,每秒钟Caffeine能平行处理上几十万个网页。如果这些网页是一堆纸的话,那么每秒钟纸堆都将长高三英里。Caffeine占据了数据库中近1亿G的储存空间,并以每天几十万G的速度添加新信息。存储这么多信息,您需要625,000个存储量最大的iPod才能完成;将这些iPod头尾相连的话,总长将超过40英里。

着眼于未来,我们创建了Caffeine。它不仅可以保证内容更新,还能为我们创建一个更快速全面、并且随着网络信息增长而扩展的搜索引擎打下坚实基础,从而为您提供更多相关的内容。请做好准备,在未来几个月里您可以见证更多的改进。


2010/6/9 参考消息 <>
尽管我们在去年8月就知道Google要上马Caffeine网页索引系统了,但是Google官方今天才正式宣布。Caffeine系统可提供比以前多一半的新的索引结果,也就是说Google可以收集到比以前更多的信息,而且Caffeine的索引速度比以前更快,它也是Google实时搜索可以实现的重要元素。

 
 

Sent to you by 参考消息 via Google Reader:

 
 

via 谷奥——探寻谷歌的奥秘 by musiXboy on 6/9/10

尽管我们在去年8月就知道Google要上马Caffeine网页索引系统了,但是Google官方今天才正式宣布。Caffeine系统可提供比以前多一半的新的索引结果,也就是说Google可以收集到比以前更多的信息,而且Caffeine的索引速度比以前更快,它也是Google实时搜索可以实现的重要元素。

实际上当你在Google进行搜索的时候,Google并不是在做实时搜索,而是搜索Google之前已经索引到的存放在数据库里的内容,随着网络的进化,内容极大的丰富,不仅是数量上的增加,还包括更丰富的形式,比如视频、图片、新闻、实时更新等等,而且人们对搜索引擎的期待越来越高,他们希望找到最新的最相关的信息,内容发布商则希望他们前脚发出的内容,后脚就可以在Google搜索到。

为了赶上网络的进化和人们的期望,Google祭出了Caffeine,上图显示了老式索引系统和Caffeine索引系统的区别。老系统有多个层,一些是最新的内容而其它则是较老的内容,但大多数的层需要几周才会更新一次。为了更新一个老的索引层,Google需要重新将整个网络分析一遍才可以,所以不能保证让你看到最新的内容。

而有了Caffeine,Google可以在很短的周期里就分析一遍网络,并更新索引库。而且Google可以做到只要一发现新的网页、网页里新的信息就立即将它们加入到索引库里,它们立刻就会被你搜索到。

Google还透露说,Caffeine每一秒可以并行处理成百上千个页面,如果将这些网页都打印出来,堆在一起能达到3英里厚。Caffeine每天会在单个数据库里增加将近1亿GB的新数据,你需要62万5千个最大的iPod才能存的下这些信息,如果将这些iPod连起来能排出40英里。

Via Google Blog


© musiXboy 发表于 谷奥——探寻谷歌的奥秘 ( http://www.google.org.cn ), 2010. | 1 条评论 | 永久链接 | 关于谷奥 | 投稿/爆料
Post tags: , ,
欢迎订阅谷安子站,关注Android新闻,技巧及更多


 
 

Things you can do from here:

 
 



--
鹅是一个兵,来自老百姓。鹅不是老大,天才是老大
您无所不谈,鹅也不例外。鹅是参考消息@无所不坛
janadabc.blogspot.com  墙内请用谷歌阅读器订阅。
喜欢推特?请翻墙跟@elaoda,鹅推特推荐用中文!

--
您收到此邮件是因为您订阅了 Google 网上论坛的"参考消息(G4G)"论坛。
要向此网上论坛发帖,请发送电子邮件至 go2group@googlegroups.com。
要取消订阅此网上论坛,请发送电子邮件至 go2group+unsubscribe@googlegroups.com。
若有更多问题,请通过 http://groups.google.com/group/go2group?hl=zh-CN 访问此网上论坛。

没有评论: