2008年4月27日星期日

[G4G] VisualRank:Google图片搜索的PageRank算法

尽管过了十年,但我们可以看到Google的图片搜索的确没有质的改进,它仍然只是利用老技术,依靠分析文字来猜测图片内容。因此你可以常常看到在进行 Google搜索时,出现的图片结果有时是毫不相关的;即使是在Google News的新闻里,有时候新闻所配的图片也和新闻内容毫不相关。这些都是技术及算法的局限。不过相比上述Google遥远的专利,VisualRank还是挺值得期待的。

 
 

Sent to you by 参考消息 via Google Reader:

 
 

via GSeeker on 4/27/08

Google_cn_images_res.gif
  众所周知,Google搜索引擎之所以能被世界认可,是因为它独特的PageRank算法能返回更准确的搜索结果。据Google官方介绍:

"PageRank技术:通过对由超过50,000万个变量和20亿个词汇组成的方程进行计算,PageRank能够对网页的重要性做出客观的评价。PageRank并不计算直接链接的数量,而是将从网页A指向网页B的链接解释为由网页A对网页B所投的一票。这样,PageRank会根据网页B所收到的投票数量来评估该页的重要性。

此外,PageRank还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。重要网页获得的PageRank(网页排名)较高,从而显示在搜索结果的顶部。Google技术使用网上反馈的综合信息来确定某个网页的重要性。搜索结果没有人工干预或操纵,这也是为什么Google会成为一个广受用户信赖、不受付费排名影响且公正客观的信息来源。"

  可见PageRank是Google搜索引擎的根基所在。但PageRank一般只用在网页的搜索上,如果说到图片搜索,那它就显得无能为力了。原因很简单,因为图片和文字完全不同,Google可以用机器算法去读懂(尽管不是百分百)网页上的文字,但却不能读懂图片。现在的搜索引擎包括Google在内都是依靠分析图片的注释文字或周边的文字内容来猜测图片的内容,自然就无法做到和网页搜索那样的准确。去年7月Google的一项专利里描述了一种使爬虫能读懂图片及视频里的文本内容的方法,那将有可能使Google从根本上解决图片搜索问题,但同时那也显得有点太遥远了,并且带点科幻色彩。

  据纽约时报的报道,在上周于北京举行的国际万维网会议上,Google的两名科学家Yushi Jing及Shumeet Baluja介绍了Google的一种新型算法,名为VisualRank。从名字便可知,VisualRank是一种综合了图像识别软件方法及衡量及对相似图像进行排序技术的算法,它可以说是图片搜索版本的PageRank。据Google介绍,VisualRank算法会首先应用于Google搜索引擎已完成分类的图片子集上,因为分析及比较图片需要耗费巨大的计算资源成本,一下子应用到所有图片上,那将是不切实际的事。

  尽管我们不清楚Google已经对多少图片进行了分类,但Google指它集中精力研究了用户在Google产品搜索上所完成的2000个最常见的产品搜索查询,比如和热门电子产品iPod、Xbox等相关的查询,然后再将其排名系统及标准图片搜索结果里的前十个图片进行归类。负责图片搜索项目的Google团队有150位成员,他们创造了一种图片相关度的评分系统。Google声称基于这种技术,图片检索所返回的不相关图片能减少83%。

  VisualRank听起来很强大,但Riya却并不认同。如果你还记得,Riya是一家专注于可视化搜索的公司,由于其图像识别技术强大,在05年就已经多次传出Google要买下它的消息。但后来Riya官方坚持不卖,于06年推出了Like.com,专注于可视化购物搜索业务。Riya的CEO认为Google的目标不切实际,因为他认为图片搜索是没有大规模解决方案的,应专注于小范围。同时,他也认为Google在图片搜索技术方面的研究动作过慢了。

  尽管过了十年,但我们可以看到Google的图片搜索的确没有质的改进,它仍然只是利用老技术,依靠分析文字来猜测图片内容。因此你可以常常看到在进行Google搜索时,出现的图片结果有时是毫不相关的;即使是在Google News的新闻里,有时候新闻所配的图片也和新闻内容毫不相关。这些都是技术及算法的局限。不过相比上述Google遥远的专利,VisualRank还是挺值得期待的。不过Google刚开始只会把它应用于产品搜索上,然后再经过长时间的改进才有可能大范围应用。这样一来要看到有质的改进的Google图片搜索引擎,那恐怕也不会是短期内会发生的事了。 继续.

Related:

揭秘:Google内部收集员工创意的方法 - 13 十月 2006

确定:Google将花费6亿美元在美国北卡罗来纳州兴建新数据基地 - 20 一月 2007

卡巴斯基:Google封杀可疑用户 错杀情况严重 - 18 六月 2007

用户建议:Google可以改善的地方 - 29 一月 2008




本 Feed 内容归 Creative Weblogging 公司版权所有,并受到版权法保护。我们将会严肃纠察私自滥用该内容的行为。如果您希望非商业使用该内容,请发邮件至 feeds - at - creative-weblogging.com.

 
 

Things you can do from here:

 
  --~--~---------~--~----~------------~-------~--~----~
您收到此信息是由于您订阅了 Google 论坛"参考消息(G4G)"论坛。
 要在此论坛发帖,请发电子邮件到 Go2group@googlegroups.com
 要退订此论坛,请发邮件至 Go2group-unsubscribe@googlegroups.com
 更多选项,请通过 http://groups.google.com/group/Go2group?hl=zh-CN 访问该论坛
-~----------~----~----~----~------~----~------~--~---

没有评论: