Tag Archives: baidu

06Dec/09

搜索引擎的中式困境:谷歌,必应,百度,搜狗,搜搜及有道

中式的竞争,注重的是市场宣传,口碑,跟官方的合作,跟“主体思想”的一致性,这在内容,媒体相关的产业圈里是颠簸不破的真理。 从谷歌百度进入中国的历史来看,前者带着对中国市场的轻视,对GFW的迟疑(谷歌进入中国,遵循中国政府的互联网的内容过滤,其实已经违背了其“不作恶/Don’t be evil’的信条,其光辉形象已经在广大谷米心目中蒙上了阴影-谷歌的中国困境啊),对中文搜索技术的缺失,在相当长的时间里留下了市场的真空,这个局面一直到2005年正式成立谷歌中国公司才开始逐渐改观。 反观百度,自2001年10月发布搜索服务之时,明确专注于中文搜索,得到了民族情绪日渐上升的早期网民的绝对拥护-俺也是其中一员。到2005年上市的4年间,百度攻城掠地,不断提高技术功力,占领市场份额,一跃成为一家独大的中文搜索服务。 自从俺也开始了解了一些搜索技术,才慢慢了解到搜索其实也是体力活。爬虫去爬网页,是机器的体力活,热门词汇的分析和生成,也是一半机器一半人工体力活,搜索框的输入自动完成,也一半机器一半人工的体力活。基本原理都是系统做统计,人工做内容(关键词,热词)终审。 可以考察一下搜索第一牛人的谷歌,看看到底其在搜索技术上有什么绝活,以下摘自中文维基 他们开发了一个对网站之间的关系做精确分析的搜寻引擎,此搜索引擎的精确度胜于当时使用的基本搜索技术。当时项目被称作BackRub,因为系统会检查backlinks(反向链接),以评估站点的重要性。 Google搜索引擎以它简单,干净的页面设计和最有关的搜寻结果赢得了因特网使用者的认同。搜索页面里头的广告以关键字的形式出售给广告主。为了要使页面设计不变而且快速,广告以文本的形式出现。这种以关键字卖广告概念本来是Overture[1]开发的(即原来的Goto.com)。当大部份的网络公司倒下时,Google则一直安静地在稳步发展着并开始盈利。 2001年9月,Google的网页评级机制PageRank被授予了美国专利。专利正式地被颁发给斯坦福大学,Lawrence Page作为发明人列于文件中。[2] PR,唯一被谷歌提及的搜索技术,目前面临着逐步被淘汰的可能性(本博经过三个月的艰苦努力PR从0变到了3),以下摘自中文维基 2009年10月14日,Google员工苏珊·莫斯科(Susan Moskwa)确认该公司已自其网站管理员工具部分移除 PageRank。她对这部分移除的公告表示:“我们长久以来一直在告诫人们不应该过分注重 PageRank;很多网站站主似乎认为对他们来说得时时追踪的网站最重要指标,而这简直是个误解。”[2]然而在苏珊确认后两天, PageRank 仍旧在Google工具栏上显示。 搜索,核心技术有三个方面, 其一, 网络爬虫技术,抓取网页内容。其二:分析内容,确定抓取的网页的关键字或者元数据(meta data),并生成索引. 其三:客户搜索时, 根据关键字和元数据正确的识别客户的请求,同时输出合理的诸多结果的排序。 谷歌引以为傲的专利,仅仅只在第三步的搜索内容排序环节起作用,而且需要大量的人工干预去消除PR的作弊行为(谷歌的另一项专利, adwords/adsense更多的是商业创造的成分,跟搜索技术没有太多的相关)。从网民们的经验上看,PR技术似乎也并不理想。搜索结果过多,相关性太低是普遍的搜索体验。 可以想见,决定搜索技术命运的核心技术,在此之前,并未出现在任何一家。竞争的层面还处于角力的方式,花更多的服务器去爬网页,请更多的蓝领工程师更快的分析审核关键词,热词,内容。。。谁的人力更多,更勤奋,更受管理层重视,谁的搜索结果就会更实时,更准确一些。群众运动,是国人的强项,难怪百度会一鸣惊人,独占鳌头。等谷歌,搜狗明白过味来,市场,口碑皆为百度占有。曾经一时,搜狗拼音刚出现的时候,我顺带对比了一下搜狗的搜索和百度搜索(搜狗拼音应用了相当的搜索技术,也符合俺所定义的群众运动),80%的时间比百度要准确。最近感觉搜狗搜索质量急剧下降,应该是搜索部门人力减少了吧-我猜测应该是转移到搜狗拼音的部门继续搞群众运动去了-没有觉得最近搜狗词库的更新非常频繁么?仔细看我的上文,搜狗拼音也是搜索,更是群众运动!  跟百度断绝关系,大概有两年多。最终从搜狗转到了一圈回到了谷歌, google.com, 而不是被阉割了的google.cn。近期有了惊人的发现-谷歌搜索越来越实时,越精确了。 差不多一个月前,意外做了刚刚发布不到10分钟的博客标题的搜索,谷歌的搜索结果里第一个返回了我的博客。今天扩大了对比范围。针对刚发布的我的搜狗博客(搜狗应该占了先天优势)做标题搜索, 只有谷歌,中搜返回了我的博客,其余百度,搜狗,必应,有道,统统都不合格,没有返回俺的搜狗博客。Read More…