12Jan/10

阿凡达/Avatar的互联网解读

自从在wired的RSS Feed里不断看到Avatar的消息,无论围绕卡梅隆或者片场花絮如何传奇–记得有一则是卡梅隆重金聘请南加州大学的两位教授, 一位帮助其设计了pandora的全套语言, 另一位似乎是设计了环境, 在我的脑海里, Avatar和Pandora是完全不同的东西,跟电影和故事不相及的东西。 但凡是自建博客, BBS的人, 对头像一定不陌生,这就是Avatar, 就是帖子里的头像. 参与者也可以使用www.gravatar.com的服务, 通过一次头像的上传和设定, 在所有支持GRavatar的体系里,大多数的博客系统,CMS系统,例如Wordpress, 当你以电邮地址登陆站点, 你的Avatar如影随形自动就显示在你的帖子,留言里。以后当你看到如下图的多彩双B的符号, 就应该知道是choubb大侠的手笔了。 互联网的Avatar和阿凡达的寓意似乎有些类同。我翻开历史一查,这历史没有年代, 呵呵。歪歪斜斜的每个页都写着“印度教”几个字。读音也是从印度语借来的,指天神下凡所借的肉身或具形。Avatar更多更直接的会被认为是印度教中Vishnu的肉身。阿凡达影片里对人类顶礼膜拜, 几近成神;而神仙一般的Pandora居民, 无疑成了贱民, 原住民,甚至可以挂上原始两个字做其形容词。 Pandora是什么,作为数字原住民,直接的反应是www.pandora.com。两三年前意外发现这个网站时,重新燃起了俺上互联网的兴趣。这是一个在线音乐电台网站,目前的豆瓣电台,虾米电台有一点点P的影子,差不多是画虎反类猫的感觉吧。P网是第一个吸引俺每日常去的娱乐网站。即使到今天,在国内仍然没有能堪比2,3年前的P网的站点。进了互联网的圈子, 才知道Pandora依然成了推荐引擎的一个经典,跟亚马逊的社会化推荐引擎并驾齐驱,也被称为基因推荐。 P站上手很快, 一个简单得不能再简单的收音机UI, 创建自己的电台,也许就是一个标签而已, 比如创建Avatar频道, 然后搜索选择你认为应该属于Avatar频道的歌曲,歌手或者作者。可以是一首两首,也可以使几十几百首,1分钟内之内, 你的电台就搭建完毕,也开始播出了。P站根据你的初始设定的歌曲,以及收听途中的反馈, 不断学习你的口味,不断推荐新的类似风格的曲目。一切自动而行,听者无需做任何动作,除非你需要反馈,前进或者购买下载。到今天我还记得从P站学到的新歌 The King’sRead More…

30Dec/09

用户体验的流程和搜索设计随笔

年底终于闲下来, 在派代闲逛感言。不成体系, 一点点随想而已。 用户体验的流程和搜索设计,目前国内缺乏全才型人才。基本是业务外行IT内行,或者相反。 我的建议是,制定一套开发流程, 有机的结合起来业务专家和IT专家, 这样才能搭建起来一个业务和客户导向的在线应用。 目前俺们的开发流程是, 第一步, 技术自己去看甲方数据源, 请甲方业务专家描绘业务流程和业务特点(比如分类。。)—当然要提供一些参考样本了, 业务专家都是巨忙的强人。 第二部, 技术和业务一起讨论业务模型, 初步得到架构和可实现的业务模型和列表。 第三步。 开发,讨论 第四步, 开发讨论beta 第五步。该干嘛干嘛 第六步。。

29Dec/09

翻译练习:2009的五个web趋势:结构化数据

原文:http://www.readwriteweb.com/archives/top_5_web_trends_of_2009_structured_data_1.php,发表于www.readwriteweb.com. 译言(www.yeeyan.com)已经成了回忆,也许是永久的回忆。时隔许久,才能厘清心头的魔咒,在没有译言的环境里继续前行。还好,网络的便利允许我仍旧保留一块小小的天地,自我的,朋友的, 同路的, 一起分享,互为激励。本文权作译言的一个小小纪念吧。 关于本文, 有意思的是在不久前的博文:搜索引擎的中式困境:谷歌,必应,百度,搜狗,搜搜及有道 中, 俺也提到了本文的第三个案例, WolframAlpha, 目前已经跟微软合作, 帮助微软提供某些垂直领域的知识搜索服务,貌似已经集成在Bing里了。有兴趣的童鞋不妨自行前往。 撰稿Richard MacManus / 12月12日下午02:00 26 /   本周ReadWriteWeb将发布系列博文,详述我们认为的5个最大,最前沿的2009的Web趋势。 将每天一文。 本周末我们将发表总结性的web技术发展趋势的标准演示文章。 Web的第一个主要趋势,其实是结构化数据 。 在此前的文章里 ,有时被归类到“语意web”(原文semantic web)。 然而2009年的发展中,这一趋势远远超出了语意web的范畴 。 本章我们将分析本年度结构化数据的发展,并提供三个产品案例:OpenCalais,谷歌,Wolfram Alpha。  编者按:本篇是一个我们称之为Redux系列的一部分,2009年最好的一些文章将结集于Redux。  在我们回顾2009年,展望来年之际-我们认为这些故事才是真正值得我们重读的。Read More…

06Dec/09

搜索引擎的中式困境:谷歌,必应,百度,搜狗,搜搜及有道

中式的竞争,注重的是市场宣传,口碑,跟官方的合作,跟“主体思想”的一致性,这在内容,媒体相关的产业圈里是颠簸不破的真理。 从谷歌百度进入中国的历史来看,前者带着对中国市场的轻视,对GFW的迟疑(谷歌进入中国,遵循中国政府的互联网的内容过滤,其实已经违背了其“不作恶/Don’t be evil’的信条,其光辉形象已经在广大谷米心目中蒙上了阴影-谷歌的中国困境啊),对中文搜索技术的缺失,在相当长的时间里留下了市场的真空,这个局面一直到2005年正式成立谷歌中国公司才开始逐渐改观。 反观百度,自2001年10月发布搜索服务之时,明确专注于中文搜索,得到了民族情绪日渐上升的早期网民的绝对拥护-俺也是其中一员。到2005年上市的4年间,百度攻城掠地,不断提高技术功力,占领市场份额,一跃成为一家独大的中文搜索服务。 自从俺也开始了解了一些搜索技术,才慢慢了解到搜索其实也是体力活。爬虫去爬网页,是机器的体力活,热门词汇的分析和生成,也是一半机器一半人工体力活,搜索框的输入自动完成,也一半机器一半人工的体力活。基本原理都是系统做统计,人工做内容(关键词,热词)终审。 可以考察一下搜索第一牛人的谷歌,看看到底其在搜索技术上有什么绝活,以下摘自中文维基 他们开发了一个对网站之间的关系做精确分析的搜寻引擎,此搜索引擎的精确度胜于当时使用的基本搜索技术。当时项目被称作BackRub,因为系统会检查backlinks(反向链接),以评估站点的重要性。 Google搜索引擎以它简单,干净的页面设计和最有关的搜寻结果赢得了因特网使用者的认同。搜索页面里头的广告以关键字的形式出售给广告主。为了要使页面设计不变而且快速,广告以文本的形式出现。这种以关键字卖广告概念本来是Overture[1]开发的(即原来的Goto.com)。当大部份的网络公司倒下时,Google则一直安静地在稳步发展着并开始盈利。 2001年9月,Google的网页评级机制PageRank被授予了美国专利。专利正式地被颁发给斯坦福大学,Lawrence Page作为发明人列于文件中。[2] PR,唯一被谷歌提及的搜索技术,目前面临着逐步被淘汰的可能性(本博经过三个月的艰苦努力PR从0变到了3),以下摘自中文维基 2009年10月14日,Google员工苏珊·莫斯科(Susan Moskwa)确认该公司已自其网站管理员工具部分移除 PageRank。她对这部分移除的公告表示:“我们长久以来一直在告诫人们不应该过分注重 PageRank;很多网站站主似乎认为对他们来说得时时追踪的网站最重要指标,而这简直是个误解。”[2]然而在苏珊确认后两天, PageRank 仍旧在Google工具栏上显示。 搜索,核心技术有三个方面, 其一, 网络爬虫技术,抓取网页内容。其二:分析内容,确定抓取的网页的关键字或者元数据(meta data),并生成索引. 其三:客户搜索时, 根据关键字和元数据正确的识别客户的请求,同时输出合理的诸多结果的排序。 谷歌引以为傲的专利,仅仅只在第三步的搜索内容排序环节起作用,而且需要大量的人工干预去消除PR的作弊行为(谷歌的另一项专利, adwords/adsense更多的是商业创造的成分,跟搜索技术没有太多的相关)。从网民们的经验上看,PR技术似乎也并不理想。搜索结果过多,相关性太低是普遍的搜索体验。 可以想见,决定搜索技术命运的核心技术,在此之前,并未出现在任何一家。竞争的层面还处于角力的方式,花更多的服务器去爬网页,请更多的蓝领工程师更快的分析审核关键词,热词,内容。。。谁的人力更多,更勤奋,更受管理层重视,谁的搜索结果就会更实时,更准确一些。群众运动,是国人的强项,难怪百度会一鸣惊人,独占鳌头。等谷歌,搜狗明白过味来,市场,口碑皆为百度占有。曾经一时,搜狗拼音刚出现的时候,我顺带对比了一下搜狗的搜索和百度搜索(搜狗拼音应用了相当的搜索技术,也符合俺所定义的群众运动),80%的时间比百度要准确。最近感觉搜狗搜索质量急剧下降,应该是搜索部门人力减少了吧-我猜测应该是转移到搜狗拼音的部门继续搞群众运动去了-没有觉得最近搜狗词库的更新非常频繁么?仔细看我的上文,搜狗拼音也是搜索,更是群众运动!  跟百度断绝关系,大概有两年多。最终从搜狗转到了一圈回到了谷歌, google.com, 而不是被阉割了的google.cn。近期有了惊人的发现-谷歌搜索越来越实时,越精确了。 差不多一个月前,意外做了刚刚发布不到10分钟的博客标题的搜索,谷歌的搜索结果里第一个返回了我的博客。今天扩大了对比范围。针对刚发布的我的搜狗博客(搜狗应该占了先天优势)做标题搜索, 只有谷歌,中搜返回了我的博客,其余百度,搜狗,必应,有道,统统都不合格,没有返回俺的搜狗博客。Read More…