|
石晓虹:很高兴有这个时间跟大家讨论搜索引擎的问题,奇虎专注于社区内容方面的搜索、整合和聚合的一家小公司,我交流一下社区搜索和社会化搜索的想法。
中国互联网的发展从用户人群数,到用户的渗透率,到中国网络营销市场的迅速增长,大家都非常清楚,我不多罗嗦了。但现在我们可以看到一个趋势,娱乐或者很多与娱乐相关、生活相关的信息越来越占互联网非常大的比例,这里有非常多内容产生于社区。调查看到,越来越成为网民使用的服务。从博客的快速发展到空间到视频分享网站的发展,都能看到这一点。包括一些其他的信息的查询,对音乐、电影的上传下载都在社区里发生的,社区一定成为互联网发展的大趋势。
一个成功的网站,必然是成功的社区,我们看社区的形态,不仅仅是刚才提到的,我们可以理解腾讯就是即时通讯的网站。很多网站也希望有很好的人气和用户黏性,必须要发展很好的社区。从这里看到它对互联网的影响,所谓1.0时代,今后我们会发现,互联网上的内容主体很可能是用户产生的内容。其实现在所说的Web2.0核心理念就是用户的互动和参与,我们来看社区的发展是非常迅速,网民对社区的应用其实还有很多不满意的地方。
这也是一个调查,比如垃圾信息很多,这是中国互联网社区里的特征,比如论坛有90%是垃圾帖,另外信息非常分散,一个社区里肯定很专业,但不丰富,大家找感兴趣的信息很困难。第三,专业的社区内容可能会单一,但在互联网上有很多符合你兴趣爱好的社区存在,但你不知道。我们看目前的搜索引擎确实在解决社区内容需求方面的缺陷,我们就希望解决这种人们对内容的需求。我们先看UGC的特点,门户时代有少数人来产生内容,UGC是无数用户创造内容。
我们可以简单总结,第一是内容很庞杂,出现信息过载,也就是陈总说的信息污染,这个情况已经很明显了。现在在论坛里内容的数量是大量的,但充满了垃圾。
第二是分布化,用户可能在单一的社区里满足不了需求,但又不能其他社区,如果能把符合用户多个社区的内容融合在一起,那么很显然就可以满足他。
第三就是分众特点,社区就是按照不同用户分的,分类是非常细致的,不是按照几个频道可以改造的。
第四个特点就是实时,每天的发贴量可能在一分钟之后有人就帖出来,在门户新闻网站上可能要等一个小时,现在搜索引擎可能要等几个小时,但社区里很快就可以看到。有千千万万这样的社区,如果都是非常快的更新,对搜索引擎就带来了一个挑战,如何实时的抓取这些内容。另外一个很重要的特点,我认为就是社区核心的本质,是用户的参与,不是静态的内容放在那里,如果内容是静态的,发布出来之后就失去了活力,大量的用户在里面讨论,所以可以使内容变成活的。从社区里沉淀了很多人们的经验、评论、推荐,个人的体会、专家的意见等等。这里面怎么发现用户的重要性,包括社会化的搜索,实际上要考虑人在里面搜索的特点。还有就是娱乐为主,社会化、娱乐化的东西越来越多。比如说我们对搜索引擎来看,简单举几个方面,比如信息的抓取,社区的内容非常实时,要求具有很高的刷新度,还有其他难点,很多社区都是动态的,不是静态的页面,比如网页的跳转,都是动态的,如何抓取这部分内容,这是挑战。
第二就是庞杂的社区内容,而且垃圾比例更高的内容,如何过滤掉。第三,社区里的内容体现了很多人的参与,很多人的参与形成的结果,这样的东西如何分析和抽取里面的内容,这跟原来的搜索引擎不太一样,原来就当成文本流,把广告、垃圾去掉之后,把正文抽出来,根据用户的查询词做匹配,但并不理解文字里的含义,如果做更准备的搜索的话,必须要有一定的方法理解,比如这个地方代表价格,这个地方代表航班时间,需要更精确的分析。
还有搜索的排序,直接决定了搜索引擎用户的满意度,相关度。实际上用一种网页的外在物理属性评判一个网页的价值,这种方法在大规模的海量网页里,大规模地基于概率和统计的方法有一定的合理地方,确实能够体现网页的价值。但在社区里的内容出现了变化,在不同博客之间、帖子之间连接相关的比较少,通过这些东西分析一篇文章、一个帖子是否更重要更相关,这种算法可能不一定更有效。
但反过来我们会看到,这里有很多认为造成的因素,比如一篇帖子有多少人看多少人回复,在多少不同的网站转载,有多少人有评论,比如视频,有多少人点击、播放,有多少人投票、留言了等等都是通过用户的交互产生的因素。用这些东西叫做人气指标,用非常多的人气指标,在用户产生的内容里决定内容重要不重要,这样排序会更合理。所以对社区内容的搜索,本身对传统搜索引擎带来了很多挑战或者新机会。 对传统的门户来说,目前社区的发展也有一些挑战,比如传统门户的手工编辑的方式,肯定无法组织、涵盖这么广的社区内容,不可能用几百个编辑处理这样的事情,而是千千万万用户来参与的。第二,现在很多门户也在做社区,但是即使是一个再大的门户,它关心用户的爱好点是有限的,可能满足大众的需求,对细致的个性化阅读比较难以满足。也包括一个大的门户做的社区,比如关于汽车、房产,未必有一个专业的社区做的好,所以社区将来不是一种的,某几个网站就可以垄断社区内容,而一定有很多不同特点的社区存在。
更重要的一点,谈到社区UGC对用户行为的影响,我觉得也带来很多不同的方法。这是我们对搜索的理解,传统来说对搜索的理解是输入一个关健词得到一个列表,这是用户有明确的目标。我知道我自己想做什么找什么用这种方式搜索,对社区来说,或对娱乐生活为目的的社区来说,很多用户没有目标,就是随便看一看,没有什么自己感兴趣的东西,所以很难找到明确的搜索词。这有点像看电视一样,即使将来电视频道丰富了,用户也很难用一些词定位一个频道,随着转一转,看哪个频道好就看一看。
第二,在中国用户来说会比较明显,很多用户还是喜欢信息直接呈现在自己面前,最好是已经经过分类,更好就是符合我的爱好,我只需要点击阅读就好。比如Google的视频搜索和Youtube做比较,Google的视频还是用关健词,但Youtube不是,是视频分享的社区,其实不仅仅是视频的分享,变成了交友网络或者一个社区,虽然没有保证找到全部的视频。但都是很多用户推荐的视频,流量远远大于Google。
那么还有,用户对内容和信息的需求可能通过其他的是来获得,很多的用户有趋同的心理,他愿意找热门或者是潮流的。比如说各种各样的排行榜,所以对于娱乐的内容,比如说百度做视频或者是音乐都会有各种各样的排行榜。国外还有专门的网站做这样的TOP TEN这样的东西。那么很多人有这样一个经验,比如说你想买一款平板电视,我觉得你很难说只是看一下厂家或者是看一下这个厂家网站上所介绍的东西,就能下定决心说我要买电视,很多人到论坛或者是社区里面问这个问题,看一下别人的经验或者是评价。那么这其实就是说借助别人的知识或者是经验得到一些信息。那么怎么通过人和人的互动或者是分享得到这些经验或者知识呢?这也是人们找到自己需要的一种模式,那么这种模式在社区里面是一个非常重要的方面。也可以举一个例子,就是亚马逊图书的推荐,比如说买过这本书的人还买了什么书,这是一个很简单的例子。
所以说,我们对社区搜索或者是社会化搜索的理解,目前的关键词的方式,我认为他是一个比较传统的图书馆式的检索,只是一种狭义地搜索方式。但是我们看将来对于社区或者是人在社区参与的过程中,他们对信息的需求,搜索只是一种手段,他们的目的是找到需要的信息,所以其实还是有很多其他的方式,我们把它都可以归到一个广义的搜索行为模式里面。比如说各种分类的排行,怎么找到这种阅读的热点和趋势,那么这种东西是不是可以不用搜索,直接我通过一种方法就可以展现给用户看,而且在看的过程中他越来越逼近他自己个性化的需求,逼近他自己所关心的领域里面的热点或者是趋势。那么怎么去找到一些专家,在某些领域里面的专家,找到他们的一些经验?或者找到一些跟你有共同兴趣、爱好的人?去分享他们的经验?那就是在这个内容里面挖掘那些人他们所推荐的知识或者经验。还有从你现有的文章里面找到一些有关联的东西,这所有的方式都是人们找到自己需要的信息的方式,而不仅仅是关键词的搜索。所以对于奇虎来说,互联网搜索的内容就是以用户自己创建为主体,那么用户对于信息的需求有搜索、发现、存储、分享等各个环节组成。我们试图针对UGC的特点,对搜索方面的不同的要求,我们怎么样更好地解决海量的社区内容的搜索、发现和让用户分享这方面的需求。包括怎么样对这些内容做进一步的挖掘,除了内容以外怎么挖掘里面的人的兴趣和爱好,并且通过他们之间产生互动帮助用户找到更有价值的信息。这就是奇虎关于搜索的一些想法,谢谢大家!
|