传媒人士眼中的"搜索引擎"(一)
栏目分类:搜索引擎动态 发布日期:2021-01-19 浏览次数:次
zhoublog:周博在之后会发布"传媒人士眼中的"搜索引擎"系列文章,让大家了解下非专业人士或者说他人从另一个角度怎么去看待搜索引擎的,或许较之我们更为公平公正点.
搜索引擎概述及主流搜索引擎的发展回顾
搜索引擎是因信息检索的需要而发展起来的。
传统书箱里的目录、索引其实就是纸张上的搜索,带领读者到哪页看什么内容。搜索引擎的目的跟它们在本质上是一致的。刚开始的搜索引擎还不是电子化的,也不是专门的关健词检索,但是依然自然而然地被人们应用,到后来有了计算机、电子数据,我们就通过计算机完成这种原本靠翻阅书籍完成的搜索。计算机大约有五六十年的历史,信息检索的发展也随其经历了不同的发展阶段。初期,例如同学们人学时的姓名、年龄,出生地等信息,这些信息是高度结构化的。所谓高度结构化,就是组织得很好的(信息)。但是后来,随着电子化的信息越来越多,比如网页,虽然它也有题目、内容等,但事实上巳经没有结构了。随着数据量的增长,它的结构就呈现非结构化特点,接着便出现了全文的数据检索,在互联网上的表现就是出现了搜索引擎。
互联网刚出现时,即便是专业人员都很少会用。首先出现的是对FTP文件进行搜索的Arhie,那个时候,网络对中国人来说是很遥远的事情,更多的是美国人在用。1996年我还在读书的时候,互联网刚刚进入中国不久,我们老师在讲座上跟我们讲,他发了份电子邮件,第二天就收到美国的回信.我们感觉好神奇啊!到1998, 1999年,我们开始拥有了Yahoo,那时的搜索引擎是这样的,Yahoo公司每天给互联网上的网站发邮件,说,"您好,我是个搜索引擎,代表Yahoo公司要把您这个网站搜到我的目录里面。”,那时互联网上的信息还不是特别丰富,通过人工处理把各类网站分类放到总的目录里面。Yahoo刚开始的搜素引擎就是这种概念,目录也仅是网站的目录而已,而且是Yahoo追在别人后面说."请您允许我把你的网站加到我的目录里来”。但是我们也可以看到虽然那时互联网上信息匮乏,但搜索引擎已经开始呈现雏形了。随着互联网上信息越来越丰富。人工处理方式越趋落后,于是出现了采用自动抓取排序的攫索引擎.也就是目前主流的搜索引擎模式,比如大家熟知的Google和百度。作为专业公司,它们不仅满足于我们通过输人关键词得出结果,同时,也在尝试新的发展以更加符合用户胃口的搜索,即所谓的搜索智能化。但是根据我对智能化的理解,从计算机自动处理角度而言的智能化,路途还是非常遥远的,在可预见的将来,尚不大切合实际。搜索引擎下一阶段更有可能的发展模式是社区化,即互联网用户的主动参与。就像百度里面的贴吧、同答一类。互联网鼓励大家积极参与,但这种鼓励仅仅是局限于公司内部给予的奖励。互联网要想智能化、符合更多人的需求,就需要大众的积极参与,需要通过合理而行之有效的激励手段去鼓励大家来参与搜索。
搜索引擎的发展阶段
雏形阶段(互联网初创).
Archie(提供FTp文件的查找服务)
人工分类阶段(WWW网开始流行)
Yahoo. AltaVista, Infoseek
自动抓取排序阶段(日前主流)
个性化智能搜索阶段(未来发展)
社区化
我们主要讲的是第三个阶段,就是目前我们大部分人用的自动抓取排序阶段的搜索引擎.可以以Google和百度为代表。
搜索引擎从广义而言有很多种,分类方式也各不相同。按使用方式可以分为:目录式、爬虫式,元搜索;按搜索范围可以分为:全网通用、垂直、企业;按信息类型可分为:文本、音乐、视频、图像等。
目录式搜索是分类的,是一级一级的,包括大类小类这样分下去。像Yahoo现在已经基本摒弃了,但经常用百度的人会注意到,百度现在又把"hao123"这个网站挂上去了。因为物极必反,目录搜索这种东西,起先因为本身的局限性而被淘汰,但是在大家使用关键词进行搜索一阵子后,又感到目录搜索有它存在的必要,即使它只是处于辅助或次要的地位。像OpenDirectory Project这个目录至今为止还是被广泛应用,尤其是专业用户,可见它还是很有着强劲生命力的。
爬虫式搜索是日前主流的搜索方式。现在我们搜索信息的主要类型还是文本,像音乐、视频、图像等多媒体.本质上也是文本的搜索引擎。不通过文本的、直接的搜索,目前是非常不成熟的,大家也很少用到。爬虫式搜索引擎比较多,有几十个甚至上百个都不同为奇,只是我们常用的只有很少的几个。事实上几乎每个搜索引擎公司都以搜索引擎起家,但随着业务的发展提供的服务也越来越多。像Google,现在也提供以搜家引擎为核心的越来越多的网络产品供大家使用。但事实上我们所关注的和它自己本身,都依旧是以搜索引擎为核心的。
说到元搜素,可以举一个例子,我们输入关键词:浙江传映学院。它出来的结果是将百度、Yahoo, Google等等搜索引擎的结果整合在一起进行包装的,然后作为一个总的结果反馈出来,这就是元搜索。此类的搜索引擎很容易创建,只要把百度、Yahoo、Google等调用作为自己的结果即可,同时它对结果的处理能力有限,比较简单。