传媒人士眼中的"搜索引擎"(三)
栏目分类:搜索引擎动态   发布日期:2021-01-19   浏览次数:

通过对搜索引擎原理的理解,可以了解这种传播如何实现,并明白搜索引擎传播相对于传统电视、报纸等传播的不同。

  这篇周博建议优化新手都仔细阅读下,提到了好几个专业术语:词频,逆向文字频率等等.

  传媒人士眼中的"搜索引擎"(一)

  传媒人士眼中的"搜索引擎"(二)

  搜索原理

  通过对搜索引擎原理的厂解,可以了解这种传播如何实现,并明白搜索引擎传播相对于传统电视、报纸等传播的不同。搜索引擎为什么能传播,为什么能做广告?其实,就跟电视一样,梢彩的节目吸引受众,即使中间穿插广告,受众也还是会看。搜索引擎能为受众提供服务,井且快、全、准地满足受众的需要。其中,全,指搜索引擎能在互联网上找到超出人脑的多而全面的信息;快.即输人关键词后短时间就可得出结果;准,即它得出的结果是用户所需要的。这就是受众为什么会运用搜索引擎,对搜索引擎感兴趣的原因。

  搜索引擎的工作原理:搜索引擎通过爬虫从互联网上搜集网页,解决 “全”的问题;然后在内部建立索引,解决“快”的向题;索引直接面向用户服务,令结果更加精准.

  (一)网络爬虫

  “爬虫”,又叫“蜘蛛”、“网络蜘蛛”、”网络爬虫”等。网络爬虫实际上它是一个软件在某台机器运行,然后模拟人的行为不停地访间不同的网页,把搜集过来的网页存储在搜索引擎公司内部的服务器。互联网比喻成一个蜘蛛网,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其他链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止,并可以扩展到其他网站。这就是网络爬虫的工作原理也是解决检索效率的基础。网络爬虫的工作方式有两种,深度优先式和广度优先式。深度优先,指抓到一个目标再往深人走,不停地深人抓网页。广度优先则是由起点扩展后,像水波一样逐层向外抓取。这两个策略都很适合链接的跳转,但两者的适用范围不同。在已知的网站适合采用广度优先,因为这个网站是已知的,一般质量很好,所以可以把它全爬下来;而在互联网中由于搜索是没有日标的,网站质量不能保证,因此更适合采用深度优先不停地往深处挖掘。比如,像政府、教育等相对官方、权威的网站适合广度优先、全面地读取网页;个人站点则适合深度优先。这是爬虫,是解决’‘快’问题的物质基础,但要在短时问内得出结果,光靠爬虫还是远远不够的,这里就需要索引的帮助了。

  (二) 索引

  索引是为了解决搜索的速度而引入的。搜紊引擎内部的索引就像书籍里的索引一样,它把爬过来的网页文字读出来.这里要注意,搜索引擎爬的时候只关注文字,当然,它也可以读一些常用的比如Word, Excel的文档。索引是一个倒排表。正排表大家可能熟悉,指文档里有某个词出现;而倒排表则刚好相反,指这个词出现在哪个文档里。我们就是利用搜索引擎。通过关键同找到它所依存的那篇文档。这种倒排表的形式比较符合我们搜索的习惯和需要。倒排表内部中,根据搜索关键词指向含有此关键词的各个网页,其中每个网页都有一个ID标识。倒排表的基本内容就是这样的,实际应用会比较复杂.

  〔三)分词

  由于搜索引擎基于关键词搜索,所以分词也是一个很重要的问题,由于语言的不同,中英文的分词技术有很大不同。英文中,如一旬话`i am astudent',它根据空格就很容易分词。然而中文由于词语间没有空格之类的分隔符,因此分词技术相对比较复杂。看一个极端的例子,这是民间广为流传的关于聪明人徐文长先生的故事。徐文长那时候穷困潦倒,赖在朋友家里不走,而朋友不好意思赶他,一个下雨天,主人说“下雨天留客天留人不留”,主人的本意是“下雨天,留客.天留,人不留”,但涂文长非得把它理解成这样“下雨天,留客天,留人不?留!”。这例子可以很好地说明中文的分词是比较麻烦的事情,不同的分词方式会产生完全不同的理解。我们中国的文化里有很多诸如此类的小故事,再例如“我是一个学生”分为“我|是|一个|学生”,这样分比较合理,但电脑怎么知道应该这样分呢?而且学生是我们知道的一个词,但是如果遇到的是我们不知道的应该怎么办?下面我们来看一下搜索引擎是如何进行分词的。第一种,基于词典的分词,在这里面。设定“我们是中华人民共和国的公民”这一句话,词典里而通常没有这个词,因为它是一句话,所以它分词会失败。首先我们减一个字,把‘.民”去掉,结果是照样不存在这个词,然后不停地减减减,直到剩下“我们”两个字时,才会在词典中出现;把“我们”取走后,剩下“是中华人民共和网的公民”,又去字典中查找,还是没有,好继续减,减到“是”的时候,一个字肯定是一个词;再看“中华人民共和国的公民”这儿个字,还是失败。再减到‘’中华人民共和国”的时候,它出来了,这么一个过程,就把一句话分成很多词.当然这种方法,还是有很多情况不能处理的,而且它的效率也低,第二种方法,基于统计的分词。试想一下两个字经常放在一起就组成一个词,但是以前是没有的.怎么知道它是一个同呢。这就要借用统计的方法,看看两个字经常挨在一起的概率是否比平时多些而确定是否为一个特定的词组。这两个字经常在一起的概率高,事实上就是表明经常挨在一块儿的两个字应该组成一个同,这便是统计上的分词.还有一些词,在搜索引擎中被称为“停止词”,比如说一个网页里面,出现了很多无意义的词如“我”“你”“是”“的”“什么”等等。这些是经常用到的,但却是对我们表达特别意义的一段文字,都只是辅助的、没有特别意义的,那这种词在搜索里面是排除的,包括你在输入搜索条件的时候,比如输人“浙江传媒学院的学生”,很可能那个“的”就是被排除掉的,因为它认为这是一个无聊的、浪费的词。

  再看搜索引擎的最后一块,也是核心部分,即如何处理“准”。我们愉人“浙江传媒学院”,我们学校的首页被排在第一位;.出现“浙江传媒学院”这几个字的网贝应该是很多的,搜索引擎总是试图让输入的词出来的结果联系到更加重要、更加权咸的网页,它总是做这种努力,而“浙江传媒学院”整个作为一个间,毋庸置疑,该学校的网页是最权威的。

  所谓准,不仅仅是找到有关联的,有关联的当中也有重要和次要,这是Google和百度当初能够成功的最主要因素,它们二者都宣称在这方面有自己的专利。还有,你们看一下这个,输人“浙江传媒学院”延伸出来的还有这些,Google和百度里面都会推荐给你另外一些词,它会联想。第一步是相关性,第二步就是网页哪个重要、哪个次要。怎么判断网页是否符合我的要求?作为关键词在某个网页中出现的次数越多,不代表这个网页一定越符合我们的查询需要.有些没用的同,就像“什么“’,这种词出现再多也没用的。向量空间模型,这个有点复杂,它的原理就是你输人一串文字,它把它切成儿个有权重的词,出现这儿个词的网页它也会有一个权重,使两个权重交叉的角度越小,就越符合川户的查询需要,这类似物理上的用力,角度越小合力越大.

  词频(term frequency)和逆向文件频率(inverse document frequenry),这两个词需着重解释一下。词频(term frequency, TF}指的是某一个给定的词语在该文件中出现的次数,词频越高网页越重要。逆向文件频率(inverse document frequenry, IDF)是一个词语普遍重要性的度量,越普遍则在特定文件中的重要性越低。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。比如“浙江传媒学院”这儿个字,“传媒”是最有特色的,“学院”和 “浙江”都很普遍。那么"TF的话,三者都很高,IDF中“学院”和“浙江”都很普遍,最终上“传媒”就会凸显出来。另外一个比较理论化的概念,“关键词的相关扩展”。比如,输入“学生”,跟“学校”相关的网站便会出来。在谷歌上做个试验大家就能一目了然,当单独输入“学校”时会会出来91700000个网页,输人“学生”时出来88200000个网页。同时输入“学生、学校”’两个词的时候出来48900000个网页;如果它们的重合性很高,输入两个词时出来的网页数量与分别输人单个同的时候出来的网页数量的比率应该也很高,我们的试验是0.37,这个数值其实已经很高了。如果试验“教师”“犯罪”那么得到的这个值要远远小于0.37,说明二者的关联性非常低。最后讲Page Rank算法。Google和百度的创始人的共同特点,都是在搜索排序上有比较杰出的成果。Pages Rank就是Google公司的创始人做的.它的本质就是,像张三讲话的时候提到了张曼玉,李四也讲到了张曼玉,王五也讲到了张曼玉,而很少有人讲到我,所以“张曼玉”这个词比我比知名度要高。所以有越多人在议论某个人,某个人就越出名,Page Rank值就越高。Google的Page Rank是10,这是最高的,像新浪、搜狐是8左右。事实上,Pale hank在5以上说明这个网站就很流行。网页的重要性还有其他一些考虑,比如,.org是非营利组织的域名,.EDU是教育部门的网站,.COV是政府部门的网站,它们的评级会比较高。如果一个网站被别的相同主题的网站链接,它的权重会比较高,认为这个网页比较好。还有一些被著名分类搜索引擎收录也有利于你的评级。事实上,现在搜索引擎出来的结果不单纯仅是Page Rank了,Page Rank还是很重要,但已经有很多其他的因素,因为有了一种算法就有报多人作弊,作弊的唯一目的就是让它的网页排在前面,搜索引擎发现有不合理的排在前面的网页,它就会修改算法。发现作弊的它还会采取一定措施。干脆就把这个网页封掉,不让它进人,即使它排在最后的机会都没有。

  可见,网站设计不只是要考虑视觉效果,还要考虑到搜索引擎是否认同。诸如此类的知识也应该是现代这个环境里面,就像我们以前要掌握牛顿力学原理一样。是公民基本科学素养的要求.对新事物的原理有一定的理解。

相关热词: 搜索引擎 搜索 传媒人士

相关内容
搜索引擎 搜索杂谈 专栏 资讯 工具 新媒体 网站