中文搜索引擎分词技术:搜索引擎后台关键词查询原理解析
栏目分类:国外搜索引擎 发布日期:2021-01-02 浏览次数:次
周博评:这篇文章只是粗略的讲了搜索引擎如何分词的四点小总结,观察的很细致,就是不知道有没有以点概全的代表性和全面性,百度和谷歌的中文分词技术估计也没有本文作者所描述的这么简单,不过也是观察提炼所得,值得一看。
提要:搜索引擎是一个信息平台,它本身并不提供信息,李彦宏最近推出的框计算理论和百度开放平台都更好的解释了一点。作为一个搜索引擎优化师,我们必须理解搜索引擎的后台关键词查询的原理。
我们把某个关键词提交到搜索引擎框的时候,中文的搜索引擎必须通过分词技术得到用户需要的信息,并反馈给用户。这篇文章,JOHN带领大家了解这个关键词查询过程和原理。在查询的时候,一般我们分四种情况:
一、搜索引擎后台根据分隔符或分词词典来进行密切的切分
用户在搜索引擎敲入关键词并按回车后,搜索引擎后台首先判断这个词中是否有空格、标点符号等,如果有,搜索引擎会把这个关键词再一次的分解成几个小的关键词进行分析,如果没有分隔符则按照后台的分词词典进行关键词切分。
我来举个例子,比如我们在百度搜索“珠海SEO”,点击排名第一的网站快照,百度会在快照把两个词用不同颜色标注出来,如“珠海”是黄色,“SEO”是淡蓝色。
这个实例就告诉我们,我们在搜索“珠海SEO”的时候,百度把它分解成了“珠海”和“SEO”拿来查询。中间如果是“,”查询的结果其实是一样的。这就是为什么在写超过两个关键词的时候建议大家用半角英文逗号来分割,这样就是能避免搜索殷勤进行重复解析。中文的分词技术相对与其他语言要难的多,因为它是不分词没有空格的,不像英文每个单词都有空格,这就给搜索引擎带来非常大的困难,完全没有我们想象的简单。目前在中文分词技术上,百度还是优于谷歌的。
二、当出现重复词搜索引擎是怎么处理的
比如你在搜索“珠海seo seo”和“珠海seo”的结果是一样的。这说明在百度出现重复词的情况下,会直接舍弃,保留一个,所以出现的结果都是一样的。但是谷歌不同,搜索这两个词组的排名是不同的,说明谷歌在这个方面加强了运算参数。
如果你在百度查询“seo珠海seo”和“珠海seo”,得出的结果也是一样的,这也说明百度直接忽略前后关系。但是在谷歌的搜索结果中就不同,说明谷歌引入了前后关系参数。
三、当搜索英文词的时候搜索引擎怎么处理
当用户输入英文词的时候,这个英文词会贝当作一个词来切分,然后以这个英文词为界,再分前后的次级关键词。比如你在搜索“苹果MAC系统”的时候,搜索引擎会把他们切分成“苹果”“MAC”“系统”三个词,并且会把MAC当做一个重要词保留,不管这个词在这个词组中语法怎样。
四、搜索引擎会的查询扩展处理会提高信息检索的召回率
搜索引擎会根据用户搜索的关键词来判断潜意词和同意词。比如,你搜索“爸爸”和“妈妈”,”WEB”和“互联网”,“和谐”和“社会”,搜索引擎将会当做同义词来处理。另外,搜索引擎在检索的时候,还会根据主题来归类,比如你搜索“宁波网站建设”,网站设计也会显示红色。(编选:搜索引擎大全 周博)