期殊抓取的原始页面并不能直接用于查询排名,需要对其进行一定的处理。这个处理的过程称为预处理,搜索引繁预处理的环节是在后台提前完成的,用户搜索时感觉不到这个过程。搜索引擎预处理共分为六步。视索引擎须处理。涉及到网站优化中的多个环节,因此,掌握搜索引擎预处理的原理,可以更快速地理解网站优化的各个因素。
(1)提取文字
现在的搜索引擎还是以文字内容为基础,从网页文件中去除标签、程序,提取出可以用于排名的网页文字内容。
同时,需要注意,在优化网站时,页面内容尽量以文字为主,方便蜘蛛提取用于排名的内容。
(2)中文分词
搜索引擎将抓取到的页面中的文字提取出来后,需要对提取出的文字进行拆分重组,这个过程称为中文分词。
英文等语言,单词与单词之间有空格作为天然分隔,搜索引擎索引程序可以直接把句子划分为单词的结合。而中文,词与词之间没有任何分隔符,一个句子中的所有字和词都是连在起的。搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。
进行中文分词时,首先要把网页中提取的文字按照词组进行划分,比如“连衣裙批发”可以分词为“连衣裙”“批发”“连衣裙批发”。
在分词时,对内容没有任何影响却大量出现的词会被搜索引擎自动过滤,如的、地、得、啊、哦、呀、不但、而且等。
搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而不是取决于页面本身如何,因此SEO人员对于分词所能做的很少。唯一能做的是在页面上用某种形式提示搜索引擎,某几个字应该被当做一个词处理,尤其是可能产生歧义的时候,比如在页面标题处出现关键词,或者使用标签强调关键词。
(3)去除重复页面
将分词后的页面进行对比,去除重复内容的页面。
同一篇文章经常会重复出现在不同网站及同一个网站的不同网址上,搜索引擎并不喜欢这种重复性的内容。用户搜索时,如果在搜索结果页排名靠前的位置看到的都是来自不同网站的同一篇文章,用户体验就会很差。对于搜索引擎而言,更倾向于网站更新高质量的原创内容,这样做符合搜索引擎的基本原则。
搜索引擎倾向于原创,因此,SEO人员应该知道简单地增加“的”“地”“得”、调换段落顺序这种所谓的伪原创,并不能逃过搜索引擎的去重算法。优化网站时,更新高质量的内容才是真理。
(4)计算网页重要度
搜素引擎会根据网页的被指向链接数及页面的原创性两个因素综合判断,计算出页面的重要程度。
因此,为网站增加指向链接、提高页面的原创度,是SEO人员应该重视的内容。
(5)建立索引
建立索引,是建立关键词与网站建设页之间的对应关系。建立索引的最大好处在于可以快速获取对应的数据。简单来说,搜索一个关键词后,搜索引擎能够在很短的时间内将所有相关的内容进行展现,依靠的就是提前对页面建立了索引。
>>> 查看《搜索引擎的预处理》更多相关资讯 <<<
本文地址:http://nlpc.cn/news/html/4390.html