搜索引擎数据分析步骤
搜索引擎数据分析步骤
数据分析系统用来处理搜索引擎蜘蛛抓取回来的网页,包括以下几个步骤。
(1)网页结构化。
简单地说,就是把那些html代码全部删掉,提取出内容。
(2)消噪。
消噪是什么意思呢?在网页结构化中,已经删掉了html代码,剩下了文字,那么消噪指的就是留下网页的主题内容,删掉没用的内容。
(3)查重。
查重比较好理解,就是搜索引擎查找重复的网页与内容,如果找到重复的页面,就删除。
(4)分词。
搜索引擎蜘蛛在进行了前面的步骤后,提取出正文的内容,把内容分成N个词语排列出来,存入索引库。
同时,也会计算这一个词在这个页面出现了多少次。
(5)链接分析。
搜索引擎会查询这个页面的反向链接有多少、导出链接有多少,以及内链,然后赋予该页面相应的权重。
本网站文章未经允许禁止转载,合作/权益/投稿 请联系平台管理员 Email:epebiz@outlook.com