找考题网-背景图
问答题

简答题 广义上的网页清洗大致可分为什么?

【参考答案】

一是去除重复的网页(如:镜像网站、复制文章等);
二是去除网页中某些为提高在搜索引擎中的排名而故意制造的反向、重复链接;
三是去除网页中与网页正文不相关的内容(如:广告图片、广告链接、网站模板信息以及版权信息等)。