A.爬虫的作用是为搜索引擎抓取大量的数据,抓取的对象是整个互联网上的网页 B.根据具体应用的不同,可以将爬虫分为两种类型,即增量型爬虫和垂直型爬虫 C.暗网是一些垂直领域网站,它们通常是网站提供组合查询界面,用户按照需求输入查询之后,才能获取相关数据 D.倒排列表是指记载出现过某个单词的所有文档的文档列表、以及单词在该文档中出现的位置信息
单项选择题以下不是搜索引擎的主要功能模块的一项是()。
A.网络爬虫 B.搜索引擎索引 C.PageRank D.搜索排序
单项选择题对网页进行两次抓取,第一次是正常的搜索引擎爬虫抓取,第二次以模拟人工访问页面的方式抓取,如果两次抓取到的内容差异较大,则认为是作弊页面,这属于()。
A.识别网页重定向 B.识别页面隐藏 C.反内容作弊 D.链接反作弊
单项选择题网页重定向属于下列哪种作弊方式()。
A.内容作弊 B.链接作弊 C.隐藏作弊 D.Web2.0作弊
单项选择题关于HITS算法描述正确的是()。
A.算法最后输出的是按照内容权威度排序的结果列表 B.如果在原有的扩展网页集合内添加删除个别网页或者改变少数链接关系,HITS算法的排名结果不会有非常大的改变 C.HITS算法核心思想是对网页两个方面的权威程度进行评价,一个是内容权威度,另一个是链接权威度,两者具有相互增强的关系 D.HITS是与查询相关的算法,计算效率较高
单项选择题关于Page Rank标准算法与简化算法正确的是()。
A.Page Rank简化算法对G中的每一个节点n,设定其初始值均为1/n B.Page Rank简化算法可以保证迭代过程中的Page Rank值之和为1 C.Page Rank标准算法不考虑没有超链接网页的情况 D.在实际运算过程中,由于节点数n的值巨大,因此通常采用适用于稀疏矩阵运算的Page Rank标准算法来对运算过程进行改善