A.动态索引包含2个关键的索引结构:倒排索引、临时索引 B.查准率是衡量系统在实施某一作业时检出相关文献能力的一种测度指标,是对检索遗漏程度的度量。 C.中文分词技术采用了基于符号的方法来识别 D.机器学习的四个步骤中,文档特征抽取是指利用抽取算法抽取查询词TF/IDF信息、文档长度、网页Page Rank值、网页入链/出链数量等
单项选择题以下选项中描述不正确的是()。
A.爬虫的作用是为搜索引擎抓取大量的数据,抓取的对象是整个互联网上的网页 B.根据具体应用的不同,可以将爬虫分为两种类型,即增量型爬虫和垂直型爬虫 C.暗网是一些垂直领域网站,它们通常是网站提供组合查询界面,用户按照需求输入查询之后,才能获取相关数据 D.倒排列表是指记载出现过某个单词的所有文档的文档列表、以及单词在该文档中出现的位置信息
单项选择题以下不是搜索引擎的主要功能模块的一项是()。
A.网络爬虫 B.搜索引擎索引 C.PageRank D.搜索排序
单项选择题对网页进行两次抓取,第一次是正常的搜索引擎爬虫抓取,第二次以模拟人工访问页面的方式抓取,如果两次抓取到的内容差异较大,则认为是作弊页面,这属于()。
A.识别网页重定向 B.识别页面隐藏 C.反内容作弊 D.链接反作弊
单项选择题网页重定向属于下列哪种作弊方式()。
A.内容作弊 B.链接作弊 C.隐藏作弊 D.Web2.0作弊
单项选择题关于HITS算法描述正确的是()。
A.算法最后输出的是按照内容权威度排序的结果列表 B.如果在原有的扩展网页集合内添加删除个别网页或者改变少数链接关系,HITS算法的排名结果不会有非常大的改变 C.HITS算法核心思想是对网页两个方面的权威程度进行评价,一个是内容权威度,另一个是链接权威度,两者具有相互增强的关系 D.HITS是与查询相关的算法,计算效率较高