判断题停止词是一些在页面内容中出现频率很高,但是对内容没有任何影响的词,如“的”“地”“得”之类的助词,搜索引擎在对页面建立索引之前会去掉这些停止词,使索引数据主题更为突出。()
判断题搜索引擎排名时需要去除的噪声并不是指网页中的嘈杂的声音,而是指页面上对页面主题没有贡献的内容,比如版权声明文字、导航条、广告等,这些内容对页面主题只能起到分散作用。搜索引擎需要识别并消除这些噪声,排名时不使用噪声内容。()
判断题搜索引擎用来爬行和访问页面的程序被称为“蜘蛛”(Spider)或网络机器人,是一种按照一定规则自动抓取互联网信息的程序或者脚本。Spider的作用就是在互联网中浏览信息,然后把这些信息都抓取到搜索引擎的服务器上。()
判断题搜索引擎索引程序提取关键词,将页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式、位置等,可以理解为搜索引擎的正向索引,正向索引可以直接用于排名。()
判断题搜索引擎将正向索引数据库重新构造成倒排索引,以关键字为条件寻找与关键字相关的页面,建立以关键字为主索引的一个关键字对应多个页面的关系表,称之为反向索引表。()