A.4 B.3 C.2 D.1
判断题目前主流的网页开发语言都不知道正则表达式。()
判断题正则表达式由一些普通字符和一些元字符组成。()
判断题正则表达式无法实现特殊字符的匹配。()
判断题正则表达式的量词表示0次或1次。()
判断题网络爬虫除了可以采集信息,甚至可以植入流氓软件,破坏网页内容甚至劫持网站和服务器。()
判断题网络数据采集不能处理非结构化数据。()
判断题网络爬虫技术不支持图片、音频、视频等文件或附件的采集。()
名词解释什么是固有可靠性; 固有可靠性名词解释定义是什么?
单项选择题网站一般在()文件中描述被爬取的规则。
A.txtB.robots.txtC.ReadMe.txtD.hentrix.txt
单项选择题在正则表达式中d匹配()。
A.数字B.字母、数字、下划线C.任意字符D.转义字符
单项选择题发送了一个HTTP请求后,客户端收到一个200的响应,这表示()。
A.拒绝访问B.登录失败C.重定向到其他URLD.请求成功
单项选择题()是Hadoop的前身,是一种分布式爬虫工具,更适合集群爬取。
A.CrawlerB.JsoupC.HertrixD.Nutch
单项选择题Hertrix默认的运行端口是()。
A.80B.8080C.10D.1010
单项选择题运行Hertrix前首先要搭建()运行环境。
A.JavaB.C++C.PythonD.C#
单项选择题在使用Java实现网络爬虫时,由于InputStream类型默认是字节流,无法处理中文,将会出现乱码。要解决中文乱码的问题,需将其转换为(),这样就可以读取中文。
A.无符号数字B.UNICODE编码C.字节流D.字符流