()是Hadoop的前身,是一种分布式爬虫工具,更适合集群爬取。
A.CrawlerB.JsoupC.HertrixD.Nutch
单项选择题Hertrix默认的运行端口是()。
A.80B.8080C.10D.1010
单项选择题运行Hertrix前首先要搭建()运行环境。
A.JavaB.C++C.PythonD.C#
单项选择题在使用Java实现网络爬虫时,由于InputStream类型默认是字节流,无法处理中文,将会出现乱码。要解决中文乱码的问题,需将其转换为(),这样就可以读取中文。
A.无符号数字B.UNICODE编码C.字节流D.字符流
单项选择题正则表达式[a-z]可以匹配()。
A.字母字符‘a’或‘z’B.小写字母字符‘a’或‘z’C.‘a’到‘z’范围内的任意字母字符D.‘a’到‘z’范围内的任意小写字母字符
单项选择题正则表达式支持匹配边界。例如,()匹配行首。
A.^B.$C./wD./s
单项选择题业务流程风险点有哪些()
A.可能发生的业务流程缺失的风险B.可能发生的业务流程有,但不健全、不规范、操作性不强的风险C.可能发生的虽然业务流程健全、规范、具有操作性,但执行力不强的风险D.以上都是
单项选择题安全加固应注意哪些事项?()
A.加固前备份相关配置文件B.对加固项是否影响业务进行分析C.加固后观察测试加固是否生效D.以上都是
单项选择题正则表达式中,()表示匹配反斜线。
A./B.//C.‘/’D.‘//’
单项选择题增量式爬虫中的()指的是:爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类,然后以不同的频率访问这两类网页。
A.统一更新法B.基于分类的更新法C.个体更新法D.随机更新法
单项选择题在HTTP请求中,通过()方法发送的表单数据,会放在URL之后,以分割URL和传输数据,参数之间以&相连,可能会造成信息泄露问题。
A.GETB.POSTC.PUTD.CONNECT
单项选择题如果HTTP请求的响应信息是404,则应采取下列哪项措施()。
A.向网管报障B.再次核对请求的页面地址是否正确C.向管理员请求用户名和密码D.检查浏览器权限
单项选择题()实现的两个主要目标为保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。
A.聚焦网络爬虫B.增量式网络爬虫C.通用网络爬虫D.深层网络爬虫
单项选择题()采集的目标是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。
单项选择题正则表达式的规则中,x|y表示匹配()。
A.x和yB.x或yC.xyD.x+y
单项选择题()的基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。
A.深度优先策略B.广度优先策略C.PageRank优先策略D.随机爬行策略