Spider详解（spider diagram）-技术文章-顾乔芝士网

简介

Spider的功能主要使用于大型的应用系统测试，它能在很短的时间内帮助我们快速地对一个应用程序的内容、功能、系统的结构和分布情况进行了解。

Control

右键进行爬取数据使用spider功能。

在Spider模块中可以进行查看spider功能是否已经正常运行，清除未发送的请求和排队的表格。Spider Scope主要用来控制Spider的抓取范围。一种使用Targer Scope 一种使用自定义。

自定义作用域与Target Scope的配置一致。

Options

Crawler Setting

check robots.txt：检测robot.txt文件

Detect custom "not found" responese：检测404应答

ignore links to non-text content：忽略文本为空的链接。

request the root of all directories：爬取根目录下的所有文件和目录。

make a non-parameterized request to each dynamic page：对每个动态页面进行非参数化的请求。如果这个选项被选中，Burp Spider 会对在范围内的所有执行动作的 URL 进行无参数的 GET 请求。如果期待的参数没有被接收，动态页面会有不同的响应，这个选项就能成功地探测出额外的站点内容和功能。

Maximum link depth：最大链接深度

Maximum parameterized requests per URL：最大请求URL参数数目

Passive Spidering

Passively spider as you browse:如果这个选项被选中，爬取时通过Burp Proxy。

link depth to associate with proxy requests:控制代理的链接深度。默认为0，表示无限深度。

Form Submission

主要用来控制在蜘蛛抓取过程中，对于form表单的处理方式。

individuate forms：对form表单域的处理内容做控制。默认同时处理请求的url、请求方式Get或者Post、包含哪些属性名以及属性值。可以单独选择。

Don't submit：爬虫抓取数据的时候不会提交任何表单。

prompt for guidance：爬虫抓取表单时，在你提交每一个确认的表单前，Burp Suite 都会为你指示引导。这允许你根据需要在输入域中填写自定义的数据提交到服务器的哪一个区域。

automatically submit：自动提交。如果选中，Burp Spider 通过使用定义的规则来填写输入域的文本值然后自动地进行提交。

set unmatched fields to：设置不匹配的字段。

application login

控制爬虫抓取时，登陆页面的处理方式

don't submit login forms：不提交登录表单。

prompt for guidance：手工确认登录信息。Burp能为你提示引导。

handle as ordinary forms：普通表单处理。

automatically submit these credentials：自动提交自定义的数据。

Spider Engine

Number of threads - 设置请求线程。控制并发请求数。

Number of retries on network failure - 如果出现连接错误或其他网络问题失败时候重试的次数。

Pause before retry - 当请求失败的时候，Burp会等待指定的时间（以毫秒为单位），然后重试。

Throttle between requests：在每次请求之前等待一个指定的延迟（以毫秒为单位）。此选项很有用，以避免超载应用程序。

Add random variations to throttle：添加随机的变化到请求中。

Request Headers

用来设置http请求的消息头，可以设置移动设备、windows、浏览器等。

Use HTTP version 1.1 ：在爬虫请求中使用HTTP/1.1，不选中则使用HTTP/1.0.

Use Referer header：当从一个页面访问另一个页面是加入Referer头，这将更加相似与浏览器访问。

顾乔芝士网

持续更新的前后端开发技术栈

Spider详解（spider diagram）