扫码一下
查看教程更方便
下表是Scrapy的其他设置
序号 | 设置 | 描述 |
---|---|---|
1 | AJAXCRAWL_ENABLED | 它用于启用大型爬网。 默认值: False |
2 | AUTOTHROTTLE_DEBUG | 它可以实时查看节流参数是如何调整的,它会显示每个收到的响应的统计信息。 默认值: False |
3 | AUTOTHROTTLE_ENABLED | 它用于启用 AutoThrottle 扩展。 默认值: False |
4 | AUTOTHROTTLE_MAX_DELAY | 它用于设置在高延迟情况下下载的最大延迟。 默认值: 60.0 |
5 | AUTOTHROTTLE_START_DELAY | 它用于设置下载的初始延迟。 默认值: 5.0 |
6 | AUTOTHROTTLE_TARGET_CONCURRENCY | 它定义了 Scapy 并行发送到远程站点的平均请求数。 默认值: 1.0 |
7 | CLOSESPIDER_ERRORCOUNT | 它定义了在蜘蛛关闭之前应该接收到的错误总数。 默认值: 0 |
8 | CLOSESPIDER_ITEMCOUNT | 它定义了关闭蜘蛛之前的项目总数。 默认值: 0 |
9 | CLOSESPIDER_PAGECOUNT | 它定义了蜘蛛关闭前要抓取的最大响应数。 默认值: 0 |
10 | CLOSESPIDER_TIMEOUT | 它定义了蜘蛛关闭的时间量(以秒为单位)。 默认值: 0 |
11 | COMMANDS_MODULE | 当我们想在项目中添加自定义命令时使用它。 默认值: '' |
12 | COMPRESSION_ENABLED | 它表示启用了压缩中间件。 默认值: True |
13 | COOKIES_DEBUG | 如果设置为 true,则会记录请求中发送和响应中接收的所有 cookie。 默认值: False |
14 | COOKIES_ENABLED | 它表示 cookies 中间件已启用并发送到 Web 服务器。 默认值: True |
15 | FILES_EXPIRES | 它定义了文件过期的延迟。 默认值: 90 days |
16 | FILES_RESULT_FIELD | 当我们想为已处理的文件使用其他字段名称时设置它。 |
17 | FILES_STORE | 它用于通过将其设置为有效值来存储下载的文件。 |
18 | FILES_STORE_S3_ACL | 它用于修改存储在 Amazon S3 存储桶中的文件的 ACL 策略。 默认值: private |
19 | FILES_URLS_FIELD | 当我们想要为自己的文件 URL 使用其他字段名称时设置它。 |
20 | HTTPCACHE_ALWAYS_STORE | 如果启用此设置,Spider 将彻底缓存页面。 默认值: False |
21 | HTTPCACHE_DBM_MODULE | 它是用于 DBM 存储后端的数据库模块。 默认值: 'anydbm' |
22 | HTTPCACHE_DIR | 它是用于启用和存储 HTTP 缓存的目录。 默认值: 'httpcache' |
23 | HTTPCACHE_ENABLED | 它表示已启用 HTTP 缓存。 默认值: False |
24 | HTTPCACHE_EXPIRATION_SECS | 用于设置HTTP缓存的过期时间。 默认值: 0 |
25 | HTTPCACHE_GZIP | 此设置如果设置为 true,所有缓存数据将使用 gzip 压缩。 默认值: False |
26 | HTTPCACHE_IGNORE_HTTP_CODES | 它声明 HTTP 响应不应与 HTTP 代码一起缓存。 默认值: [] |
27 | HTTPCACHE_IGNORE_MISSING | 如果启用此设置,则如果在缓存中找不到请求将被忽略。 默认值: False |
28 | HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS | 它是一个包含要忽略的缓存控件的列表。 默认值: [] |
29 | HTTPCACHE_IGNORE_SCHEME | 它声明 HTTP 响应不应与 URI 方案一起缓存。 默认值: ['file'] |
30 | HTTPCACHE_POLICY | 它定义了一个实现缓存策略的类。 默认值: 'scrapy.extensions.httpcache.DummyPolicy' |
31 | HTTPCACHE_STORAGE | 它是一个实现缓存存储的类。 默认值: 'scrapy.extensions.httpcache.FilesystemCacheStorage' |
32 | HTTPERROR_ALLOWED_CODES | 它是一个列表,其中所有响应都以非 200 状态代码传递。 默认值: [] |
33 | HTTPERROR_ALLOW_ALL | 启用此设置后,无论其状态代码如何,所有响应都会通过。 默认值: False |
34 | HTTPPROXY_AUTH_ENCODING | 它用于对 HttpProxyMiddleware 上的代理进行身份验证。 默认值: "latin-1" |
35 | IMAGES_EXPIRES | 它定义图像过期的延迟。 默认值: 90 days |
36 | IMAGES_MIN_HEIGHT | 它用于使用最小尺寸丢弃太小的图像。 |
37 | IMAGES_MIN_WIDTH | 它用于使用最小尺寸丢弃太小的图像。 |
38 | IMAGES_RESULT_FIELD | 当我们要为已处理的图像使用其他字段名称时设置它。 |
39 | IMAGES_STORE | 它用于通过将其设置为有效值来存储下载的图像。 |
40 | IMAGES_STORE_S3_ACL | 它用于修改存储在 Amazon S3 存储桶中的图像的 ACL 策略。 默认值: private |
41 | IMAGES_THUMBS | 它被设置为创建下载图像的缩略图。 |
42 | IMAGES_URLS_FIELD | 当我们想为图像 URL 使用其他字段名称时设置它。 |
43 | MAIL_FROM | 发件人使用此设置发送电子邮件。 默认值: 'scrapy@localhost' |
44 | MAIL_HOST | 它是用于发送电子邮件的 SMTP 主机。 默认值: 'localhost' |
45 | MAIL_PASS | 它是用于验证 SMTP 的密码。 默认值: None |
46 | MAIL_PORT | 它是用于发送电子邮件的 SMTP 端口。 默认值: 25 |
47 | MAIL_SSL | 用于实现使用SSL加密连接的连接。 默认值: False |
48 | MAIL_TLS | 启用后,它会强制使用 STARTTLS 进行连接。 默认值: False |
49 | MAIL_USER | 它定义了一个用户来验证 SMTP。 默认值: None |
50 | METAREFRESH_ENABLED | 它表示启用了元刷新中间件。 默认值: True |
51 | METAREFRESH_MAXDELAY | 这是元刷新重定向的最大延迟。 默认值: 100 |
52 | REDIRECT_ENABLED | 它表示启用了重定向中间件。 默认值: True |
53 | REDIRECT_MAX_TIMES | 它定义了请求重定向的最大次数。 默认值: 20 |
54 | REFERER_ENABLED | 它表示 referrer 中间件已启用。 默认值: True |
55 | RETRY_ENABLED | 它表示重试中间件已启用。 默认值: True |
56 | RETRY_HTTP_CODES | 它定义要重试哪些 HTTP 代码。 默认值: [500, 502, 503, 504, 408] |
57 | RETRY_TIMES | 它定义了重试的最大次数。 默认值: 2 |
58 | TELNETCONSOLE_HOST | 它定义了 telnet 控制台必须侦听的接口。 默认值: '127.0.0.1' |
59 | TELNETCONSOLE_PORT | 它定义了一个用于 telnet 控制台的端口。 默认值: [6023, 6073] |