Scrapy 其他设置

下表是Scrapy的其他设置

序号 设置 描述
1 AJAXCRAWL_ENABLED 它用于启用大型爬网。
默认值: False
2 AUTOTHROTTLE_DEBUG 它可以实时查看节流参数是如何调整的,它会显示每个收到的响应的统计信息。
默认值: False
3 AUTOTHROTTLE_ENABLED 它用于启用 AutoThrottle 扩展。
默认值: False
4 AUTOTHROTTLE_MAX_DELAY 它用于设置在高延迟情况下下载的最大延迟。
默认值: 60.0
5 AUTOTHROTTLE_START_DELAY 它用于设置下载的初始延迟。
默认值: 5.0
6 AUTOTHROTTLE_TARGET_CONCURRENCY 它定义了 Scapy 并行发送到远程站点的平均请求数。
默认值: 1.0
7 CLOSESPIDER_ERRORCOUNT 它定义了在蜘蛛关闭之前应该接收到的错误总数。
默认值: 0
8 CLOSESPIDER_ITEMCOUNT 它定义了关闭蜘蛛之前的项目总数。
默认值: 0
9 CLOSESPIDER_PAGECOUNT 它定义了蜘蛛关闭前要抓取的最大响应数。
默认值: 0
10 CLOSESPIDER_TIMEOUT 它定义了蜘蛛关闭的时间量(以秒为单位)。
默认值: 0
11 COMMANDS_MODULE 当我们想在项目中添加自定义命令时使用它。
默认值: ''
12 COMPRESSION_ENABLED 它表示启用了压缩中间件。
默认值: True
13 COOKIES_DEBUG 如果设置为 true,则会记录请求中发送和响应中接收的所有 cookie。
默认值: False
14 COOKIES_ENABLED 它表示 cookies 中间件已启用并发送到 Web 服务器。
默认值: True
15 FILES_EXPIRES 它定义了文件过期的延迟。
默认值: 90 days
16 FILES_RESULT_FIELD 当我们想为已处理的文件使用其他字段名称时设置它。
17 FILES_STORE 它用于通过将其设置为有效值来存储下载的文件。
18 FILES_STORE_S3_ACL 它用于修改存储在 Amazon S3 存储桶中的文件的 ACL 策略。
默认值: private
19 FILES_URLS_FIELD 当我们想要为自己的文件 URL 使用其他字段名称时设置它。
20 HTTPCACHE_ALWAYS_STORE 如果启用此设置,Spider 将彻底缓存页面。
默认值: False
21 HTTPCACHE_DBM_MODULE 它是用于 DBM 存储后端的数据库模块。
默认值: 'anydbm'
22 HTTPCACHE_DIR 它是用于启用和存储 HTTP 缓存的目录。
默认值: 'httpcache'
23 HTTPCACHE_ENABLED 它表示已启用 HTTP 缓存。
默认值: False
24 HTTPCACHE_EXPIRATION_SECS 用于设置HTTP缓存的过期时间。
默认值: 0
25 HTTPCACHE_GZIP 此设置如果设置为 true,所有缓存数据将使用 gzip 压缩。
默认值: False
26 HTTPCACHE_IGNORE_HTTP_CODES 它声明 HTTP 响应不应与 HTTP 代码一起缓存。
默认值: []
27 HTTPCACHE_IGNORE_MISSING 如果启用此设置,则如果在缓存中找不到请求将被忽略。
默认值: False
28 HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS 它是一个包含要忽略的缓存控件的列表。
默认值: []
29 HTTPCACHE_IGNORE_SCHEME 它声明 HTTP 响应不应与 URI 方案一起缓存。
默认值: ['file']
30 HTTPCACHE_POLICY 它定义了一个实现缓存策略的类。
默认值: 'scrapy.extensions.httpcache.DummyPolicy'
31 HTTPCACHE_STORAGE 它是一个实现缓存存储的类。
默认值: 'scrapy.extensions.httpcache.FilesystemCacheStorage'
32 HTTPERROR_ALLOWED_CODES 它是一个列表,其中所有响应都以非 200 状态代码传递。
默认值: []
33 HTTPERROR_ALLOW_ALL 启用此设置后,无论其状态代码如何,所有响应都会通过。
默认值: False
34 HTTPPROXY_AUTH_ENCODING 它用于对 HttpProxyMiddleware 上的代理进行身份验证。
默认值: "latin-1"
35 IMAGES_EXPIRES 它定义图像过期的延迟。
默认值: 90 days
36 IMAGES_MIN_HEIGHT 它用于使用最小尺寸丢弃太小的图像。
37 IMAGES_MIN_WIDTH 它用于使用最小尺寸丢弃太小的图像。
38 IMAGES_RESULT_FIELD 当我们要为已处理的图像使用其他字段名称时设置它。
39 IMAGES_STORE 它用于通过将其设置为有效值来存储下载的图像。
40 IMAGES_STORE_S3_ACL 它用于修改存储在 Amazon S3 存储桶中的图像的 ACL 策略。
默认值: private
41 IMAGES_THUMBS 它被设置为创建下载图像的缩略图。
42 IMAGES_URLS_FIELD 当我们想为图像 URL 使用其他字段名称时设置它。
43 MAIL_FROM 发件人使用此设置发送电子邮件。
默认值: 'scrapy@localhost'
44 MAIL_HOST 它是用于发送电子邮件的 SMTP 主机。
默认值: 'localhost'
45 MAIL_PASS 它是用于验证 SMTP 的密码。
默认值: None
46 MAIL_PORT 它是用于发送电子邮件的 SMTP 端口。
默认值: 25
47 MAIL_SSL 用于实现使用SSL加密连接的连接。
默认值: False
48 MAIL_TLS 启用后,它会强制使用 STARTTLS 进行连接。
默认值: False
49 MAIL_USER 它定义了一个用户来验证 SMTP。
默认值: None
50 METAREFRESH_ENABLED 它表示启用了元刷新中间件。
默认值: True
51 METAREFRESH_MAXDELAY 这是元刷新重定向的最大延迟。
默认值: 100
52 REDIRECT_ENABLED 它表示启用了重定向中间件。
默认值: True
53 REDIRECT_MAX_TIMES 它定义了请求重定向的最大次数。
默认值: 20
54 REFERER_ENABLED 它表示 referrer 中间件已启用。
默认值: True
55 RETRY_ENABLED 它表示重试中间件已启用。
默认值: True
56 RETRY_HTTP_CODES 它定义要重试哪些 HTTP 代码。
默认值: [500, 502, 503, 504, 408]
57 RETRY_TIMES 它定义了重试的最大次数。
默认值: 2
58 TELNETCONSOLE_HOST 它定义了 telnet 控制台必须侦听的接口。
默认值: '127.0.0.1'
59 TELNETCONSOLE_PORT 它定义了一个用于 telnet 控制台的端口。
默认值: [6023, 6073]

查看笔记

扫码一下
查看教程更方便