教程 > Scrapy 教程 阅读:167

Scrapy 教程

Scrapy 是一个用 Python 编写的快速、开源的网络爬虫框架,用于借助基于 XPath 的选择器从网页中提取数据。

Scrapy 于 2008 年 6 月 26 日在 BSD 下首次发布,并于 2015 年 6 月发布了里程碑式的 1.0。

为什么要使用 Scrapy?

  • 更容易构建和扩展大型爬虫项目。
  • 它有一个称为选择器的内置机制,用于从网站中提取数据。
  • 它异步处理请求并且速度很快。
  • 它使用自动节流机制自动调整爬行速度。
  • 确保开发人员可访问性。

Scrapy的特点

  • Scrapy 是一个开源且可免费使用的网络爬虫框架。
  • Scrapy 生成 JSON、CSV 和 XML 等格式的提要导出。
  • Scrapy 内置支持通过 XPath 或 CSS 表达式从源中选择和提取数据。
  • 基于爬虫的 Scrapy,允许自动从网页中提取数据。

优点

  • Scrapy 易于扩展、快速且功能强大。
  • 它是一个跨平台的应用程序框架(Windows、Linux、Mac OS 和 BSD)。
  • Scrapy 请求是异步调度和处理的。
  • Scrapy 带有名为 Scrapyd 的内置服务,它允许使用 JSON Web 服务上传项目和控制蜘蛛。
  • 可以删除任何网站,尽管该网站没有用于访问原始数据的 API。

缺点

  • Scrapy 仅适用于 Python 2.7。 +
  • 不同操作系统的安装是不同的。

阅读前需要准备的知识

本教程专为需要从零开始学习 Scrapy 网络爬虫的软件程序员而设计。

大家应该对计算机编程术语和 Python 有基本的了解。 对 XPath 有基本了解者优先。

查看笔记

扫码一下
查看教程更方便