扫码一下
查看教程更方便
Scrapy 进程可用于使用蜘蛛从网页等来源提取数据。 Scrapy 使用 Item
类来生成输出,其对象用于收集抓取的数据。
我们可以使用类定义语法以及如下所示的字段对象来声明 Item
import scrapy
class MyProducts(scrapy.Item):
productName = Field()
productLink = Field()
imageURL = Field()
price = Field()
size = Field()
Item 字段用于显示每个字段的元数据。 由于字段对象的值没有限制,可访问的元数据键不包含任何元数据的引用列表。 字段对象用于指定所有字段元数据,您可以根据项目中的要求指定任何其他字段键。 可以使用 Item.fields 属性访问字段对象。
当我们使用这些 Item 时,可以定义一些常用功能。 有关更多信息,请单击此链接。
可以通过说明原始 Item 的子类来扩展这些 Item。 例如
class MyProductDetails(Product):
original_rate = scrapy.Field(serializer = str)
discount_rate = scrapy.Field()
我们可以使用现有字段元数据通过添加更多值或更改现有值来扩展字段元数据,如以下代码所示
class MyProductPackage(Product):
name = scrapy.Field(Product.fields['name'], serializer = serializer_demo)
可以使用以下类指定项目对象,该类提供给定参数的新初始化项目
class scrapy.item.Item([arg])
Item 提供构造函数的副本并提供由字段中的项目提供的额外属性。
可以使用以下类指定字段对象,其中 Field
类不发出附加过程或属性
class scrapy.item.Field([arg])