python爬虫学习第二十八天-------了解scrapy(二十八天)

🎈🎈作者主页: 喔的嘛呀🎈🎈
🎈🎈所属专栏:python爬虫学习🎈🎈
✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天开心哦!✨✨ 

hello,兄弟姐妹们!我是喔的嘛呀。今天我们首先来了解scrapy。为后面的学习打下基础。

一、scrapy是什么?

Scrapy 是一个用于爬取网站数据并提取结构化信息的强大 Python 框架。它可以帮助开发人员快速、高效地构建网络爬虫,从而自动化地从网页中提取所需数据。Scrapy 提供了一套完整的工具和组件,包括用于定义爬取规则的 Spider、用于提取数据的选择器(Selectors)、用于处理数据的管道(Pipeline)等,使得爬虫开发变得简单且高效。Scrapy 还支持异步处理和并发请求,可以处理复杂的爬取任务,并提供了命令行工具和调试工具,方便开发人员进行调试和监控。Scrapy 在数据挖掘、信息收集、监测和自动化测试等领域都有广泛的应用。

二、工作原理和重要功能

工作原理:

  1. 引擎(Engine):是 Scrapy 的核心,负责调度整个爬取流程的执行。
  2. 调度器(Scheduler):接收引擎发来的请求,并根据一定的策略进行调度,以确保合理高效地使用网络和系统资源。
  3. 下载器(Downloader):负责下载网页并将响应传递给 Spider。
  4. Spider:定义了如何抓取某个网站的规则,包括如何开始抓取以及如何跟踪链接等。
  5. Item Pipeline:负责处理爬取到的数据,可以进行数据清洗、验证、存储等操作。
  6. Downloader Middleware:介于引擎和下载器之间的一层组件,可以修改请求和响应,例如添加代理、设置 User-Agent 等。
  7. Spider Middleware:介于引擎和 Spider 之间的一层组件,用于处理 Spider 的输入和输出。

主要功能:

  1. Spider:定义了如何爬取某个(些)网站的规则,包括起始URL、如何跟踪链接、如何解析页面等。
  2. Selector:用于从页面中提取数据的工具,支持 XPath 和 CSS 选择器。
  3. Item:表示从网页中提取的数据,类似于字典或数据库表的行。
  4. Pipeline:负责处理爬取到的数据,可以进行数据清洗、去重、验证、存储等操作。
  5. Downloader Middleware:用于在下载器处理请求和响应的过程中进行额外的操作,比如修改请求头、处理代理等。
  6. Spider Middleware:对 Spider 的输出(Item 和 Request)进行处理的组件,可以对请求和响应进行预处理或后处理。
  7. Scrapy Shell:交互式 shell 环境,用于测试和调试 XPath 或 CSS 选择器表达式。
  8. 命令行工具:用于运行爬虫、检查爬取结果等,例如 scrapy crawl spider_name

三、工作流程

Scrapy 的工作流程可以简要地描述为以下几个步骤:

  1. 启动爬虫
    • 使用命令行工具或代码启动 Scrapy 爬虫。
  2. 引擎调度请求
    • 引擎接收到启动爬虫的命令后,会根据 Spider 的配置和规则生成初始请求,并将请求交给调度器。
  3. 调度器管理请求队列
    • 调度器会根据一定的策略管理请求队列,确保请求按照合理的顺序被发送给下载器。
  4. 下载器下载网页
    • 下载器接收到调度器发送的请求后,会下载对应的网页内容,并将下载到的响应返回给引擎。
  5. 引擎将响应发送给 Spider
    • 引擎接收到下载器返回的响应后,会将响应发送给对应的 Spider 进行处理。
  6. Spider 解析响应
    • Spider 接收到响应后,会根据预先定义的规则,解析网页内容,提取需要的数据,并生成新的 Item 对象。
  7. Item 被发送到 Item Pipeline
    • Spider 将解析得到的 Item 对象发送到 Item Pipeline 进行处理,包括数据清洗、验证、存储等操作。
  8. 数据存储
    • Item Pipeline 将处理后的数据存储到指定的数据存储介质(如数据库、文件等)中。
  9. Spider 继续爬取
    • Spider 可能会继续根据规则跟踪链接,生成新的请求,并重复上述流程,直到没有新的请求或达到停止条件。
  10. 爬虫关闭
    • 当爬取结束时,Spider 可能会发送信号给引擎,引擎收到信号后关闭爬虫。

这就是 Scrapy 的基本工作流程。通过这个流程,Scrapy 能够高效地从网页中提取数据,并进行处理和存储,实现了一个完整的网络爬虫功能。

介绍完了scrapy相信你对它已经有了一定的了解。不要着急,后面我会详细解析scrapy的知识点。那今天的学习就到这里了,我们明天再见啦。要天天开心!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2981165.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

related_name和related_query_name属性

在Django模型继承中,假如在外键或多对多字段中使用了related_name属性或related_query_name属性,则必须为该字段提供一个独一无二的反向名字和查询名字。但是,这样在抽象基类中一般会引发问题,因为基类中的字段都被子类继承并且保…

Photoshop 2024 25.4蓝猫版_支持参数滤波器和Ai神经滤镜

网盘下载 Photoshop 2024 (Beta) 蓝猫版v25.4.0(2426)全新功能:支持参数滤波器和AI神经滤镜。 最新的PS 25.4 Beta版新增了参数滤波器(Parametric Filters)功能,而正式版的PS 2024还没有这个功能,只有Beta版才有&…

数据可视化———Tableau

基本认识: 维度:定性—字符串文本,日期和日期时间等等 度量:定量—连续值,一般属于数值 数据类型: 数值 日期/日期时间 字符串 布尔值 地理值 运算符 算数运算符:加减乘除,%取余,…

vue: vscode安装扩展Volar失败(保姆级教程+图文结合)

1 vscode插件离线下载vsix文件 2.1 打开vscode插件市场地址 ​​​​​​https://marketplace.visualstudio.com/search?termvue&targetVSCode&categoryAll%20categories&sortByRelevance 2.2 搜索插件,Vue.volar 1 2.3 下载vsix文件 打开 vetur插件地址&…

GUI测试首推!TestComplete 帮助有效缩短 40-50% 测试时长!

TestComplete 是一款自动化UI测试工具,这款工具目前在全球范围内被广泛应用于进行桌面、移动和Web应用的自动化测试。 TestComplete 集成了一种精心设计的自动化引擎,可以自动记录和回放用户的操作,方便用户进行UI(用户界面&…

蓝桥杯:日期问题(我的绝望题)

🎁个人主页:我们的五年 🔍系列专栏:每日一练 🌷追光的人,终会万丈光芒 目录 前言: 🌷1.问题描述: 1.问题描述: 2.输入格式: 3.输出格式&#…

常见大厂面试题(SQL)01

知乎问答最大连续回答问题天数大于等于3天的用户及其对应等级 1.描述 现有某乎问答创作者信息表author_tb如下(其中author_id表示创作者编号、author_level表示创作者级别,共1-6六个级别、sex表示创作者性别): author_id author_level sex 101 …

Linux下怎么快速部署MySQL服务,并使用

下载镜像 [zrylocalhost ~]$ docker pull mysql Using default tag: latest latest: Pulling from library/mysql bce031bc522d: Pull complete cf7e9f463619: Pull complete 105f403783c7: Pull complete 878e53a613d8: Pull complete 2a362044e79f: Pull complete 6e4d…

文件包含漏洞基础

php 中的文件包含函数: incude : require incude_once require_once 为了减少重复性代码的编写; 任意后缀的文件当中只要存在 php 代码就会被当作 php 执行; 本质:由于包含的文件不可控,导致文件包含…

定制自己的 AI 角色CustomChar;AI知识点和面试题;提高llama 3 的微调速度Unsloth

✨ 1: CustomChar 允许你创建和定制自己的 AI 角色 CustomChar 是一个开源项目,它允许你创建和定制自己的 AI 角色。无论是游戏中的角色,还是个人的虚拟助手(比如电脑上的 JARVIS),甚至是在线教育体验中的虚拟朋友或…

SpringBoot xxl-job 任务调度

首先官网下载xxl-job的源代码,然后切换到jdk8,等Maven下载依赖 执行mysql的脚本,修改连接配置,启动admin站点 默认地址 http://localhost:8080/xxl-job-admin/ 先新增一个任务执行器,指向未来任务代码的站点 然后在…

隋总分享:Temu选品师算不算是蓝海项目?

在当今日新月异的互联网经济浪潮中,跨境电商正成为一股不可忽视的力量。最近,网红隋总对Temu选品师这一职业进行了深入介绍,引发了广泛关注。那么,Temu选品师是否真的可以视为一个蓝海项目呢?本文将对此进行一番细致的探讨。 首先…

HCIP大型综合案例

HCIP大型综合案例,含视频讲解,需要的请私信我获取。 1.Eth-trunk链路聚合 2.VLAN与端口类型 3.MSTP生成树多实例 4.VRRP网关冗余 5.广域网WAN-PPP、IP-Trunk 6.PPPoE拨号 7.OSPF多区域、网络类型、认证、Vlink 8.ISIS多区域、认证、网络类型 9.路由策略与…

深入理解Linux文件系统于日志分析

目录 一.Inode 和 block 概述 ​编辑 1.inode 的内容 (1)Inode 包含文件的元信息 (2)用 stat 命令可以查看某个文件的 inode 信息 (3) Linux系统文件三个主要的时间属性 (4)目…

TI_DSP_F2808学习笔记1: GPIO

1. 初始化设置 1.1 控制寄存器 GPxMUX功能选择寄存器/多功能复用选择 GPxDIR 方向选择寄存器/输入输出选择 0 输入 1 输出GPxPUD 上拉功能选择寄存器/是否启用内部上拉 0 有上拉,1禁止上拉GPxQSeln输入限定选择寄存器 输入n次为0或1才有效,滤波 1.2 数…

聊聊go语言中的GMP模型

写在文章开头 我们都知道go语言通过轻量级线程协程解决并发问题,按照go语言的思想这些协程运行完成后即焚,那么go语言如何保证并发线程有序获取协程呢? 带着这个问题我们从go语言底层的源码来阐述这个问题: Hi,我是 s…

gitee / github 配置git, 实现免密码登录

文章目录 怎么配置公钥和私钥验证配置成功问题 怎么配置公钥和私钥 以下内容参考自 github ssh 配置,gitee的配置也是一样的; 粘贴以下文本,将示例中使用的电子邮件替换为 GitHub 电子邮件地址。 ssh-keygen -t ed25519 -C "your_emai…

【C语言__指针02__复习篇12】

目录 前言 一、数组名的理解 二、使用指针访问数组 三、一维数组传参的本质 四、冒泡排序 五、二级指针 六、指针数组 七、指针数组模拟二维数组 前言 本篇主要讨论以下问题: 1. 数组名通常表示什么,有哪两种例外情况,在例外情况中…

BootStrap框架学习

1、BootStrap是一套现成的css样式集合 中文文档:www.bootcss.com 响应式布局:pc端,手机端都可适配 特点:集成了html,css,javascript工具集,12列格网,基于jquery, 下载:http://v3…

【java毕业设计】 基于Spring Boot+mysql的高校心理教育辅导系统设计与实现(程序源码)-高校心理教育辅导系统

基于Spring Bootmysql的高校心理教育辅导系统设计与实现(程序源码毕业论文) 大家好,今天给大家介绍基于Spring Bootmysql的高校心理教育辅导系统设计与实现,本论文只截取部分文章重点,文章末尾附有本毕业设计完整源码及…