⌈ 传知代码 ⌋ 利用scrapy框架练习爬虫

💛前情提要💛

本文是传知代码平台中的相关前沿知识与技术的分享~

接下来我们即将进入一个全新的空间,对技术有一个全新的视角~

本文所涉及所有资源均在传知代码平台可获取

以下的内容一定会让你对AI 赋能时代有一个颠覆性的认识哦!!!

以下内容干货满满,跟上步伐吧~


📌导航小助手📌

  • 💡本章重点
  • 🍞一. 概述
  • 🍞二. 演示效果
  • 🍞三.核心逻辑
  • 🫓总结


💡本章重点

  • 利用scrapy框架练习爬虫

🍞一. 概述

运用Python语言编程知识及实现网络数据采集的各种Python第三方库、Scrapy框架等实现技术爬取网页信息,要求爬取的网页信息至少包括两种类型:标题列表页(该页要包括分页功能)和详情页。

在这里插入图片描述


🍞二. 演示效果

整体框架

在这里插入图片描述

文件导出

在这里插入图片描述

数据库导出

在这里插入图片描述


🍞三.核心逻辑

编写对应蜘蛛程序

    def start_requests(self):# 爬列表页 只爬1页for page in range(1, 2):yield Request(url="https://jobs.51job.com/beijing/p{}".format(page), callback=self.parse)def parse(self, response: HtmlResponse, **kwargs):# time.sleep(3)# 查看网页内容# print(response.text)sel = Selector(response)# 浏览器F12 选中目标,鼠标右击copy selector# 得到原始css选择器 body > div.maincenter > div.mcon > div.left > div.detlist.gbox > div:nth-child(7)title_text = sel.css('title::text').extract_first()# title_text = sel.xpath('//title/text()').extract_first()# 测试一下标题能不能获取到,如果不能,几乎可以肯定有问题print("title_text:", title_text)list_items = sel.css('div.detlist.gbox > div')for list_item in list_items:job_item = JobItem()job_id = list_item.css('input::attr(value)').extract_first()title = list_item.css('p.info > span.title > a::text').extract_first()location = list_item.css('p.info > span.location.name::text').extract_first()salary = list_item.css('p.info > span.location:not(.name)::text').extract_first()# 得到的是 '学历要求:本科' , 需要处理一下得到 '本科'degree = list_item.css('p.order::text').extract_first().split(':')[1].strip()# 详情页面detail_url = list_item.css('p.info > span.title > a::attr(href)').extract_first()print("test:", job_id, title, location, salary, degree, detail_url)job_item['job_id'] = job_idjob_item['title'] = titlejob_item['location'] = locationjob_item['salary'] = salaryjob_item['degree'] = degreeyield Request(url=detail_url,callback=parse_detail,cb_kwargs={'item': job_item})def parse_detail(response: HtmlResponse, **kwargs):job_item = kwargs['item']sel = Selector(response)# 原始css选择器 div.tCompany_main > div.tBorderTop_box> div.tmsg.inboxcompany_detail = sel.css('div.tmsg.inbox::text').extract_first()print('company_detail:', company_detail)job_item['company_detail'] = company_detailyield job_item

构造Items

class JobItem(scrapy.Item):job_id = scrapy.Field()title = scrapy.Field()location = scrapy.Field()salary = scrapy.Field()degree = scrapy.Field()company_detail = scrapy.Field()

编写文件管道(Excel)

class ExcelPipeline:def __init__(self):self.wb = openpyxl.Workbook()self.ws = self.wb.activeself.ws.title = 'Jobs'self.ws.append(['职位ID', '职位','工作地点', '薪资范围','学历要求', '公司详情'])def open_spider(self, spider):passdef close_spider(self, spider):self.wb.save('51jobs.xlsx')def process_item(self, item, spider):company_detail, degree, job_id, location, salary, title = get_infos(item)# self.ws.append([job_id, title, location, salary, degree, company_detail])self.ws.append((job_id, title, location, salary, degree, company_detail))return item

编写数据库管道及建表

class DbPipeline:def __init__(self):self.conn = pymysql.connect(host='localhost', port=3306, user='root', password='root',db='spyder', charset='utf8mb4')self.cursor = self.conn.cursor()def close_spider(self, spider):print('commit------------------------------')self.conn.commit()self.conn.close()def process_item(self, item, spider):company_detail, degree, job_id, location, salary, title = get_infos(item)self.cursor.execute('insert into tb_51job_items (job_id, title, location, salary, degree, company_detail) ''values (%s,%s,%s,%s,%s,%s)',(job_id, title, location, salary, degree, company_detail))return item
CREATE TABLE spyder.tb_51job_items (job_id varchar(100) NULL COMMENT '职位ID',title varchar(100) NULL COMMENT '职位',location varchar(100) NULL COMMENT '工作地点',salary varchar(100) NULL COMMENT '薪资范围',`degree` varchar(100) NULL COMMENT '学历要求',company_detail varchar(2000) NULL COMMENT '公司详情'
)
ENGINE=InnoDB
DEFAULT CHARSET=utf8mb4
COLLATE=utf8mb4_0900_ai_ci;

配置管道及优先级

ITEM_PIPELINES = {"spider51job.pipelines.ExcelPipeline": 300,"spider51job.pipelines.DbPipeline": 400
}

编写中间件代码

    def __init__(self):self.browser = create_chrome_driver(headless=False)self.browser.get('https://jobs.51job.com')# 初始化时, 先访问主页, 得到cookie信息cookie_file = '51job_cookies.json'# 这边也可以先人工运行test_generate_cookies.py提前生成好cookies信息,下面直接add_cookies使用就可以了generate_cookies(self.browser, cookie_file)add_cookies(self.browser, cookie_file)def __del__(self):# 爬完关闭浏览器self.browser.close()def process_request(self, request, spider):# Called for each request that goes through the downloader# middleware.# Must either:# - return None: continue processing this request# - or return a Response object# - or return a Request object# - or raise IgnoreRequest: process_exception() methods of#   installed downloader middleware will be calledself.browser.get(request.url)# time.sleep(5)if request.url.startswith('https://jobs.51job.com/beijing/p'):wait_obj = WebDriverWait(self.browser, 10)wait_obj.until(expected_conditions.presence_of_element_located((By.CSS_SELECTOR, '#searchForm')))print('爬的时候可能也被反爬,需要人工滑块!')# page_source这个可以获取到动态页面的源代码return HtmlResponse(url=request.url, body=self.browser.page_source,encoding='utf-8', request=request)

🫓总结

综上,我们基本了解了“一项全新的技术啦” 🍭 ~~

恭喜你的内功又双叒叕得到了提高!!!

感谢你们的阅读😆

后续还会继续更新💓,欢迎持续关注📌哟~

💫如果有错误❌,欢迎指正呀💫

✨如果觉得收获满满,可以点点赞👍支持一下哟~✨

【传知科技 – 了解更多新知识】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3280679.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

花10分钟写个漂亮的后端API接口模板!

你好,我是田哥 在这微服务架构盛行的黄金时段,加上越来越多的前后端分离,导致后端API接口规范变得越来越重要了。 比如:统一返回参数形式、统一返回码、统一异常处理、集成swagger等。 目的主要是规范后端项目代码,以及…

苹果FaceTime诈骗泛滥,罪魁祸首是过时的隐私机制

在科技水平飞速发展的当下,手机、手表、电视等消费电子产品朝着智能化方向不断迭代。一方面,它们给我们的生活带来了便利。另一方面,这些电子产品经常被部分“有心人”利用,成为高科技电信诈骗的重要渠道之一。为了从你的手上骗取…

Android使用Fiddler模拟弱网络环境测试

之前安卓设置代理的步骤不再赘述 打开fiddler,默认情况下Rules –> Performances –> Simulate Modem Speeds 是未勾选状态,网络正常。当选中此选项(模拟光猫网速)后,网速就会变很慢,打开一个网页要加…

公布一批神马爬虫IP地址,真实采集数据

一、数据来源: 1、这批神马爬虫IP来源于尚贤达猎头公司网站采集数据; 2、数据采集时间段:2023年10月-2024年1月; 3、判断标准:主要根据用户代理是否包含“YisouSpider”,具体IP没做核实。 二、神马爬虫主…

DataKit之OpenGauss数据迁移工具

#1 关闭防火墙 systemctl stop firewalld systemctl disable firewalld systemctl status firewalld#2 当前JDK版本 wget https://download.java.net/java/GA/jdk11/9/GPL/openjdk-11.0.2_linux-x64_bin.tar.gzvim /etc/profile export JAVA_HOME/usr/local/jdk-11.0.2 export …

Android开发中的简单控件(跟着动脑学院学习记录)

3.1 文本显示——使用TextView控件 3.1.1 设置文本的内容 TextView控件的文本内容可以通过XML属性android:text直接在布局文件中设置,也可以在Activity的Java/Kotlin代码中通过调用setText方法来动态设置。例如,在XML中设置文本为"Hello, World!…

ansys fluent流道分析得到的质量流率为负数

🏆本文收录于《CSDN问答解惑-专业版》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收…

EtherCAT运动控制器上位机之Python+Qt(一):链接与单轴运动

ZMC408CE硬件介绍 ZMC408CE是正运动推出的一款多轴高性能EtherCAT总线运动控制器,具有EtherCAT、EtherNET、RS232、CAN和U盘等通讯接口,ZMC系列运动控制器可应用于各种需要脱机或联机运行的场合。 ZMC408CE支持8轴运动控制,最多可扩展至32轴…

一文速通GIT版本管理与分支控制

目录 1、了解Git功能 2、第一次使用Git(首次配置好,后续不用再操作) 打开git后端 设置用户签名 结果 3、初始项目架构 创建本地新仓库并初始化 文件添加到本地仓库 a.文件添加缓存区 b.缓存区内容提交到本地仓库 c.改写提交的注释 …

虚拟化数据恢复—重写文件系统导致Hyper-V虚拟机无法使用的数据恢复

虚拟化数据恢复环境: 一台服务器上部署的Hyper-V虚拟化平台,虚拟机的硬盘文件和配置文件放在一台某品牌MD3200存储中。该存储中有一组由4块硬盘组建的raid5磁盘阵列,还有一块大容量硬盘存放虚拟机数据文件的备份。 虚拟化故障: M…

10046 事件学习

一、作用 sql执行过程中所有动作和等待的追踪。 二、等级 level:12 包含常用的分析信息:基本信息绑定变量等待事件; level:1 基本信息; level:4 基本信息绑定变量 level:8 基本信息绑定变…

字体表绘制的理解

下载字体到项目根目录下,我们通过一些在写预览本地字体的网站,简单看一下 通过图片不难看出阴书与原文的对应关系,接下来通过程序去完成这一过程,通过 fonttools 处理 ttf,然后获取字体和文字对应的 xml 文件 下面简单…

Java并发(十五)Java并发工具类

CountDownLatch 字面意思为 递减计数锁。用于控制一个线程等待多个线程。 **CountDownLatch**** 维护一个计数器 count,表示需要等待的事件数量。**countDown 方法递减计数器,表示有一个事件已经发生。调用 await 方法的线程会一直阻塞直到计数器为零&a…

工作纪实54-git使用ssh方式

很多居家的小伙伴要重新clone项目,但是忘记了密码,最恶心的是idea还会自动帮你记录密码,如果输错了,会很恶心,使用ssh则不会;还有一个好处就是,集团的密码一般都是几个月更新一次,ss…

【IEEE出版】第五届大数据、人工智能与软件工程国际研讨会(ICBASE 2024,9月20-22)

第五届大数据、人工智能与软件工程国际研讨会(ICBASE 2024)将于2024年09月20-22日在中国温州隆重举行。 会议主要围绕大数据、人工智能与软件工程等研究领域展开讨论。会议旨在为从事大数据、人工智能与软件工程研究的专家学者、工程技术人员、技术研发人…

人工智能学习笔记 - 初级篇Ⅱ - 图形可视化 - 第12节: 绘制带彩色标记的散点图

微信公众号:御风研墨 关注可了解更多。问题或建议,请公众号留言 文章目录 绘制带彩色标记的散点图应用背景准备工作操作步骤工作原理补充说明最后 绘制带彩色标记的散点图 应用背景 散点图是数据可视化中常用的图表类型之一,它可以用来展示…

IDEA某个项目被同事提交的代码导致不能进入Debug了,不是IDEA的问题。千万要避坑!

刚开始我发现突然不能进入debug了,打上去后就立马边灰了,我以为是我IDEA的问题,后来我换了其他项目都能正常进入debug. 而且后续,这个项目的其他同事也都不能进入debug了。 我就怀疑是项目中有人提交了代码导致的。 后来查…

【网络】网络AP热点:技术、应用与未来展望

引言 在数字化时代,无线网络已成为连接世界的重要基础设施。无线接入点(Access Point,简称AP)作为无线网络的核心组成部分,扮演着至关重要的角色。它们不仅提供了无线信号的覆盖,还通过桥接、中继等功能&a…

浅谈线程组插件之bzm - Arrivals Thread Group

浅谈线程组插件之bzm - Arrivals Thread Group bzm - Arrivals Thread Group 是 JMeter 中的一个高级插件,由 BlazeMeter 提供,旨在为性能测试提供更灵活、更贴近实际场景的负载生成方式。与传统的线程组不同,Arrivals Thread Group 通过控制…

【漏洞复现】360天擎 - 未授权与sql注入

漏洞描述 360天擎 - 未授权与sql注入 免责声明 技术文章仅供参考,任何个人和组织使用网络应当遵守宪法法律,遵守公共秩序,尊重社会公德,不得利用网络从事危害国家安全、荣誉和利益,未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息…