【数据存储+多任务爬虫】

数据存储

peewee模块

第三方模块,也需要在cmd中安装。

from peewee import *db = MySQLDatabase("spider",host="127.0.0.1",port=3306,user='root',password='123456'
)# 类==》表
class Person(Model):name = CharField(max_length=20)   # 类型/约束birthday = DateField(null=True)class Meta:database = dbdb.create_tables([Person])

需要提前先创建一个库,如下:

52f7af64cf6e49eb8e95d8a802ddd5c3.png

 # 插入数据

p1 = Person(name='XX', birthday='2004-04-09')

p1.save()

import reimport requests
from peewee import *db = MySQLDatabase("spider",host="127.0.0.1",port=3306,user='root',password='123456'
)class MaoYanData(Model):name = CharField(max_length=100)star = CharField(max_length=100)release_time = CharField(max_length=100)class Meta:database = db     # 把这张表创建到库里面class MaoYanSpider:def __init__(self):self.url = 'https://www.maoyan.com/board/4?offset={}'self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'}def get_html(self, url):response = requests.get(url, headers=self.headers)return response.textdef parse_html(self, html):'''提取数据的函数:param html: 在那个代码中寻找'''r_list = re.findall('<div class="movie-item-info">.*?title="(.*?)".*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>', html, re.S)self.save(r_list)def save(self, data_list):for data in data_list:li = [data[0],data[1].split(':')[1].strip(),data[2].split(':')[1].strip(),]data_object = MaoYanData(name=li[0], start=li[1], release_time=li[2])data_object.save()print(li)def run(self):for offset in range(0, 91, 10):url = self.url.format(offset)html = self.get_html(url=url)self.parse_html(html)print('-'*100)db.create_tables([MaoYanData])   # 创建出这张表
MaoYanSpider().run()

多任务爬虫--进程

进程:程序在计算机中的一次执行过程

创建进程的两种方式:

方式一:

1.将需要进程执行的时间封装为函数

2.通过模块的Process类创建进程对象,关联函数

   Process() 参数:

  • target  绑定要执行的目标函数
  • args元组  给target函数位置传参

3.可以通过进程对象设置进程信息及属性

4.通过进程对象调用start启动进程

  • 新的进程是由原有进程的子进程,子进程复制父进程全部内存空间代码段,一个进程可以创建多个子进程。
  • 进程创建后,各个进程空间独立,互相没有影响。
  • 各个进程在执行上互不影响,也没有先后顺序关系。 

方式二:

1.继承Process类

2.重写__init__方法添加自己的属性,使用super()加载父类属性

3.重写run()方法,调用start自动执行run方法

生产者消费者模型:生产者专门生产数据,然后存在一个中间容器中。消费者在这个中间容器取出数据进行消费。通过生产者消费者模型,可以让代码达到高内聚低耦合的目标,让程序分工更加明确。

进程通信:进程间空间独立,资源部共享,此时在需要进程间数据传输就需要特定手段进行数据通信。常用进程间通信方法:消息队列,套接字等。

进程池:创建一定数量的进程来处理事件,事件处理完进程不退出而是继续处理其他事件,直到所有事件全都处理完毕统一销毁。增加进程的重复利用,降低资源消耗


一般爬取图片:

import os.pathimport requests'''获得所有英雄id'''
# https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js?ts=2845381
'''用获取到的英雄id拼接{}获取不同英雄皮肤数据'''
# https://game.gtimg.cn/images/lol/act/img/js/hero/{}.js?ts=2845381class LolImageSpider:def __init__(self):self.hero_list_url = 'https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js?ts=2845381'self.hero_info_url = 'https://game.gtimg.cn/images/lol/act/img/js/hero/{}.js?ts=2845381'self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'}def get_hero_url(self, url):json_data = requests.get(url, headers=self.headers).json()for hero in json_data['hero']:# print(hero['heroId'])    # 在这里打印出所有数据后发现数字并不连贯,取出他们的id去进行拼接info_url = self.hero_info_url.format(hero['heroId'])response = requests.get(info_url, headers=self.headers).json()self.parse_data(response)def parse_data(self, response):skins_list = response['skins']for skins in skins_list:# print(skins)      # 拿到每个英雄的皮肤name = skins['name']main_img = skins['mainImg']if main_img:       # 判断是否有对应图片的皮肤self.parse_img_data(name, main_img)def parse_img_data(self, name, main_img):img = requests.get(main_img).contentfilename = 'lol'if not os.path.exists(filename):os.mkdir(filename)      # 如果没有名为lol的文件就创建文件with open(filename+f"/{name.replace('/', '')}.jpg", 'wb')as f:     # 以该皮肤命名这个图片(记得f"后面加一个/,在该文件夹下下载图片。其中将名字内有/的皮肤名字(k/DA)改成空格)f.write(img)print(name, main_img)def run(self):# 获取所有英雄的id,拼接成英雄图片的url请求地址self.get_hero_url(self.hero_list_url)spider = LolImageSpider()
spider.run()

 但是会发现爬取速度很慢。

使用了进程的生产者消费者就会快很多:

import re
import requestsfrom multiprocessing import Process, Queueheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'}class Producer(Process):def __init__(self, url_q, img_q):super().__init__()self.url_q = url_qself.img_q = img_qdef run(self) -> None:while not self.url_q.empty():url = self.url_q.get()json_data = requests.get(url, headers=headers).json()skins_list = json_data['skins']for skins in skins_list:name = skins['name']main_img = skins['mainImg']if main_img:self.img_q.put({"name": name, "main_img": main_img})class Consumer(Process):def __init__(self, img_q):super().__init__()self.img_q = img_qdef run(self) -> None:while True:img_obj = self.img_q.get()img = requests.get(img_obj.get("main_img")).content    # 拿到数据with open(f'lol/{img_obj.get("name")}.jpg', 'wb')as f:f.write(img)print(img_obj)if __name__ == '__main__':# 存储不同英雄的url链接urlQueue = Queue()imgQueue = Queue()hero_list_url = 'https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js?ts=2845381'hero_info_url = 'https://game.gtimg.cn/images/lol/act/img/js/hero/{}.js?ts=2845381'json_data = requests.get(hero_list_url, headers=headers).json()for hero in json_data['hero']:info_url = hero_info_url.format(hero['heroId'])urlQueue.put(info_url)        # 得到数据链接p_list = []# 启动三个生产者for i in range(3):p = Producer(urlQueue, imgQueue)p.start()        # 执行这个线程p_list.append(p)#for i in range(5):p = Consumer(imgQueue)p.start()for p in p_list:p.join()

进程池与线程池

创建一定数量的进程来处理事件,事件处理完进程不退出,继续处理其他事件,直到所有时间全都处理完毕统一销毁。会增加进程的重复利用,降低资源消耗。

开启进程池例子:

import time
# 开启一个进程池
from concurrent.futures import ProcessPoolExecutordef task(url):time.sleep(3)print(url)if __name__ == '__main__':pool = ProcessPoolExecutor(4)   # 固定开了4个进程url_list = ["www.xxx-{}.com".format(i) for i in range(12)]for url in url_list:pool.submit(task, url)   # 提交:函数名,参数

 开启线程池:

'''
进程:资源分配单位
线程:执行单位
'''import time
# 开启一个线程池
from concurrent.futures import ThreadPoolExecutordef task(url):time.sleep(3)print(url)if __name__ == '__main__':pool = ThreadPoolExecutor(4)   # 固定开了4个进程url_list = ["www.xxx-{}.com".format(i) for i in range(12)]for url in url_list:pool.submit(task, url)   # 提交:函数名,参数

 线程的生产者消费者模型:

import re
import requestsfrom threading import Thread
import queueheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'}class Producer(Thread):def __init__(self, url_q, img_q):super().__init__()self.url_q = url_qself.img_q = img_qdef run(self) -> None:while not self.url_q.empty():url = self.url_q.get()json_data = requests.get(url, headers=headers).json()skins_list = json_data['skins']for skins in skins_list:name = skins['name']main_img = skins['mainImg']if main_img:self.img_q.put({"name": name, "main_img": main_img})class Consumer(Thread):def __init__(self, img_q):super().__init__()self.img_q = img_qdef run(self) -> None:filename = 'lol'while True:img_obj = self.img_q.get()if not img_obj:breakname = re.sub(r'[\/:*?<>|]', " ", img_obj.get("name"))img = requests.get(img_obj.get("main_img")).content    # 拿到数据with open(f'{filename}/{name}.jpg', 'wb')as f:f.write(img)print(img_obj)self.img_q.task_done()    # 提示完成(join的阻塞)if __name__ == '__main__':# 存储不同英雄的url链接urlQueue = queue.Queue()imgQueue = queue.Queue()hero_list_url = 'https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js?ts=2845381'hero_info_url = 'https://game.gtimg.cn/images/lol/act/img/js/hero/{}.js?ts=2845381'json_data = requests.get(hero_list_url, headers=headers).json()for hero in json_data['hero']:info_url = hero_info_url.format(hero['heroId'])urlQueue.put(info_url)        # 得到数据链接p_list = []# 启动三个生产者for i in range(3):p = Producer(urlQueue, imgQueue)p.start()        # 执行这个线程p_list.append(p)#for i in range(5):p = Consumer(imgQueue)p.start()for p in p_list:p.join() 

注意与进程区别——导包的不同和queue的调用。

 线程对于交互等的运行速度会比进程快

 进程对于算数等的运行速度会比线程快


Excel

安装第三方模块openpyxl

创建:

from openpyxl import workbook
wb = workbook.Workbook()
wb.save("1.xlsx")     # 在当前文件夹下创建一个excel表

获取内容:

from openpyxl import load_workbook# 打开Excel
wb = load_workbook("1.xlsx")    # (相对路径)读取
# 选择要操作的sheet
print(wb.sheetnames)    # 获取所有表名 ['1表', '2表', '3表', '4表']
sheet = wb["1表"]     # 也可以:sheet = wb.worksheets[0]
print(sheet)      # <Worksheet "1表">
print(sheet.cell(1, 1).value)  # 拿到表中1行1列的数据  没获取到的话记得看一下编辑之后有没有保存哦

例子:

import reimport requestsfrom openpyxl import workbookclass MaoYanSpider:def __init__(self):self.url = 'https://www.maoyan.com/board/4?offset={}'self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'}self.wb = workbook.Workbook()   # 创建Excelself.sheet = self.wb.worksheets[0]   # 第一个表self.header = ["电影名", "主演", "上映时间"]   # 定义表头名字for i, item in enumerate(self.header, 1):     # 索引从1开始# print(i, item)     # 枚举(获取索引和名字)0 电影名   1 主演   2 上映时间(self.header后没有注明1之后打印出的结果)self.sheet.cell(1, i).value = item    # 把表头一个一个写进去(第一行第一个,第一行第二个...)self.wb.save("Top100.xlsx")def get_html(self, url):response = requests.get(url, headers=self.headers)return response.textdef parse_html(self, html):'''提取数据的函数:param html: 在那个代码中寻找'''r_list = re.findall('<div class="movie-item-info">.*?title="(.*?)".*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>', html, re.S)self.save(r_list)def save(self, data_list):for data in data_list:li = [data[0],data[1].split(':')[1].strip(),data[2].split(':')[1].strip(),]print(li)# 获取Excel中最大行号max_row = self.sheet.max_rowfor i, item in enumerate(li, 1):cell = self.sheet.cell(max_row + 1, i)cell.value = itemself.wb.save("Top100.xlsx")def run(self):for offset in range(0, 91, 10):url = self.url.format(offset)html = self.get_html(url=url)self.parse_html(html)print('-'*100)MaoYanSpider().run()

结果:

88b728abdbb6442082353d72020544d2.png

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2778451.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

C# WinForm开发系列 - DataGridView

原文地址&#xff1a;https://www.cnblogs.com/peterzb/archive/2009/05/29/1491891.html 1.DataGridView实现课程表 testcontrol.rar 2.DataGridView二维表头及单元格合并 DataGridView单元格合并和二维表头.rar myMultiColHeaderDgv.rar 3.DataGridView单元格显示GIF图片 …

第70讲axios后端请求工具类封装

axios工具类封装&#xff1a; // 引入axios import axios from axios;// 创建axios实例 const httpService axios.create({// url前缀-http:xxx.xxx// baseURL: process.env.BASE_API, // 需自定义baseURL:http://localhost:80/,// 请求超时时间timeout: 3000 // 需自定义 })…

Linux中常用的工具

软件安装 yum 软件包 在Linux中&#xff0c;软件包是一种预编译的程序集合&#xff0c;通常包含了用户需要的应用程序、库、文档和其他依赖项。 软件包管理工具是用于安装、更新和删除这些软件包的软件。常见的Linux软件包管理工具包括APT&#xff08;Advanced Packaging To…

Linux第45步_通过搭建“DNS服务器”学习图形化配置工具

学习的意义&#xff1a;通过搭建“DNS服务器”&#xff0c;来学习“图形化配置工具”。“DNS服务器”&#xff0c;我们用不到&#xff0c;但为后期移植linux系统服务&#xff0c;因为在移植系统时&#xff0c;需要用到这个“图形化配置工具”。 1、“menuconfig图形化配置工具…

CodeWave学习笔记--博物馆预约管理系统

场馆信息管理页面搭建&#xff08;PC&#xff09; 首先是场馆实体的创建 页面的搭建 在总览界面下创建子界面venueManage界面 现在总览页中实现跳转场馆管理子界面 设计场馆管理界面 效果 访客预约申请页面搭建&#xff08;H5&#xff09; 添加H5端&#xff0c;点击确认即可 …

Dubbo源码一:【Dubbo与Spring整合】

正常在项目中&#xff0c;我们都是在Spring环境下使用Dubbo&#xff0c;所以我们这里就在Spring的环境下看看Dubbo是如何运作的 入口 在源码下载下来之后&#xff0c;有一个dubbo-demo目录&#xff0c;里面有一个基于spring注解的子目录dubbo-demo-annotation, 里面有一个生产…

第三百一十六回

[tod] 我们在上一章回中介绍了"如何在输入框中处理光标"相关的内容&#xff0c;本章回中将介绍如何添加输入框默认值.闲话休提&#xff0c;让我们一起Talk Flutter吧。 1. 概念介绍 在项目中经常使用输入框获取用户输入的内容&#xff0c;有时候在输入框中反复输入相…

【数学建模】【2024年】【第40届】【MCM/ICM】【E题 财产保险的可持续性】【解题思路】

一、题目 &#xff08;一&#xff09; 赛题原文 2024 ICM Problem E: Sustainability of Property Insurance Extreme-weather events are becoming a crisis for property owners and insurers. The world has endured “more than $1 trillion in damages from more than …

appears to be hung in Auto SQL Tuning task

appears to be hung in Auto SQL Tuning task Oracle 自动定时优化任务执行失败分析 错误现象&#xff1a; Sat Feb 10 03:10:57 2024 Process 0x0x00007FFB81BE44A8 appears to be hung in Auto SQL Tuning task Current time 1707505857, process death time 1707505803 …

Redisson分布式锁 原理 + 运用 记录

Redisson 分布式锁 简单入门 pom <dependency><groupId>org.redisson</groupId><artifactId>redisson</artifactId><version>3.13.6</version></dependency>配置类 package com.hmdp.config;import org.redisson.Redisson;…

【Spring MVC篇】参数的传递及json数据传参

个人主页&#xff1a;兜里有颗棉花糖 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 兜里有颗棉花糖 原创 收录于专栏【Spring MVC】 本专栏旨在分享学习Spring MVC的一点学习心得&#xff0c;欢迎大家在评论区交流讨论&#x1f48c; 目录 一、普通参数的传…

CVE-2012-1823 漏洞复现

CVE-2012-1823 PHP SAPI 与运行模式 首先&#xff0c;介绍一下PHP的运行模式。 下载PHP源码&#xff0c;可以看到其中有个目录叫sapi。sapi在PHP中的作用&#xff0c;类似于一个消息的“传递者”&#xff0c;比如在《Fastcgi协议分析 && PHP-FPM未授权访问漏洞 &…

【算法与数据结构】496、503、LeetCode下一个更大元素I II

文章目录 一、496、下一个更大元素 I二、503、下一个更大元素II三、完整代码 所有的LeetCode题解索引&#xff0c;可以看这篇文章——【算法和数据结构】LeetCode题解。 一、496、下一个更大元素 I 思路分析&#xff1a;本题思路和【算法与数据结构】739、LeetCode每日温度类似…

论文笔记:相似感知的多模态假新闻检测

整理了RecSys2020 Progressive Layered Extraction : A Novel Multi-Task Learning Model for Personalized Recommendations&#xff09;论文的阅读笔记 背景模型实验 论文地址&#xff1a;SAFE 背景 在此之前&#xff0c;对利用新闻文章中文本信息和视觉信息之间的关系(相似…

在Ubuntu22.04上部署ComfyUI

ComfyUI 是 一个基于节点流程的 Stable Diffusion 操作界面&#xff0c;可以通过流程&#xff0c;实现了更加精准的工作流定制和完善的可复现性。每一个模块都有特定的的功能&#xff0c;我们可以通过调整模块连接达到不同的出图效果&#xff0c;特点如下&#xff1a; 1.对显存…

二十、K8S-1-权限管理RBAC详解

目录 k8s RBAC 权限管理详解 一、简介 二、用户分类 1、普通用户 2、ServiceAccount 三、k8s角色&角色绑定 1、授权介绍&#xff1a; 1.1 定义角色&#xff1a; 1.2 绑定角色&#xff1a; 1.3主体&#xff08;subject&#xff09; 2、角色&#xff08;Role和Cluster…

【正在更新】从零开始认识语音识别:DNN-HMM混合系统语音识别(ASR)原理

摘要 | Abstract TO-BE-FILLED 1.前言 | Introduction 近期想深入了解语音识别(ASR)中隐马尔可夫模型(HMM)和深度神经网络-隐马尔可夫(DNN-HMM)混合模型&#xff0c;但是尽管网络上有许多关于DNN-HMM的介绍&#xff0c;如李宏毅教授的《深度学习人类语言处理》[1]&#xff0c;…

Hive-架构与设计

架构与设计 一、背景和起源二、框架概述1.设计特点 三、架构图1.UI交互层2.Driver驱动层3.Compiler4.Metastore5.Execution Engine 四、执行流程1.发起请求2.获取执行计划3.获取元数据4.返回元数据5.返回执行计划6.运行执行计划7.运行结果获取 五、数据模型1.DataBase数据库2.T…

Elasticsearch 通信模块的分析

Elasticsearch 通信模块的分析 - 知乎 Elasticsearch是一个基于Lucene的分布式实时搜索框架&#xff0c;它本身能够接受用户发来的http 请求&#xff0c; 集群节点之间也会有相关的通信。 通信模块的简介 Elasticsearch 中的通信相关的配置都是由NetworkModule 这个类完成的…

【深度学习】:实验6布置,图像自然语言描述生成(让计算机“看图说话”)

清华大学驭风计划 因为篇幅原因实验答案分开上传&#xff0c;深度学习专栏持续更新中&#xff0c;期待的小伙伴敬请关注 实验答案链接http://t.csdnimg.cn/bA48U 有任何疑问或者问题&#xff0c;也欢迎私信博主&#xff0c;大家可以相互讨论交流哟~~ 案例 6 &#xff1a;图像自…