Python爬虫:bs4解析

Python爬虫:bs4解析

  • html语法
  • 什么是bs4
  • bs4安装
  • 从bs4中查找数据的方法
  • bs4的基本使用
  • 实例:使用bs4爬取优美图库图片
    • 思路
    • 代码

html语法

<标签 属性=“值” 属性=“值”>被标记内容
</标签>

什么是bs4

bs4全称:beautifulsoup4,可以解析和提取网页中的数据,但需要使用特定的一些语法

bs4安装

pip install bs4

从bs4中查找数据的方法

1.find(标签,属性=值) 查找一个

举例:find(“table”,id=“3”) 查找一个id=3的内容,相当于查找一个html中<table id="3">xxxxx<table/>

2.find_all(标签,属性=值) 和find用法一致,只是能够用于查找所有值。

bs4的基本使用

使用bs4对数据进行解析主要通过两个步骤

1.把页面源代码交给beautifulsoup进行处理,生成bs对象

page = BeautifulSoup(resp.text,“html.parser”)

html.parser用来指定html解析器,相当于告诉bs4我提供的内容就是属于html内容的。

2.从bs对象中查找数据

page.find("table",class_="hq_table")

由于class是python的关键词,如果想要查找class是html中的class关键词,bs4提供一种方式区分python关键字和html关键字:可以在class的后面加“_”。

同样可以采用另一种写法来区别关键字:

page.find("table",attrs={"class":"hq_table"})

3.拿取数据

使用.text获取数据字段

例如:name = tds[0].text

实例:使用bs4爬取优美图库图片

思路

1.拿到主页面的源代码,然后提取到子页面的链接地址href
在这里插入图片描述
在网页中查看源代码,先搜索关键词“黑白冷淡风欧美图片”,发现源代码中可以找到相应结果,说明该网页是属于服务器渲染。
在这里插入图片描述
2.通过href拿到子页面的内容,从子页面中找到图片的下载地址
通过上述的源代码,可以找到href定位到该图片的子页面
在这里插入图片描述
在子页面中查看源代码,发现该图片的下载地址(img -> src)
在这里插入图片描述
3.下载图片

代码

import requests
from bs4 import BeautifulSoup
import timeurl = "https://www.umei.cc/weimeitupian/"
resp = requests.get(url)
resp.encoding = 'utf-8' #处理乱码
#print(resp.text)#把源代码交给bs
main_page = BeautifulSoup(resp.text,"html.parser")
alist = main_page.find("div",class_="taotu-main").find_all("a")
#print(alist)
for a in alist:href = a.get('href') #直接通过get来获得属性为href的值child_href = "https://www.umei.cc" + href#print(child_href)#拿到子页面的源代码child_page_resp = requests.get(child_href)child_page_resp.encoding = 'utf-8'child_page_content = child_page_resp.text#从子页面中获取下载路径child_page = BeautifulSoup(child_page_content,"html.parser")big_pic = child_page.find("div",class_="big-pic")img = big_pic.find("img")src = img.get("src")#print(src)child_page_resp.close()#下载图片img_resp = requests.get(src)#img_resp.content拿到的是字节img_name = src.split("/")[-1] #拿到url最后一个/后的内容with open("img/" + img_name,mode="wb") as f :f.write(img_resp.content) #图片内容写入文件print("over!",img_name)time.sleep(20)img_resp.close()
print("all over!")
resp.close()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/1618660.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

合泰BS8116A-3触摸芯片开发踩坑指南

一、硬件说明 引脚图&#xff1a; 接线&#xff1a; 说明&#xff1a;由于用到了唤醒检测&#xff0c;所以KEY16引脚用作IRQ中断唤醒功能&#xff0c;未使用引脚拉低。 二、IIC配置说明 1、最大波特率&#xff1a; 实际单片机配置最好不要设置波特率100Khz容易出错&#xff…

BS4基本用法

1.找米下锅&#xff0c;安装bs4库 pip install BeautifulSoup 2.此物何用&#xff0c;BS4作用 Beautiful Soup库是解析、遍历、维护“html标签树”的功能库。在爬虫中用于解析数据。 3.bs4标签元素&#xff0c;解析其组成&#xff0c;方可庖丁解牛&#xff0c;游刃有余 by…

XPath和bs4

XPath XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航 使用方法&#xff1a; 使用前要把response.text通过etree.HTML()转换为对应的格式&#xff0c;再通过 变量名.xpath(xpath)截取内容 responserequests.get(url,headershead…

Python爬虫 BeautifulSoup(bs4)-- bs4介绍、安装bs4、bs4基础语法

1. BeautifulSoup简介 BeautifulSoup简称&#xff1a; bs4 。什么是BeatifulSoup&#xff1f; BeautifulSoup&#xff0c;和lxml一样&#xff0c;是一个html的解析器&#xff0c;主要功能也是解析和提取数据 。优缺点&#xff1f; 缺点&#xff1a;效率没有lxml的效率高优点&a…

Python爬虫 之数据解析之bs4

数据解析之bs4 一、bs4进行数据解析二、bs4库和lxml库的安装三、BeautifulSoup对象四、项目实例 一、bs4进行数据解析 1、数据解析的原理 ① 标签定位。 ② 提取标签、标签属性中存储的数据值。 2、bs4数据解析的原理 ① 实例化一个BeautifulSoup对象&#xff0c;并且将网页源…

【数据结构】手撕顺序表

一&#xff0c;概念及结构 顺序表是用一段物理地址连续的存储单元依次存储数据元素的线性结构&#xff0c;一般情况下采用数组存储&#xff1b; 在数组上完成数据的增删查改。 1&#xff0c; 静态顺序表&#xff1a;使用定长数组存储元素。 2.&#xff0c;动态顺序表&#xff1…

java bs项目_BS(Java平台)

采用前后端分离的体系架构。采用前后端分离的开发模式的好处是前端、后台互不影响,发挥各自的特长,提高工作效率。前后端根据约定好的接口规范,按照规范的报文格式分别进行独立开发。前后端开发完成后,进行前后端联调,联调过程中对前后端的参数传递,页面串联,业务逻辑等…

BS架构和CS架构的优缺点

1、CS、BS架构定义 CS(Client/Server):客户端----服务器结构。C/S结构在技术上很成熟,它的主要特点是交互性强、具有安全的存取模式、网络通信量低、响应速度快、利于处理大量数据。因为客户端要负责绝大多数的业务逻辑和UI展示,又称为胖客户端。它充分利用两端硬件,将任…

HAproxy+keepalived高可用配置搭建

目录 一、概述 &#xff08;一&#xff09;简介 &#xff08;二&#xff09;核心功能 &#xff08;三&#xff09;关键特性 &#xff08;四&#xff09;应用场景 二、安装 1&#xff09;拓补图 2&#xff09;配置 &#xff08;一&#xff09;内核配置 &#xff08;二…

oracle orcl不存在,oracle服务丢失的处理方法之OracleServiceORCL不存在示例

oracle服务是oracle数据库的重要组成部分,下面就教您oracle服务丢失的处理方法,如果您之前遇到过oracle服务丢失的问题,不妨一看。 今天发现数据库服务器上的所有oracle服务都丢失了——也就是说在服务管理器中没有oracle服务了,如OracleOraDb10g_home1TNSListener、Oracle…

如何打开计算机的Oracle服务,win10系统手动启动oracle服务的操作方法

有关win10系统手动启动oracle服务的操作方法想必大家有所耳闻。但是能够对win10系统手动启动oracle服务进行实际操作的人却不多。其实解决win10系统手动启动oracle服务的问题也不是难事&#xff0c;小编这里提示两点&#xff1a;1、打开“服务”窗口。或者“管理”口&#xff1…

在现有oracle服务器上新建一个oracle实例

一 概述 假如一台服务器上已经安装了一个单机版的oracle实例orcl&#xff0c;这时想在这台服务器上再部署一个单机版的oracle实例ystat&#xff0c;则可以参考该文档进行部署。 注意&#xff1a;新实例名不要带特殊字符&#xff0c;下划线也不要。 二 操作步骤 2.1 创建相关…

linux下Oracle服务的启动和关闭

1.前言 确保我们能够访问oracle数据库包含两部分&#xff0c;一个是oracle实例&#xff0c;一个是监听&#xff0c;两个同时开启&#xff0c;我们才能正常的使用数据库&#xff0c;因此我们在关闭和启动oracle服务时&#xff0c;也需要同时操作实例和监听。能够操作linux的工具…

AI绘图(11)stable diffusion 如何写好prompt 四

在最开始我写了三篇关于prompt的&#xff0c;具体的大家可以跳转来去看&#xff0c;以下给出来链接&#xff1a; AI绘图&#xff08;3&#xff09;stable diffusion如何写好prompt 一_牧子川的博客-CSDN博客 AI绘图&#xff08;4&#xff09;stable diffusion如何写好prompt …

几个nlp的小任务(生成式任务——语言模型(CLM与MLM))

@TOC 本章节需要用到的类库 微调任意Transformers模型(CLM因果语言模型、MLM遮蔽语言模型) CLM MLM 准备数据集 展示几个数据的结构

MERN Stack 教程

This tutorial will show you how to build a full-stack MERN application—in this case, an employee database—with the most current tools available. Before you begin, make sure that you are familiar with Node.js and React.js basics and have Node and Create R…

取消开机自检

1. 打开运行窗口 win R &#xff0c;输入regedit&#xff0c;点击确定&#xff0c;如图&#xff1a; 2. 一次打开以下节点&#xff0c;如图&#xff1b; 3. 在找到如图所示的节点 4. 双击BootExecute&#xff0c;如图&#xff1a; 5. 清空弹窗中的数据&#xff0c;点击确定&a…

拯救者Y7000 2020新版Bios关闭开机自检

原因 重启按F2进入bios&#xff08;联想笔记本是F2&#xff09; 点击boot选项 关闭自检&#xff08;PXE Boot to LAN改为Disabled&#xff09;

服务器系统自检时间长,我的服务器开机自检提示:waiting for controller to start...是什么意思,而且要等1-5分钟的时间问题是?...

满意答案 alexteresa 2013.06.11 采纳率&#xff1a;46% 等级&#xff1a;12 已帮助&#xff1a;16267人 你好&#xff0c;电脑开机自检&#xff0c;主要是&#xff1a;“内存有错误”或“非正常关机”引起&#xff01; 这是解决方法&#xff1a;(原创&#xff0c;引用请说明…

服务器跳过系统自检,win7 64位旗舰版跳过开机自检功能直接进入系统的方法

如果遇到断电或其他情况导致电脑不正常关机&#xff0c;下次开机电脑会出现磁盘自动检测&#xff0c;win7 64位旗舰版系统磁盘自检的过程需要花费好几分钟的时间&#xff0c;来检测到硬盘是否有坏道或系统是否损坏等问题。如果碰到每次开机磁盘会自检好长时间怎么办呢&#xff…