BS4基本用法

1.找米下锅,安装bs4库

pip install BeautifulSoup

2.此物何用,BS4作用

Beautiful Soup库是解析遍历维护“html标签树”的功能库。在爬虫中用于解析数据。

3.bs4标签元素,解析其组成,方可庖丁解牛,游刃有余

by:

#导入BeautifulSoup库
from bs4 import BeautifulSoup
r='''<!DOCTYPE html>
<html>
<div><!--这个文件是介绍BS4的基本的用法的--></div>
<head><title class="te" id="t"> 测试bd4方法</title>
</head>
<body><p><ul>标题一</ul><a href="www.a">哈哈哈</a></p><p><u>嘿嘿嘿</u><u>呵呵呵</u><u2>标题2</u2><div class="d" id="d3">我是p标签中的div</div><a href="www">我是a2</a></p><div class="d" id="d1">我是div</div><div class="d" id="d2"></div>
</body>
</html>'''
soup=BeautifulSoup(r,'html.parser')

3.1 tag:标签,最基本的单元,用<>和>开头和结尾

用法:.标签名

tag1=soup.title
print(tag1)

返回的是一个'bs4.element.Tag'对象

3.2 name:标签名,

用法:.name

name=tag1.name
print(name)
print(type(name))

返回标签的名字,'str'类型

3.3 Attributes:属性

用法:.attrs

a=tag1.attrs
print(a)
print(type(a))

返回的是标签的属性,存放在列表中,'dict'类型

3.4 NavigableString:非属性字符串

用法:.string

str1=tag1.string
print(str1)
print(type(str1))

返回标签中的字符串,‘str’类型

3.5 Comment:注释

用法:.comment

a1=soup.div.contents
print(a1)
print(type(a1))

返回注释,“list”类型

4.BS4的HTML遍历方法,连坐制度,寻其一可知其九族。

4.1 下行遍历,先找后辈

4.1.1 下行遍历所有儿子.cotents:获取子节点的列表

用法:.contents

tag2=soup.p
tag3=tag1.contents
print(tag3)
print(type(tag3))

将所有儿子节点村放入列表

4.1.2 下行遍历一个一个的找儿子.children:获取子节点的迭代类型

用法:

for tag4 in tag2.children:print(tag4)

返回儿子节点的迭代类型,与.contents类似,用于循环遍历儿子节点

4.1.2 下行遍历找子子孙孙.descendants: 获取子孙节点的迭代类型

用法:

for tag5 in soup.body.descendants:print(tag5)

返回全部子孙节点的迭代类型,用于循环遍历子孙节点

4.2 上行遍历,再找先辈

4.2 上行遍历找爸爸 .parent:获取节点的父标签

用法:.parent

tag6=soup.ul
print(tag6.parent)

返回负标签, 'bs4.element.Tag'类型

4.2.2上行遍历找祖宗 .parent:获取父标签,及父标签的父标签,及父标签的父标签的标签点,直到老祖宗html标签

用法:.parents

for tag7 in tag6.parents:print(tag7)

返回迭代对象,'bs4.element.Tag'类型

4.3 平行遍历,不放过其兄弟姐妹

4.3.1平行遍历找最近的哥哥 .previous_sibling:返回上一个平行节点标签

用法:.previous_sibling

u2=soup.u2
print(u2.previous_sibling)

返回兄弟标签, 'bs4.element.Tag'类型

4.3.2平行遍历找所有的哥哥 .previous_siblings:迭代类型,返回前续的所有平行节点标签

用法:.previous_siblings

for tag8 in u2.previous_siblings:print(tag8)

返回迭代对象,'bs4.element.Tag'类型

4.3.3平行遍历找最近的弟弟 .next_sibling:返回下一个平行节点标签

用法:.next_sibling

u2=soup.u2
print(u2.next_sibling)

返回兄弟标签, 'bs4.element.Tag'类型

4.3.4平行遍历找所有的弟弟 .next_siblings:迭代类型,返回后续的所有平行节点标签

用法:.next_siblings

for tag9 in u2.next_siblings:print(tag9)

返回迭代对象,'bs4.element.Tag'类型

5.bs4中findAll方法,为防逃脱,还可用findAll方法查找。

5.1 标签参数tag:可以传递一个标签的名称或多个标签名称组成的Python列表做标签参数。

用法:.findAll("标签名")

tag=soup.findAll(["a","u"])
print(tag)

5.2 属性参数attributes:用一个Python字典封装一个标签的若干属性和对应的属性值。

用法:.findAll(属性=属性值)

ta2=soup.findAll(id='d1')
print(ta2)

5.3 find用法

6 bs4中select用法,兵贵神速,若想快速找到相关人物,可用select定点狙击目标

bs4中select用法
方法内容
通过标签名查找soup.select('title')#直接填写标签名
通过类名查找soup.select('.d') #  “ . ”代表类查找 
通过id查找soup.select('#d2') #  “#”代表id查找
组合查找soup.select('div #d2' ) #  p标签且id为d2的对象
标签依次查找soup.select('p>a') # p标签下的a标签
通过href属性查找soup.select('a[href="www"]')

Attri

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/1618656.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

XPath和bs4

XPath XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航 使用方法&#xff1a; 使用前要把response.text通过etree.HTML()转换为对应的格式&#xff0c;再通过 变量名.xpath(xpath)截取内容 responserequests.get(url,headershead…

Python爬虫 BeautifulSoup(bs4)-- bs4介绍、安装bs4、bs4基础语法

1. BeautifulSoup简介 BeautifulSoup简称&#xff1a; bs4 。什么是BeatifulSoup&#xff1f; BeautifulSoup&#xff0c;和lxml一样&#xff0c;是一个html的解析器&#xff0c;主要功能也是解析和提取数据 。优缺点&#xff1f; 缺点&#xff1a;效率没有lxml的效率高优点&a…

Python爬虫 之数据解析之bs4

数据解析之bs4 一、bs4进行数据解析二、bs4库和lxml库的安装三、BeautifulSoup对象四、项目实例 一、bs4进行数据解析 1、数据解析的原理 ① 标签定位。 ② 提取标签、标签属性中存储的数据值。 2、bs4数据解析的原理 ① 实例化一个BeautifulSoup对象&#xff0c;并且将网页源…

【数据结构】手撕顺序表

一&#xff0c;概念及结构 顺序表是用一段物理地址连续的存储单元依次存储数据元素的线性结构&#xff0c;一般情况下采用数组存储&#xff1b; 在数组上完成数据的增删查改。 1&#xff0c; 静态顺序表&#xff1a;使用定长数组存储元素。 2.&#xff0c;动态顺序表&#xff1…

java bs项目_BS(Java平台)

采用前后端分离的体系架构。采用前后端分离的开发模式的好处是前端、后台互不影响,发挥各自的特长,提高工作效率。前后端根据约定好的接口规范,按照规范的报文格式分别进行独立开发。前后端开发完成后,进行前后端联调,联调过程中对前后端的参数传递,页面串联,业务逻辑等…

BS架构和CS架构的优缺点

1、CS、BS架构定义 CS(Client/Server):客户端----服务器结构。C/S结构在技术上很成熟,它的主要特点是交互性强、具有安全的存取模式、网络通信量低、响应速度快、利于处理大量数据。因为客户端要负责绝大多数的业务逻辑和UI展示,又称为胖客户端。它充分利用两端硬件,将任…

HAproxy+keepalived高可用配置搭建

目录 一、概述 &#xff08;一&#xff09;简介 &#xff08;二&#xff09;核心功能 &#xff08;三&#xff09;关键特性 &#xff08;四&#xff09;应用场景 二、安装 1&#xff09;拓补图 2&#xff09;配置 &#xff08;一&#xff09;内核配置 &#xff08;二…

oracle orcl不存在,oracle服务丢失的处理方法之OracleServiceORCL不存在示例

oracle服务是oracle数据库的重要组成部分,下面就教您oracle服务丢失的处理方法,如果您之前遇到过oracle服务丢失的问题,不妨一看。 今天发现数据库服务器上的所有oracle服务都丢失了——也就是说在服务管理器中没有oracle服务了,如OracleOraDb10g_home1TNSListener、Oracle…

如何打开计算机的Oracle服务,win10系统手动启动oracle服务的操作方法

有关win10系统手动启动oracle服务的操作方法想必大家有所耳闻。但是能够对win10系统手动启动oracle服务进行实际操作的人却不多。其实解决win10系统手动启动oracle服务的问题也不是难事&#xff0c;小编这里提示两点&#xff1a;1、打开“服务”窗口。或者“管理”口&#xff1…

在现有oracle服务器上新建一个oracle实例

一 概述 假如一台服务器上已经安装了一个单机版的oracle实例orcl&#xff0c;这时想在这台服务器上再部署一个单机版的oracle实例ystat&#xff0c;则可以参考该文档进行部署。 注意&#xff1a;新实例名不要带特殊字符&#xff0c;下划线也不要。 二 操作步骤 2.1 创建相关…

linux下Oracle服务的启动和关闭

1.前言 确保我们能够访问oracle数据库包含两部分&#xff0c;一个是oracle实例&#xff0c;一个是监听&#xff0c;两个同时开启&#xff0c;我们才能正常的使用数据库&#xff0c;因此我们在关闭和启动oracle服务时&#xff0c;也需要同时操作实例和监听。能够操作linux的工具…

AI绘图(11)stable diffusion 如何写好prompt 四

在最开始我写了三篇关于prompt的&#xff0c;具体的大家可以跳转来去看&#xff0c;以下给出来链接&#xff1a; AI绘图&#xff08;3&#xff09;stable diffusion如何写好prompt 一_牧子川的博客-CSDN博客 AI绘图&#xff08;4&#xff09;stable diffusion如何写好prompt …

几个nlp的小任务(生成式任务——语言模型(CLM与MLM))

@TOC 本章节需要用到的类库 微调任意Transformers模型(CLM因果语言模型、MLM遮蔽语言模型) CLM MLM 准备数据集 展示几个数据的结构

MERN Stack 教程

This tutorial will show you how to build a full-stack MERN application—in this case, an employee database—with the most current tools available. Before you begin, make sure that you are familiar with Node.js and React.js basics and have Node and Create R…

取消开机自检

1. 打开运行窗口 win R &#xff0c;输入regedit&#xff0c;点击确定&#xff0c;如图&#xff1a; 2. 一次打开以下节点&#xff0c;如图&#xff1b; 3. 在找到如图所示的节点 4. 双击BootExecute&#xff0c;如图&#xff1a; 5. 清空弹窗中的数据&#xff0c;点击确定&a…

拯救者Y7000 2020新版Bios关闭开机自检

原因 重启按F2进入bios&#xff08;联想笔记本是F2&#xff09; 点击boot选项 关闭自检&#xff08;PXE Boot to LAN改为Disabled&#xff09;

服务器系统自检时间长,我的服务器开机自检提示:waiting for controller to start...是什么意思,而且要等1-5分钟的时间问题是?...

满意答案 alexteresa 2013.06.11 采纳率&#xff1a;46% 等级&#xff1a;12 已帮助&#xff1a;16267人 你好&#xff0c;电脑开机自检&#xff0c;主要是&#xff1a;“内存有错误”或“非正常关机”引起&#xff01; 这是解决方法&#xff1a;(原创&#xff0c;引用请说明…

服务器跳过系统自检,win7 64位旗舰版跳过开机自检功能直接进入系统的方法

如果遇到断电或其他情况导致电脑不正常关机&#xff0c;下次开机电脑会出现磁盘自动检测&#xff0c;win7 64位旗舰版系统磁盘自检的过程需要花费好几分钟的时间&#xff0c;来检测到硬盘是否有坏道或系统是否损坏等问题。如果碰到每次开机磁盘会自检好长时间怎么办呢&#xff…

计算机主板 上电顺序,BIOS很熟悉,电脑开机BIOS开机自检顺序你知道吗?

原标题:BIOS很熟悉,电脑开机BIOS开机自检顺序你知道吗? 开机键→主板控制芯片向→CPU发出RESET信号→CPU初始化 当电源供电稳定后,芯片组便撤去RESET信号,CPU马上就从FFFFOH处开始执行指令。注:这个地址在系统BIOS的地址范围内,无论是BIOS还是AMI BIOS,放在这里的只是一…

xp计算机启动检测硬盘,取消WinXP开机自检技巧五则

有时我们正常关闭计算机后&#xff0c;再次开机时发现系统会出现自行检测&#xff0c;这让许多XP用户们感到不方便&#xff0c;那么该怎么取消XP开机自检呢&#xff1f;下面就是具体的方法了&#xff0c;一起来看看吧。 方法①&#xff1a; 假如分区是FAT32格式&#xff0c;将其…