XPath和bs4

XPath

XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航

使用方法:

使用前要把response.text通过etree.HTML()转换为对应的格式,再通过 变量名.xpath('xpath')截取内容

response=requests.get(url,headers=headers)
response.encoding='utf-8'    #根据格式修改为utf-8或者gbk
html=response.text
xpath_style=etree.HTML(html)
text=xpath_style.xpath('xpath')
print(text)

 

现在的目标是百度首页的热搜,在左边的源码里可以看到热搜的所在位置,他的XPath就是:

/html/body/div/div/div[5]/div/div/div[3]/ul/li[1]/a/span[2]/text()

xpath的写法就和文件夹的路径一样,从大到小,可以在左边的源码中查看节点的结构,xpath中还有div[3],div[5]的写法,div[3]表示当前结构下的第三个div节点,下标默认从1开始

可以看到第一行的div下边有三个div,要表示第三个div就需要加上下标[3],其他节点也是如此。

获取关键字的值:以下案例地址:汽车产业资讯-汽车频道-和讯网

若要获取a标签里的href的值,xpath确定a标签之后在后边加 /@href

/html/body/div[5]/div[2]/div[1]/div[2]/div[1]/ul[1]/li[1]/a/@href

@+关键字名称 表示获取关键字的值

可以利用这种写法来浓缩xpath://*[@id="hotsearch-content-wrapper"]/li[1]/a/span[2]/text()

//*表示所有节点,[@id="hotsearch-content-wrapper"]表示id关键字的值=="hotsearch-content-wrapper",用这种写法确定一个或者多个节点,再确定后边的内容

以上两种写法的最后一个节点是text() 表示获取上一个节点的文本内容,若去掉text(),则输出:<Element span at 0x8847940>。或者输出是给变量加上 .text

for i in b:    #b是通过xpath返回回来的变量print(i.text)

以上是XPath最基本最常用的写法,xpath还有很多方法和函数,具体请参考:XPath 教程

bs4

BS4全称是Beatiful Soup,它提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

使用方法:

将response.text通过Beautifulsoup函数转换为对应的格式,‘html.parser’为bs4的解析器,种类有很多,它的功能就不在过多介绍了。

response=requests.get(url,headers=headers)
response.encoding='utf-8'    #根据格式修改为utf-8或者gbk
html=response.text
soup=BeautifulSoup(html,'html.parser')

主要介绍两个函数find_all()和select() (经过测试find_all比select快一些)

find_all():通过指定的标签名称和关键字的值来确定段落,匹配网页中的所有符合规则的结果。

PS:还有一个和find_all()相似的函数,find(),只匹配第一个符合规则的结果。

soup.find_all('div',class_='art_contextBox') 表示标签为div,class的值为art_contextBox的段落

注意:因为class为关键字,所以函数中的class需要加上下划线_!

这个函数的返回值是 <class 'bs4.element.ResultSet'>类型 可以用下标进行操作。

返回文本内容的话可以用get_text()函数,用法:

f_list=soup.find_all('div',class_='art_contextBox')
for i in f_list:print(i.get_text())

select():指定结构确定段落

soup.select('div span') 表示获取 div节点下 span节点的内容(一个网页中可能有多个这种关系,可以通过下标确定需要的内容)

soup.select("div[class='temp01'] ul li a") 表示节点名称div且class关键字的值是temp01的节点下的ul节点下的li节点下的a节点的内容。

返回的内容如下图所示

同样可以通过get_text()获取节点中的文本,用法:

f_list=soup.select("div[class='temp01'] ul li a")
for i in f_list:print(i.get_text())

还可以根据get()函数获取关键字的值:

f_list=soup.select("div[class='temp01'] ul li a")
for i in f_list:print(i.get('href'))

总结:

xpath和bs4各有各的特点,xpath相比来说简单一点,速度较快,根据自己的使用习惯和不同的应用场景来选择解析方式吧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/1618654.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Python爬虫 BeautifulSoup(bs4)-- bs4介绍、安装bs4、bs4基础语法

1. BeautifulSoup简介 BeautifulSoup简称&#xff1a; bs4 。什么是BeatifulSoup&#xff1f; BeautifulSoup&#xff0c;和lxml一样&#xff0c;是一个html的解析器&#xff0c;主要功能也是解析和提取数据 。优缺点&#xff1f; 缺点&#xff1a;效率没有lxml的效率高优点&a…

Python爬虫 之数据解析之bs4

数据解析之bs4 一、bs4进行数据解析二、bs4库和lxml库的安装三、BeautifulSoup对象四、项目实例 一、bs4进行数据解析 1、数据解析的原理 ① 标签定位。 ② 提取标签、标签属性中存储的数据值。 2、bs4数据解析的原理 ① 实例化一个BeautifulSoup对象&#xff0c;并且将网页源…

【数据结构】手撕顺序表

一&#xff0c;概念及结构 顺序表是用一段物理地址连续的存储单元依次存储数据元素的线性结构&#xff0c;一般情况下采用数组存储&#xff1b; 在数组上完成数据的增删查改。 1&#xff0c; 静态顺序表&#xff1a;使用定长数组存储元素。 2.&#xff0c;动态顺序表&#xff1…

java bs项目_BS(Java平台)

采用前后端分离的体系架构。采用前后端分离的开发模式的好处是前端、后台互不影响,发挥各自的特长,提高工作效率。前后端根据约定好的接口规范,按照规范的报文格式分别进行独立开发。前后端开发完成后,进行前后端联调,联调过程中对前后端的参数传递,页面串联,业务逻辑等…

BS架构和CS架构的优缺点

1、CS、BS架构定义 CS(Client/Server):客户端----服务器结构。C/S结构在技术上很成熟,它的主要特点是交互性强、具有安全的存取模式、网络通信量低、响应速度快、利于处理大量数据。因为客户端要负责绝大多数的业务逻辑和UI展示,又称为胖客户端。它充分利用两端硬件,将任…

HAproxy+keepalived高可用配置搭建

目录 一、概述 &#xff08;一&#xff09;简介 &#xff08;二&#xff09;核心功能 &#xff08;三&#xff09;关键特性 &#xff08;四&#xff09;应用场景 二、安装 1&#xff09;拓补图 2&#xff09;配置 &#xff08;一&#xff09;内核配置 &#xff08;二…

oracle orcl不存在,oracle服务丢失的处理方法之OracleServiceORCL不存在示例

oracle服务是oracle数据库的重要组成部分,下面就教您oracle服务丢失的处理方法,如果您之前遇到过oracle服务丢失的问题,不妨一看。 今天发现数据库服务器上的所有oracle服务都丢失了——也就是说在服务管理器中没有oracle服务了,如OracleOraDb10g_home1TNSListener、Oracle…

如何打开计算机的Oracle服务,win10系统手动启动oracle服务的操作方法

有关win10系统手动启动oracle服务的操作方法想必大家有所耳闻。但是能够对win10系统手动启动oracle服务进行实际操作的人却不多。其实解决win10系统手动启动oracle服务的问题也不是难事&#xff0c;小编这里提示两点&#xff1a;1、打开“服务”窗口。或者“管理”口&#xff1…

在现有oracle服务器上新建一个oracle实例

一 概述 假如一台服务器上已经安装了一个单机版的oracle实例orcl&#xff0c;这时想在这台服务器上再部署一个单机版的oracle实例ystat&#xff0c;则可以参考该文档进行部署。 注意&#xff1a;新实例名不要带特殊字符&#xff0c;下划线也不要。 二 操作步骤 2.1 创建相关…

linux下Oracle服务的启动和关闭

1.前言 确保我们能够访问oracle数据库包含两部分&#xff0c;一个是oracle实例&#xff0c;一个是监听&#xff0c;两个同时开启&#xff0c;我们才能正常的使用数据库&#xff0c;因此我们在关闭和启动oracle服务时&#xff0c;也需要同时操作实例和监听。能够操作linux的工具…

AI绘图(11)stable diffusion 如何写好prompt 四

在最开始我写了三篇关于prompt的&#xff0c;具体的大家可以跳转来去看&#xff0c;以下给出来链接&#xff1a; AI绘图&#xff08;3&#xff09;stable diffusion如何写好prompt 一_牧子川的博客-CSDN博客 AI绘图&#xff08;4&#xff09;stable diffusion如何写好prompt …

几个nlp的小任务(生成式任务——语言模型(CLM与MLM))

@TOC 本章节需要用到的类库 微调任意Transformers模型(CLM因果语言模型、MLM遮蔽语言模型) CLM MLM 准备数据集 展示几个数据的结构

MERN Stack 教程

This tutorial will show you how to build a full-stack MERN application—in this case, an employee database—with the most current tools available. Before you begin, make sure that you are familiar with Node.js and React.js basics and have Node and Create R…

取消开机自检

1. 打开运行窗口 win R &#xff0c;输入regedit&#xff0c;点击确定&#xff0c;如图&#xff1a; 2. 一次打开以下节点&#xff0c;如图&#xff1b; 3. 在找到如图所示的节点 4. 双击BootExecute&#xff0c;如图&#xff1a; 5. 清空弹窗中的数据&#xff0c;点击确定&a…

拯救者Y7000 2020新版Bios关闭开机自检

原因 重启按F2进入bios&#xff08;联想笔记本是F2&#xff09; 点击boot选项 关闭自检&#xff08;PXE Boot to LAN改为Disabled&#xff09;

服务器系统自检时间长,我的服务器开机自检提示:waiting for controller to start...是什么意思,而且要等1-5分钟的时间问题是?...

满意答案 alexteresa 2013.06.11 采纳率&#xff1a;46% 等级&#xff1a;12 已帮助&#xff1a;16267人 你好&#xff0c;电脑开机自检&#xff0c;主要是&#xff1a;“内存有错误”或“非正常关机”引起&#xff01; 这是解决方法&#xff1a;(原创&#xff0c;引用请说明…

服务器跳过系统自检,win7 64位旗舰版跳过开机自检功能直接进入系统的方法

如果遇到断电或其他情况导致电脑不正常关机&#xff0c;下次开机电脑会出现磁盘自动检测&#xff0c;win7 64位旗舰版系统磁盘自检的过程需要花费好几分钟的时间&#xff0c;来检测到硬盘是否有坏道或系统是否损坏等问题。如果碰到每次开机磁盘会自检好长时间怎么办呢&#xff…

计算机主板 上电顺序,BIOS很熟悉,电脑开机BIOS开机自检顺序你知道吗?

原标题:BIOS很熟悉,电脑开机BIOS开机自检顺序你知道吗? 开机键→主板控制芯片向→CPU发出RESET信号→CPU初始化 当电源供电稳定后,芯片组便撤去RESET信号,CPU马上就从FFFFOH处开始执行指令。注:这个地址在系统BIOS的地址范围内,无论是BIOS还是AMI BIOS,放在这里的只是一…

xp计算机启动检测硬盘,取消WinXP开机自检技巧五则

有时我们正常关闭计算机后&#xff0c;再次开机时发现系统会出现自行检测&#xff0c;这让许多XP用户们感到不方便&#xff0c;那么该怎么取消XP开机自检呢&#xff1f;下面就是具体的方法了&#xff0c;一起来看看吧。 方法①&#xff1a; 假如分区是FAT32格式&#xff0c;将其…

华为服务器自检信息怎么开,服务器开机自检内存

服务器开机自检内存 内容精选 换一换 华为云帮助中心&#xff0c;为用户提供产品简介、价格说明、购买指南、用户指南、API参考、最佳实践、常见问题、视频帮助等技术文档&#xff0c;帮助您快速上手使用华为云服务。 当对弹性云服务器执行绑定密钥对操作时失败。管理控制台上密…