XPath和bs4

XPath

XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航

使用方法：

使用前要把response.text通过etree.HTML()转换为对应的格式，再通过变量名.xpath('xpath')截取内容

response=requests.get(url,headers=headers)
response.encoding='utf-8'    #根据格式修改为utf-8或者gbk
html=response.text
xpath_style=etree.HTML(html)
text=xpath_style.xpath('xpath')
print(text)

现在的目标是百度首页的热搜，在左边的源码里可以看到热搜的所在位置，他的XPath就是：

/html/body/div/div/div[5]/div/div/div[3]/ul/li[1]/a/span[2]/text()

xpath的写法就和文件夹的路径一样，从大到小，可以在左边的源码中查看节点的结构，xpath中还有div[3],div[5]的写法，div[3]表示当前结构下的第三个div节点，下标默认从1开始

可以看到第一行的div下边有三个div，要表示第三个div就需要加上下标[3]，其他节点也是如此。

获取关键字的值：以下案例地址：汽车产业资讯-汽车频道-和讯网

若要获取a标签里的href的值，xpath确定a标签之后在后边加 /@href

/html/body/div[5]/div[2]/div[1]/div[2]/div[1]/ul[1]/li[1]/a/@href

@+关键字名称表示获取关键字的值

可以利用这种写法来浓缩xpath：//*[@id="hotsearch-content-wrapper"]/li[1]/a/span[2]/text()

//*表示所有节点，[@id="hotsearch-content-wrapper"]表示id关键字的值=="hotsearch-content-wrapper"，用这种写法确定一个或者多个节点，再确定后边的内容

以上两种写法的最后一个节点是text() 表示获取上一个节点的文本内容，若去掉text(),则输出：<Element span at 0x8847940>。或者输出是给变量加上 .text

for i in b:    #b是通过xpath返回回来的变量print(i.text)

以上是XPath最基本最常用的写法，xpath还有很多方法和函数，具体请参考：XPath 教程

bs4

BS4全称是Beatiful Soup，它提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

使用方法：

将response.text通过Beautifulsoup函数转换为对应的格式，‘html.parser’为bs4的解析器，种类有很多，它的功能就不在过多介绍了。

response=requests.get(url,headers=headers)
response.encoding='utf-8'    #根据格式修改为utf-8或者gbk
html=response.text
soup=BeautifulSoup(html,'html.parser')

主要介绍两个函数find_all()和select() （经过测试find_all比select快一些）

find_all()：通过指定的标签名称和关键字的值来确定段落，匹配网页中的所有符合规则的结果。

PS：还有一个和find_all()相似的函数，find()，只匹配第一个符合规则的结果。

soup.find_all('div',class_='art_contextBox') 表示标签为div,class的值为art_contextBox的段落

注意：因为class为关键字，所以函数中的class需要加上下划线_！

这个函数的返回值是 <class 'bs4.element.ResultSet'>类型可以用下标进行操作。

返回文本内容的话可以用get_text()函数，用法：

f_list=soup.find_all('div',class_='art_contextBox')
for i in f_list:print(i.get_text())

select():指定结构确定段落

soup.select('div span') 表示获取 div节点下 span节点的内容（一个网页中可能有多个这种关系，可以通过下标确定需要的内容）

soup.select("div[class='temp01'] ul li a") 表示节点名称div且class关键字的值是temp01的节点下的ul节点下的li节点下的a节点的内容。

返回的内容如下图所示

同样可以通过get_text()获取节点中的文本，用法：

f_list=soup.select("div[class='temp01'] ul li a")
for i in f_list:print(i.get_text())

还可以根据get()函数获取关键字的值：

f_list=soup.select("div[class='temp01'] ul li a")
for i in f_list:print(i.get('href'))

总结：

xpath和bs4各有各的特点，xpath相比来说简单一点，速度较快，根据自己的使用习惯和不同的应用场景来选择解析方式吧。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://xiahunao.cn/news/1618654.html

如若内容造成侵权/违法违规/事实不符，请联系瞎胡闹网进行投诉反馈，一经查实，立即删除！

XPath和bs4

XPath

bs4

总结：

相关文章

Python爬虫 BeautifulSoup（bs4）-- bs4介绍、安装bs4、bs4基础语法

Python爬虫之数据解析之bs4

【数据结构】手撕顺序表

java bs项目_BS（Java平台）

BS架构和CS架构的优缺点

HAproxy+keepalived高可用配置搭建

oracle orcl不存在,oracle服务丢失的处理方法之OracleServiceORCL不存在示例

如何打开计算机的Oracle服务,win10系统手动启动oracle服务的操作方法

在现有oracle服务器上新建一个oracle实例

linux下Oracle服务的启动和关闭

AI绘图（11）stable diffusion 如何写好prompt 四

几个nlp的小任务(生成式任务——语言模型(CLM与MLM))

MERN Stack 教程

取消开机自检

拯救者Y7000 2020新版Bios关闭开机自检

服务器系统自检时间长,我的服务器开机自检提示：waiting for controller to start...是什么意思，而且要等1-5分钟的时间问题是？...

服务器跳过系统自检,win7 64位旗舰版跳过开机自检功能直接进入系统的方法

计算机主板上电顺序,BIOS很熟悉，电脑开机BIOS开机自检顺序你知道吗？

xp计算机启动检测硬盘,取消WinXP开机自检技巧五则

华为服务器自检信息怎么开,服务器开机自检内存