python利用lxml模块爬取百度贴吧标题列表—新手练习的项目

一、爬取需求

就是用python,获取某百度贴吧的标题

二、代码

import lxml.html
import requests
ydm = requests.get('https://tieba.baidu.com/f?ie=utf-8&kw=%E5%BC%A0%E5%A7%93%E4%B9%8B%E5%AE%B6').content.decode()
selector = lxml.html.fromstring(ydm)
info = selector.xpath('//div[@class="threadlist_title pull_left j_th_tit "]/a/text()')
for infoo in info:print(infoo)

三、代码说明

import lxml.html
import requests
前两行的代码是导入模块,这两个第三方库,都是需要安装的,python并不是自带的,安装方法自行百度。ydm = requests.get('https://tieba.baidu.com/f?ie=utf-8&kw=%E5%BC%A0%E5%A7%93%E4%B9%8B%E5%AE%B6').content.decode()
这一行代码是获取某贴吧的源代码赋值给ydm
selector = lxml.html.fromstring(ydm)
这一行是利用lxml库里的html.fromstring
info = selector.xpath('//div[@class="threadlist_title pull_left j_th_tit "]/a/text()')
这一行是把获取到的列表赋值info,其中.xpath也是lmxl库里的一个功能,后面的那串代码
是需要到网页上去点开源代码查看的
for infoo in info:print(infoo)

打印贴吧目录列表

四、优化

其实百度贴吧每页的代码是一样的,所以我们是否可以用input函数让大家自己输入网址,然后就可以获得该贴吧第一页所有标题列表,尝试代码如下

import lxml.html
import requestsurl = input('请输入百度贴吧的网址')
ydm = requests.get(url).content.decode()
selector = lxml.html.fromstring(ydm)
info = selector.xpath('//div[@class="threadlist_title pull_left j_th_tit "]/a/text()')
for infoo in info:print(infoo)

测试贴吧,郑智化吧 地址https://tieba.baidu.com/f?ie=utf-8&kw=%E9%83%91%E6%99%BA%E5%8C%96

输出结果

请输入百度贴吧的网址https://tieba.baidu.com/f?ie=utf-8&kw=%E9%83%91%E6%99%BA%E5%8C%96
无标题贴
【郑式影响】传奇
【郑式影响】一首MV
【郑式影响】大国民的MV和高音质音频文件链接,请自行下载。
【郑式影响】想得到郑智化所有歌曲
【郑式影响】最近化哥的《游戏人间》又火了一把
【郑式影响】关于2016年的一张照片
【郑式影响】吧内的等级都是有什么名称,有没有朋友知道?
【郑式影响】有关于堕落天使的一点事
【郑式影响】我改编了化哥的《让我拥抱你入梦》大家看看我文笔怎么样
英雄之歌歌词赏析
【郑式影响】想问一下各位年龄
【郑式影响】大家伙看到化哥的最新微博了嘛?
【郑式影响】【随笔】有棱有角没有圆
化歌海报剪辑
张显道你是寂寞难耐呀
【郑式影响】无题
【郑式影响】张显道,这里只想对你说一个字
【郑式影响】退吧不退心,再来一贴
郑智化历年音乐创作不完全统计
【化哥原版MV】大国民
【郑式影响】新专辑有消息吗进程已结束,退出代码为 0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3268615.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【Golang 面试基础题】每日 5 题(十)

✍个人博客:Pandaconda-CSDN博客 📣专栏地址:http://t.csdnimg.cn/UWz06 📚专栏简介:在这个专栏中,我将会分享 Golang 面试中常见的面试题给大家~ ❤️如果有收获的话,欢迎点赞👍收藏…

跨境电商独立站:Shopify/Wordpress/店匠选哪个?

在面对不断增加的平台运营压力时,不少跨境电商的商家逐渐将注意力转向建立自己的独立站。据《中国跨境出口电商发展报告(2022)》所示,中国拥有的独立站数量在2022年已接近20万个,这表明独立站已成为卖家拓展海外市场的…

Vue3分段控制器(Segmented)

效果如下图:在线预览 APIs Segmented 参数说明类型默认值必传block是否将宽度调整为父元素宽度,同时所有选项占据相同的宽度booleanfalsefalsedisabled是否禁用booleanfalsefalseoptions选项数据string[] | number[] | SegmentedOption[][]falsesize控…

LoRA:低秩自适应

LoRA:低秩自适应 本章节是对轻松上手微调大语言模型——QLORA篇中提到的LoRA的原理解释。 背后动机 现今模型的参数量变得越来越大,对预训练模型进行全微调变得越来越不可行。为了解决这个问题有了LoRA(Low-Rank Adaption)的诞生。将可训练…

ATF-541M4全解析(一)

目录 一、描述二、规格三、各参数最大值四、25℃下的典型值 一、描述 安华高科技 (Avago Technologies) 的 ATF-541M4 是一款高线性度、低噪声、单电源供电的E-PHEMT,封装在一个微型无引脚封装中。 ATF-541M4 的小尺寸和低外形使其非常适合用于混合模块和其他空间…

C++多态的底层原理

目录 1.虚函数表 (1)虚函数表指针 (2)虚函数表 2.虚函数表的继承--重写(覆盖)的原理 3.观察虚表的方法 (1)内存观察 (2)打印虚表 虚表的地址 函数 传参…

SpringBoot添加密码安全配置以及Jwt配置

Maven仓库(依赖查找) 1、SpringBoot安全访问配置 首先添加依赖 spring-boot-starter-security 然后之后每次启动项目之后,访问任何的请求都会要求输入密码才能请求。(如下) 在没有配置的情况下,默认用户…

【python】python基于 Q-learning 算法的迷宫游戏(源码+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

ctfshow-web入门-php特性(web137-web141)

目录 1、web137 2、web138 3、web139 4、web140 5、web141 1、web137 直接调用 ctfshow 这个类下的 getFlag 函数,payload: ctfshowctfshow::getFlag 查看源码: 拿到 flag:ctfshow{dd387d95-6fbe-4703-8ec5-9c8f9baf2bb5} 在…

【Linux】远程连接Linux虚拟机(MobaXterm)

【Linux】远程连接Linux虚拟机(MobaXterm) 零、原因 有时候我们在虚拟机中操作Linux不太方便,比如不能复制粘贴,不能传文件等等,我们在主机上使用远程连接软件远程连接Linux虚拟机后可以解决上面的问题。 壹、软件下…

MySQL_JDBC

目录 一、JDBC常用的接口和类 1.1 数据库连接 Connection 1.2 Statement 对象 二、JDBC的使用 总结 【Java 的数据库编程】 JDBC 即 Java Database Connectivity (Java数据库连接),是一种用于执行 SQL 语句的 Java API。这个 API 由 java.sql.*,javax.sql.* …

软件测试:Postman 工具的使用。开发及测试均需要掌握的测试工具

工具介绍 各个模块功能的介绍如下: 1、New:在这里创建新的请求、集合或环境;还可以创建更高级的文档、Mock Server 和 Monitor以及API。 2、Import:这用于导入集合或环境。有一些选项,例如从文件,文件夹导…

Linux环境下(DeepinV20+)使用docker安装和使用mysql、redis、minio等各类中间件(后续用到其他中间件会继续更新)

docker安装:https://blog.csdn.net/HXBest/article/details/140702265 本人环境放置路径为:/env/中间件名称/,实际改为你自己的!!! 一、mysql安装和使用 docker run -itd --name mysql -p 3306:3306 \ -d …

用 apifox cli 命令行运行本地接口出现TypeError:Invalid IP address: undefined

用 apifox cli 命令行运行本地接口出现TypeError:Invalid IP address: undefined,客户端运行是通过的但命令行运行会报错 修改端口也是一样报错,地址修改为127.0.0.1会报错connect ECONNREFUSED 127.0.0.1:8080 解决方法:不用localhost&…

PHP家政系统自营+多商户独立端口系统源码小程序

家政行业的新篇章 引言:家政行业的数字化转型 近年来,随着科技的飞速发展和人们生活节奏的加快,家政服务行业也迎来了数字化转型的浪潮。为了提升服务效率、优化用户体验,越来越多的家政公司开始探索“家政系统自营多商户小程序…

Ubuntu24.04安装

1. 系统安装 1.1 引导界面 开机进入grub引导界面后,会有安装服务和测试内存两个选择,选择第一个进行安装。 1.2 语言选择 这里的语言选择的是安装过程中的语言,根据个人偏好选择即可,不过没有中文,所以默认使用英文…

【C++】选择结构- 嵌套if语句

嵌套if语句的语法格式&#xff1a; if(条件1) { if(条件1满足后判断是否满足此条件) {条件2满足后执行的操作} else {条件2不满足执行的操作} } 下面是一个实例 #include<iostream> using namespace std;int main4() {/*提示用户输入一个高考分数&#xff0c;根据分…

计算机实验室排课查询小程序的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;学生管理&#xff0c;教师管理&#xff0c;实验室信息管理&#xff0c;实验室预约管理&#xff0c;取消预约管理&#xff0c;实验课程管理&#xff0c;实验报告管理&#xff0c;报修信息管理&#xff0…

qt总结--翻金币案例

完成了一个小项目的在qt5.15.2环境下的运行,并使用NSIS editNSIS打包完成.有待改进之处:增加计时功能,随机且能通关功能,过关后选择下一关功能.打包后仅仅有安装包有图标 安装后应用图标并未改变 在qt .pro中有待改进对qt的基本操作和帮助文档有了基本的认识.对C制作小游戏有了…

在jeesite开源平台上写了一个SQL命令中心的功能

实现目的: 这个SQL命令中心,是因为老项目就有这个页面,主要的功能是根据写出的SQL语句查询数据,并且在查出的数据基础上直接修改更新,还有新增和删除的功能,这么一说跟plsql就一样一样的了;这页面本来是给运维的同事来用,而且他们还会用plsql和Navicat等SQL语言操作工…