python 爬取人民新闻

基础信息获取:

要闻url:https://www.gov.cn/yaowen/liebiao/home.htm

下一页的url:https://www.gov.cn/yaowen/liebiao/home_1.htm

基础代码:

import re
import openpyxl
import requests
from lxml import etree
import osdef download_xinwen():basic_url = 'https://www.gov.cn/yaowen/liebiao/home.htm'for num in range(1, 5):print(f"Downloading:第{num}页")new_url = 'https://www.gov.cn/yaowen/liebiao/home_{}.htm'.format(num)headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'}response = requests.get(new_url, headers=headers)response.encoding = 'utf8'# print(response.text)html = etree.HTML(response.text)xinwen_info = html.xpath('//div//li//h4/a/text()')xinwen_lianjie = html.xpath('//h4/a/@href')for describe, download_url in zip(xinwen_info, xinwen_lianjie):print("新闻标题:", describe, "|", "新闻链接:", download_url)# if "https" not in download_url:#     original_str = download_url#     new_str = original_str.replace("./", "")#     download_url ="https://www.gov.cn/yaowen/liebiao/" + new_str#     # print(download_url)# print("新闻标题:", describe, "|", "新闻链接:", download_url)# new_xinwen_url = download_url.split('.')[-1]# print(new_xinwen_url)download_xinwen()

返回:

 可以看到有的url链接爬取下来之后不是全路径,针对这个问题加上如下代码:

在for循环内加上判断,如果https不在url列表里,说明这个url不是全路径,将./全部替换成空字符,再拼接下基础url,这样遍有了url全路径

             if "https" not in download_url:original_str = download_urlnew_str = original_str.replace("./", "")download_url ="https://www.gov.cn/yaowen/liebiao/" + new_strprint("新闻标题:", describe, "|", "新闻链接:", download_url)

再次运行调试:

url连接都是全路径了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2869933.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【运维】StarRocks数据迁移到新集群(针对于集群互通、不互通的情况)

文章目录 一. 迁移整体思路1. 对于新旧集群互通的情况2. 对于新旧集群不互通的情况 二、迁移过程(两个集群互通的情况)1. 备份过程1.1. 通过mysqlclient与starrocks进行关联1.2. 创建仓库与minio建立联系1.3. 备份数据到minio 2. 迁移过程2.1. 通过mysql…

win10 + cpu + pycharm + mindspore

MindSpore是华为公司自研的最佳匹配昇腾AI处理器算力的全场景深度学习框架。 1、打开官网: MindSpore官网 2、选择以下选项: 3、创建conda 环境,这里python 选择3.9.0,也可以选择其他版本: conda create -c conda-…

计算机设计大赛 题目:基于机器视觉opencv的手势检测 手势识别 算法 - 深度学习 卷积神经网络 opencv python

文章目录 1 简介2 传统机器视觉的手势检测2.1 轮廓检测法2.2 算法结果2.3 整体代码实现2.3.1 算法流程 3 深度学习方法做手势识别3.1 经典的卷积神经网络3.2 YOLO系列3.3 SSD3.4 实现步骤3.4.1 数据集3.4.2 图像预处理3.4.3 构建卷积神经网络结构3.4.4 实验训练过程及结果 3.5 …

SQLiteC/C++接口详细介绍之sqlite3类(十八)

返回目录:SQLite—免费开源数据库系列文章目录 上一篇:SQLiteC/C接口详细介绍之sqlite3类(十七) ​ 56.sqlite3_update_hook 函数功能:向应用程序通知每一个 INSERT、UPDATE 或 DELETE 语句。 当INSERT、UPDATE或D…

HarmonyOS(二十)——管理应用拥有的状态之LocalStorage(页面级UI状态存储)

LocalStorage是页面级的UI状态存储,通过Entry装饰器接收的参数可以在页面内共享同一个LocalStorage实例。LocalStorage也可以在UIAbility实例内,在页面间共享状态。 本文仅介绍LocalStorage使用场景和相关的装饰器:LocalStorageProp和LocalS…

【模电技术从入门到精通到放弃】半导体基础知识

目录 🤩🤩🤩前言 Hello,大家好。我是CSDN厉昱辰。很高兴能够跟大家再次探索模电知识,那就让我们在接下来的日子里,一起去分享模电的相关知识,共同去讨论关于模电的相关问题! &#…

第七篇【传奇开心果系列】Python自动化办公库技术点案例示例:深度解读数据分析数据挖掘的几个重要算法为代表的核心技术

传奇开心果博文系列 系列博文目录Python自动化办公库技术点案例示例系列 博文目录前言一、重要算法介绍二、回归分析示例代码三、聚类分析示例代码四、决策树示例代码五、关联规则挖掘示例代码六、神经网络示例代码七、支持向量机示例代码八、聚类分析示例代码九、主成分分析示…

React低代码平台实战:构建高效、灵活的应用新范式

文章目录 每日一句正能量前言一、React与低代码平台的结合优势二、基于React的低代码平台开发挑战三、基于React的低代码平台开发实践后记好书推荐编辑推荐内容简介作者简介目录前言为什么要写这本书 读者对象如何阅读本书 赠书活动 每日一句正能量 人生之美,不在争…

【机器学习】分类模型的评价方法

🌻个人主页:相洋同学 🥇学习在于行动、总结和坚持,共勉! #学习笔记# 目录 一、混淆矩阵(Confusion Matrix) 二、评估指标(Evaluation metrics) 1.正确率(accuracy) …

Type-C接口CC连接过程

1、CC线连接过程 DFP和UFP会实时监控CC1和CC2引脚的电压,来评估DFP和UFP是否都已经在位。同时DFP可以根据电压确定自己所能提供的电流的大小 2、连接过程 Source端使用一个MOS管去控制Vbus,初始状态下,FET为关闭状态,Vbus不通。S…

在Windows上编译QGC 4.3.0

软件版本: QGC4.3.0QT6.6.1VSvs2019 1. 下载和安装 QT 官网安装包下载地址 qt-unified-windows-x64-4.6.1-online.exehttps://download.qt.io/official_releases/online_installers/命令行中运行: .\qt-unified-windows-x64-4.6.1-online.exe --mirro…

NeRF学习——NeRF-Pytorch的源码解读

学习 github 上 NeRF 的 pytorch 实现项目(https://github.com/yenchenlin/nerf-pytorch)的一些笔记 1 参数 部分参数配置: 训练参数: netdepth:神经网络的层数。默认值为8 netwidth:每层的通道数。默认…

代码随想录算法训练营三刷day25 | 回溯 之 216.组合总和III 17.电话号码的字母组合

三刷day25 216.组合总和III剪枝 17.电话号码的字母组合 216.组合总和III 题目链接 解题思路: 选取过程如图: 图中,可以看出,只有最后取到集合(1,3)和为4 符合条件。 递归三部曲 确定递归函数参…

如何通过人才测评系统来寻找个人的潜能

潜力这个词,有的时候真是虚无缥缈,人们总说人的潜力是无限,又总说人的潜力是有限的,想一想两句话也都有道理,人的潜能怎么可能无限大?但在某些时候,你也许可以做的更好,但是对于这个…

【Java基础】IO流(三):字符流的FileReader(文件字符输入流)和 FileWriter(文件字节输出流)

目录 字符流 1、FileReader(字符输入流) 1.1、无参的read( )方法示例 ​编辑 1.2、有参的read(char[ ] buffer)方法示例 2、FileWriter(字符输出流) 字符流 字符流的底层其实就是字节流,即字符流 字节流 字符集…

sqllab第二十六关通关笔记

知识点: 空格替换 %09 %0a %0b %0c %0d %a0 (%2b)or替换:|| ||是不需要空格区分的and替换:&& &&同样不需要空格区分的双写绕过,但是绕过后需要和内容进行空格区分的,要不然不发挥作用;这关…

unity学习(61)——hierarchy和scene的全新认识+模型+皮肤+动画controller

刚刚开始,但又结束的感觉? 1.对hierarchy和scene中的内容有了全新的认识 一定要清楚自己写过几个scene;每个scene之间如何跳转;build setting是add当前的scene。 2.此时的相机需要与模型同级,不能在把模型放在相机下…

最细节操作 Linux LVM 逻辑卷管理

Linux LVM(逻辑卷管理) 周末愉快,今天带大家实战一下LVM! 一、LVM理论 LVM,即Logical Volume Manager,逻辑卷管理器,是一种硬盘的虚拟化技术,可以允许用户的硬盘资源进行灵活的调整和动态管理…

数学建模博弈理论与实践国防科大版

目录 4.博弈模型 4.1.Nash平衡点和帕雷托最优 4.2.囚徒困境 4.3.智猪博弈 4.4.脏脸之谜 5.军事问题数学建模 5.1.兰彻斯特作战模型 5.1.1.一般战斗模型 5.1.2游击战模型 5.1.3.混合战模型 5.2.硫磺岛战役 4.博弈模型 本讲介绍博弈模型,包括博弈论&#x…

C/C++整数和浮点数在内存中存储

1. 整数在内存中的存储: 整数的2进制表⽰⽅法有三种,即 原码、反码和补码 三种表⽰⽅法均有符号位和数值位两部分,符号位都是⽤0表⽰“正”,⽤1表⽰“负”,⽽数值位最 ⾼位的⼀位是被当做符号位,剩余的都是…