爬虫(bilibili热门课程记录)

什么是爬虫?程序蜘蛛,沿着互联网获取相关信息,收集目标信息。

一、python环境安装

1、先从Download Python | Python.org中下载最新版本的python解释器

2、再从Download PyCharm: Python IDE for Professional Developers by JetBrains中下载community版本的pycharm(免费且够用)

    pycharm安装中文插件(安装后重启pycharm即可)

3、如果向博主一样需要直接打开文件运行,可能需要添加一下解释器

 二 爬虫的流程

1、获取网页内容(浏览器会将内容渲染成更直观的页面,而程序获得的网页是一串代码)

http请求(python request实现)

2、解析网页内容(在全面的内容中把想要的数据提取出来)

html格式 (python Beautiful Soup库)

3、储存或分析数据 

注意事项

1、请求数量和频率不要太高(无异于DDoS攻击)

2、有反爬限制(例如验证码)就不要强行突破

 三、什么事HTTP请求和响应

HTTP(Hypertext Transfer Protocol超文本传输协议)

HTTP请求

GET方法:获得数据

POST方法:创建数据

七、什么是HTML网页结构

网页三大要素:

(1)HTML定义网页的结构和信息(爬虫最需要关心的)

(2)CSS  定义网页的样式 //网站背景 样式

(3)JavaScript 定义用户和网页的交互逻辑

<!DOCTYPE HTML>
<html><body><h1>这是一个标题</h1><p>这是一段文字这是一段文字这是一段文字<p></body>
<!html>

显示网页源代码

mac用户 先在safari高级选项中设置,然后在开发中打开

 七、HTML常见标签

7.1 标题 数字越小,字号越大

<h1> 这是一个一级标题 </h1>
<h2> 这是一个二级标题 </h2>
<h3> 这是一个三级标题 </h3>
<h4> 这是一个四级标题 </h4>
<h5> 这是一个五级标题 </h5>
<h6> 这是一个六级标题 </h6>

7.2 文本段落

<p>给岁月<br>以文明</p>
<p>而不是给文明以岁月</p>
<br>   //是强制换行
<b> </b> //加粗
<i> </i> //斜体
<u> </u> //下划线
<img src="链接" width=“500px”> //图片
<a href="https://...">我的主页</a> //超链接

7.3 容器

 

 7.4 有序列表ordered list/无序列表unordered list

<ol> //有序列表<li>语文</li><li>数学</li><li>英语</li>
</ol><ul> //无序列表<li>语文</li><li>数学</li><li>英语</li>
</ul>

7.5 表格行

7.6 class属性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/1620850.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

web开源FlowPlayer视频播放器

1.原文地址&#xff1a;http://www.cnblogs.com/babycool/p/3172303.html 2.针对原作者的代码示例修正&#xff01; <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> …

SSM+Flowplayer实现web项目网页看视频

功能描述&#xff1a; 用户在首页http://localhost:8080/SSM_HTTPS/&#xff0c;输入视频名&#xff0c;点击“走 你”按钮&#xff0c;跳转到视频页面&#xff0c;搜索符合你视频名的视频&#xff08;本项目中只有两个视频&#xff0c;test和test2&#xff0c;没有加任何控制…

基于oracle数据库存储过程的创建及调用

基于oracle数据库存储过程的创建及调用 教学大纲&#xff1a; PLSQL编程&#xff1a;Hello World、程序结构、变量、流程控制、游标.存储过程&#xff1a;概念、无参存储、有参存储&#xff08;输入、输出&#xff09;.JAVA调用存储存储过程. 1. PLSQL编程 1.1. 概念和目的…

2.神经网络的实现

创建神经网络类 import numpy # scipy.special包含S函数expit(x) import scipy.special # 打包模块 import pickle# 激活函数 def activation_func(x):return scipy.special.expit(x)# 用于创建、 训练和查询3层神经网络 class neuralNetwork:# 初始化神经网络def __init__(se…

7.11 SpringBoot实战 全局异常处理 - 深入细节详解

文章目录 前言一、异常分类1.1 业务异常1.2 参数校验异常1.3 通用异常兜底 二、保留异常现场2.1 请求地址2.2 请求header2.3 请求参数body2.4 构建异常上下文消息 最后 前言 全局异常处理, 你真的学会了吗&#xff1f; 学完上文&#xff0c;你有思考和动手实践吗&#xff1f;…

苹果开源iOS和macOS内核源代码 | 十一献礼

没想到&#xff0c;国庆节这天醒来一看&#xff0c;素以“封闭”闻名的苹果公司&#xff0c;竟然在GitHub上公布了旗舰操作系统的XNU内核源代码。 XNU代表的含义是“XNU is Not Unix”&#xff08;XNU不是Unix&#xff09;&#xff0c;这是一个类似Unix的内核&#xff0c;用在各…

KSZ9897 switch以及官方驱动KSZ9897

使用KSZ9897来替换QCA8337N&#xff0c; 其中官方有针对imx8mm的驱动移植的patch代码&#xff0c;注意&#xff1a;其中已KSZ9477为git名字进行命名的。 KSZ9897&#xff0c;KSZ9477驱动 https://github.com/Microchip-Ethernet/EVB-KSZ9477.git 注意下面的配置&#xff1a;…

nyoj463

九九乘法表 时间限制&#xff1a; 1000 ms | 内存限制&#xff1a; 65535 KB 难度&#xff1a; 1 描述 小时候学过的九九乘法表也许将会扎根于我们一生的记忆,现在让我们重温那些温暖的记忆,请编程输出九九乘法表. 现在要求你输出它的格式与平常的 不同啊! 是那种反过来的三角…

高性能霍尔开关CH442PN与AKM EW-632的分析对比

意瑞的高性能霍尔锁存芯片CH442PN广泛应用于电动工具&#xff0c;工业风机&#xff0c;流量计等场合。在缺芯潮下&#xff0c;针对AKM EW632的一些需求&#xff0c;CH442PN也为广大客户提供了更多选择。 以下是两者的对比分析。 相较于EW632&#xff0c;CH442PN可以支持更宽的…

nyoj 311 和995

这两个题其实是一个解法 完全背包 时间限制&#xff1a; 3000 ms | 内存限制&#xff1a; 65535 KB 难度&#xff1a; 4 描述 直接说题意&#xff0c;完全背包定义有N种物品和一个容量为V的背包&#xff0c;每种物品都有无限件可用。第i种物品的体积是c&#xff0c;价值是w。…

comp9334-proj2

对本文有疑问可以加微信 Tutor_0914联系。也可以访问我的个人辅导网站 &#xff1a; tutoryou 解析 原文 COMP9334 Project, Term 1, 2022: Priority queueing for server farms Due Date: 5:00pm Friday 22 April 2022 Version 1.01, 20 March 2022 Updates to the projec…

AWR2243

TDA2xx-AWRx243 TI毫米波板&#xff08;代完善更新和作者的继续研究&#xff09; 1、安装mmwave studio和驱动&#xff08;链接&#xff1a; https://download.csdn.net/download/weixin_42501561/19775644 &#xff09; 2、设置网络端口IP地址&#xff08;如果不能更改路由器I…

Window基础命令

文章目录 查看哪些端口被禁用TCP协议删除开机启动项方案1方案2 查看哪些端口被禁用TCP协议 netsh interface ipv4 show excludedportrange protocoltcp删除开机启动项 方案1 列出所有启动项 bcdedit /enum仔细看你要删除的是哪一项&#xff08;看description&#xff09;&a…

Git企业开发控制理论和实操-从入门到深入(六)|多人协作开发

前言 那么这里博主先安利一些干货满满的专栏了&#xff01; 首先是博主的高质量博客的汇总&#xff0c;这个专栏里面的博客&#xff0c;都是博主最最用心写的一部分&#xff0c;干货满满&#xff0c;希望对大家有帮助。 高质量博客汇总 然后就是博主最近最花时间的一个专栏…

SpringBoot在IDEA里实现热部署

使用步骤 1.引入依赖 <!--devtools热部署--> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-devtools</artifactId><optional>true</optional><scope>true</scope><versi…

Django基础6——数据模型关系

文章目录 一、基本了解二、一对一关系三、一对多关系3.1 增删改查3.2 案例&#xff1a;应用详情页3.2 案例&#xff1a;新建应用页 四、多对多关系4.1 增删改查4.2 案例&#xff1a;应用详情页4.3 案例&#xff1a;部署应用页 一、基本了解 常见数据模型关系&#xff1a; 一对一…

算法通过村第四关-栈青铜笔记|手写栈操作

文章目录 前言1. 栈的基础概要1.1 栈的特征1.2 栈的操作1.3 Java中的栈 2. 栈的实现&#xff08;手写栈&#xff09;2.1 基于数组实现2.2 基于链表实现2.3 基于LinkedList实现 总结 前言 提示&#xff1a;我自己一个人的感觉很好 我并不想要拥有你 除非你比我的独处更加宜人 --…

安利超实用的(cc协议)游戏3d模型素材网站

前方干货满满&#xff0c;建议先收藏再看哦&#xff01;为大家整理&#xff08;cc协议&#xff09;游戏3d模型素材&#xff0c;总有满足你需求的一款&#xff0c;除此之外&#xff0c;免费&#xff0c;资源质量好&#xff0c;一键打包下载&#xff0c;你还不心动吗&#xff1f;…

基于VHDL语言的汽车测速系统设计_kaic

摘 要 汽车是现代交通工具。车速是一项至关重要的指标。既影响着汽车运输的生产率,又关乎着汽车行驶有没有超速违章&#xff0c;还影响着汽车行驶时人们的人身安全。而伴随着我国国民的安全防范意识的逐步增强&#xff0c;人们也开始越来越关心因为汽车的超速而带来的极其严重…

在Adobe illustrator中创建线呼吸描记器

Spirographs look complex, but most of them aren’t that hard to create. As promised, here is a follow-up tutorial on how to create a spirograph, only this time it’s a different kind of spirograph than the one we’ve created before. We’ll create a line sp…