Python爬虫【1】 —— 爬虫基础

爬虫基本套路

基本流程
- 目标数据
- 来源地址
- 结构分析
  - 具体数据在哪（网站还是APP）
  - 如何展示的数据、
- 实现构思
- 操刀编码
基本手段
- 破解请求限制
  - 请求头设置，如：useragent为有效客户端
  - 控制请求频率（根据实际情境）
  - IP代理
  - 签名/加密参数从html/cookie/js分析
- 破解登录授权
  - 请求带上用户cookie信息
- 破解验证码
  - 简单的验证码可以使用识图读验证码第三方库
解析数据
- HTML Dom 解析
  - 正则匹配，通过正则表达式来匹配想要爬取的数据，如：有些数据不是在 html 标签里，而是在 html 的 script 标签的 js 变量中
  - 使用第三方库解析 html dom ，比较比较喜欢类 jQuery 的库
- 数据字符串
  - 正则匹配（根据情景使用）
  - 转JSON/XML 对象进行解析

第一个爬虫程序

怎样扒网页呢？
其实就是根据 URL 来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释踩呈现出来的，实质它是一段 HTML 代码，加 js、CS ，如果把网页比作一个人，那么HTML 便是他的骨架，JS 便是他的肌肉，CSS 便是他的衣服，所以最重要的部分是存在于HTML 中的，下面写个例子：

# urllib
from urllib.request import urlopenurl = 'http://www.baidu.com/'
# 发送请求，并将结果返回给resp
resp = urlopen(url)
print(resp.read().decode())

常见的方法

request.urlopen(url,data,timeout)
- 第一个参数url 即为URL ，第二个参数 data 是访问 URL 时要传送的数据，第三个timeout 是设置超时时间。
- 第二三个参数是可以不传送的，data 默认为空 None，timeout 默认为 socket._GLOBAL_DEFAULT_TIMEOUT
- 第一个参数URL 是必须要传送的，在这个例子里面我们传送了百度的URL，执行 urlopen方法之后，返回一个 response对象，返回信息便保存在这里面。
response.read()
- read() 方法就是读取文件里面的全部内容，返回 bytes 类型
response.getcode()
- 返回 HTTP 的响应码，成功返回 200
response.geturl()
- 返回世界数据的实际URL ，防止重定向问题
response.info()
- 返回服务器响应的HTTP报头

请求响应对象的使用

# urllib
from urllib.request import urlopenurl = 'http://www.baidu.com/'
# 发送请求，并将结果返回给resp
resp = urlopen(url)
# 读取数据
print(resp.read().decode())
# 为了判断是否要处理请求的结果
print(resp.getcode())
# 为了记录访问记录，避免2次访问，导致出现重复数据
print(resp.geturl())
# 响应头的信息，取到里面有用的数据
print(resp.info())

Request 对象与动态UA的使用

其实上面的 urlopen 参数可以传人一个 request 请求，它其实就是一个 Request 类的实例，构造时需要传入 Url，Data 等等的内容。比如上面的两行代码，我们可以这么改写
推荐大家这样写：
在这里插入图片描述

from urllib.request import urlopen
from urllib.request import Request
# 引入动态UA pip install Fake-userAgent
from fake_useragent import UserAgent
ua = UserAgent()url = 'http://www.baidu.com'
headers = {# 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36''User-Agent': ua.chrome
}
request = Request(url, headers=headers)
response = urlopen(request)
print(response.getcode())

Get 请求的使用

大部分被传输到浏览器的 html，images，js,css,…都是通过GET方法发出请求的，它是获取数据的主要方法
Get 请求的参数都是在url 中体现的，如果有中文，需要转码，这时我们可使用

urllib.parse.quote()

from urllib.request import urlopen,Request
from fake_useragent import UserAgent
from urllib.parse import quoteargs = input('请输入要搜索的内容：')
ua = UserAgent()
url = f'https://www.baidu.com/s?wd={quote(args)}'
headers = {'User-Agent': ua.chrome
}
req = Request(url, headers=headers)
resp = urlopen(req)
print(resp.read().decode())

urllib.parse.urlencode()

from urllib.request import urlopen,Request
from fake_useragent import UserAgent
# from urllib.parse import quote
from urllib.parse import urlencodeargs = input('请输入要搜索的内容：')
prams = {'wd': args
}print(urlencode(prams))
ua = UserAgent()
url = f'https://www.baidu.com/s?{urlencode(prams)}&rsv_spt=1&rsv_iqid=0xb71d5f9700144b33&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_dl=tb&rsv_sug3=8&rsv_sug1=2&rsv_sug7=100&rsv_sug2=0&rsv_btype=i&prefixsug=%25E5%25A4%25A9%25E6%25B0%2594&rsp=5&inputT=1411&rsv_sug4=2294'
headers = {'User-Agent': ua.chrome
}
req = Request(url, headers=headers)
resp = urlopen(req)
print(resp.read().decode())

58同城车辆练习

from urllib.request import Request,urlopen
from fake_useragent import UserAgent
from urllib.parse import quote
from time import sleepargs = input('请输入品牌：')
for page in range(1, 4):url = f'https://qd.58.com/sou/pn{page}/?key={quote(args)}'sleep(1)print(url)headers = {'User-Agent': UserAgent().chrome}req = Request(url, headers=headers)resp = urlopen(req)# print(resp.read().decode())print(resp.getcode())

Post请求的使用

Request请求对象的里面有data参数，它就是用在POST里的，我们要传送的数据就这这个参数data，data是一个字典，里面要匹配键值对。

发送请求/响应headers头的含义：

在这里插入图片描述

from urllib.request import Request,urlopen
from fake_useragent import UserAgent
from urllib.parse import urlencodeurl = 'https://zs.kaipuyun.cn/search5/search/s'
headers = {'User-Agent': UserAgent().chrome
}
args = {'searchWord': '人才','siteCode': 'N000026543','column': '%E5%85%A8%E9%83%A8','pageSize': 10
}
f_data = urlencode(args)
# 如果传送了 data参数，就会成为POST请求
req = Request(url, headers=headers, data=f_data.encode())
resp = urlopen(req)
print(resp.read().decode())

响应的编码

在这里插入图片描述

动态页面的数据获取

from urllib.request import Request,urlopen
from fake_useragent import UserAgenturl = 'https://m.hupu.com/api/v2/search2?keyword=%E8%94%A1%E4%BA%AE&puid=0&type=posts&topicId=0&page=2'
headers = {'User-Agent': UserAgent().chrome
}
req = Request(url, headers=headers)
resp = urlopen(req)
print(resp.read().decode())
'''
静态访问地址栏里的数据就可以获取到想要的数据
动态访问地址栏里的数据获取不到想要的数据解决方案：抓包打开浏览器的开发者工具- network-xhr,找到可以获取到数据的url访问即可
'''

请求SSL证书验证

如果网站的SSL证书是经过CA认证的，则能够正常访问，如：https://www.baidu.com/等…

如果SSL证书验证不通过，或者操作系统不信任服务器的安全证书，比如浏览器在访问12306网站

先看没有忽略SSL证书验证的错误的

import urllib.request
import ssl#处理HTTPS请求 SSL证书验证 ``忽略认证 比如12306 网站
url = "https://www.12306.cn/mormhweb/"
headers = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"}request = urllib.request.Request(url, headers=headers)
res = urllib.request.urlopen(request)
# 会报错
# ssl.CertificateError: hostname 'www.12306.cn' doesn't match either of 'webssl.

import urllib.request
# 1. 导入Python SSL处理模块
import sslurllib2 = urllib.request
# 2. 表示忽略未经核实的SSL证书认证
context = ssl._create_unverified_context()
url = "https://www.12306.cn/mormhweb/"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
request = urllib2.Request(url, headers = headers)
# 3. 在urlopen()方法里 指明添加 context 参数
response = urllib2.urlopen(request, context = context)
print(response.read().decode())
# 部分服务器会拦截网络爬虫，公司局域网也会，用手机开个热点就可以了

简洁快速的方法：

from urllib.request import urlopen
import sslurl = "https://www.12306.cn/mormhweb/"
ssl._create_default_context = ssl._create_unverified_context
resp = urlopen(url)
print(resp.read().decode('utf-8')

opener的使用

from urllib.request import Request,build_opener
from fake_useragent import UserAgent
from urllib.request import HTTPHandlerurl = 'http://httpbin.org/get'
headers = {'User-Agent': UserAgent().chrome}
req = Request(url, headers=headers)handler = HTTPHandler(debuglevel=1)
opener = build_opener(handler)
resp = opener.open(req)
print(resp.read().decode())

代理的使用

from urllib.request import Request,build_opener
from fake_useragent import UserAgent
from urllib.request import ProxyHandlerurl = 'http://httpbin.org/get'
headers = {'User-Agent': UserAgent().chrome}
req = Request(url, headers=headers)# 创建一个可以使用的控制器
# handler = ProxyHandler({'type':'ip'})
handler = ProxyHandler({'http': '123.171.42.171:8888'})
# 传递到opener
opener = build_opener(handler)
resp = opener.open(req)
print(resp.read().decode())

Cookie的使用

为什么要使用Cookie呢？
Cookie，指某些网站为了辨别用户身份，进行 session 跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登陆之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。

from urllib.request import Request,build_opener
from fake_useragent import UserAgent
from urllib.parse import urlencode
from urllib.request import HTTPCookieProcessorlogin_url = 'https://www.kuaidaili.com/login/'
args = {'username': 'zs','passwd': '123456'
}
headers = {'User-Agent': UserAgent().chrome
}
req = Request(login_url, headers=headers, data=urlencode(args).encode())
# 创建一个可以保存Cookie的控制对象
handler = HTTPCookieProcessor()
# 构造发送请求的对象
opener = build_opener(handler)
# 登录
resp = opener.open(req)
print(resp.read().decode())

Cookie 的文件保存与使用

from urllib.request import Request,build_opener
from fake_useragent import UserAgent
from urllib.parse import urlencode
from urllib.request import HTTPCookieProcessor
from http.cookiejar import MozillaCookieJar# 保存Cookie
def get_cookie():url = 'https://www.kuaidaili.com/login/'args = {'username': 'zs','passwd': '123456'}headers = {'User-Agent': UserAgent().chrome}req = Request(url, headers=headers, data=urlencode(args).encode())cookie_jar = MozillaCookieJar()# 创建一个可以保存Cookie的控制对象handler = HTTPCookieProcessor(cookie_jar)# 构造发送请求的对象opener = build_opener(handler)resp = opener.open(req)# print(resp.read().decode())cookie_jar.save('cookie.txt', ignore_discard=True,ignore_expires=True)# 读取Cookie
def use_cookie():url = 'https://www.kuaidaili.com/usercenter'headers = {'User-Agent': UserAgent().chrome}req = Request(url, headers=headers)cookie_jar = MozillaCookieJar()cookie_jar.load('cookie.txt', ignore_discard=True,ignore_expires=True)handler = HTTPCookieProcessor(cookie_jar)opener = build_opener(handler)resp = opener.open(req)print(resp.read().decode())if __name__=='__main__':# get_cookie()use_cookie()

urlerror的使用

首先解释下 URLError可能产生的原因：

网络无连接，即本机无法上网
连接不到特定的服务器
服务器不存在

from urllib.request import Request, urlopen
from fake_useragent import UserAgent
from urllib.error import URLErrorurl = 'https://www.baidu.com/srgdgf/e465/'
headers = {'User-Agent': UserAgent().chrome
}
req = Request(url, headers=headers)
try:resp = urlopen(req)print(resp.read().decode())
except URLError as e:print(e)if e.args:print(e.args[0].errno)
print('爬取完成')

requests的使用

pip安装

pip install requests

基本使用

req = requests.get('http://www.baidu.com')
req = requests.post('http://www.baidu.com')
req = requests.put('http://www.baidu.com')
req = requests.delete('http://www.baidu.com')
req = requests.head('http://www.baidu.com')
req = requests.option('http://www.baidu.com')

get 请求

import requestsdef no_args():url = 'http://www.baidu.com/'resp = requests.get(url)print(resp.text)def use_args():url = 'http://www.baidu.com/'args = {'wd': '熊猫'}resp = requests.get(url, params=args)print(resp.text)if __name__ == '__main__':use_args()

post 请求

import requestsurl = 'https://www.21wecan.com/rcwjs/searchlist.jsp'
args = {'searchword': '人才'
}
resp = requests.post(url, data=args)
print(resp.text)

代理的使用

import requests
from fake_useragent import UserAgenturl = 'http://httpbin.org/get'
headers = {'User-Agent': UserAgent().chrome}
'''
免费代理
"type":"type://ip:port"
私有代理
"type":"type://username:password@ip:port"
'''
proxy = {'http': 'http://110.18.152.229:9999'
}
resp = requests.get(url,headers=headers,proxies=proxy)
print(resp.text)

cookie的使用

import requests
from fake_useragent import UserAgent
from urllib.request import HTTPCookieProcessorlogin_url = 'https://www.kuaidaili.com/login/'
args = {'username': 'zs','passwd': '123456'
}
headers = {'User-Agent': UserAgent().chrome
}
session = requests.Session()
resp = session.post(login_url,data=args,headers=headers)
print(resp.text)

获取响应信息
在这里插入图片描述

正则表达式规则

re 的使用

import re
str = 'I study python every_day'
# 从头开始匹配，如果有的匹配不上就不会返回数据
print('---------match(规则，从哪个字符串匹配）--------------')
m1 = re.match(r'I', str)
m2 = re.match(r'\w', str)
m3 = re.match(r'\s', str)
m4 = re.match(r'\D', str)
m5 = re.match(r'I (study)', str)
print(m1.group(1))

re 提取腾讯新闻数据

import requests
from fake_useragent import UserAgent
import reurl = 'https://sports.qq.com/'
headers = {'User-Agent': UserAgent().chrome
}
resp = requests.get(url, headers=headers)
# print(resp.text)
regx = f'<li><a target="_blank" href=".+?" class=".*?">(.+?)</a></li>'
datas = re.findall(regx, resp.text)
for d in datas:print(d)

bs4 （BeautifulSoup）的使用

bs4中文文档

安装

pip install bs4
pip install lxml

使用
在这里插入图片描述

from bs4 import BeautifulSouphtml = 
'''
<!DOCTYPE html>
<html lang="en">
<head><meta charset="UTF-8"><title id="title">Title</title>
</head>
<body><div class="info" float="left"> 你好 </div><div class="info" float="right"><span>Good Good Study</span><a href="www.baidu.com"></a><strong><!--这是个注释--></strong></div>
</body>
</html>
'''
soup = BeautifulSoup(html, 'lxml')
print('--------获取标签------------') # 只会获取第一个标签
print(soup.title)
print(soup.div)
print(soup.span)
print('--------获取属性------------')
print(soup.div.attrs)
print(soup.div.get('class'))
print(soup.div['float'])
print(soup.a.get('href'))
print('--------获取内容------------')
print(soup.title.string)
print(soup.title.text)
print(type(soup.title.string))
print(type(soup.title.text))
print('--------获取注释------------')
print(type(soup.strong.string))
print(soup.strong.prettify())
print('--------find_all()------------')
print(soup.find_all('div'))
print(soup.find_all(id='title'))
print(soup.find_all(class_='info'))
print(soup.find_all(attrs={'float': 'right'}))
print(soup.find_all('div', attrs={'float': 'left'}))
print('--------css选择器------------') # 也是获取多个内容
print(soup.select('div'))
print(soup.select('#title'))
print(soup.select('.info'))
print(soup.select('div > span'))
print(soup.select('div.info > a'))

pyquery 的使用

安装

 pip install pyquery

import requests
from fake_useragent import UserAgent
from pyquery import PyQuery as pqurl = 'https://www.qidian.com/all/'
headers = {'User-Agent': UserAgent().chrome}
resp = requests.get(url, headers=headers)
# 构造Pyquery对象
doc = pq(resp.text)
all_a = doc('[data-eid="qd_B58"]')
print(all_a)for i in range(len(all_a)):print(all_a.eq(i).text())
print('-------------------------')
for a in all_a:print(a.text)

pyquery教程

xpath的使用

xpath教程

from fake_useragent import UserAgent
import requests
from lxml import etree
from time import sleepfor i in range(1, 6):print(f'-------正在获取第{i}页数据----------')url = f'https://www.zongheng.com/rank?details.html?=rt=1&d=1&p={i}'headers = {'User-Agent': UserAgent().chrome}resp = requests.get(url,headers=headers)# 构造etree对象e = etree.HTML(resp.text)names = e.xpath('//div[@class="book--hover-box"]/p/span/text()')for name in names:print(name)sleep(1)

jsonpath的使用

安装

pip install jsonpath

jsonpatn 与 xpath 语法对比：
在这里插入图片描述

import json
from jsonpath import jsonpath# 示例 JSON 数据
data = '''{"商店":{"书籍":[{"分类":"惊悚","作者":"R.L.斯坦","书名":"鸡皮疙瘩","价格":18.95},{"分类":"冒险","作者":"J.K.罗琳","书名":"哈利波特与火焰杯","书号":"ND-2131-34421","价格":52.99},{"分类":"科幻","作者":"刘慈欣","书名":"三体","价格":65.35},{"分类":"科幻","作者":"刘慈欣","书名":"流浪地球","价格":32.99}]}}
'''# 解析 JSON 数据
json_data = json.loads(data)# 进行 JSONPath 查询
titles = jsonpath(json_data, "$.商店.书籍[*].书名")# 打印匹配结果
for title in titles:print(title)

爬虫多线程的使用：

from queue import Queue
from threading import Thread
from fake_useragent import UserAgent
import requests
from time import sleepclass MyThread(Thread):def __int__(self):Thread.__init__(self)def run(self):while not url_queue.empty():url = url_queue.get()headers = {'User-Agent': UserAgent().chrome}print(url)resp = requests.get(url, headers=headers)# print(resp.json())for d in resp.json().get('data'):print(f'tid:{d.get("tid")} topic:{d.get("topicName")}content:{d.get("content")}')sleep(3)if resp.status_code == 200:print(f'成功获取第{i}页数据')if __name__ == '__main__':url_queue = Queue()for i in range(1, 11):url = f'https://www.hupu.com/home/v1/news?pageNo={i}&pageSize=50'url_queue.put(url)for i in range(2):t1 = MyThread()t1.start()

爬虫多进程的使用：

from multiprocessing import Manager
from multiprocessing import Process
from fake_useragent import UserAgent
import requests
from time import sleepdef spider(url_queue):while not url_queue.empty():try:url = url_queue.get(timeout=1)headers = {'User-Agent': UserAgent().chrome}print(url)resp = requests.get(url, headers=headers)# print(resp.json())# for d in resp.json().get('data'):#     print(f'tid:{d.get("tid")} topic:{d.get("topicName")}content:{d.get("content")}')sleep(3)# if resp.status_code == 200:#     print(f'成功获取第{i}页数据')except Exception as e:print(e)if __name__ == '__main__':url_queue = Manager().Queue()for i in range(1, 11):url = f'https://www.hupu.com/home/v1/news?pageNo={i}&pageSize=50'url_queue.put(url)all_process = []for i in range(2):p1 = Process(target=spider,args=(url_queue,))p1.start()all_process.append(p1)[p.join() for p in all_process]

多进程池的使用

from multiprocessing import Pool,Manager
from time import sleepdef spider(url_queue):while not url_queue.empty():try:url = url_queue.get(timeout=1)print(url)sleep(3)except Exception as e:print(e)if __name__ == '__main__':url_queue = Manager().Queue()for i in range(1, 11):url = f'https://www.hupu.com/home/v1/news?pageNo={i}&pageSize=50'url_queue.put(url)pool = Pool(3)pool.apply_async(func=spider,args=(url_queue,))pool.apply_async(func=spider,args=(url_queue,))pool.apply_async(func=spider,args=(url_queue,))pool.close()pool.join()

爬虫协程的使用

安装

 pip install aiohttp

import aiohttp
import asyncioasync def first():async with aiohttp.ClientSession() as session: # aiohttp.ClientSession() == import requests 模块async with session.get('http://httpbin.org/get') as resp:rs = await resp.text()print(rs)
# header
headers = {'User-Agent':'aaaaaaa123'}
async def test_header():async with aiohttp.ClientSession(headers=headers) as session:  # aiohttp.ClientSession() == import requests 模块async with session.get('http://httpbin.org/get') as resp:rs = await resp.text()print(rs)
# 参数传递
async def test_params():async with aiohttp.ClientSession(headers=headers) as session:  # aiohttp.ClientSession() == import requests 模块async with session.get('http://httpbin.org/get',params={'name':123}) as resp:rs = await resp.text()print(rs)
# cookie
async def test_cookie():async with aiohttp.ClientSession(headers=headers,cookies={'token':'123id'}) as session:  # aiohttp.ClientSession() == import requests 模块async with session.get('http://httpbin.org/get',params={'name':123}) as resp:rs = await resp.text()print(rs)
# 代理
async def test_proxy():async with aiohttp.ClientSession(headers=headers,cookies={'token':'123id'}) as session:  # aiohttp.ClientSession() == import requests 模块async with session.get('http://httpbin.org/get',params={'name':123},proxy = 'http://name:pwd@ip:port') as resp:rs = await resp.text()print(rs)if __name__ == '__main__':loop = asyncio.get_event_loop()loop.run_until_complete(test_cookie())