Python高级进阶--多线程爬取下载小说(基于笔趣阁的爬虫程序)

目录

一、前言

1、写在前面

2、本帖内容

 二、编写代码

1、抓包分析

a、页面分析

b、明确需求

c、抓包搜寻

2、编写爬虫代码

a、获取网页源代码

b、提取所有章节的网页源代码

c、下载每个章节的小说

d、 清洗文件名

e、删除子文件夹

f、将下载的小说的所有txt文件夹放入所创建的文件夹路径

g、多线程下载

3、所有代码

 三、后言

1、报错情况

2、线程不是越多越好

3、想要下载自己喜欢的小说

4、如何快速调试代码

5、建议 


一、前言

1、写在前面

        本帖采用了多线程的技术来加快爬虫的下载速度,对多线程不了解的同学可以自行百度或者关注本博主,博主后续将会出一篇详细的帖子来介绍多线程。此外,本帖还采用了正则表达式、Python的文件操作和xPath分析。不了解的小伙伴们也可以自行百度或者关注本博主,后续都会写几篇详细的帖子进行介绍!!!

2、本帖内容

        笔趣阁(新笔趣阁_书友最值得收藏的网络小说阅读网 - TXT下载网)是一个资源丰富的小说网站,里面的小说全部免费。因此,对其的爬取比较简单,不需要用的逆向技术。对其的爬取,只需url,header请求头中的任何信息都用不上。本文详细讲解爬取里面的一本免费小说--《NBA:开局一张三分体验卡》,读者可以根据本帖,修改部分代码,爬取自己想要的小说。

笔趣阁现已更新为新笔趣阁,其首页:

   本帖爬取的小说为《NBA:开局一张三分体验卡》(https://www.shuangliusc.com/html/469472/),其界面为:

 二、编写代码

1、抓包分析

        爬虫的第一步都是抓包分析(也就是分析网页,从网页源代码中找到自己想要的内容)。 

a、页面分析

(1)页面中有最新章节章节目录和所有章节目录

(2)点击一个章节就会跳转到其具体页面,但其中只是该章节的第一部分

(3)在一个章节的具体页面中存在下一页,点击下一页会跳转到该章节的下一个部分

(4)直到该章节的最后一个部分,下一页就会变成下一章

目录页:

具体章节页:

 

b、明确需求

        根据以上页面分析,分析网页源代码,找到以下需求。 

  • 要获取到目录页中所有章节的链接
  • 要获取到下一页链接
  • 要找到小说内容所在网页源代码的所在位置
  • 要找到小说章节标题所在网页源代码的所在位置
  • 同一章节的小说内容放在一个txt文档中
  • 为加快速度,采取多线程爬取下载

c、抓包搜寻

        根据以上需求,分析网页源代码,找到想要的内容。 

步骤:

  1. 在目录页面,按下F12,打开开发者界面
  2. 点击开发者界面左上角的鼠标箭头
  3. 将箭头移到所有章节部分的一个章节上并点击一下
  4. 在开发者界面将会出现此部分的网页源代码

          通过以上步骤,抓包寻找,可以分别找到需求部分所要内容:  

  • 要获取到目录页中所有章节的链接及标题所在源代码的位置
  • 要获取到下一页链接

  • 具体章节内容的标题

2、编写爬虫代码

        根据上面的抓包分析,可以编写爬虫代码。

具体思路: 

  1. 获取目录也中所有章节的源代码
  2. 获取具体章节的小说内容和标题
  3. 将获取到的小说内容根据顺序摆放下载到一个txt文档中
  4. 获取到下一页的链接
  5. 将同一章节的内容合并到一个txt文档中
  6. 采取多线程下载
  7. 最后以一个文件夹保存
  8. 文件名不能存在特殊字符,需要进行清洗

 a、获取网页源代码

import os.path
from lxml import etree
import requests
# 1、获取小说目录页的网页源代码
index_url = 'https://www.shuangliusc.com/html/555664/'
r = requests.get(index_url, headers=header)

 b、提取所有章节的网页源代码

def gen_urls(index_url, q,p):# 定义全局变量,gen_urls_done用于判断小说是否下载完成global gen_urls_doner = requests.get(url=index_url)# 获取目录页的各个目录及其标题html = etree.HTML(r.text)links = html.xpath('//div[@class="section-box"]//ul[@id="section-list"]//a/@href')titles = html.xpath('//div[@class="section-box"]//ul[@id="section-list"]//a/text()')# 将标题装入一个队列中,为了下载时可以保持顺序,不会乱章for title in titles:p.put(title)# 将链接装入另一个队列,为了下载时可以保持顺序,不会乱章for link in links:link = regular_link + linkq.put(link)# 所有链接都已获取完毕并装入队列中gen_urls_done = True

c、下载每个章节的小说

def download_file(q,p):while True:# 链接队列为空且gen_urls_done为真时,下载完成if q.empty() and gen_urls_done:print("小说已全部下载完成...")breakelse:# 获取队列的第一个链接和标题cur_url  = q.get()file_name = p.get()# 清洗文件名file_name = clean_filename(file_name)# 采取当前时间作为文件夹保存同一章节下载的小说内容# 设置源文件夹和目标文件夹# 定义父文件夹路径base_folder = r'C:/Users/Lenovo/Desktop/爬虫学习/学习/多线程爬取笔趣阁小说/下载的小说'# 获取当前时间now = time.perf_counter()# 格式化时间字符串,例如 "2024-02-11_031559"folder_name = str(now)# 根据需求更改路径,这里使用之前定义的父文件夹路径source_folder = os.path.join(base_folder, folder_name)# 创建文件夹try:# 使用exist_ok=True避免目录已存在的异常os.makedirs(source_folder, exist_ok=True)except Exception as e:print(f"文件创建错误: {e}")# 将同一章节的小说内容和标题全都下载到一个txt文档中while True:# 获取具体章节的小说内容和标题,并将其放入一个txt文档中# 如何将同一章节的所有内容合并到一个txt文档?# 思路:将同一章节获取到的每部分的内容都保存在同一个文件夹(以当前时间命名)中# 再将该文件夹中的所有txt文档合并该文件夹的上一级文件夹中以该章节名进行命名的txt文档中# 最后删除这些文件夹(以当前时间命名)r = requests.get(cur_url)html = etree.HTML(r.text)next_page = html.xpath('//div[@class="section-opt m-bottom-opt"]//a[text()="下一页"]/@href')content = html.xpath('//div[@class="container"]//div[@class="content"]/text()')# 去掉小说内容中的特殊字符content = "".join(content).replace('\xa0','\n').strip()# 将章节的标题的特殊字符进行去除title = html.xpath('//h1[@class="title"]/text()')[0]title = clean_filename(title)# 下载小说内容with open(f'{source_folder}/{title}.txt', 'a',encoding='utf-8') as f:f.write(title+'\n\n')f.write(content+'\n\n')print(f'{threading.current_thread().name}已完成...{title}的下载')# 如果下一页的链接不存在,则跳出。也就是该章节的所有部分均已下载完毕!if len(next_page) == 0:break# 获取下一页的内容next_page = regular_link + next_page[0]cur_url = next_page# 将同一章节中的内容合并到一个txt文档中target_folder = "C:/Users/Lenovo/Desktop/爬虫学习/学习/多线程爬取笔趣阁小说/下载的小说"# 指定合并后的文件名(确保该文件不存在于temp文件夹内,避免被删除)combined_file_path = os.path.join(target_folder, f'{file_name}.txt')# 确保目标文件夹存在os.makedirs(target_folder, exist_ok=True)# 遍历文件夹中的所有.txt文件with open(combined_file_path, 'w', encoding='utf-8') as combined_file:for filename in os.listdir(source_folder):file_path = os.path.join(source_folder, filename)# 如果是文件且后缀是.txt就进行处理if os.path.isfile(file_path) and filename.endswith('.txt'):with open(file_path, 'r', encoding='utf-8') as file:combined_file.write(file.read() + '\n')  # 将内容写入合并的文件os.remove(file_path)  # 删除已经合并的文件

d、 清洗文件名

def clean_filename(filename):# 以下正则表达式匹配有效的文件名字符,包括中文、英文、数字以及“-_(). ”# 可以继续加入任何其他可接受的字符pattern = re.compile(r'[^a-zA-Z0-9\u4e00-\u9fa5\-\_\.\(\)\s]')cleaned_filename = re.sub(pattern, '', filename)return cleaned_filename

e、删除子文件夹

# 删除子文件夹
def move_off():parent_folder_path = 'C:/Users/Lenovo/Desktop/爬虫学习/学习/多线程爬取笔趣阁小说/下载的小说'# 检查文件夹是否存在if os.path.exists(parent_folder_path):# 遍历该文件夹for entry in os.listdir(parent_folder_path):# 构建完整的文件/文件夹路径full_path = os.path.join(parent_folder_path, entry)# 检查这个路径是否是一个文件夹if os.path.isdir(full_path):# 删除文件夹shutil.rmtree(full_path)print(f"子文件夹 '{full_path}' 已被删除。")else:print(f"父文件夹 '{parent_folder_path}' 不存在。")

f、将下载的小说的所有txt文件夹放入所创建的文件夹路径

def combine_file():# 指定源文件夹路径source_folder_path = 'C:/Users/Lenovo/Desktop/爬虫学习/学习/多线程爬取笔趣阁小说/下载的小说'# 指定目标文件夹路径target_folder_path = 'C:/Users/Lenovo/Desktop/爬虫学习/学习/多线程爬取笔趣阁小说/下载的小说/nba开局一张三分体验卡'  # 你要移动到的新文件夹路径# 检查目标文件夹是否存在,如果不存在,则创建它if not os.path.exists(target_folder_path):os.makedirs(target_folder_path)# 遍历源文件夹for entry in os.listdir(source_folder_path):# 检查文件扩展名是否为.txtif entry.lower().endswith('.txt'):# 构建完整的文件路径full_file_path = os.path.join(source_folder_path, entry)# 构建目标文件路径target_file_path = os.path.join(target_folder_path, entry)# 移动文件shutil.move(full_file_path, target_file_path)# 输出完成的消息print(f"所有的.txt文件已经从'{source_folder_path}'移动到'{target_folder_path}'。")

g、多线程下载

# 主线程
def main():# th1是获取链接index_url = 'https://www.shuangliusc.com/html/555664/'q = Queue(maxsize=2500)p = Queue(maxsize=2500)th1 = threading.Thread(target=gen_urls, args=(index_url, q, p))th1.start()threads = [th1]# th2是下载小说,采取循环的方式,一共有20个线程执行下载小说for i in range(20):th2 = threading.Thread(target=download_file,args=(q, p),name=f"线程{i}")th2.start()threads.append(th2)# 等待上面所有的线程完成for thread in threads:thread.join()# 以上所有线程完成后调用move_off,此处可以不用线程,直接调用函数也可,但速度太慢。# 注:此处由于使用的是多线程操作,存在多个线程对一个文件夹进行操作,以至于报错,但不影响最后需要的结果# 报错是因为一个文件夹已经被一个线程操作完了,而另一个线程也想对其操作但找不到该文件夹,以至于报错。threads2 = []for i in range(10):th3 = threading.Thread(target=move_off)th3.start()threads2.append(th3)for thread in threads2:thread.join()# 所有线程完成后,执行combine_file函数combine_file()
if __name__ == '__main__':main()

3、所有代码

注:此代码存在一点问题,请看后言的建议部分!!!

import os
import pprint
import queue
import re
import shutil
import string
import threading
import time
import requests
from lxml import etree
from  queue import Queue
import os
from datetime import datetime
lock = threading.Lock()
# 固定链接
regular_link = 'https://www.shuangliusc.com'
gen_urls_done = False
# 清洗文件名
def clean_filename(filename):# 以下正则表达式匹配有效的文件名字符,包括中文、英文、数字以及“-_(). ”# 可以继续加入任何其他可接受的字符pattern = re.compile(r'[^a-zA-Z0-9\u4e00-\u9fa5\-\_\.\(\)\s]')cleaned_filename = re.sub(pattern, '', filename)return cleaned_filename
# 1、获取目录页中的各个目录的链接
# 需要小说目录的链接和一个装各个目录的链接的队列
def gen_urls(index_url, q,p):# 装入全局变量global gen_urls_doner = requests.get(url=index_url)# 获取目录页的各个目录及其标题html = etree.HTML(r.text)links = html.xpath('//div[@class="section-box"]//ul[@id="section-list"]//a/@href')titles = html.xpath('//div[@class="section-box"]//ul[@id="section-list"]//a/text()')# 将标题装入一个队列中for title in titles:p.put(title)# 将链接装入队列,为了下载时可以保持顺序,不会乱章for link in links:link = regular_link + linkq.put(link)# 所有链接都已获取完毕并装入队列中gen_urls_done = True
# 下载该章节
# 传入下载链接和章节名称的队列,以及下载路径
def download_file(q,p):while True:# 链接队列为空且gen_urls_done为真时,下载完成if q.empty() and gen_urls_done:print("小说已全部下载完成...")breakelse:# 获取队列的第一个链接和标题cur_url  = q.get()file_name = p.get()# 清洗文件名file_name = clean_filename(file_name)# 采取当前时间作为文件夹保存同一章节下载的小说内容# 设置源文件夹和目标文件夹# 定义父文件夹路径base_folder = r'C:/Users/Lenovo/Desktop/爬虫学习/学习/多线程爬取笔趣阁小说/下载的小说'# 获取当前时间now = time.perf_counter()# 格式化时间字符串,例如 "2024-02-11_031559"folder_name = str(now)# 根据需求更改路径,这里使用之前定义的父文件夹路径source_folder = os.path.join(base_folder, folder_name)# 创建文件夹try:# 使用exist_ok=True避免目录已存在的异常os.makedirs(source_folder, exist_ok=True)except Exception as e:print(f"文件创建错误: {e}")# 将同一章节的小说内容和标题全都下载到一个txt文档中while True:# 获取具体章节的小说内容和标题,并将其放入一个txt文档中# 如何将同一章节的所有内容合并到一个txt文档?# 思路:将同一章节获取到的每部分的内容都保存在同一个文件夹(以当前时间命名)中# 再将该文件夹中的所有txt文档合并该文件夹的上一级文件夹中以该章节名进行命名的txt文档中# 最后删除这些文件夹(以当前时间命名)r = requests.get(cur_url)html = etree.HTML(r.text)next_page = html.xpath('//div[@class="section-opt m-bottom-opt"]//a[text()="下一页"]/@href')content = html.xpath('//div[@class="container"]//div[@class="content"]/text()')# 去掉小说内容中的特殊字符content = "".join(content).replace('\xa0','\n').strip()# 将章节的标题的特殊字符进行去除title = html.xpath('//h1[@class="title"]/text()')[0]title = clean_filename(title)# 下载小说内容with open(f'{source_folder}/{title}.txt', 'a',encoding='utf-8') as f:f.write(title+'\n\n')f.write(content+'\n\n')print(f'{threading.current_thread().name}已完成...{title}的下载')# 如果下一页的链接不存在,则跳出。也就是该章节的所有部分均已下载完毕!if len(next_page) == 0:break# 获取下一页的内容next_page = regular_link + next_page[0]cur_url = next_page# 将同一章节中的内容合并到一个txt文档中target_folder = "C:/Users/Lenovo/Desktop/爬虫学习/学习/多线程爬取笔趣阁小说/下载的小说"# 指定合并后的文件名(确保该文件不存在于temp文件夹内,避免被删除)combined_file_path = os.path.join(target_folder, f'{file_name}.txt')# 确保目标文件夹存在os.makedirs(target_folder, exist_ok=True)# 遍历文件夹中的所有.txt文件with open(combined_file_path, 'w', encoding='utf-8') as combined_file:for filename in os.listdir(source_folder):file_path = os.path.join(source_folder, filename)# 如果是文件且后缀是.txt就进行处理if os.path.isfile(file_path) and filename.endswith('.txt'):with open(file_path, 'r', encoding='utf-8') as file:combined_file.write(file.read() + '\n')  # 将内容写入合并的文件os.remove(file_path)  # 删除已经合并的文件
# 删除子文件夹
def move_off():parent_folder_path = 'C:/Users/Lenovo/Desktop/爬虫学习/学习/多线程爬取笔趣阁小说/下载的小说'# 检查文件夹是否存在if os.path.exists(parent_folder_path):# 遍历该文件夹for entry in os.listdir(parent_folder_path):# 构建完整的文件/文件夹路径full_path = os.path.join(parent_folder_path, entry)# 检查这个路径是否是一个文件夹if os.path.isdir(full_path):# 删除文件夹shutil.rmtree(full_path)print(f"子文件夹 '{full_path}' 已被删除。")else:print(f"父文件夹 '{parent_folder_path}' 不存在。")
def combine_file():# 指定源文件夹路径source_folder_path = 'C:/Users/Lenovo/Desktop/爬虫学习/学习/多线程爬取笔趣阁小说/下载的小说'# 指定目标文件夹路径target_folder_path = 'C:/Users/Lenovo/Desktop/爬虫学习/学习/多线程爬取笔趣阁小说/下载的小说/nba开局一张三分体验卡'  # 你要移动到的新文件夹路径# 检查目标文件夹是否存在,如果不存在,则创建它if not os.path.exists(target_folder_path):os.makedirs(target_folder_path)# 遍历源文件夹for entry in os.listdir(source_folder_path):# 检查文件扩展名是否为.txtif entry.lower().endswith('.txt'):# 构建完整的文件路径full_file_path = os.path.join(source_folder_path, entry)# 构建目标文件路径target_file_path = os.path.join(target_folder_path, entry)# 移动文件shutil.move(full_file_path, target_file_path)# 输出完成的消息print(f"所有的.txt文件已经从'{source_folder_path}'移动到'{target_folder_path}'。")
# 主线程
def main():# th1是获取链接index_url = 'https://www.shuangliusc.com/html/555664/'q = Queue(maxsize=2500)p = Queue(maxsize=2500)th1 = threading.Thread(target=gen_urls, args=(index_url, q, p))th1.start()threads = [th1]# th2是下载小说,采取循环的方式,一共有20个线程执行下载小说for i in range(20):th2 = threading.Thread(target=download_file,args=(q, p),name=f"线程{i}")th2.start()threads.append(th2)# 等待上面所有的线程完成for thread in threads:thread.join()# 以上所有线程完成后调用move_off,此处可以不用线程,直接调用函数也可,但速度太慢。# 注:此处由于使用的是多线程操作,存在多个线程对一个文件夹进行操作,以至于报错,但不影响最后需要的结果# 报错是因为一个文件夹已经被一个线程操作完了,而另一个线程也想对其操作但找不到该文件夹,以至于报错。threads2 = []for i in range(10):th3 = threading.Thread(target=move_off)th3.start()threads2.append(th3)for thread in threads2:thread.join()# 所有线程完成后,执行combine_file函数combine_file()
if __name__ == '__main__':main()

部分运行结果截图:

 

 

 三、后言

1、报错情况

        因为此处采取的是多线程下载,容易出现多个线程对一个任务的操作。一旦某个进程完成了对该任务的操作,该任务资源将会得到释放,则其他线程会因找不到对该操作的资源而进行报错。在运行过程中经常会看到报错情况,但这个是不要紧的,它不影响最终结果。这是由于代码没有进行更深一步的优化而引起的原因。

2、线程不是越多越好

        采取多线程会加快下载速度,但也不是线程越多越好。这要看个人电脑的CPU来决定线程的数量。一旦线程加多了,CPU因运转不够来而导致宕机,那就得不偿失了。本人是小新系列的轻薄本,采用了30个线程就已经快跑到了CPU的极限了!请读者自己测试一下自己的电脑可以跑多少个线程而不会加重CPU的负担,找到一个合适的值!!!

如何增加减少线程数量? 只需要修改一下所框选的数字即可!!!

3、想要下载自己喜欢的小说

         需要进行以下操作:

  1. 找到自己喜欢的小说的目录页(不太情况的,可以看上面的截图)
  2. 将代码中的index_url改成你喜欢的小说的目录页
  3. 抓包分析一下,所需要的部分是否可以用以上的xPath提取到。不可以的话,进行修改
  4. 将文件的路径进行修改

4、如何快速调试代码

        由于下载的小说《NBA:开局一张三分体验卡》有2300多章,想要快速验证调试代码是否存在问题。可以将以下部分进行修改:不选择下载2300多章,自己定义想要下载多少章。

5、建议 

        在所有代码中,可以实现下载整本小说的所有章节。但由于章节数量过多,在下载线程跑完后,卡死在了删除多余的文件夹的多线程和移动txt文档的的函数中。如果要实现小数量(大约500章)可以快速的完成,但要实现大数量的下载,建议采取两个Python文件进行运行,一个跑下载小说,一个跑文件操作。当运行小说下载的Python程序完毕后,再运行文件操作的Python!!!

 下载小说的Python文件 

import os
import pprint
import queue
import re
import shutil
import string
import threading
import time
import requests
from lxml import etree
from  queue import Queue
import os
from datetime import datetime
lock = threading.Lock()
# 固定链接
regular_link = 'https://www.shuangliusc.com'
gen_urls_done = False
# 清洗文件名
def clean_filename(filename):# 以下正则表达式匹配有效的文件名字符,包括中文、英文、数字以及“-_(). ”# 可以继续加入任何其他可接受的字符pattern = re.compile(r'[^a-zA-Z0-9\u4e00-\u9fa5\-\_\.\(\)\s]')cleaned_filename = re.sub(pattern, '', filename)return cleaned_filename
# 1、获取目录页中的各个目录的链接
# 需要小说目录的链接和一个装各个目录的链接的队列
def gen_urls(index_url, q,p):# 装入全局变量global gen_urls_doner = requests.get(url=index_url)# 获取目录页的各个目录及其标题html = etree.HTML(r.text)links = html.xpath('//div[@class="section-box"]//ul[@id="section-list"]//a/@href')titles = html.xpath('//div[@class="section-box"]//ul[@id="section-list"]//a/text()')# 将标题装入一个队列中for title in titles:p.put(title)# 将链接装入队列,为了下载时可以保持顺序,不会乱章for link in links:link = regular_link + linkq.put(link)# 所有链接都已获取完毕并装入队列中gen_urls_done = True
# 下载该章节
# 传入下载链接和章节名称的队列,以及下载路径
def download_file(q,p):while True:# 链接队列为空且gen_urls_done为真时,下载完成if q.empty() and gen_urls_done:print("小说已全部下载完成...")breakelse:# 获取队列的第一个链接和标题cur_url  = q.get()file_name = p.get()# 清洗文件名file_name = clean_filename(file_name)# 采取当前时间作为文件夹保存同一章节下载的小说内容# 设置源文件夹和目标文件夹# 定义父文件夹路径base_folder = r'C:/Users/Lenovo/Desktop/爬虫学习/学习/多线程爬取笔趣阁小说/下载的小说'# 获取当前时间now = time.perf_counter()# 格式化时间字符串,例如 "2024-02-11_031559"folder_name = str(now)# 根据需求更改路径,这里使用之前定义的父文件夹路径source_folder = os.path.join(base_folder, folder_name)# 创建文件夹try:# 使用exist_ok=True避免目录已存在的异常os.makedirs(source_folder, exist_ok=True)except Exception as e:print(f"文件创建错误: {e}")# 将同一章节的小说内容和标题全都下载到一个txt文档中while True:# 获取具体章节的小说内容和标题,并将其放入一个txt文档中# 如何将同一章节的所有内容合并到一个txt文档?# 思路:将同一章节获取到的每部分的内容都保存在同一个文件夹(以当前时间命名)中# 再将该文件夹中的所有txt文档合并该文件夹的上一级文件夹中以该章节名进行命名的txt文档中# 最后删除这些文件夹(以当前时间命名)r = requests.get(cur_url)html = etree.HTML(r.text)next_page = html.xpath('//div[@class="section-opt m-bottom-opt"]//a[text()="下一页"]/@href')content = html.xpath('//div[@class="container"]//div[@class="content"]/text()')# 去掉小说内容中的特殊字符content = "".join(content).replace('\xa0','\n').strip()# 将章节的标题的特殊字符进行去除title = html.xpath('//h1[@class="title"]/text()')[0]title = clean_filename(title)# 下载小说内容with open(f'{source_folder}/{title}.txt', 'a',encoding='utf-8') as f:f.write(title+'\n\n')f.write(content+'\n\n')print(f'{threading.current_thread().name}已完成...{title}的下载')# 如果下一页的链接不存在,则跳出。也就是该章节的所有部分均已下载完毕!if len(next_page) == 0:break# 获取下一页的内容next_page = regular_link + next_page[0]cur_url = next_page# 将同一章节中的内容合并到一个txt文档中target_folder = "C:/Users/Lenovo/Desktop/爬虫学习/学习/多线程爬取笔趣阁小说/下载的小说"# 指定合并后的文件名(确保该文件不存在于temp文件夹内,避免被删除)combined_file_path = os.path.join(target_folder, f'{file_name}.txt')# 确保目标文件夹存在os.makedirs(target_folder, exist_ok=True)# 遍历文件夹中的所有.txt文件with open(combined_file_path, 'w', encoding='utf-8') as combined_file:for filename in os.listdir(source_folder):file_path = os.path.join(source_folder, filename)# 如果是文件且后缀是.txt就进行处理if os.path.isfile(file_path) and filename.endswith('.txt'):with open(file_path, 'r', encoding='utf-8') as file:combined_file.write(file.read() + '\n')  # 将内容写入合并的文件os.remove(file_path)  # 删除已经合并的文件
# 主线程
def main():# th1是获取链接index_url = 'https://www.shuangliusc.com/html/555664/'q = Queue(maxsize=2500)p = Queue(maxsize=2500)th1 = threading.Thread(target=gen_urls, args=(index_url, q, p))th1.start()# th2是下载小说,采取循环的方式,一共有20个线程执行下载小说for i in range(20):th2 = threading.Thread(target=download_file,args=(q, p),name=f"线程{i}")th2.start()
if __name__ == '__main__':main()

进行文件操作的Python程序

import shutil
import threading
import time
import requests
from lxml import etree
from  queue import Queue
import os
def move_off():parent_folder_path = "C:/Users/Lenovo/Desktop/爬虫学习/学习/多线程爬取笔趣阁小说/下载的小说"# 检查文件夹是否存在if os.path.exists(parent_folder_path):# 遍历该文件夹for entry in os.listdir(parent_folder_path):# 构建完整的文件/文件夹路径full_path = os.path.join(parent_folder_path, entry)# 检查这个路径是否是一个文件夹if os.path.isdir(full_path):# 删除文件夹shutil.rmtree(full_path)print(f"子文件夹 '{full_path}' 已被删除。")else:print(f"父文件夹 '{parent_folder_path}' 不存在。")
def combine_file():# 指定源文件夹路径source_folder_path = 'C:/Users/Lenovo/Desktop/爬虫学习/学习/多线程爬取笔趣阁小说/下载的小说'# 指定目标文件夹路径target_folder_path = 'C:/Users/Lenovo/Desktop/爬虫学习/学习/多线程爬取笔趣阁小说/下载的小说/nba开局一张三分体验卡'  # 你要移动到的新文件夹路径# 检查目标文件夹是否存在,如果不存在,则创建它if not os.path.exists(target_folder_path):os.makedirs(target_folder_path)# 遍历源文件夹for entry in os.listdir(source_folder_path):# 检查文件扩展名是否为.txtif entry.lower().endswith('.txt'):# 构建完整的文件路径full_file_path = os.path.join(source_folder_path, entry)# 构建目标文件路径target_file_path = os.path.join(target_folder_path, entry)# 移动文件shutil.move(full_file_path, target_file_path)# 输出完成的消息print(f"所有的.txt文件已经从'{source_folder_path}'移动到'{target_folder_path}'。")
# 主线程
def main():threads2 = []for i in range(20):th3 = threading.Thread(target=move_off)th3.start()threads2.append(th3)for thread in threads2:thread.join()# 所有线程完成后,执行combine_file函数combine_file()
if __name__ == '__main__':main()

注:本帖用于学习交流,禁止商用!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2780434.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【数学建模】【2024年】【第40届】【MCM/ICM】【F题 减少非法野生动物贸易】【解题思路】

一、题目 (一) 赛题原文 2024 ICM Problem F: Reducing Illegal Wildlife Trade Illegal wildlife trade negatively impacts our environment and threatens global biodiversity. It is estimated to involve up to 26.5 billion US dollars per y…

【数据库】Unlogged 表使用

【数据库】Unlogged 表使用 前言普通表和Unlogged 表的写性能比较普通表创建和数据插入Unlogged 表创建和数据插入比较结果 Unlogged 表崩溃和正常关闭测试Unlogged 表特点总结 前言 大神偶像在开会上提及了Unlogged 表,它的特点很不错,很适合实时数据保…

如何部署一个高可用的 Linux 集群?

部署一个高可用的 Linux 集群需要经过多个步骤和考虑因素。以下是一个简要的指南,帮助您了解如何部署一个高可用的 Linux 集群: 确定需求和目标:在开始部署之前,您需要明确高可用性的定义和目标。对于一些组织而言,高…

【51单片机】自定义动态数码管显示(设计思路&原理&代码演示)

前言 大家好吖,欢迎来到 YY 滴单片机系列 ,热烈欢迎! 本章主要内容面向接触过单片机的老铁 主要内容含: 本章节内容为【实现动静态数码管】项目的第四个模块完整章节:传送门 欢迎订阅 YY滴C专栏!更多干货持…

react函数组件中使用context

效果 1.在父组件中创建一个createcontext并将他导出 import React, { createContext } from react import Bpp from ./Bpp import Cpp from ./Cpp export let MyContext createContext(我是组件B) export let Ccontext createContext(我是组件C)export default function App…

Ubuntu Linux使用PL2302串口和minicom进行开发板调试

调试远程的服务器上面的BMC,服务器上面安装了Ubuntu,想着可以在服务器接个串口到BMC,然后SSH到服务器的Ubuntu,用minicom来查看串口信息。 准备: 服务器Ubuntu安装mimicom 本机可以ssh到Ubuntu 串口工具PL2302 或者CH3…

springboot177健身房管理系统

简介 【毕设源码推荐 javaweb 项目】基于springbootvue 的 适用于计算机类毕业设计,课程设计参考与学习用途。仅供学习参考, 不得用于商业或者非法用途,否则,一切后果请用户自负。 看运行截图看 第五章 第四章 获取资料方式 **项…

Linux(Ubuntu) 环境搭建:Nginx

注:服务器默认以root用户登录 NGINX 官方网站地址:https://nginx.org/en/NGINX 官方安装文档地址:https://nginx.org/en/docs/install.html服务器的终端中输入以下指令: # 安装 Nginx apt-get install nginx # 查看版本信息 ngi…

【电路笔记】-串联电感

串联电感 文章目录 串联电感1、概述2、电感串联示例13、互耦串联电感器4、电感串联示例25、电感串联示例36、总结 当电感器以菊花链方式连接在一起并共享公共电流时,它们可以串联连接在一起。 1、概述 这些电感器的互连产生了更复杂的网络,其总电感是各…

数据库管理-第150期 Oracle Vector DB AI-02(20240212)

数据库管理150期 2024-02-12 数据库管理-第150期 Oracle Vector DB & AI-02(20240212)1 LLM2 LLM面临的挑战3 RAG4 向量数据库LLM总结 数据库管理-第150期 Oracle Vector DB & AI-02(20240212) 作者:胖头鱼的鱼…

【python】网络爬虫与信息提取--requests库

导学 当一个软件想获得数据,那么我们只有把网站当成api就可以 requests库:自动爬取HTML页面,自动网络请求提交 robots协议:网络爬虫排除标准(网络爬虫的规则) beautiful soup库:解析HTML页面 工具&…

nginx2

mkdir /usr/local/develop cd /usr/local/develop 下载 wget http://nginx.org/download/nginx-1.17.4.tar.gz 解压文件 tar zxmf nginx-1.17.4.tar.gz 进入解压目录 cd nginx-1.17.4/ 安装编译工具及依赖库 都安装成功后再次执行会有下面提示 yum -y install gcc pcre-de…

SQL--多表查询

我们之前在讲解SQL语句的时候,讲解了DQL语句,也就是数据查询语句,但是之前讲解的查询都是单 表查询,而本章节我们要学习的则是多表查询操作,主要从以下几个方面进行讲解。 多表关系 项目开发中,在进行数据…

《统计学简易速速上手小册》第8章:贝叶斯统计(2024 最新版)

文章目录 8.1 贝叶斯理论基础8.1.1 基础知识8.1.2 主要案例:疾病诊断8.1.3 拓展案例 1:垃圾邮件过滤8.1.4 拓展案例 2:财经新闻对股价的影响 8.2 贝叶斯方法的应用8.2.1 基础知识8.2.2 主要案例:个性化推荐系统8.2.3 拓展案例 1&a…

寻找最优的路测线 - 华为OD统一考试

OD统一考试(C卷) 分值: 200分 题解: Java / Python / C 题目描述 评估一个网络的信号质量,其中一个做法是将网络划分为栅格,然后对每个栅格的信号质量计算。 路测的时候,希望选择一条信号最好…

STM32——中断

1 什么是中断 中断:打断CPU执行正常的程序,转而处理紧急程序,然后返回原暂停的程序继续运行; 对于单片机来说,中断是指CPU正在处理某个事件A,发生了另一件事件B,请求CPU迅速去处理(…

leetcode 448. 找到所有数组中消失的数字

用的最土的办法&#xff0c;将数组nums中出现过的数字用map记录下来&#xff0c;再遍历1~n中的所有数字&#xff0c;凡是未在map中出现过的即为我们要找的数字。 Java代码如下&#xff1a; class Solution {public List<Integer> findDisappearedNumbers(int[] nums) {i…

【开源】基于JAVA+Vue+SpringBoot的二手车交易系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 二手车档案管理模块2.3 车辆预约管理模块2.4 车辆预定管理模块2.5 车辆留言板管理模块2.6 车辆资讯管理模块 三、系统设计3.1 E-R图设计3.2 可行性分析3.2.1 技术可行性分析3.2.2 操作可行性3.2.3 经济…

第四节课[XTuner微调]作业

文章目录 前言作业基础作业-XTuner InternLM-Chat 个人小助手认知微调实践 前言 XTuner 做在第三节课LangChain作业之前&#xff0c;因为第三节课没想好找哪个领域&#xff0c;等第三节课作业做了一起部署。 作业 基础作业-XTuner InternLM-Chat 个人小助手认知微调实践 然…

python+flask+django农产品供销展销电子商务系统lkw43

供销社农产品展销系统的设计与实现&#xff0c;最主要的是满足使用者的使用需求&#xff0c;并且可以向使用者提供一些与系统配套的服务。本篇论文主要从实际出发&#xff0c;采用以对象为设计重点的设计方法&#xff0c;因此在进行系统总体的需求分时借助用例图可以更好的阐述…