Python正则表达式:从基础到高级应用的全面总结与实战【第103篇—JSON模块】

Python正则表达式:从基础到高级应用的全面总结与实战

正则表达式是一种强大的文本匹配和处理工具,广泛应用于文本处理、数据抽取、表单验证等领域。本文将从正则表达式的基础知识出发,逐步深入,最终结合代码实战,带你全面了解正则表达式的奥妙。

image-20240227002546058

正则表达式基础

1. 什么是正则表达式?

正则表达式是一种描述字符串匹配规则的文本模式,可以用来检索、替换、验证等操作。它由一系列字符和操作符组成,表示一种匹配规则。

2. 基础语法

  • 字符匹配: 使用普通字符直接匹配文本,如 abc 匹配字符串中的 “abc”。
  • 元字符: 具有特殊意义的字符,如 . 表示匹配任意字符,^ 表示匹配字符串的开头。
  • 字符类: 用方括号表示,如 [aeiou] 匹配任何一个元音字母。

3. 量词和边界

  • 量词: 用于指定匹配的次数,如 * 表示零次或多次,+ 表示一次或多次,? 表示零次或一次。
  • 边界: 使用 ^ 表示字符串的开头,$ 表示字符串的结尾。

正则表达式代码实战

1. 使用正则表达式验证邮箱

import redef validate_email(email):pattern = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'if re.match(pattern, email):print(f"{email} 是一个有效的邮箱地址")else:print(f"{email} 不是一个有效的邮箱地址")# 测试
validate_email("user@example.com")
validate_email("invalid_email@.com")

2. 提取HTML中的链接

import rehtml_content = '<a href="https://www.example.com">Visit our website</a>'# 提取链接
links = re.findall(r'href="([^"]*)"', html_content)# 输出链接
for link in links:print(f"链接: {link}")

3. 替换文本中的日期格式

import retext = "今天是2024年2月27日,明天是2024-02-28。"# 替换日期格式
formatted_text = re.sub(r'(\d{4})-(\d{2})-(\d{2})', r'\2/\3/\1', text)print(f"替换前: {text}")
print(f"替换后: {formatted_text}")

4. 使用正则表达式判断密码强度

import redef check_password_strength(password):# 至少8个字符,包含至少一个大写字母、一个小写字母、一个数字和一个特殊字符pattern = r'^(?=.*[a-z])(?=.*[A-Z])(?=.*\d)(?=.*[@$!%*?&])[A-Za-z\d@$!%*?&]{8,}$'if re.match(pattern, password):print("密码强度符合要求")else:print("密码强度不够")# 测试
check_password_strength("StrongPass123!")
check_password_strength("weakpassword")

5. 从文本中提取手机号码

import retext = "请联系客户:+86 13812345678 或者发送邮件至info@example.com"# 提取手机号码
phone_numbers = re.findall(r'(?:(?:\+|00)86)?1[345789]\d{9}', text)# 输出手机号码
for number in phone_numbers:print(f"手机号码: {number}")

6. 拆分逗号分隔的字符串

import recsv_data = "apple,orange,banana,grape"# 使用正则表达式拆分
items = re.split(r',', csv_data)# 输出拆分结果
print("拆分后的结果:", items)

7. 使用正则表达式验证URL

import redef validate_url(url):# 简单的URL验证,以http或https开头,后面跟着域名pattern = r'^(https?://)?[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}(?:/[^/#?]+)*(?:\?[^#]*)?(?:#(.*))?$'if re.match(pattern, url):print(f"{url} 是一个有效的URL")else:print(f"{url} 不是一个有效的URL")# 测试
validate_url("https://www.example.com")
validate_url("ftp://invalid-url.com")

8. 从HTML中提取文本内容

import rehtml_content = '<p>This is a <b>sample</b> HTML content.</p>'# 提取纯文本内容
text_content = re.sub(r'<[^>]+>', '', html_content)print(f"HTML内容: {html_content}")
print(f"提取后的文本内容: {text_content}")

9. 匹配重复字符

import retext = "这个单词是重复重复的,但是它们都是有意义的重复。"# 匹配连续重复的单词
repeated_words = re.findall(r'\b(\w+)\s+\1\b', text)# 输出匹配结果
print("连续重复的单词:", repeated_words)

10. 使用正则表达式提取日志信息

import relog_data = """
2024-02-27 10:15: Error in module A
2024-02-27 11:30: Warning in module B
2024-02-27 12:45: Info: Application started
"""# 提取日志信息
log_entries = re.findall(r'(\d{4}-\d{2}-\d{2} \d{2}:\d{2}): (Error|Warning|Info): (.+)', log_data)# 输出提取结果
for entry in log_entries:timestamp, log_level, message = entryprint(f"{timestamp} - [{log_level}] {message}")

11. 使用正则表达式进行文本替换

import retext = "这是一个示例文本,包含一些需要替换的词汇,例如apple和orange。"# 替换文本中的水果名称
replaced_text = re.sub(r'\b(apple|orange)\b', 'fruit', text)print(f"替换前: {text}")
print(f"替换后: {replaced_text}")

12. 匹配多行文本

import remultiline_text = """
This is line 1.
Another line here.
And a third line.
"""# 匹配包含"line"的行
matching_lines = re.findall(r'.*line.*', multiline_text, re.MULTILINE)# 输出匹配结果
for line in matching_lines:print(f"匹配的行: {line}")

我们深入了解了正则表达式在处理日志、进行文本替换等实际场景中的应用。正则表达式的强大之处在于它的灵活性和通用性,可以适应各种文本处理需求。希望这些例子能够进一步拓展你对正则表达式的认识,并激发你在实际项目中更广泛地应用它的兴趣。如果有其他关于正则表达式的问题或者需要更多的实例,欢迎继续提问。

13. 正则表达式分组与捕获

在正则表达式中,使用括号可以创建分组,通过分组可以实现更精细的匹配和捕获。

import retext = "2024-02-27 08:30: Process A started, Process B started"# 匹配并捕获时间和进程名称
pattern = r'(\d{4}-\d{2}-\d{2} \d{2}:\d{2}): (Process [A-Z]) started'
matches = re.findall(pattern, text)# 输出捕获结果
for match in matches:timestamp, process_name = matchprint(f"时间: {timestamp}, 进程: {process_name}")

14. 非贪婪匹配

正则表达式默认是贪婪匹配,即尽可能匹配更多的字符。在量词后加上?可以实现非贪婪匹配。

import retext = "<b>bold text</b> and <i>italic text</i>"# 贪婪匹配
greedy_match = re.search(r'<.*>', text).group()# 非贪婪匹配
non_greedy_match = re.search(r'<.*?>', text).group()print(f"贪婪匹配: {greedy_match}")
print(f"非贪婪匹配: {non_greedy_match}")

15. 使用正则表达式验证IP地址

import redef validate_ip_address(ip):pattern = r'^(25[0-5]|2[0-4]\d|1\d{2}|[1-9]\d|\d)(\.(25[0-5]|2[0-4]\d|1\d{2}|[1-9]\d|\d)){3}$'if re.match(pattern, ip):print(f"{ip} 是一个有效的IP地址")else:print(f"{ip} 不是一个有效的IP地址")# 测试
validate_ip_address("192.168.0.1")
validate_ip_address("256.0.0.1")

通过这些高级的正则表达式实例,我们进一步提升了对正则表达式功能的理解和应用。分组、非贪婪匹配等特性使得正则表达式更加灵活和强大,能够满足更复杂的匹配需求。希望这些例子有助于你更深入地理解和运用正则表达式。如果你还有其他关于正则表达式的问题,欢迎提出。

16. 零宽断言

零宽断言是一种特殊的正则表达式结构,用于在匹配位置上添加条件,但并不消耗字符。常见的零宽断言包括正向先行断言((?=...))、负向先行断言((?!...))、正向后行断言((?<=...))、负向后行断言((?<!...))等。

import retext = "apple orange banana"# 匹配单词前面是"apple"的空格
positive_lookahead = re.search(r'apple(?=\s)', text).group()# 匹配单词前面不是"apple"的空格
negative_lookahead = re.search(r'(?<!apple)\s', text).group()print(f"正向先行断言: {positive_lookahead}")
print(f"负向先行断言: {negative_lookahead}")

17. 使用正则表达式验证日期格式

import redef validate_date(date):pattern = r'^(19|20)\d{2}-(0[1-9]|1[0-2])-(0[1-9]|[12]\d|3[01])$'if re.match(pattern, date):print(f"{date} 是一个有效的日期格式")else:print(f"{date} 不是一个有效的日期格式")# 测试
validate_date("2024-02-27")
validate_date("2024/02/27")

18. 正则表达式的替换与回调函数

利用正则表达式进行替换时,可以结合回调函数,实现更复杂的替换逻辑。

import redef multiply(match):number = int(match.group(1))return str(number * 2)text = "Numbers: 2, 5, 8, 12"# 使用回调函数替换数字
result = re.sub(r'\b(\d+)\b', multiply, text)print(f"替换前: {text}")
print(f"替换后: {result}")

通过这些高级的正则表达式实例,我们深入了解了零宽断言、日期格式验证以及替换与回调函数的应用。这些功能强大的特性使得正则表达式成为处理复杂文本匹配和替换任务的得力工具。希望这些例子有助于你更灵活地运用正则表达式解决实际问题。如果你还有其他关于正则表达式的疑问或需求,欢迎继续提问。

总结:

通过本文的内容,我们全面深入地探讨了正则表达式的基础知识和高级应用。在基础部分,我们学习了正则表达式的基本概念、语法元素以及常见的匹配规则。随后,我们通过多个实例展示了正则表达式在不同场景的代码应用,包括邮箱验证、HTML链接提取、文本替换、密码强度验证等。

在高级部分,我们介绍了正则表达式的进阶特性,包括分组与捕获、非贪婪匹配、零宽断言等。这些特性使得正则表达式更加灵活,能够应对更复杂的文本匹配需求。同时,我们还探讨了如何使用正则表达式验证日期格式、IP地址,以及利用回调函数实现更复杂的替换逻辑。

通过这篇文章,读者不仅学到了正则表达式的基础知识,还深入了解了它在实际编程中的广泛应用。正则表达式作为文本处理的得力工具,能够提高开发效率,简化代码逻辑。希望本文的内容能够帮助读者更自信、更灵活地运用正则表达式解决实际问题,同时也鼓励进一步深入学习和探索这一强大工具。如有任何问题或疑问,欢迎随时提问,共同学习进步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2811909.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

提升Vue3应用效率的秘诀:深入比较ref与reactive!

ref 和 reactive 是 Vue3 中实现响应式数据的核心 API。ref 用于包装基本数据类型&#xff0c;而 reactive 用于处理对象和数组。尽管 reactive 似乎更适合处理对象&#xff0c;但 Vue3 官方文档更推荐使用 ref。 我的想法&#xff0c;ref就是比reactive好用&#xff0c;官方也…

Vue笔记(一)

常用指令 1.v-show与v-if底层原理的区别 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>创建一个V…

B端系统:导航机制设计,用户体验提升的法宝

Hi&#xff0c;大家好&#xff0c;我是贝格前端工场&#xff0c;从事8年前端开发的老司机。很多B端系统体验不好很大一部分原因在于导航设计的不合理&#xff0c;让用户无所适从&#xff0c;大大降低了操作体验&#xff0c;本文着重分析B端系统的导航体系改如何设计&#xff0c…

ThreadLocal从使用到实现原理与源码详解

ThreadLocal概述 ThreadLocal是多线程中对于解决线程安全的一个操作类&#xff0c;它会为每个线程都分配一个独立的线程副本从而解决了变量并发访问冲突的问题。ThreadLocal 同时实现了线程内的资源共享。 案例&#xff1a;使用JDBC操作数据库时&#xff0c;会将每一个线程的…

用 React 实现搜索 GitHub 用户功能

用 React 实现搜索 GitHub 用户功能 在本篇博客中&#xff0c;我们将介绍如何在 React 应用中搜索 GitHub 用户并显示他们的信息。 创建 React 应用 首先&#xff0c;我们使用 Create React App 创建一个新的 React 应用。Create React App 是一个快速搭建 React 项目的工具…

Openharmony - HDF平台驱动之I2C驱动和测试程序

By: fulinux E-mail: fulinux@sina.com Blog: https://blog.csdn.net/fulinus 喜欢的盆友欢迎点赞和订阅! 你的喜欢就是我写作的动力! 目录 概述I2C平台驱动I2C平台驱动HDF框架I2C平台驱动的使用I2C应用开发接口说明代码目录i2ctest.cBUILD.gnbundle.json修改config.json文件…

Langchain-Chatchat:离线运行的大模型知识库 | 开源日报 No.182

chatchat-space/Langchain-Chatchat Stars: 22k License: Apache-2.0 基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现的开源、可离线部署的检索增强生成 (RAG) 大模型知识库项目。该项目是一个可以实现完全本地化推理的知识库增强方案&#xff0c;重点解决数据安全保护…

三菱plc控制双控电磁阀(从接线到程序)

目录 硬件设备 电磁阀的类型&#xff08;下图为例&#xff09; 三菱plc的类型&#xff08;西门子控正COOM接接正极&#xff0c;三菱控负COM接负极&#xff09; 气缸图 三菱plc与双控电磁阀接线 输出接线图&#xff08;COOM输出的公共端&#xff0c;三菱控负COM接负极&#x…

Nginx的核心配置指令及调优

目录 Nginx 核心配置指令 一、Nginx配置文件详解 1、配置文件目录 2、配置文件结构 二、调优 1、在全局域进行的调优 1.1线程池指令 1.2 工作进程数指令 1.3工作进程优先级指令 1.4 工作进程 CPU 绑定指令 1.5 调试可打开的文件个数 1.6 调试文件大小指令 1.7 只运…

[分子指纹]关于smile结构的理解

我的案例中有个奇怪的现象&#xff0c;我发现。 比如我有几个结构 Q1&#xff1a;C1C(O)C(C2C(C1)(C1C(CC2)(C2(C(CC1)C1C(CC2)(CCC(C1)(C)C)C(O)O)C)C)C)(C)C Q2&#xff1a;C1C(C(C2C(C1)(C1C(CC2)(C2(C(CC1)C1C(CC2)(CCC(C1)(C)C)C(O)O)C)C)C)(C)C)OT2&#xff1a;O(C1C(C…

《数据治理简易速速上手小册》第3章 数据质量管理(2024 最新版)

文章目录 3.1 数据质量的定义和标准3.1.1 基础知识3.1.2 重点案例&#xff1a;电商平台的数据清洗3.1.3 拓展案例 1&#xff1a;医疗保健机构的数据整合3.1.4 拓展案例 2&#xff1a;金融服务公司的交易数据监控 3.2 数据质量控制的方法与工具3.2.1 基础知识3.2.2 重点案例&…

【医学影像】LIDC-IDRI数据集的无痛制作

LIDC-IDRI数据集制作 0.下载0.0 链接汇总0.1 步骤 1.合成CT图reference 0.下载 0.0 链接汇总 LIDC-IDRI官方网址&#xff1a;https://www.cancerimagingarchive.net/nbia-search/?CollectionCriteriaLIDC-IDRINBIA Data Retriever 下载链接&#xff1a;https://wiki.canceri…

No matching version found for get-symbol-description@^1.0.2前端项目报错解决(亲测可用)

目录 一、问题详情 二、解决方案 一、问题详情 拉取一个新的项目的时候&#xff0c;前端进行install依赖的时候&#xff0c;报了如下的错误。 6120 verbose node v16.15.1 6121 verbose npm v8.11.0 6122 error code ETARGET 6123 error notarget No matching version foun…

golang学习2,golang开发配置国内镜像

go env -w GO111MODULEon go env -w GOPROXYhttps://goproxy.cn,direct

tmux的使用方法

1. tmux的定义 我&#xff1a;什么是tmux&#xff1f; GPT&#xff1a;tmux&#xff08;terminal multiplexer&#xff09;是一个强大的终端复用器&#xff0c;它允许用户在一个终端窗口中创建、访问和控制多个会话。使用tmux&#xff0c;你可以在一个窗口中打开多个终端会话&…

关于python的数据可视化与可视化:数据读取

带着问题寻找答案可以使自己不再迷茫或者不知所措&#xff01; 了解什么python的数据可视化&#xff1f; 数据的读取&#xff08;一般伴随着课程文件中会进行提供和利用&#xff09; 数据可视化是将Python应用于大气海洋科学中数据处理及分析过程的重要环节&#xff0c;它可以…

使用 C++23 协程实现第一个 co_yield 同步风格调用接口--Qt计算排列组合

上一篇介绍了 co_await 的例子。与 co_await 类似&#xff0c;在C23的协程特性里&#xff0c; co_yield 用于从协程执行过程中暂停&#xff0c;并返回值。这个功能乍一听起来很奇怪&#xff0c;网上的例子大多是用一个计数器来演示多次中断协程函数&#xff0c;返回顺序的计数值…

3,设备无关位图显示

建立了一个类Dib Dib.h #pragma once #include “afx.h” class CDib :public CObject { public: CDib(); ~CDib(); char* GetFileName(); BOOL IsValid(); DWORD GetSize(); UINT GetWidth(); UINT GetHeight(); UINT GetNumberOfColors(); RGBQUAD* GetRGB(); BYTE* GetDat…

【JavaScript 漫游】【022】事件模型

文章简介 本篇文章为【JavaScript 漫游】专栏的第 022 篇文章&#xff0c;对 JavaScript 中事件模型相关的知识点进行了总结。 监听函数 浏览器的事件模型&#xff0c;就是通过监听函数&#xff08;listener&#xff09;对事件做出反应。事件发生后&#xff0c;浏览器监听到…

【 C++ 】闭散列哈希表的模拟实现

哈希节点状态 我们都很清楚数组里的每一个值无非三种状态&#xff1a; 如果某下标没有值&#xff0c;则代表空EMPTY。如果有值在代表存在EXIST。如果此位置的值被删掉了&#xff0c;则表示为DELETE。 而这三种状态我们可以借助enum枚举来帮助我们表示数组里每个位置的状态。…