挑战30天学完Python:Day18 正则表达式

📘 Day 18

🎉 本系列为Python基础学习,原稿来源于 30-Days-Of-Python 英文项目,大奇主要是对其本地化翻译、逐条验证和补充,想通过30天完成正儿八经的系统化实践。此系列适合零基础同学,或仅了解Python一点知识,但又没有系统学习的使用者。总之如果你想提升自己的Python技能,欢迎加入《挑战30天学完Python》

  • 📘 Day 18
    • 正则表达式
      • re 模块
      • re 函数
        • match
        • search
        • findall
        • sub
        • split
    • 正则语法
      • 方括号 []
      • 转义 \
      • 一或多次 +
      • 任意字符 .
      • 零或多次 *
      • 零或一次 ?)
      • 数量 {}
      • 开头 ^
      • 不包含 [^]
    • 💻 第18天练习
      • 练习1级
      • 练习2级
      • 练习3级

正则表达式

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。要在python中使用RegEx,首先我们应该导入名为 re 的模块。

re 模块

导入模块以后,我们就可以使用它来检查或者查找了。

import re

re 函数

为了使用不同的模式进行查找, re 提供了一些函数方法来进行匹配。

  • re.match: 只在字符串的第一行开始搜索,如果找到则返回匹配的对象,否则返回None。
  • re.search: 如果字符串(包括多行字符串)中有匹配对象,则返回匹配对象。
  • re.findall: 返回包含所有匹配项的列表,如果没有匹配则返回空列表。
  • re.split: 方法按照能够匹配的子串将字符串分割后返回列表。
  • re.sub: 查找并替换一个或者多个匹配项。
Match
# 语法形式
match(pattern, string, flags=0)
# pattern: 匹配的正则表达式
# string:要匹配的字符串
# flags:[可选] 用来控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等
import retxt = 'I love to teach python and javaScript'
# 本身反馈一个 span 对象
match = re.match('I love to teach', txt, re.I)  # re.I 不区分大小写
print(match)  # <re.Match object; span=(0, 15), match='I love to teach'># 进一步我们可以使用span()获取匹配的起始位置和结束位置的元组值
span = match.span()
print(span)     # (0, 15)# 再进一步可以打印出拆分的起始和结束索引,以及使用分片获取匹配字符串
start, end = span
print(start, end)  # 0, 15
substring = txt[start:end]
print(substring)       # I love to teach

如例上边例子中示,我们在目标字符串中查找是否有 I love to teach 的字符串匹配。其中从开始的位置我们找到了对应匹配,进而得到了一个对象的返回。

import retxt = 'I love to teach python and javaScript'
match1 = re.match('I like to teach', txt, re.I)
print(match1)  # Nonematch2 = re.match('love', txt)
print(match2)  # None

此例子中字符串不包含 I like to teach,或者没用匹配开头字符,因此匹配方法返回None。

Search
# 语法
re.search(pattern, string, flags=0)
# 参数说明同match
import retxt = '''Python is the most beautiful language that a human being has ever created.
I recommend python for a first programming language'''# 返回匹配对象span
match = re.search('first', txt, re.I)
print(match)  # <re.Match object; span=(100, 105), match='first'># 获取匹配开始和结束位置元组
span = match.span()
print(span)     # (100, 105)# 获取开始和结束值,并获截取字字符串
start, end = span
print(start, end)  # 100 105
substring = txt[start:end]
print(substring)       # first# 没有任何匹配返回None
nom = re.search('weather', txt, re.I)
print(nom)  # None

正如你所见,搜索要比匹配方式好的多。因为它可以在整个文本中进行查找匹配。并返回第一找到的对象,否则返回None。接下来还有一个更好的函数 findall 它可以匹配所有并以列表形式返回。

findall

findall() 以列表的形式返回所有匹配

import retxt = '''Python is the most beautiful language that a human being has ever created.
I recommend python for a first programming language'''matches = re.findall('language', txt, re.I)
print(matches)  # ['language', 'language']

可以看到,单词 language 在字符串中出现了两次。现在我们将在字符串中寻找Python和Python单词:

txt = '''Python is the most beautiful language that a human being has ever created.
I recommend python for a first programming language'''# It returns list
matches = re.findall('python', txt, re.I)
print(matches)  # ['Python', 'python']

这个例子中因为我们使用标记位(re.I) 忽略大小写,所以返回两个。如果我们没有使用它,看看是什么结果。

import re
matches = re.findall('Python', txt)
print(matches)  # ['Python']

当然我们如果想要达到其他效果,也可以用其他方法,不过就没有上边使用标记位那么优雅了。

import re
txt = '''Python is the most beautiful language that a human being has ever created.
I recommend python for a first programming language'''matches = re.findall('Python|python', txt)
print(matches)  # ['Python', 'python']#
matches = re.findall('[Pp]ython', txt)
print(matches)  # ['Python', 'python']
sub

匹配并替换字符串,直接看例子:

import re
txt = '''Python is the most beautiful language that a human being has ever created.
I recommend python for a first programming language'''match_replaced = re.sub('Python|python', 'JavaScript', txt, re.I)
print(match_replaced)  # JavaScript is the most beautiful language that a human being has ever created.# 或者
match_replaced = re.sub('[Pp]ython', 'JavaScript', txt, re.I)
print(match_replaced)  # JavaScript is the most beautiful language that a human being has ever created.

让我们再来看一个例子。下边是一个包含很多多余 % 字符的字符串,让人晦涩难懂。让我们用此方法清楚掉它。

import re
txt = '''%I a%m te%%a%%che%r% a%n%d %% I l%o%ve te%ach%ing. 
T%he%re i%s n%o%th%ing as r%ewarding a%s e%duc%at%i%ng a%n%d e%m%p%ow%er%ing p%e%o%ple.
I fo%und te%a%ching m%ore i%n%t%er%%es%ting t%h%an any other %jobs. 
D%o%es thi%s m%ot%iv%a%te %y%o%u to b%e a t%e%a%cher?'''matches = re.sub('%', '', txt)
print(matches)

得到整洁的文本输出

I am teacher and  I love teaching. 
There is nothing as rewarding as educating and empowering people.
I found teaching more interesting than any other jobs.
Does this motivate you to be a teacher?
split

返回分割后的列表。

txt = '''I am teacher and  I love teaching.
There is nothing as rewarding as educating and empowering people.
I found teaching more interesting than any other jobs.
Does this motivate you to be a teacher?'''
print(re.split('\n', txt)) # 按照换行符 \n 进行分割返回# 其实等同于字符直接调用split方法
print(txt.split('\n'))  
['I am teacher and  I love teaching.', 'There is nothing as rewarding as educating and empowering people.', 'I found teaching more interesting than any other jobs.', 'Does this motivate you to be a teacher?']

正则语法

在以往我们声明一个变量,使用的是单引号或者双引号。如果要声明一个正则变量则是 r''
下面的模式仅用小写字母标识apple,为了使其不区分大小写,我们要么重写模式,要么添加一个标志。

import reregex_pattern = r'apple'
txt = 'Apple and banana are fruits. An old cliche says an apple a day a doctor way has been replaced by a banana a day keeps the doctor far far away. '
matches = re.findall(regex_pattern, txt)
print(matches)  # ['apple']# 添加标记位使其大小写不敏感
matches = re.findall(regex_pattern, txt, re.I)
print(matches)  # ['Apple', 'apple']# 或者我们使用一组规则匹配方法
regex_pattern = r'[Aa]pple'  # [Aa]表示匹配字符串首字符可以是大写A,也可以是小写a
matches = re.findall(regex_pattern, txt)
print(matches)  # ['Apple', 'apple']

这里先附上标记位包含哪些:

  • re.I:匹配对大小写不敏感
  • re.M:多行匹配(影响 ^ 和 $)
  • re.S:使 . 匹配包括换行在内的所有字符

然后就详细看下正则里的一些语法符

  • []: 一组字符
    • [a-c] 表示 a 或 b 或 c
    • [a-z] 表示 小写 a 到 z 任意字符
    • [A-Z] 表示 大写 A to Z 任意字符
    • [0-3] 表示 0 或 1 或 2 或 3
    • [0-9] 表示0 到 9 任意数字
    • [A-Za-z0-9] 表示任意单字符, 即 小写字母a到z, 大写字母A到Z 或数字0到9
  • \: 转义特殊字符
    • \d 表示 匹配任意数字,相当于 [0-9].
    • \D 表示 匹配任意非数字
  • . : 匹配任意字符(除了换行符 \n)
  • ^: 匹配开头
    • r’^substring’ 例如 r’^love’, 必须以love开头的句子
    • r’[^] 表示不在[]中的字符,例如 r’[^abc] 表示不是a, 不是b, 不是c。即除a,b,c之外的字符
  • $: 匹配结尾
    • r’substring ′ 举例 r ′ l o v e ' 举例 r'love 举例rlove’, 必须以love结尾的句子
  • *: 0或多个次
    • r’[a]*’ 表示可以不出现,或者可以出现多次
  • +: 0或多个次
    • r’[a]+’ 表示至少一次或多次
  • ?: 0或1次
    • r’[a]?’ 表示零次或一次
  • {n}:精确匹配个数
    • {3}: 表示 正好3个字符
    • {3,}: 表示 至少3个字符
    • {3,8}: 表示 3到8个字符
  • |: 不是就是(或)
    • r’apple|banana’ 表示要么是 apple 要么是 banana
  • (): 正则表达式分组并记住匹配的文本

在这里插入图片描述

让我们用一些例子来上边这些匹配字符是如何使用的。

方括号 []

让我们用方括号来匹配小写和大写

import reregex_pattern = r'[Aa]pple'
txt = 'Apple and banana are fruits. An old cliche says an apple a day a doctor way has been replaced by a banana a day keeps the doctor far far away.'
matches = re.findall(regex_pattern, txt)
print(matches)  # ['Apple', 'apple']

如我我们想再额外查找 banana,我们可以优化匹配如下:

import reregex_pattern = r'[Aa]pple|[Bb]anana' 
txt = 'Apple and banana are fruits. An old cliche says an apple a day a doctor way has been replaced by a banana a day keeps the doctor far far away.'
matches = re.findall(regex_pattern, txt)
print(matches)  # ['Apple', 'banana', 'apple', 'banana']

我们在方括号中使用了字符或 | ,因此设法提取出了 Apple, Apple, Banana 和 Banana。

转义 \

import reregex_pattern = r'\d'  # 
txt = 'This regular expression example was made on December 6,  2019 and revised on July 8, 2021'
matches = re.findall(regex_pattern, txt)
print(matches)  # ['6', '2', '0', '1', '9', '8', '2', '0', '2', '1'], 提取了所有数字,但这却不是我们想要的效果

一或多次 +

结合上边 \d 使用+做个组合优化

import reregex_pattern = r'\d+'  # d表示匹配数字, +表示一次或多次
txt = 'This regular expression example was made on December 6,  2019 and revised on July 8, 2021'
matches = re.findall(regex_pattern, txt)
print(matches)  # ['6', '2019', '8', '2021'] - 现在才是我们想要的效果

任意字符 .

import reregex_pattern = r'[a].'  # 小写a和任意
txt = '''Apple and banana are fruits'''
matches = re.findall(regex_pattern, txt)  # 匹配多个项目
print(matches)  # ['an', 'an', 'an', 'a ', 'ar'] 分别对应and中an,banana中an、an、a空格,are中ar regex_pattern = r'[a].+'  # . 任意字符, + 一次或多次(连续)
matches = re.findall(regex_pattern, txt)
print(matches)  # ['and banana are fruits']

零或多次 *

零次或多次。即可能不会出现,也可能多次出现。

import reregex_pattern = r'[a].*'
txt = '''Apple and banana are fruits'''
matches = re.findall(regex_pattern, txt)
print(matches)  # ['and banana are fruits']

零或一次 ?

零次或一次。即可能不会出现,也可能只出现一次。

import retxt = '''I am not sure if there is a convention how to write the word e-mail.
Some people write it as email others may write it as Email or E-mail.'''
regex_pattern = r'[Ee]-?mail'  # ? 表示 - 是个可选项
matches = re.findall(regex_pattern, txt)
print(matches)  # ['e-mail', 'email', 'Email', 'E-mail']

正则数量 {}

我们可以使用花括号指定我们在文本中寻找的子字符串的长度。让我们想一下,我们如果对一个长度为4个字符的子字符串感兴趣的话:

import retxt = '今年的大年三十日期是2023年1月23日,去年的则是2022年1月31日,真是一年比一年早'
regex_pattern = r'\d{4}'  # 精准匹配有四个数字的
matches = re.findall(regex_pattern, txt)
print(matches)  # ['2023', '2022']regex_pattern = r'\d{1,4}'   # 匹配1,2,3,4 贪婪模式
matches = re.findall(regex_pattern, txt)
print(matches)  # ['2023', '1', '23', '2022', '1', '31']

开头 ^

  • 匹配字符串的开头
import retxt = '今天天气很好,所以今天你的心情好吗?'
regex_pattern = r'^今天'  # ^ 表示必须以“今天”开头
matches = re.findall(regex_pattern, txt)
print(matches)  # ['今天'] 注意只返回了一个

不包含 [^]

import retxt = '今年的大年三十日期是2023年1月23日,去年的则是2022年1月31日,真是一年比一年早'
regex_pattern = r'[^\u4e00-\u9fa5, ]+'  # ^ 排除中文字符,逗号和空格
matches = re.findall(regex_pattern, txt)
print(matches)  # ['2023', '1', '23', '2022', '1', '31']

💻 第18天练习

练习1级

  1. 下面这段话中出现频率最高的单词是什么?
    paragraph = 'I love teaching. If you do not love teaching what else can you love. I love Python if you do not love something which can give you all the capabilities to develop an application what else can you love.
    [(6, 'love'),(5, 'you'),(3, 'can'),(2, 'what'),(2, 'teaching'),(2, 'not'),(2, 'else'),(2, 'do'),(2, 'I'),(1, 'which'),(1, 'to'),(1, 'the'),(1, 'something'),(1, 'if'),(1, 'give'),(1, 'develop'),(1, 'capabilities'),(1, 'application'),(1, 'an'),(1, 'all'),(1, 'Python'),(1, 'If')]
  1. 从以下这段对话中提取数字 “The position of some particles on the horizontal x-axis are -12, -4, -3 and -1 in the negative direction, 0 at origin, 4 and 8 in the positive direction.” 并计算出最远距离点。
points= ['-12', '-4', '-3', '-1', '0', '4', '8']
sorted_points= [-12, -4, -3, -1, 0, 4, 8]
distance = |-12| + |8|  # 20

练习2级

  1. 编写一个方法来识别字符串是否是有效的python变量
    is_valid_variable('first_name') # True
    is_valid_variable('first-name') # False
    is_valid_variable('1first_name') # False
    is_valid_variable('firstname') # True
    

练习3级

  1. 清除以下文本无用的字符。且统计出优化后的文本中出现频率最高的三个单词。

    sentence = '''%I $am@% a %tea@cher%, &and& I lo%#ve %tea@ching%;. There $is nothing; &as& mo@re rewarding as educa@ting &and& @emp%o@wering peo@ple. ;I found tea@ching m%o@re interesting tha@n any other %jo@bs. %Do@es thi%s mo@tivate yo@u to be a tea@cher!?'''print(clean_text(sentence))
    I am a teacher and I love teaching There is nothing as more rewarding as educating and empowering people I found teaching more interesting than any other jobs Does this motivate you to be a teacher
    print(most_frequent_words(cleaned_text)) # [(3, 'I'), (2, 'teaching'), (2, 'teacher')]
    

练习参考答案请移步 github项目地址 18_exercise.py

<< Day 17 | Day 19 >>

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2803856.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

【ArcGIS】利用高程进行坡度分析

在ArcGIS中利用高程进行坡度分析 坡度ArcGIS实操参考 坡度 坡度是地表单元陡缓的程度&#xff0c;通常把坡面的垂直高度和水平距离的比值称为坡度。 坡度的表示方法有百分比法、度数法、密位法和分数法四种&#xff0c;其中以百分比法和度数法较为常用。 &#xff08;1&#…

Stable Diffusion 3 Early Preview发布

2月22日&#xff0c;Stability AI 发布了 Stable Diffusion 3 early preview&#xff0c;这是一种开放权重的下一代图像合成模型。据报道&#xff0c;它继承了其前身&#xff0c;生成了详细的多主题图像&#xff0c;并提高了文本生成的质量和准确性。这一简短的公告并未附带公开…

通过platform总线驱动框架编写LED灯的驱动,编写应用程序测试

mydev.c #include <linux/init.h> #include <linux/module.h> #include <linux/of_gpio.h> #include <linux/gpio.h> #include <linux/platform_device.h> #include <linux/mod_devicetable.h>// 创建功能码 #define LED_ON _IO(l, 1) #d…

Leetcode3035. 回文字符串的最大数量

Every day a Leetcode 题目来源&#xff1a;3035. 回文字符串的最大数量 解法1&#xff1a;哈希 排序 由于可以随意交换字母&#xff0c;先把所有字母都取出来&#xff0c;然后考虑如何填入各个字符串。 如果一个奇数长度字符串最终是回文串&#xff0c;那么它正中间的那…

(十八)devops持续集成开发——使用docker安装部署jenkins流水线服务

前言 本节内容介绍如何使用docker容器来部署安装jenkins流水线服务。关于docker容器的安装本节内容不做介绍。请读者提前安装。 正文 ①使用docker查找jenkins官方镜像 ② 拉取jenkins官方镜像jenkins/jenkins&#xff0c;选择一个最新稳定版本&#xff0c;避免一些插件不兼…

【某机构vip教程】Requests(6):Requests模块_超时设置

超时设置 Requests模块可以设置接收数据的超时时间&#xff0c;超出设定的时间还没有数据返回&#xff0c;就抛出异常。超时设 置有两种类型表达&#xff1a;float 、tuple timeout():以秒为单位 如果远端服务器很慢&#xff0c;你可以让 Request 永远等待&#xff0c;传入一…

ApexRBp在线粒子传感器在电动汽车电池制造的应用

电动汽车电池的崛起与颗粒污染的挑战 随着电动汽车&#xff08;EV&#xff09;市场的迅速扩张&#xff0c;对高性能锂离子电池的需求也急剧增加。这些电池不仅是EV的心脏&#xff0c;更是推动其前行的核心动力。然而&#xff0c;在电池制造的每一个环节&#xff0c;都需要对多…

【总第49篇】2.3深度学习开发任务实例(2)机器学习和深度学习的对比【大厂AI课学习笔记】

机器学习和深度学习都是用于图片分类任务的强大工具&#xff0c;但它们采用的方法和原理有所不同。下面我将分别解释这两种技术是如何应用于图片分类的&#xff0c;并着重讨论深度学习中的卷积概念。 机器学习在图片分类中的应用 传统的机器学习方法在进行图片分类时&#xf…

8杯水要怎么喝才能防止或减轻肥胖状态?

为什么说&#xff0c;人每天要喝足8杯水呢&#xff1f;原因很多&#xff0c;皮肤干了要多喝水&#xff0c;因为皮肤缺水&#xff0c;需要滋养&#xff1b;身体底子差要多喝水&#xff0c;实际身体底子差不光要多喝水&#xff0c;还要注意饮食营养和运动锻炼&#xff1b;身体健康…

可视化低代码表单设计器

JNPF 表单设计器是一款在线可视化表单建模工具&#xff0c;基于VueSpringboot技术开发&#xff0c;具有组件丰富、操作简单、所见即所得等特性&#xff0c;既能够设计普通的数据录入表单&#xff0c;也能够配合流程设计出各类审批流转表单。 应用地址&#xff1a;https://www.j…

算法刷题:水果成篮

水果成篮 .题目链接题目详情题目解析算法原理滑动窗口定义指针及变量进窗口判断出窗口更新结果 我的答案 . 题目链接 水果成篮 题目详情 题目解析 这道题的意思是,在一个数组中,找到一个最长的连续的子数组,并且其中包含的水果种类不超过两个 left和right刚开始都指向数组首…

有哪些适合程序员的副业?

如果你经常玩知乎、看公众号&#xff08;软件、工具、互联网这几类的&#xff09;你就会发现&#xff0c;好多资源连接都变成了夸克网盘、迅雷网盘的资源链接。 例如&#xff1a;天涯神贴&#xff0c;基本上全是夸克、UC、迅雷网盘的资源链接。 有资源的前提下&#xff0c;迅雷…

靡语IT:Vue精讲(一)

Vue简介 发端于2013年的个人项目&#xff0c;已然成为全世界三大前端框架之一&#xff0c;在中国大陆更是前端首选。 它的设计思想、编码技巧也被众多的框架借鉴、模仿。 纪略 2013年&#xff0c;在Google工作的尤雨溪&#xff0c;受到Angular的启发&#xff0c;从中提取自…

CPU漏洞之Meltdown

1.前言 计算机系统的安全性从根本上依赖于内存隔离&#xff0c;例如内核(Kernel)地址范围被标记为不可访问&#xff0c;并对用户访问加以限制和保护&#xff0c;因此操作系统确保了用户程序不能访问彼此的内存或内核内存。这种内存隔离是我们计算机环境的基石&#xff0c;它允…

驾校预约|驾校预约小程序|基于微信小程序的驾校预约平台设计与实现(源码+数据库+文档)

驾校预约小程序目录 目录 基于微信小程序的驾校预约平台设计与实现 一、前言 二、系统功能设计 三、系统实现 1、用户​微信端功能模块​ 2、管理员服务端功能模块 &#xff08;1&#xff09;学员信息管理 &#xff08;2&#xff09; 教练信息管理 &#xff08;3&…

鸿蒙学习-dataPreferences数据存储后,重新运行获取为空的问题

解决方案 通过IDE运行时&#xff0c;保存数据&#xff0c;只进行覆盖安装即可&#xff0c;在IDE中设置如下&#xff1a; 勾选 Keep Application Data 即可

Java零基础 - 位移运算符

哈喽&#xff0c;各位小伙伴们&#xff0c;你们好呀&#xff0c;我是喵手。 今天我要给大家分享一些自己日常学习到的一些知识点&#xff0c;并以文字的形式跟大家一起交流&#xff0c;互相学习&#xff0c;一个人虽可以走的更快&#xff0c;但一群人可以走的更远。 我是一名后…

【2024软件测试面试必会技能】Appium自动化(6):原生app元素定位方法

元素定位方法介绍及应用&#xff1a; Appium方法定位原生app元素: 通过appium inspector工具&#xff0c;可以获取元素的相关信息&#xff1b;在appium中提供了一系列的元素定位API&#xff0c;通过在这些API中输入指定的元素信息&#xff0c;就能完成元素定位&#xff0c;定…

《Python 语音转换简易速速上手小册》第9章 特定领域的语音处理(2024 最新版)

文章目录 9.1 语音处理在不同行业的应用9.1.1 基础知识9.1.2 主要案例:智能客服机器人案例介绍案例 Demo案例分析9.1.3 扩展案例 1:医疗语音助手案例介绍案例 Demo案例分析9.1.4 扩展案例 2:语言学习应用案例介绍案例 Demo

不做内容引流,你凭什么在互联网上赚钱?

孩子们放寒假了&#xff0c;待在家里不是看电视&#xff0c;就是拿着手机刷视频&#xff0c;脸上是各种欢快和满足。只是一切换到写作业模式&#xff0c;孩子是各种痛苦表情包&#xff0c;家长则是使出浑身解数&#xff0c;上演亲子大战。可见娱乐常常让人愉悦&#xff0c;而学…