grep对文件内容搜索(附重要拓展-正则表达式)

    文件搜索是搜索查找符合条件的某文件的目录,若要编辑文件或对文件的某配置进行修改,就需要对文件内容进行搜索。

    grep 命令是 Linux 及类 Unix 操作系统中的一个强大的文本搜索工具,用于搜索一个或多个文件中匹配给定模式的行。grep 代表“Global Regular Expression Print”,意味着它使用正则表达式作为搜索模式,并且能够全局地在文件中查找匹配的文本。

拓展:正则表达式

正则表达式(Regular Expression,通常缩写为 regex、regexp 或 RE)是一种用于文本模式匹配的强大工具。它使用特定的字符序列来描述、匹配和操作字符串,可以用于搜索、替换、提取或验证文本数据中符合特定模式的字符串。普通字符表示它们自身,而特殊字符则具有特定的含义,用来表示字符类、数量限定符、位置或序列查找等功能。 

正则表达式的核心在于其元字符(Metacharacter),这些字符具有特殊的含义,能够代表更广泛的字符集或模式。以下是一些常见的元字符:

  •  `.`:匹配任何单个字符(除了换行符)。
  • `^`:表示行的开始。
  • `$`:表示行的结束。
  • `*`:匹配前一个字符零次或多次。
  • `+`:匹配前一个字符一次或多次。
  • `?`:匹配前一个字符零次或一次。
  • `{m,n}`:匹配前一个字符至少 m 次,至多 n 次。
  • `[ ]`:字符集,匹配括号内的任何一个字符。
  • `|`:表示“或”,匹配左边或右边的表达式。
  • `()`:用于分组,改变优先级或捕获匹配的部分。

正则表达式还支持更多高级特性,如非捕获组、前瞻断言、后瞻断言等,这使得它能够处理更为复杂的匹配逻辑。

正则表达式在各种编程语言和工具中都有应用,如 Perl、Python、JavaScript、Java、.NET、Unix shell 工具(如 sed 和 grep)等。它们被广泛用于数据清洗、文本解析、表单验证、日志分析等各种场景中。

例如,下面是一个简单的正则表达式示例,用于匹配邮箱地址:

[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}

在这个表达式中:

1. [a-zA-Z0-9._%+-]+:

  • 这个部分匹配用户名。方括号 `[ ]` 定义了一个字符集,其中包含的字符都可以匹配。
  • `a-z` 和 `A-Z` 匹配任何小写字母或大写字母。
  • `0-9` 匹配任何数字。
  • `._%+-` 匹配下划线、点号、百分号、加号和减号。
  • `+` 在这里表示前面的字符集可以重复一次或多次。

2. @:

  •    直接匹配 @ 符号,这是电子邮件地址中用户名和域名之间的分隔符。

3. [a-zA-Z0-9.-]+:

  •    同样使用了字符集来匹配域名部分,与用户名部分相似,但是不包括 `%+-`,因为这些字符在域名中通常不会出现。
  • 再次,`+` 表示这个字符集中的任意字符可以重复一次或多次。

4. \.:

  •    点号(`.`)在正则表达式中有特殊含义,所以要匹配实际的点号,需要使用反斜杠(`\`)来转义它。

5. [a-zA-Z]{2,}:

  •      最后一部分用于匹配顶级域名,如 ".com"、".org" 等。
  • [a-zA-Z]表示任何字母。
  • {2,} 表示这部分至少有2个字母,但实际上没有上限,尽管大多数顶级域名不会超过3或4个字母。

将这些部分组合起来,整个正则表达式可以匹配大多数常见的电子邮件地址格式,例如:
·`joha.den@example.com`
·`info@company.co.uk`

——————————————————————————————————————————

grep的基本语法:

grep [options] pattern [file]
  • pattern 是你想要搜索的文本或正则表达式。
  • file 是你要在其中搜索的文件名。如果没有指定文件,grep 会从标准输入中读取数据。

常用选项

  • -i:忽略大小写。
  • -v:反向搜索,即显示不匹配的行。
  • -c:只显示匹配的行数,而不是显示行的内容。
  • -n:显示匹配的行号。
  • -r 或 -R:递归搜索,即搜索指定目录下的所有文件。

注意事项

  • 使用正则表达式时,某些特殊字符需要被转义,例如点号(.)、星号(*)等。
  • 如果 pattern 包含空格,需要用引号包裹起来。
  • grep 支持多种模式,包括固定字符串、正则表达式等。

 应用:

1.抓取已知文档的关键字

如上图,grep对某文件的关键字进行抓取,输出的是带有该关键字的行内容,所有包含该关键字的行都会被抓取出来。

2.单纯的知道行的内容不便于我们修改,如果我们想知道该元素在哪行该怎么办?

如上,即加入-n 即第137行。

验证(用前面学过的cat可以验证一下该元素在哪一行)

即cat -n H.txt

3.除此之外,还有一个选项是反向搜索-v,即不包括后面关键字的行。

这种搜索有什么用呢?

    其中etc路径下存储配置文件,前面加的#代表注释,解释说明的作用,初期对文件不了解时可以借助注释简要了解,但是后期在对服务器运维的过程中,注释过多可能会导致占用内存过多,会影响我们修改文件,所以后期会去掉注释,这时我们就可以利用grep -v '#' /etc/services

    其中注释分为以#开头的注释和中间有#的注释两部分,如下图。

     上个命令会把所有带#的行都抓取出来,若只想把以#开头的注释提取出来,需要在‘#’前加一个^

    与之对应,$符号表示以某关键字结尾,其中该关键字要放在$前面,比如下图以s结尾

     上文我们想去掉注释,但是上面的方法把#不在句首的行也去掉了,也就是说,有一部分的有用信息被去掉了。所以要去掉的是以#开头的行,

4. 之前说过,Linux系统是严格区分大小写的,如果不想区分大小写,需要加入选项-i,如

grep -i abc H.txt

 5.组合使用,搜索当前目录及其子目录中所有 .txt 文件里包含 "s" 的行:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3225138.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Linux进程管理Part2

Linux进程控制Part2 文章目录 Linux进程控制Part2Fork()函数详解简单描述 fork函数的使用进程退出的方式_exit函数exit函数return 退出 进程等待进程等待的方法 kill的使用进程替换简单描述命名原理 END Fork()函数详解 FORK(2) Linux Programmer’s Manual FORK(2) NAME for…

53-4 内网代理6 - frp搭建三层代理

前提:53-3 内网代理5 - frp搭建二级代理-CSDN博客 三级网络代理 在办公区入侵后,发现需要进一步渗透核心区网络(192.168.60.0/24),并登录域控制器的远程桌面。使用FRP在EDMZ区、办公区与核心区之间建立三级网络的SOCKS5代理,以便访问核心区的域控制器。 VPS上的FRP服…

科研训练课程2--论文格式修改+endnote使用

科研训练课程2–论文格式修改endnote使用 文章目录 前言修改论文格式图表endnote 使用&#xff08;补充&#xff09; 总结 前言 第二天 2024/7/9 所属目录&#xff1a;科研训练课程创建时间&#xff1a;2024/7/9作者&#xff1a;星云<XingYun>更新时间&#xff1a;xxxUR…

[高频 SQL 50 题(基础版)]第一千七百五十七题,可回收且低脂产品

题目&#xff1a; 表&#xff1a;Products ---------------------- | Column Name | Type | ---------------------- | product_id | int | | low_fats | enum | | recyclable | enum | ---------------------- product_id 是该表的主键&#xff08;具有唯…

中职网络安全B模块渗透测试system0016

访问http://靶机IP/web1/,获取flag值&#xff0c;Flag格式为flag{xxx}&#xff1b; 可能会跳转8000端口删除进入80端口 进入后点击侦查一下&#xff0c;这里乱码了&#xff0c;我们点击查看是一个柯南&#xff0c;web但这是一个web题目肯定不是隐写术&#xff0c;所以说题目的…

17集 如何用ESP-IDF编译ESP-DL深度学习工程-《MCU嵌入式AI开发笔记》

17集 如何用ESP-IDF编译ESP-DL深度学习工程-《MCU嵌入式AI开发笔记》 参考文档&#xff1a;ESP-DL 用户指南&#xff1a; https://docs.espressif.com/projects/esp-dl/zh_CN/latest/esp32/index.html 和https://docs.espressif.com/projects/esp-dl/zh_CN/latest/esp32/get-s…

Qt 线程同步机制 互斥锁 信号量 条件变量 读写锁

qt线程同步 Qt提供了丰富的线程同步机制来帮助开发者更高效和安全地进行多线程编程。其主要包括: QMutex:为共享数据提供互斥访问能力,避免同时写入导致的数据冲突。利用lock()/unlock()方法实现锁定和解锁。 QReadWriteLock:读写锁,允许多个读线程同时访问,但写操作需要独占…

uniapp+vue3嵌入Markdown格式

使用的库是towxml 第一步&#xff1a;下载源文件&#xff0c;那么可以git clone&#xff0c;也可以直接下载压缩包 git clone https://github.com/sbfkcel/towxml.git 第二步&#xff1a;设置文件夹内的config.js&#xff0c;可以选择自己需要的格式 第三步&#xff1a;安装…

人与机器的协同是强弱系统的互补行为

人与机器的协同可以被视作强弱系统的互补行为&#xff0c;这也强调了人类和机器之间在处理问题、执行任务或创造价值时各自的优势与角色。 人类在认知、创造力、情感和伦理等方面具有独特优势。我们能够进行高级的抽象思维、创新和复杂决策&#xff0c;能够处理不确定性和动态环…

【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第一篇 嵌入式Linux入门篇-第十二章 Linux 权限管理

i.MX8MM处理器采用了先进的14LPCFinFET工艺&#xff0c;提供更快的速度和更高的电源效率;四核Cortex-A53&#xff0c;单核Cortex-M4&#xff0c;多达五个内核 &#xff0c;主频高达1.8GHz&#xff0c;2G DDR4内存、8G EMMC存储。千兆工业级以太网、MIPI-DSI、USB HOST、WIFI/BT…

Camera Raw:常规工具

在 Camera Raw 窗口右下角提供了四个常用的工具&#xff0c;它们分别是&#xff1a;缩放工具、抓手工具、切换取样器叠加以及切换网格叠加工具。 ◆ ◆ ◆ 缩放工具 Zoom Tool 用于放大或缩小预览图像&#xff0c;便于查看和编辑细节。 快捷键&#xff1a;Z 1、双击“缩放工具…

一、YOLO V10安装、使用、训练大全

YOLO V10安装、使用、训练大全 一、下载官方源码二、配置conda环境三、安装YOLOV10依赖四、使用官方YOLO V10模型1.下载模型2.使用模型2.1 图片案例 五、制作数据集1.数据集目录结构2.标注工具2.1 安装标注工具2.2 运行标注工具2.3 设置自动保存2.4 切换yolo模式2.5 开始标注2.…

VBA实现Excel数据排序功能

前言 本节会介绍使用VBA如何实现Excel工作表中数据的排序功能。 本节会通过下表数据内容为例进行实操&#xff1a; 1. Sort 单列排序 语法&#xff1a;Sort key1,Order1 说明&#xff1a; Key1&#xff1a;表示需要按照哪列进行排序 Order1&#xff1a;用来指定是升序xlAsce…

学习笔记——动态路由——IS-IS中间系统到中间系统(IS-IS工作过程)

六、IS-IS工作过程 1、第一步&#xff1a;建立邻居关系 IS-IS网络中所有路由器之间实现通信&#xff0c;主要通过以下几个步骤&#xff1a; (1)邻居关系建立&#xff1a; 邻居关系建立主要是通过HELLO包交互并协商各种参数&#xff0c;包括链路类型(level-1/level-2)&#…

密态计算,大模型商用数据瓶颈的新解法?

大数据产业创新服务媒体 ——聚焦数据 改变商业 大模型迈向产业的深度应用&#xff0c;首要挑战是高质量数据供给和安全流通。正如在今年的世界人工智能大会上&#xff0c;产学研届多位专家达成的共识是&#xff0c;数据决定了AI能力的上限。 在实践中&#xff0c;行业大模型难…

11、Python之变量:看得见还是看不见

引言 在前面一篇关于Python变量的文章中&#xff0c;更多地结合对象的内存结构及字节码指令&#xff0c;来看不同代码针对不同的类型的对象的不同效果。 今天这篇文章中&#xff0c;想对新手在使用Python变量中&#xff0c;可能遇到的其他困惑&#xff0c;再展开来说一下。 大…

抖音机构号授权矩阵系统源码:构建创新的社交媒体平台

抖音机构号授权矩阵系统源码是一个为抖音机构号提供授权管理的系统。该系统前端使用了uni-app和vue作为开发框架&#xff0c;后端采用了ThinkPHP5、wokerman和ElementUI。同时&#xff0c;剪辑版块使用了阿里云智能媒体服务和阿里云对象存储来实现。 抖音机构号授权矩阵系统源码…

读人工智能全传08人工智能的今天

1. 人工智能的今天 1.1. 未来&#xff0c;或许有些领域会有非常明显的人工智能痕迹&#xff0c;有些领域则不会 1.2. 2018年&#xff0c;来自计算机视觉处理器公司英伟达的研究人员证明了人工智能软件能够创造出虚假的人物照片&#xff0c;并且能够完全…

Сетунь的24条单播指令

1、Setun模拟器概述 真的&#xff0c;想搞懂一台电脑是怎么运行的&#xff0c;那就搞懂它的指今集是怎么跑的&#xff0c;感觉很离了个大谱的&#xff0c;先看由铁氧体磁芯上的器件组成的RAM&#xff0c;容量为162个9-trit单元&#xff0c;即每个单元为9-trit&#xff0c;每页有…

学习嵌入式对于学历有要求吗?

学习嵌入式系统开发通常并不对学历有严格的要求&#xff0c;尤其是在技术行业中&#xff0c;实际的技能和经验往往比学历更为重要。我收集归类了一份嵌入式学习包&#xff0c;对于新手而言简直不要太棒&#xff0c;里面包括了新手各个时期的学习方向编程教学、问题视频讲解、毕…