实验楼

编程入门行业动态更新时间:2024-10-27 22:28:35

实验楼

什么是正则表达式呢？

正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常简写为 regex、regexp 或 RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些符合某个模式的文本。

许多程序设计语言都支持利用正则表达式进行字符串操作。例如，在 Perl 中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由 UNIX 中的工具软件（例如sed和grep）普及开的。正则表达式通常缩写成“regex”，单数有 regexp、regex，复数有 regexps、regexes、regexen。

简单的说形式和功能上正则表达式和我们前面讲的通配符很像，不过它们之间又有很大差别，特别在于一些特殊的匹配字符的含义上，希望初学者注意不要将两者弄混淆。

基本语法：

a. 选择

b. 数量限定

数量限定除了我们举例用的 * 还有 + 加号 ? 问号，如果在一个模式中不加数量限定符则表示出现一次且仅出现一次：

+ 表示前面的字符必须出现至少一次(1 次或多次)，例如 goo+gle 可以匹配 gooogle，goooogle 等；
? 表示前面的字符最多出现一次（0 次或 1 次），例如，colou?r，可以匹配 color 或者 colour;
* 星号代表前面的字符可以不出现，也可以出现一次或者多次（0 次、或 1 次、或多次），例如，0*42 可以匹配 42、042、0042、00042 等。

c. 范围和优先级

总之就是把括号内字符当作一个整体来看待

d. 语法（部分）

下面列举一些常用的作为 PCRE 子集的适用于 perl 和 python 编程语言及 grep 或 egrep 的正则表达式匹配规则：

PCRE（Perl Compatible Regular Expressions 中文含义：perl 语言兼容正则表达式）是一个用 C 语言编写的正则表达式函数库，由菲利普.海泽(Philip Hazel)编写。PCRE 是一个轻量级的函数库，比 Boost 之类的正则表达式库小得多。PCRE 十分易用，同时功能也很强大，性能超过了 POSIX 正则表达式库和一些经典的正则表达式库。

e. 模式匹配命令 – grep

上面空谈了那么多正则表达式的内容也并没有提及具体该如何使用它，实在枯燥，如果说正则表达式是一门武功，那它也只能算得上一些口诀招式罢了，要把它真正练起来还得需要一些兵器在手才行，这里我们要介绍的 grep 命令以及后面要讲的 sed，awk 这些就该算作是这样的兵器了。

grep的参数：

注：在大多数发行版中是默认设置了 grep 的颜色的，你可以通过参数指定或修改GREP_COLOR环境变量。

1. 使用基本正则表达式，BRE

特殊符号：

注意：之所以要使用特殊符号，是因为上面的 [a-z] 不是在所有情况下都管用，这还与主机当前的语系有关，即设置在 LANG 环境变量的值，zh_CN.UTF-8 的话 [a-z]，即为所有小写字母，其它语系可能是大小写交替的如，“a A b B…z Z”，[a-z] 中就可能包含大写字母。所以在使用 [a-z] 时请确保当前语系的影响，使用 [:lower:] 则不会有这个问题。

2. 使用扩展正则表达式，ERE

要通过 grep 使用扩展正则表达式需要加上 -E 参数，或使用 egrep。

总结：

感觉他这个有点乱，总而言之grep作为一种常用的过滤匹配命令，可以搭配正则匹配进行计数、查找过滤，可以有基本的BRE和扩展的ERE

BRE:

grep [正则表达式] [location] 来对指定目录下的文件进行过滤匹配
[cmd] | grep [正则表达式] 配合管道对其他cmd的输出进行过滤

ERE:

需要加上参数 -E或-Ev等…

F. 非交互式流编辑器 – sed

sed 工具在 man 手册里面的全名为"sed - stream editor for filtering and transforming text "，意即，用于过滤和转换文本的流编辑器。

在 Linux/UNIX 的世界里敢称为编辑器的工具，大都非等闲之辈，比如前面的 vi/vim（编辑器之神），emacs（神的编辑器），gedit 这些编辑器。sed 与上述的最大不同之处在于它是一个非交互式的编辑器，下面我们就开始介绍 sed 这个编辑器。

sed的基本操作格式：

sed [参数]... [执行命令] [输入文件]...

e.g.

sed -i 's/sad/happy/' test  # 表示将test文件中的"sad"替换为"happy"

关于 sed 命令就介绍这么多，你如果希望了解更多 sed 的高级用法，你可以参看如下链接：

sed 简明教程
sed 单行脚本快速参考
sed 完全手册

f. 文本处理语言 – awk

看到上面的标题，你可能会感到惊异，难道我们这里要学习的是一门“语言”么，确切的说，我们是要在这里学习 awk 文本处理语言，只是我们并不会在这里学习到比较完整的关于 awk 的内容，还是因为前面的原因，它太强大了，它的应用无处不在，我们无法在这里以简短的文字描述面面俱到，如果你有目标成为一个 linux 系统管理员，确实想学好 awk，可以学习我们的其他 Linux 课程。下面的内容，我们就作为一个关于 awk 的入门体验章节吧，其中会介绍一些 awk 的常用操作。

其实意思就是linux系统管理员需要好好学这个，向我们这种linux使用者简单了解即可

AWK 是一种优良的文本处理工具，Linux 及 Unix 环境中现有的功能最强大的数据处理引擎之一。其名称得自于它的创始人 Alfred Aho（阿尔佛雷德·艾侯）、Peter Jay Weinberger（彼得·温伯格）和 Brian Wilson Kernighan（布莱恩·柯林汉)姓氏的首个字母 AWK，三位创建者已将它正式定义为“样式扫描和处理语言”。它允许你创建简短的程序，这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表，还有无数其他的功能。最简单地说，AWK 是一种用于处理文本的编程语言工具

nawk：在 20 世纪 80 年代中期，对 awk 语言进行了更新，并不同程度地使用一种称为 nawk(new awk) 的增强版本对其进行了替换。许多系统中仍然存在着旧的 awk 解释器，但通常将其安装为 oawk (old awk) 命令，而 nawk 解释器则安装为主要的 awk 命令，也可以使用 nawk 命令。Dr. Kernighan 仍然在对 nawk 进行维护，与 gawk 一样，它也是开放源代码的，并且可以免费获得;

gawk：是 GNU Project 的 awk 解释器的开放源代码实现。尽管早期的 GAWK 发行版是旧的 AWK 的替代程序，但不断地对其进行了更新，以包含 NAWK 的特性;

mawk 也是 awk 编程语言的一种解释器，mawk 遵循 POSIX 1003.2 （草案 11.3）定义的 AWK 语言，包含了一些没有在 AWK 手册中提到的特色，同时 mawk 提供一小部分扩展，另外据说 mawk 是实现最快的 awk

awk 所有的操作都是基于 pattern(模式)—action(动作)对来完成的，如下面的形式：

pattern {action}

你可以看到就如同很多编程语言一样，它将所有的动作操作用一对 {} 花括号包围起来。其中 pattern 通常是表示用于匹配输入的文本的“关系式”或“正则表达式”，action 则是表示匹配后将执行的动作。在一个完整 awk 操作中，这两者可以只有其中一个，如果没有 pattern 则默认匹配输入的全部文本，如果没有 action 则默认为打印匹配内容到屏幕。

awk 处理文本的方式，是将文本分割成一些“字段”，然后再对这些字段进行处理，默认情况下，awk 以空格作为一个字段的分割符，不过这不是固定的，你可以任意指定分隔符，下面将告诉你如何做到这一点。

awk [-F fs] [-v var=value] [-f prog-file | 'program text'] [file...]

demo:

使用 awk 将文本内容打印到终端：

# "quote>" 不用输入
awk '{
quote> print
quote> }' test
# 或者写到一行
awk '{print}' test

说明:在这个操作中我是省略了 pattern，所以 awk 会默认匹配输入文本的全部内容，然后在 {} 花括号中执行动作，即 print 打印所有匹配项，这里是全部文本内容。

将 test 的第一行的每个字段单独显示为一行：

$ awk '{
> if(NR==1){
> print $1 "\n" $2 "\n" $3
> } else {
> print}
> }' test# 或者
$ awk '{
> if(NR==1){
> OFS="\n"
> print $1, $2, $3
> } else {
> print}
> }' test

说明:你首先应该注意的是，这里我使用了 awk 语言的分支选择语句if，它的使用和很多高级语言如 C/C++ 语言基本一致，如果你有这些语言的基础，这里将很好理解。另一个你需要注意的是 NR 与 OFS，这两个是 awk 内建的变量，NR 表示当前读入的记录数，你可以简单的理解为当前处理的行数，OFS 表示输出时的字段分隔符，默认为" "空格，如上图所见，我们将字段分隔符设置为 \n 换行符，所以第一行原本以空格为字段分隔的内容就分别输出到单独一行了。然后是 $N 其中 N 为相应的字段号，这也是 awk 的内建变量，它表示引用相应的字段，因为我们这里第一行只有三个字段，所以只引用到了 $3。除此之外另一个这里没有出现的 $0，它表示引用当前记录（当前行）的全部内容。

将 test 的第二行的以点为分段的字段换成以空格为分隔：

awk -F'.' '{
> if(NR==2){
> print $1 "\t" $2 "\t" $3
> }}' test# 或者
awk '
> BEGIN{
> FS="."
> OFS="\t"  # 如果写为一行，两个动作语句之间应该以";"号分开
> }{
> if(NR==2){
> print $1, $2, $3
> }}' test

说明：这里的 -F 参数，前面已经介绍过，它是用来预先指定待处理记录的字段分隔符。我们需要注意的是除了指定 OFS 我们还可以在 print 语句中直接打印特殊符号如这里的 \t，print 打印的非变量内容都需要用""一对引号包围起来。上面另一个版本，展示了实现预先指定变量分隔符的另一种方式，即使用 BEGIN，就这个表达式指示了，其后的动作将在所有动作之前执行，这里是 FS 赋值了新的 . 点号代替默认的空格。

注意:首先说明一点，我们在学习和使用 awk 的时候应该尽可能将其作为一门程序语言来理解，这样将会使你学习起来更容易，所以初学阶段在练习 awk 时应该尽量按照我那样的方式分多行按照一般程序语言的换行和缩进来输入，而不是全部写到一行（当然这在你熟练了之后是没有任何问题的）。

awk 常用的内置变量:

关于awk的内容本课程将只会包含这些内容，如果你想了解更多，请期待后续课程，或者参看一下链接内容：

awk 程序设计语言
awk 简明教程
awk 用户指南

总结：
awk是一种编程语言，他的语法规则有很多高级程序设计语言的特性，一般为pattern {action}格式，{}内为主要的动作语句，可以使用if,else和很多build-in的var（就和很多高级程序设计语言一样），pattern可以是正则表达式，配合使用效果更强大。如果励志成为一名linux开发人员，awk是一个很重要的工具。

作业

练习 1: 结合正则表达式做更多练习。
练习 2: 参考下面的链接，掌握 sed 处理文本的基本原理，理解 pattern space 和 hold space 概念。 sed 简明教程 sed 单行脚本快速参考 sed 完全手册
练习 3: 基于 pattern space 和 hold space 实现将一个文本倒序输出和交换奇数行和偶数行

vim大冒险