Linux相关知识（2）

编程入门行业动态更新时间:2024-10-27 20:37:46

Linux<a href=https://www.elefans.com/category/jswz/34/1765948.html style= 相关知识（2）"/>

Linux相关知识（2）

在 Windows 上最常见的不外乎这两种 .zip，.7z 后缀的压缩文件。而在 Linux 上面常见的格式除了以上两种外，还有 .rar，.gz，.xz，.bz2，.tar，.tar.gz，.tar.xz，*.tar.bz2，简单介绍如下：

文件后缀名说明
*.zip zip 程序打包压缩的文件
*.rar rar 程序压缩的文件
*.7z 7zip 程序压缩的文件
*.tar tar 程序打包，未压缩的文件
*.gz gzip 程序（GNU zip）压缩的文件
*.xz xz 程序压缩的文件
*.bz2 bzip2 程序压缩的文件
*.tar.gz tar 打包，gzip 程序压缩的文件
*.tar.xz tar 打包，xz 程序压缩的文件
*tar.bz2 tar 打包，bzip2 程序压缩的文件
*.tar.7z tar 打包，7z 程序压缩的文件

使用 zip 打包文件夹，注意输入完整的参数和路径：

cd /home/shiyanlou
zip -r -q -o shiyanlou.zip /home/shiyanlou/Desktop
du -h shiyanlou.zip
file shiyanlou.zip

上面命令将目录 /home/shiyanlou/Desktop 打包成一个文件，并查看了打包后文件的大小和类型。第一行命令中，-r 参数表示递归打包包含子目录的全部内容，-q 参数表示为安静模式，即不向屏幕输出信息，-o，表示输出文件，需在其后紧跟打包输出文件名。
设置压缩级别为 9 和 1（9 最大，1 最小），重新打包：

zip -r -9 -q -o shiyanlou_9.zip /home/shiyanlou/Desktop -x ~/*.zip
zip -r -1 -q -o shiyanlou_1.zip /home/shiyanlou/Desktop -x ~/*.zip

这里添加了一个参数用于设置压缩级别 -[1-9]，1 表示最快压缩但体积大，9 表示体积最小但耗时最久。最后那个 -x 是为了排除我们上一次创建的 zip 文件，否则又会被打包进这一次的压缩文件中，注意：这里只能使用绝对路径，否则不起作用。

用 du 命令分别查看默认压缩级别、最低、最高压缩级别及未压缩的文件的大小：

du -h -d 0 *.zip ~ | sort

-h， --human-readable（顾名思义，你可以试试不加的情况）
-d， --max-depth（所查看文件的深度）

创建加密 zip 包
使用 -e 参数可以创建加密压缩包：

zip -r -e -o shiyanlou_encryption.zip /home/shiyanlou/Desktop

将 shiyanlou.zip 解压到当前目录：

unzip shiyanlou.zip

使用安静模式，将文件解压到指定目录：

unzip -l shiyanlou.zip

在 Linux 上面更常用的是 tar 工具，tar 原本只是一个打包工具，只是同时还是实现了对 7z、gzip、xz、bzip2 等工具的支持，这些压缩工具本身只能实现对文件或目录（单独压缩目录中的文件）的压缩，没有实现对文件的打包压缩，所以我们也无需再单独去学习其他几个工具，tar 的解压和压缩都是同一个命令，只需参数不同，使用比较方便。
创建一个 tar 包：

cd /home/shiyanlou
tar -P -cf shiyanlou.tar /home/shiyanlou/Desktop

上面命令中，-P 保留绝对路径符，-c 表示创建一个 tar 包文件，-f 用于指定创建的文件名，注意文件名必须紧跟在 -f 参数之后，比如不能写成 tar -fc shiyanlou.tar，可以写成 tar -f shiyanlou.tar -c ~。你还可以加上 -v 参数以可视的的方式输出打包的文件。
解包一个文件（-x 参数）到指定路径的已存在目录（-C 参数）：

mkdir tardir
tar -xf shiyanlou.tar -C tardir

只查看不解包文件 -t 参数：

tar -tf shiyanlou.tar

保留文件属性和跟随链接（符号链接或软链接），有时候我们使用 tar 备份文件当你在其他主机还原时希望保留文件的属性（-p 参数）和备份链接指向的源文件而不是链接本身（-h 参数）：

tar -cphf etc.tar /etc

常用命令：

zip：
打包：zip something.zip something （目录请加 -r 参数）
解包：unzip something.zip
指定路径：-d 参数
tar：
打包：tar -cf something.tar something
解包：tar -xf something.tar
指定路径：-C 参数

使用 df 命令查看磁盘的容量：
df
df -h
使用 du 命令查看目录的容量；
du
du -h

# 只查看 1 级目录的信息
du -h -d 0 ~
# 查看 2 级
du -h -d 1 ~
du -h # 同 --human-readable 以 K，M，G 为单位，提高信息的可读性。
du -a # 同 --all 显示目录中所有文件的大小。
du -s # 同 --summarize 仅显示总计，只列出最后加总的值。

内部命令与外部命令
内建命令实际上是 shell 程序的一部分，其中包含的是一些比较简单的 Linux 系统命令，这些命令是写在 bash 源码的 builtins 里面的，由 shell 程序识别并在 shell 程序内部完成运行，通常在 Linux 系统加载运行时 shell 就被加载并驻留在系统内存中。而且解析内部命令 shell 不需要创建子进程，因此其执行速度比外部命令快。比如：history、cd、exit 等等。

外部命令是 Linux 系统中的实用程序部分，因为实用程序的功能通常都比较强大，所以其包含的程序量也会很大，在系统加载时并不随系统一起被加载到内存中，而是在需要时才将其调入内存。虽然其不包含在 shell 中，但是其命令执行过程是由 shell 程序控制的。外部命令是在 Bash 之外额外安装的，通常放在/bin，/usr/bin，/sbin，/usr/sbin 等等。比如：ls、vi 等。

简单来说就是：一个是天生自带的天赋技能，一个是后天得来的附加技能。我们可以使用　 type 命令来区分命令是内建的还是外部的。例如这两个得出的结果是不同的

type exit
type vim

得到的是两种结果，若是对 ls 你还能得到第三种结果

得到这样的结果说明是内建命令，正如上文所说内建命令都是在 bash 源码中的 builtins 的.def中
xxx is a shell builtin
#得到这样的结果说明是外部命令，正如上文所说，外部命令在/usr/bin or /usr/sbin等等中
xxx is /usr/bin/xxx若是得到alias的结果，说明该指令为命令别名所设定的名称；
xxx is an alias for xx --xxx

帮助

ls --help

man ls

crontab 命令常见于 Unix 和类 Unix 的操作系统之中（Linux 就属于类 Unix 操作系统），用于设置周期性被执行的指令。
添加一个计划任务：

crontab -e

在文档的最后一排加上这样一排命令，该任务是每分钟我们会在/home/shiyanlou 目录下创建一个以当前的年月日时分秒为名字的空白文件

*/1 * * * * touch /home/shiyanlou/$(date +\%Y\%m\%d\%H\%M\%S)

查看我们添加了哪些任务：

crontab -l

删除任务：

crontab -r

管道
管道是一种通信机制，通常用于进程间的通信（也可通过 socket 进行网络通信），它表现出来的形式就是将前面每一个进程的输出（stdout）直接作为下一个进程的输入（stdin）。

管道又分为匿名管道和具名管道（这里将不会讨论在源程序中使用系统调用创建并使用管道的情况，它与命令行的管道在内核中实际都是采用相同的机制）。我们在使用一些过滤程序时经常会用到的就是匿名管道，在命令行中由 | 分隔符表示，| 在前面的内容中我们已经多次使用到了。具名管道简单的说就是有名字的管道，通常只会在源程序中用到具名管道。下面我们就将通过一些常用的可以使用管道的过滤程序来帮助你熟练管道的使用。

ls -al /etc | less

通过管道将前一个命令(ls)的输出作为下一个命令(less)的输入，然后就可以一行一行地看。

打印 /etc/passwd 文件中以 : 为分隔符的第 1 个字段和第 6 个字段分别表示用户名和其家目录：

cut /etc/passwd -d ':' -f 1,6

打印 /etc/passwd 文件中每一行的前 N 个字符：

 前五个（包含第五个）
cut /etc/passwd -c -5
#前五个之后的（包含第五个）
cut /etc/passwd -c 5-
#第五个
cut /etc/passwd -c 5
#2 到 5 之间的（包含第五个）
cut /etc/passwd -c 2-5

grep 命令的一般形式为：

grep [命令选项]... 用于匹配的表达式 [文件]...

grep -rnI "shiyanlou" ~

-r 参数表示递归搜索子目录中的文件，-n 表示打印匹配项行号，-I 表示忽略二进制文件

wc 命令用于统计并输出一个文件中行、单词和字节的数目，比如输出 /etc/passwd 文件的统计信息：

wc /etc/passwd

分别只输出行数、单词数、字节数、字符数和输入文本中最长一行的字节数：

行数
wc -l /etc/passwd单词数
wc -w /etc/passwd
#字节数
wc -c /etc/passwd字符数
wc -m /etc/passwd
最长行字节数
wc -L /etc/passwd

结合管道来操作一下，下面统计 /etc 下面所有目录数：

ls -dl /etc/*/ | wc -l

sort排序命令
默认为字典排序：

cat /etc/passwd | sort

反转排序：

cat /etc/passwd | sort -r

按特定字段排序：

cat /etc/passwd | sort -t':' -k 3

上面的-t参数用于指定字段的分隔符，这里是以":"作为分隔符；-k 字段号用于指定对哪一个字段进行排序。这里/etc/passwd文件的第三个字段为数字，默认情况下是以字典序排序的，如果要按照数字排序就要加上-n参数：

cat /etc/passwd | sort -t':' -k 3 -n

tr 命令可以用来删除一段文本信息中的某些文字。或者将其进行转换。
col 命令可以将Tab换成对等数量的空格键，或反转这个操作。
join命令就是用于将两个文件中包含相同内容的那一行合并在一起。
paste这个命令与join 命令类似，它是在不对比数据的情况下，简单地将多个文件合并一起，以Tab隔开。

tr [option]...SET1 [SET2]
col [option]
join [option]... file1 file2
paste [option] file...

在更多了解 Linux 的重定向之前，我们需要先知道一些基本的东西，前面我们已经提到过 Linux 默认提供了三个特殊设备，用于终端的显示和输出，分别为 stdin（标准输入，对应于你在终端的输入），stdout（标准输出，对应于终端的输出），stderr（标准错误输出，对应于终端的输出）。
文件描述符设备文件说明
0 /dev/stdin 标准输入
1 /dev/stdout 标准输出
2 /dev/stderr 标准错误
文件描述符：文件描述符在形式上是一个非负整数。实际上，它是一个索引值，指向内核为每一个进程所维护的该进程打开文件的记录表。当程序打开一个现有文件或者创建一个新文件时，内核向进程返回一个文件描述符。在程序设计中，一些涉及底层的程序编写往往会围绕着文件描述符展开。但是文件描述符这一概念往往只适用于 UNIX、Linux 这样的操作系统。
正则表达式
正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常简写为 regex、regexp 或 RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些符合某个模式的文本。

许多程序设计语言都支持利用正则表达式进行字符串操作。例如，在 Perl 中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由 UNIX 中的工具软件（例如sed和grep）普及开的。正则表达式通常缩写成“regex”，单数有 regexp、regex，复数有 regexps、regexes、regexen。

一个正则表达式通常被称为一个模式（pattern），为用来描述或者匹配一系列符合某个句法规则的字符串。

选择
| 竖直分隔符表示选择，例如 boy|girl 可以匹配 boy 或者 girl。

数量限定
数量限定除了我们举例用的 * 还有 + 加号 ? 问号，如果在一个模式中不加数量限定符则表示出现一次且仅出现一次：

表示前面的字符必须出现至少一次(1 次或多次)，例如 goo+gle 可以匹配 gooogle，goooogle 等；
? 表示前面的字符最多出现一次（0 次或 1 次），例如，colou?r，可以匹配 color 或者 colour;

星号代表前面的字符可以不出现，也可以出现一次或者多次（0 次、或 1 次、或多次），例如，0*42 可以匹配 42、042、0042、00042 等。
范围和优先级
() 圆括号可以用来定义模式字符串的范围和优先级，这可以简单的理解为是否将括号内的模式串作为一个整体。例如，gr(a|e)y 等价于 gray|grey，（这里体现了优先级，竖直分隔符用于选择 a 或者 e 而不是 gra 和 ey），(grand)?father 匹配 father 和 grandfather（这里体现了范围，? 将圆括号内容作为一个整体匹配）。

语法（部分）
正则表达式有多种不同的风格，下面列举一些常用的作为 PCRE 子集的适用于 perl 和 python 编程语言及 grep 或 egrep 的正则表达式匹配规则：

PCRE（Perl Compatible Regular Expressions 中文含义：perl 语言兼容正则表达式）是一个用 C 语言编写的正则表达式函数库，由菲利普.海泽(Philip Hazel)编写。PCRE 是一个轻量级的函数库，比 Boost 之类的正则表达式库小得多。PCRE 十分易用，同时功能也很强大，性能超过了 POSIX 正则表达式库和一些经典的正则表达式库。

(由于 markdown 表格解析的问题，下面的竖直分隔符 | 用全角字符代替，实际使用时请换回半角字符。

字符描述
\ 将下一个字符标记为一个特殊字符、或一个原义字符。例如 n 匹配字符 n。\n 匹配一个换行符。序列 \ 匹配 \ 而 ( 则匹配 (。
^ 匹配输入字符串的开始位置。
$ 匹配输入字符串的结束位置。
{n} n 是一个非负整数。匹配确定的 n 次。例如 o{2} 不能匹配 Bob 中的 o，但是能匹配 food 中的两个 o。
{n,} n 是一个非负整数。至少匹配 n 次。例如 o{2,} 不能匹配 Bob 中的 o，但能匹配 foooood 中的所有 o。o{1,} 等价于 o+。o{0,} 则等价于 o*。
{n,m} m 和 n 均为非负整数，其中 n<=m。最少匹配 n 次且最多匹配 m 次。例如，o{1,3} 将匹配 fooooood 中的前三个 o。o{0,1} 等价于 o?。请注意在逗号和两个数之间不能有空格。
匹配前面的子表达式零次或多次。例如，zo* 能匹配 z、zo 以及 zoo。* 等价于 {0,}。
匹配前面的子表达式一次或多次。例如，zo+ 能匹配 zo 以及 zoo，但不能匹配 z。+ 等价于 {1,}。
? 匹配前面的子表达式零次或一次。例如，do(es)? 可以匹配 do 或 does 中的 do。? 等价于 {0,1}。
? 当该字符紧跟在任何一个其他限制符（*，+，?，{n}，{n,}，{n,m}）后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 oooo，o+? 将匹配单个 o，而 o+ 将匹配所有 o。
. 匹配除 \n 之外的任何单个字符。要匹配包括 \n 在内的任何字符，请使用类似 (.｜\n) 的模式。
(pattern) 匹配 pattern 并获取这一匹配的子字符串。该子字符串用于向后引用。要匹配圆括号字符，请使用 ( 和 )。
x ｜ y 匹配 x 或 y。例如，“z ｜ food”能匹配 z 或 food。“(z ｜ f)ood”则匹配 zood 或 food。
[xyz] 字符集合（character class）。匹配所包含的任意一个字符。例如，[abc] 可以匹配 plain 中的 a。其中特殊字符仅有反斜线 \ 保持特殊含义，用于转义字符。其它特殊字符如星号、加号、各种括号等均作为普通字符。脱字符^如果出现在首位则表示负值字符集合；如果出现在字符串中间就仅作为普通字符。连字符 - 如果出现在字符串中间表示字符范围描述；如果出现在首位则仅作为普通字符。
[^xyz] 排除型（negate）字符集合。匹配未列出的任意字符。例如，[^abc] 可以匹配 plain 中的 plin。
[a-z] 字符范围。匹配指定范围内的任意字符。例如，[a-z] 可以匹配 a 到 z 范围内的任意小写字母字符。
[^a-z] 排除型的字符范围。匹配任何不在指定范围内的任意字符。例如，[^a-z] 可以匹配任何不在 a 到 z 范围内的任意字符。
优先级
优先级为从上到下从左到右，依次降低：

运算符说明
\ 转义符
()，(?😃，(?=)，[] 括号和中括号
*，+，?，{n}，{n,}，{n,m} 限定符
^，$，\ 任何元字符定位点和序列
｜选择
grep 命令用于打印输出文本中匹配的模式串，它使用正则表达式作为模式匹配的条件。grep 支持三种正则表达式引擎，分别用三个参数指定：

参数说明
-E POSIX 扩展正则表达式，ERE
-G POSIX 基本正则表达式，BRE
-P Perl 正则表达式，PCRE
不过在你没学过 perl 语言的大多数情况下你将只会使用到 ERE 和 BRE，所以我们接下来的内容都不会讨论到 PCRE 中特有的一些正则表达式语法（它们之间大部分内容是存在交集的，所以你不用担心会遗漏多少重要内容）。

在通过grep命令使用正则表达式之前，先介绍一下它的常用参数：

参数说明
-b 将二进制文件作为文本来进行匹配
-c 统计以模式匹配的数目
-i 忽略大小写
-n 显示匹配文本所在行的行号
-v 反选，输出不匹配行的内容
-r 递归匹配查找
-A n n 为正整数，表示 after 的意思，除了列出匹配行之外，还列出后面的 n 行
-B n n 为正整数，表示 before 的意思，除了列出匹配行之外，还列出前面的 n 行
–color=auto 将输出中的匹配项设置为自动颜色显示
注：在大多数发行版中是默认设置了 grep 的颜色的，你可以通过参数指定或修改GREP_COLOR环境变量。
下面包含完整的特殊符号及说明：

特殊符号说明
[:alnum:] 代表英文大小写字母及数字，亦即 0-9，A-Z，a-z
[:alpha:] 代表任何英文大小写字母，亦即 A-Z，a-z
[:blank:] 代表空白键与 [Tab] 按键两者
[:cntrl:] 代表键盘上面的控制按键，亦即包括 CR，LF，Tab，Del…
[:digit:] 代表数字而已，亦即 0-9
[:graph:] 除了空白字节（空白键与 [Tab] 按键）外的其他所有按键
[:lower:] 代表小写字母，亦即 a-z
[:print:] 代表任何可以被列印出来的字符
[:punct:] 代表标点符号（punctuation symbol），即："，'，?，!，;，:，#，$…
[:upper:] 代表大写字母，亦即 A-Z
[:space:] 任何会产生空白的字符，包括空格键，[Tab]，CR 等等
[:xdigit:] 代表 16 进位的数字类型，因此包括： 0-9，A-F，a-f 的数字与字节

sed 命令基本格式：

sed [参数]... [执行命令] [输入文件]...

形如：

$ sed -i 's/sad/happy/' test # 表示将test文件中的"sad"替换为"happy"

参数说明
-n 安静模式，只打印受影响的行，默认打印输入数据的全部内容
-e 用于在脚本中添加多个执行命令一次执行，在命令行中执行多个命令通常不需要加该参数
-f filename 指定执行 filename 文件中的命令
-r 使用扩展正则表达式，默认为标准正则表达式
-i 将直接修改输入文件内容，而不是打印到标准输出设备

sed 执行命令格式：

[n1][,n2]command
[n1][~step]command

其中一些命令可以在后面加上作用范围，形如：

ed -i 's/sad/happy/g' test # g 表示全局范围
sed -i 's/sad/happy/4' test # 4 表示指定行中的第四个匹配字符串

其中 n1,n2 表示输入内容的行号，它们之间为 , 逗号则表示从 n1 到 n2 行，如果为 ~ 波浪号则表示从 n1 开始以 step 为步进的所有行；command 为执行动作，下面为一些常用动作指令：

命令说明
s 行内替换
c 整行替换
a 插入到指定行的后面
i 插入到指定行的前面
p 打印指定行，通常与 -n 参数配合使用
d 删除指定行

AWK 是一种优良的文本处理工具，Linux 及 Unix 环境中现有的功能最强大的数据处理引擎之一。其名称得自于它的创始人 Alfred Aho（阿尔佛雷德·艾侯）、Peter Jay Weinberger（彼得·温伯格）和 Brian Wilson Kernighan（布莱恩·柯林汉)姓氏的首个字母 AWK，三位创建者已将它正式定义为“样式扫描和处理语言”。它允许你创建简短的程序，这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表，还有无数其他的功能。最简单地说，AWK 是一种用于处理文本的编程语言工具。

在大多数 Linux 发行版上面，实际我们使用的是 gawk（GNU awk，awk 的 GNU 版本），在我们的环境中 ubuntu 上，默认提供的是 mawk，不过我们通常可以直接使用 awk 命令（awk 语言的解释器），因为系统已经为我们创建好了 awk 指向 mawk 的符号链接。

ll /usr/bin/awk

awk 命令基本格式

awk [-F fs] [-v var=value] [-f prog-file | 'program text'] [file...]

其中 -F 参数用于预先指定前面提到的字段分隔符（还有其他指定字段的方式），-v 用于预先为 awk 程序指定变量，-f 参数用于指定 awk 命令要执行的程序文件，或者在不加 -f 参数的情况下直接将程序语句放在这里，最后为 awk 需要处理的文本输入，且可以同时输入多个文本文件。

awk 常用的内置变量
变量名说明
FILENAME 当前输入文件名，若有多个文件，则只表示第一个。如果输入是来自标准输入，则为空字符串
$0 当前记录的内容
$N N 表示字段号，最大值为NF变量的值
FS 字段分隔符，由正则表达式表示，默认为空格
RS 输入记录分隔符，默认为 \n，即一行为一个记录
NF 当前记录字段数
NR 已经读入的记录数
FNR 当前输入文件的记录数，请注意它与 NR 的区别
OFS 输出字段分隔符，默认为空格
ORS 输出记录分隔符，默认为 \n

更多推荐

Linux相关知识（2）

本文发布于:2024-03-09 00:15:26，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1722980.html