awk、grep、sed是linux操作文本的三大利器,合称文本三剑客,也是必须掌握的linux命令之一。三者的功能都是处理文本,但侧重点各不 相同,其中属awk功能最强大,但也最复杂。grep更适合单纯的查找或匹配文本,sed更适合编辑匹配到的文本,awk更适合格式化文本,对文本进行较复>杂格式处理

目录

Linux文本三剑客

grep

1.grep和egrep

  Linux系统中grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来(匹配到的标红)。grep全称是Global Regular Expression Print,表示全局正则表达式版本,它的使用权限是所有用户。

  grep的工作方式是这样的,它在一个或多个文件中搜索字符串模板。如果模板包括空格,则必须被引用,模板后的所有字符串被看作文件名。搜索的结果被送到标准输出,不影响原文件内容。

  grep可用于shell脚本,因为grep通过返回一个状态值来说明搜索的状态,如果模板搜索成功,则返回0,如果搜索不成功,则返回1,如果搜索的文件不存在,则返回2。我们利用这些返回值就可进行一些自动化的文本处理工作。

  egrep = grep -E:扩展的正则表达式 (除了< , > , \b 使用其他正则都可以去掉\)

使用grep

命令格式

1
$ grep [option] pattern file

命令参数

-A<显示行数>:除了显示符合范本样式的那一列之外,并显示该行之后的内容。

-B<显示行数>:除了显示符合样式的那一行之外,并显示该行之前的内容。

-C<显示行数>:除了显示符合样式的那一行之外,并显示该行之前后的内容。

-c:统计匹配的行数

-e :实现多个选项间的逻辑or 关系

-E:扩展的正则表达式

-f FILE:从FILE获取PATTERN匹配

-F :相当于fgrep

-i –ignore-case #忽略字符大小写的差别。

-n:显示匹配的行号

-o:仅显示匹配到的字符串

-q: 静默模式,不输出任何信息

-s:不显示错误信息。

-v:显示不被pattern 匹配到的行,相当于[^] 反向匹配

-w :匹配 整个单词

举例

1.在/etc/passwd文件中查找单词“linuxtechi”

1
2
3
$ grep linuxtechi /etc/passwd
linuxtechi:x:1000:1000:linuxtechi,,,:/home/linuxtechi:/bin/bash
root@Linux-world:~#

2.在多个文件中查找模式

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
$ grep linuxtechi /etc/passwd /etc/shadow /etc/gshadow
/etc/passwd:linuxtechi:x:1000:1000:linuxtechi,,,:/home/linuxtechi:/bin/bash
/etc/shadow:linuxtechi:$6$DdgXjxlM$4flz4JRvefvKp0DG6re:16550:0:99999:7:::/etc/gshadow:adm:*::syslog,linuxtechi
/etc/gshadow:cdrom:*::linuxtechi
/etc/gshadow:sudo:*::linuxtechi
/etc/gshadow:dip:*::linuxtechi
/etc/gshadow:plugdev:*::linuxtechi
/etc/gshadow:lpadmin:!::linuxtechi
/etc/gshadow:linuxtechi:!::
/etc/gshadow:sambashare:!::linuxtechi

3.使用-l参数列出包含指定模式的文件的文件名

1
2
3
$ rep -l linuxtechi /etc/passwd /etc/shadow /etc/fstab /etc/mtab
/etc/passwd
/etc/shadow

4.使用-n参数,在文件中查找指定模式并显示匹配行的行号

1
2
$ grep -n linuxtechi /etc/passwd
39:linuxtechi:x:1000:1000:linuxtechi,,,:/home/linuxtechi:/bin/bash

5.使用-v参数输出不包含指定模式的行

1
2
3
4
5
6
7
8
$ grep -v linuxtechi /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown

6.使用 ^ 符号输出所有以某指定模式开头的行

1
2
$ grep bash$ /etc/passwd
root:x:0:0:root:/root:/bin/bash

7.使用 $ 符号输出所有以指定模式结尾的行

1
2
$ grep bash$ /etc/passwd
root:x:0:0:root:/root:/bin/bash

8.使用 -r 参数递归地查找特定模式

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
$ grep -r linuxtechi /etc/
/etc/subuid:linuxtechi:100000:65536
/etc/group:adm:x:4:syslog,linuxtechi
/etc/group:cdrom:x:24:linuxtechi
/etc/group:sudo:x:27:linuxtechi
/etc/group:dip:x:30:linuxtechi
/etc/group:plugdev:x:46:linuxtechi
/etc/group:lpadmin:x:115:linuxtechi
/etc/group:linuxtechi:x:1000:
/etc/group:sambashare:x:131:linuxtechi

9.使用 grep 查找文件中所有的空行

1
$ grep ^$ /etc/shadow        #由于/etc/shadow文件中没有空行,所以没有任何输出

10.使用 -i 参数查找模式

1
2
3
$ 使用 -i 参数查找模式
$ grep -i LinuxTechi /etc/passwd        #在paswd文件中查找“LinuxTechi”单词
linuxtechi:x:1001:1001::/home/linuxtechi:/bin/bash

11.-e 参数查找多个模式

1
2
3
$ grep -e "linuxtechi" -e "root" /etc/passwd  #查找‘linuxtechi’和‘root’单词
root:x:0:0:root:/root:/bin/bash
linuxtechi:x:1000:1000:linuxtechi,,,:/home/linuxtechi:/bin/bash

12.使用 -f 用文件指定待查找的模式

1
2
3
4
5
$ cat grep_pattern
^root

$ grep -f grep_pattern /etc/passwd
root:x:0:0:root:/root:/bin/bash

13.使用 -c 参数计算模式匹配到的数量

1
2
$ grep -c root /etc/passwd
2

14.输出匹配指定模式行的前或者后面N行

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
$ grep -B 2 "games" /etc/passwd   #使用-B参数输出匹配行的前2行
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin

$ grep -A 2 "games" /etc/passwd   #使用-A参数输出匹配行的后2行
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin

$ grep -C 2 "games" /etc/passwd   #使用-C参数输出匹配行的前后各2行
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin

sed

认识sed

  sed 是一种流编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(patternspace ),接着用sed 命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。然后读入下行,执行下一个循环。如果没有使诸如‘D’ 的特殊命令,那会在两个循环之间清空模式空间,但不会清空保留空间。这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出或-i。 功能:主要用来自动编辑一个或多个文件, 简化对文件的反复操作

使用sed

命令格式

1
$ sed [options] '[地址定界] command' file(s)

常用选项options

-n:不输出模式空间内容到屏幕,即不自动打印,只打印匹配到的行

-e:多点编辑,对每行处理时,可以有多个Script

-f:把Script写到文件当中,在执行sed时-f 指定文件路径,如果是多个Script,换行写

-r:支持扩展的正则表达式

-i:直接将处理的结果写入文件

-i.bak:在将处理的结果写入文件之前备份一份

地址定界

1.不给地址:对全文进行处理

2.单地址:

  #: 指定的行

  /pattern/:被此处模式所能够匹配到的每一行

3.地址范围:

  #,#

  #,+#

  /pat1/,/pat2/

  #,/pat1/

  1. ~:步进

  sed -n ‘1~2p’ 只打印奇数行 (1~2 从第1行,一次加2行)

  sed -n ‘2~2p’ 只打印偶数行

编辑命令command

d:删除模式空间匹配的行,并立即启用下一轮循环

p:打印当前模式空间内容,追加到默认输出之后

a:在指定行后面追加文本,支持使用\n实现多行追加

i:在行前面插入文本,支持使用\n实现多行追加

c:替换行为单行或多行文本,支持使用\n实现多行追加

w:保存模式匹配的行至指定文件

r:读取指定文件的文本至模式空间中匹配到的行后

=:为模式空间中的行打印行号

!:模式空间中匹配行取反处理

s///:查找替换,支持使用其它分隔符,如:s@@@,s###;

  加g表示行内全局替换;

  在替换时,可以加一下命令,实现大小写转换

  \l:把下个字符转换成小写。

  \L:把replacement字母转换成小写,直到\U或\E出现。

  \u:把下个字符转换成大写。

  \U:把replacement字母转换成大写,直到\L或\E出现。

  \E:停止以\L或\U开始的大小写转换

举例

1.sed -e ’s/foo/bar/’ myfile.txt
上面的命令将 myfile.txt 中每行第一次出现的 ‘foo’(如果有的话)用字符串 ‘bar’ 替换,然后将该文件内容输出到标准输出。请注意,我说的是每行第一次出现,尽管这通常不是您想要的。在进行字符串替换时,通常想执行全局替换。也就是说,要替换每行中的所有出现,如下所示:

2.sed -e ’s/foo/bar/g’ myfile.txt 在最后一个斜杠之后附加的 ‘g’ 选项告诉 sed 执行全局替换。 关于 ’s///’ 替换命令,还有其它几件要了解的事。首先,它是一个命令,并且只是一个命令,在所有上例中都没有指定地址。这意味着,’s///’ 还可以与地址一起使用来控制要将命令应用到哪些行,如下所示:

3.sed -e ‘1,10s/enchantment/entrapment/g’ myfile2.txt
上例将导致用短语 ’entrapment’ 替换所有出现的短语 ’enchantment’,但是只在第一到第十行(包括这两行)上这样做。

4.sed -e ‘/^$/,/^END/s/hills/mountains/g’ myfile3.txt
该例将用 ‘mountains’ 替换 ‘hills’,但是,只从空行开始,到以三个字符 ‘END’ 开始的行结束(包括这两行)的文本块上这样做。 关于 ’s#/’ 命令的另一个妙处是 ‘/’ 分隔符有许多替换选项。如果正在执行字符串替换,并且规则表达式或替换字符串中有许多斜杠,则可以通过在 ’s’ 之后指定一个不同的字符来更改分隔符。例如,下例将把所有出现的 /usr/local 替换成 /usr:

5.sed -e ’s:/usr/local:/usr:g’ mylist.txt
在该例中,使用冒号作为分隔符。如果需要在规则表达式中指定分隔符字符,可以在它前面加入反斜杠。

awk

认识awk

  awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk有很多内建的功能,比如数组、函数等,这是它和C语言的相同之处,灵活性是awk最大的优势。 awk其实不仅仅是工具软件,还是一种编程语言。不过,本文只介绍它的命令行用法,对于大多数场合,应该足够用了。

使用awk

语法

1
$ awk [option] 'program' FILE

参数

-F 指定分隔符
-f 调用脚本
-v 定义变量 var=value

awk内置变量

ARGC 命令行参数个数
ARGV 命令行参数排列
ENVIRON 支持队列中系统环境变量的使用
FILENAME awk浏览的文件名
FNR 浏览文件的记录数
FS 设置输入域分隔符,等价于命令行 -F选项
NF 浏览记录的域的个数
NR 已读的记录数
OFS 输出域分隔符
ORS 输出记录分隔符
RS 控制记录分隔符

举例

1.搜索./passwd有root关键字的所有行,并显示对应的shell
awk -F : ‘/root/{print $0}’ ./passwd

2.打印./passwd的第二行信息
awk -F : ‘NR == 2{print $0}’ ./passwd

3.编写一个awk脚本,打印文件第八行
awk ‘NR==8{print $0}’ 文件名

4.使用begin加入标题
awk ‘BEGIN{print “BEGIN,BEGIN”}{print $1, $2}’ 文件名

5.自定义分隔符
echo “123|456|789” | awk ‘BEGIN{RS="|"}{print $0}’

6.编写一个awk脚本,功能是打印所有行
awk ‘{print $0}’ 文件名

7.用awk命令打印文件所有行的第一个字段
awk -F ‘:’ ‘{print $1}’ 文件名

8.打印输入行总数
awk ‘END{print NR}’ 文件名

9.打印每行字段数
awk -F : ‘{print NF}’ 文件名

10.打印最后一行
awk ‘END{print $0}’ 文件名

11.打印字段数多于4个的行
awk -F : ‘{if(NF>4){print $0}}’ 文件名

12.打印文件所有字段的总数
awk -F: ‘{num+=NF}{print num}’ 文件名

13.打印3 - 8行
awk ‘{if(NR>=3 && NR<=8){print $0}}’ 文件名

14.在文件顶部加上标题“Document”
awk ‘BEGIN{print “Document”}{print $0}’ 文件名

15.隔行删除(1, 3, 5, …行删除)
awk ‘{if(NR%2==0){print $0}}’ 文件名

16.查找system替换成SYSTEM **
awk ‘gsub(“system”,“SYSTEM”){print $0}’ 文件名

17.取ifconfig eth0 的IP
ifconfig | awk ‘/inet /{print $2}’ | awk ‘{if(NR==2){print $0}}’

18.打印一列数字的总和
seq 100 | awk ‘BEGIN{sum=0}{sum+=$0}END{print sum}’