Linux文本三剑客
awk、grep、sed是linux操作文本的三大利器,合称文本三剑客,也是必须掌握的linux命令之一。三者的功能都是处理文本,但侧重点各不 相同,其中属awk功能最强大,但也最复杂。grep更适合单纯的查找或匹配文本,sed更适合编辑匹配到的文本,awk更适合格式化文本,对文本进行较复>杂格式处理
目录
Linux文本三剑客
grep
1.grep和egrep
Linux系统中grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来(匹配到的标红)。grep全称是Global Regular Expression Print,表示全局正则表达式版本,它的使用权限是所有用户。
grep的工作方式是这样的,它在一个或多个文件中搜索字符串模板。如果模板包括空格,则必须被引用,模板后的所有字符串被看作文件名。搜索的结果被送到标准输出,不影响原文件内容。
grep可用于shell脚本,因为grep通过返回一个状态值来说明搜索的状态,如果模板搜索成功,则返回0,如果搜索不成功,则返回1,如果搜索的文件不存在,则返回2。我们利用这些返回值就可进行一些自动化的文本处理工作。
egrep = grep -E:扩展的正则表达式 (除了< , > , \b 使用其他正则都可以去掉\)
使用grep
命令格式
|
|
命令参数
-A<显示行数>:除了显示符合范本样式的那一列之外,并显示该行之后的内容。
-B<显示行数>:除了显示符合样式的那一行之外,并显示该行之前的内容。
-C<显示行数>:除了显示符合样式的那一行之外,并显示该行之前后的内容。
-c:统计匹配的行数
-e :实现多个选项间的逻辑or 关系
-E:扩展的正则表达式
-f FILE:从FILE获取PATTERN匹配
-F :相当于fgrep
-i –ignore-case #忽略字符大小写的差别。
-n:显示匹配的行号
-o:仅显示匹配到的字符串
-q: 静默模式,不输出任何信息
-s:不显示错误信息。
-v:显示不被pattern 匹配到的行,相当于[^] 反向匹配
-w :匹配 整个单词
举例
1.在/etc/passwd文件中查找单词“linuxtechi”
|
|
2.在多个文件中查找模式
|
|
3.使用-l参数列出包含指定模式的文件的文件名
|
|
4.使用-n参数,在文件中查找指定模式并显示匹配行的行号
|
|
5.使用-v参数输出不包含指定模式的行
|
|
6.使用 ^ 符号输出所有以某指定模式开头的行
|
|
7.使用 $ 符号输出所有以指定模式结尾的行
|
|
8.使用 -r 参数递归地查找特定模式
|
|
9.使用 grep 查找文件中所有的空行
|
|
10.使用 -i 参数查找模式
|
|
11.-e 参数查找多个模式
|
|
12.使用 -f 用文件指定待查找的模式
|
|
13.使用 -c 参数计算模式匹配到的数量
|
|
14.输出匹配指定模式行的前或者后面N行
|
|
sed
认识sed
sed 是一种流编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(patternspace ),接着用sed 命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。然后读入下行,执行下一个循环。如果没有使诸如‘D’ 的特殊命令,那会在两个循环之间清空模式空间,但不会清空保留空间。这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出或-i。 功能:主要用来自动编辑一个或多个文件, 简化对文件的反复操作
使用sed
命令格式
|
|
常用选项options
-n:不输出模式空间内容到屏幕,即不自动打印,只打印匹配到的行
-e:多点编辑,对每行处理时,可以有多个Script
-f:把Script写到文件当中,在执行sed时-f 指定文件路径,如果是多个Script,换行写
-r:支持扩展的正则表达式
-i:直接将处理的结果写入文件
-i.bak:在将处理的结果写入文件之前备份一份
地址定界
1.不给地址:对全文进行处理
2.单地址:
#: 指定的行
/pattern/:被此处模式所能够匹配到的每一行
3.地址范围:
#,#
#,+#
/pat1/,/pat2/
#,/pat1/
- ~:步进
sed -n ‘1~2p’ 只打印奇数行 (1~2 从第1行,一次加2行)
sed -n ‘2~2p’ 只打印偶数行
编辑命令command
d:删除模式空间匹配的行,并立即启用下一轮循环
p:打印当前模式空间内容,追加到默认输出之后
a:在指定行后面追加文本,支持使用\n实现多行追加
i:在行前面插入文本,支持使用\n实现多行追加
c:替换行为单行或多行文本,支持使用\n实现多行追加
w:保存模式匹配的行至指定文件
r:读取指定文件的文本至模式空间中匹配到的行后
=:为模式空间中的行打印行号
!:模式空间中匹配行取反处理
s///:查找替换,支持使用其它分隔符,如:s@@@,s###;
加g表示行内全局替换;
在替换时,可以加一下命令,实现大小写转换
\l:把下个字符转换成小写。
\L:把replacement字母转换成小写,直到\U或\E出现。
\u:把下个字符转换成大写。
\U:把replacement字母转换成大写,直到\L或\E出现。
\E:停止以\L或\U开始的大小写转换
举例
1.sed -e ’s/foo/bar/’ myfile.txt
上面的命令将 myfile.txt 中每行第一次出现的 ‘foo’(如果有的话)用字符串 ‘bar’ 替换,然后将该文件内容输出到标准输出。请注意,我说的是每行第一次出现,尽管这通常不是您想要的。在进行字符串替换时,通常想执行全局替换。也就是说,要替换每行中的所有出现,如下所示:
2.sed -e ’s/foo/bar/g’ myfile.txt 在最后一个斜杠之后附加的 ‘g’ 选项告诉 sed 执行全局替换。 关于 ’s///’ 替换命令,还有其它几件要了解的事。首先,它是一个命令,并且只是一个命令,在所有上例中都没有指定地址。这意味着,’s///’ 还可以与地址一起使用来控制要将命令应用到哪些行,如下所示:
3.sed -e ‘1,10s/enchantment/entrapment/g’ myfile2.txt
上例将导致用短语 ’entrapment’ 替换所有出现的短语 ’enchantment’,但是只在第一到第十行(包括这两行)上这样做。
4.sed -e ‘/^$/,/^END/s/hills/mountains/g’ myfile3.txt
该例将用 ‘mountains’ 替换 ‘hills’,但是,只从空行开始,到以三个字符 ‘END’ 开始的行结束(包括这两行)的文本块上这样做。
关于 ’s#/’ 命令的另一个妙处是 ‘/’ 分隔符有许多替换选项。如果正在执行字符串替换,并且规则表达式或替换字符串中有许多斜杠,则可以通过在 ’s’ 之后指定一个不同的字符来更改分隔符。例如,下例将把所有出现的 /usr/local 替换成 /usr:
5.sed -e ’s:/usr/local:/usr:g’ mylist.txt
在该例中,使用冒号作为分隔符。如果需要在规则表达式中指定分隔符字符,可以在它前面加入反斜杠。
awk
认识awk
awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk有很多内建的功能,比如数组、函数等,这是它和C语言的相同之处,灵活性是awk最大的优势。 awk其实不仅仅是工具软件,还是一种编程语言。不过,本文只介绍它的命令行用法,对于大多数场合,应该足够用了。
使用awk
语法
|
|
参数
-F 指定分隔符
-f 调用脚本
-v 定义变量 var=value
awk内置变量
ARGC 命令行参数个数
ARGV 命令行参数排列
ENVIRON 支持队列中系统环境变量的使用
FILENAME awk浏览的文件名
FNR 浏览文件的记录数
FS 设置输入域分隔符,等价于命令行 -F选项
NF 浏览记录的域的个数
NR 已读的记录数
OFS 输出域分隔符
ORS 输出记录分隔符
RS 控制记录分隔符
举例
1.搜索./passwd有root关键字的所有行,并显示对应的shell
awk -F : ‘/root/{print $0}’ ./passwd
2.打印./passwd的第二行信息
awk -F : ‘NR == 2{print $0}’ ./passwd
3.编写一个awk脚本,打印文件第八行
awk ‘NR==8{print $0}’ 文件名
4.使用begin加入标题
awk ‘BEGIN{print “BEGIN,BEGIN”}{print $1, $2}’ 文件名
5.自定义分隔符
echo “123|456|789” | awk ‘BEGIN{RS="|"}{print $0}’
6.编写一个awk脚本,功能是打印所有行
awk ‘{print $0}’ 文件名
7.用awk命令打印文件所有行的第一个字段
awk -F ‘:’ ‘{print $1}’ 文件名
8.打印输入行总数
awk ‘END{print NR}’ 文件名
9.打印每行字段数
awk -F : ‘{print NF}’ 文件名
10.打印最后一行
awk ‘END{print $0}’ 文件名
11.打印字段数多于4个的行
awk -F : ‘{if(NF>4){print $0}}’ 文件名
12.打印文件所有字段的总数
awk -F: ‘{num+=NF}{print num}’ 文件名
13.打印3 - 8行
awk ‘{if(NR>=3 && NR<=8){print $0}}’ 文件名
14.在文件顶部加上标题“Document”
awk ‘BEGIN{print “Document”}{print $0}’ 文件名
15.隔行删除(1, 3, 5, …行删除)
awk ‘{if(NR%2==0){print $0}}’ 文件名
16.查找system替换成SYSTEM **
awk ‘gsub(“system”,“SYSTEM”){print $0}’ 文件名
17.取ifconfig eth0 的IP
ifconfig | awk ‘/inet /{print $2}’ | awk ‘{if(NR==2){print $0}}’
18.打印一列数字的总和
seq 100 | awk ‘BEGIN{sum=0}{sum+=$0}END{print sum}’