Linux入门系列——awk命令详解

Linux入门系列——awk命令详解awk 是一个强大的文本分析工具 与 grep sed 相比 awk 在对数据分析并生成报告时 显得有很大的优势 awk 有三个不同的版本 awk nawk 和 gawk 在没有做特殊说时的时候默认的就是 gawk gawk 是 awk 的 GNU 版本

大家好,欢迎来到IT知识分享网。

awk是一个强大的文本分析工具,与grep、sed相比,awk在对数据分析并生成报告时,显得有很大的优势。

awk有三个不同的版本:awk、nawk和gawk,在没有做特殊说时的时候默认的就是gawk,gawk是awk的GNU版本。

使用方法

awk [options] '{pattern + action}' filename
  • pattern表示awk在数据中查找的内容;
  • action是在找到匹配的内容时,需要执行的一系列命令;当有多个命令的时候,每个命令之间必须使用“;”分隔开;
  • filename表示等待处理的文件;

调用awk的三种方式

  • 命令行方式
awk [-F field-separator] 'command' filename

其中command是真正的awk命令,-F表示域的分隔符,是个可选项。Filename是等待处理的文件

  • shell脚本方式

将所有的awk命令写入到一个文件,并使用该文件有X权限,然后awk命令解释器作为脚本的首行,也就是说可以把脚本最开始的#!/bin/bash 换成#!/bin/awk

最后直接执行这个脚本文件就行了。

  • 将所有的awk命令插入到一个单独的文件中,然后使用-f来调用
awk –f awk-script-file filename

-f 指定要加载的awk脚本,是一个文件。Filename是等待处理的文件

入门实例

  • 显示/etc/passwd文件中的用户名
[root@apache ~]# awk -F ':' '{print $1}' /etc/passwd root bin daemon adm ……

awk的工作流程是这样的:读入一行后(最后面带有”\n”的),就按-F指定的分隔符来将该行划分成N个区域,$0表示所有的区域,$1表示第一个域,$2表示第二个域,依此类推,$n表示第n个域。

  • 显示/etc/passwd文件中的用户名与其shell,用户名和shell之间使用逗号来分割,并且在所有列的最前面加上Name和Shell,在最后一行打印“—-END—-”:
[root@apache ~]# head -5 /etc/passwd | awk -F: 'BEGIN{print "Name,Shell"} {print $1","$7} END{print "----END----"}' Name,Shell root,/bin/bash bin,/sbin/nologin daemon,/sbin/nologin adm,/sbin/nologin lp,/sbin/nologin ----END---- [root@apache ~]#

总结:awk先执行BEGIN内的命令,然后再读入文件中的行,接着就是按照指定的分隔符将该行分成N个区域,然后再来执行模式所对应的动作action。然后,再来读入第二行。。再重复执行action,直到所有的行都处理完成。最后再执行END中的命令。

  • 搜索/etc/passwd文件中含有“root”的所有行,并显示其shell
[root@apache ~]# awk -F: '/root/{print $1,$7}' /etc/passwd root /bin/bash operator /sbin/nologin [root@apache ~]#

注意:’//‘之间是支持正则表达式的,如果此处只有pattern,而没有action,那么awk默认会把匹配到的行打印出来。

[root@apache ~]# awk '/root/' /etc/passwd root:x:0:0:root:/root:/bin/bash operator:x:11:0:operator:/root:/sbin/nologin [root@apache ~]#  [root@apache ~]# awk -F: '/^root/{print $1,$7}' /etc/passwd root /bin/bash [root@apache ~]#
  • awk内置变量

ARGC

命令行中参数的个数

ARGV

命令行参数排列

ENVIRON

支持队列中系统环境变量的使用

FILENAME

Awk正在处理的文件名称

FNR

浏览文件的记录数

FS

设置域分隔符,等价于“-F”选项 Field Separator

NF

浏览记录(行)的域的个数;[number of field 当前行划分的字段总数]

NR

已读的记录(行)的数量[number of records 所有行,也就是如果有多个文件的话,这个是个总数]

FNR

如果只有一个文件作为输入,那么就是在这个文件中已经处理的行数;[file ]

OFS

输出域分隔符 (Output Field Separator)

ORS

输出记录分隔符(Output Row Separator)

RS

控制记录分隔符(Record Separator)

  • 显示awk处理的文件名、每行的行号、每行的列数、以及对应行的全部内容:(以/etc/passwd文件为例子)
[root@apache ~]# awk -F: '{print "Filename:" FILENAME,"LNO." NR,"CNO." NF,"Content:" $0}' /etc/passwd Filename:/etc/passwd LNO.1 CNO.7 Content:root:x:0:0:root:/root:/bin/bash Filename:/etc/passwd LNO.2 CNO.7 Content:bin:x:1:1:bin:/bin:/sbin/nologin Filename:/etc/passwd LNO.3 CNO.7 Content:daemon:x:2:2:daemon:/sbin:/sbin/nologin Filename:/etc/passwd LNO.4 CNO.7 Content:adm:x:3:4:adm:/var/adm:/sbin/nologin Filename:/etc/passwd LNO.5 CNO.7 Content:lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin

awk中的print还可以使用C语言中的printf来替代。在输出格式比较复杂的时候使用printf函数会比print函数要更直观一些,如下:

[root@apache ~]# awk -F: '{printf("%d\n",NR)}' /etc/passwd 
  • 统计/etc/passwd下面的人数:
[root@apache ~]# awk -F: 'BEGIN{count=0;} {count++;} END{printf("Total user is %d\n",count)}' /etc/passwd Total user is 36 [root@apache ~]#

还可以使用-v key=value来自定义变量。如下:

[root@apache ~]# awk -v test='hello' 'BEGIN{print test}' hello [root@apache ~]#
  • 条件语句:

awk中的条件语句是从C中借鉴过来的

语法:if (condition) {then-body} else {else-body}

例如使用awk来统计某个目录下的普通文件的大小,不包括子目录的,并过滤掉目录。

[root@apache ~]# ll|awk 'BEGIN{size=0;}{if($5 != 4096){size+=$5}}END{print "Total:" size/1024 "K"}' Total:494.438K [root@apache ~]#
  • 循环语句:

循环语句也和C中的一样,支持while、do/while、for、continue、break等关键字。

while (condition) {statement1;statement2} do {statement} while() for (i=0;i<=9;i++) {statement} for (i in array) {statement}

break和continue常用于循环中;

  • 使用数组来显示/etc/passwd中的用户,格式为:User:root

在awk中,数组的下标可以是数字或字母。一般awk中的数组的作用是从记录中收集信息,用于计算总和、统计单词等。

[root@apache ~]# awk -F: 'BEGIN{k=0;}{name[k]=$1;k++}END{for(i=0;i<NR;i++){print "User:"name[i]}}' /etc/passwd User:root User:bin User:daemon User:adm User:lp

在上面的例子中BEGIN部分初始化了数组的下标,name[k]声明了一个数组,并把取得的$1也就是用户名,放到该数组中,在END中使用for循环来遍历数组并按照格式打印结果。

在awk中要删除一个元素的时候使用delete array[index]

  • 算术操作符:
-x 负值 +x 转换为正数 x^y 次方 xy 次方 x*y 乘法 x/y 除法 x+y 加法 x-y 减法 x%y 取模
  • 赋值操作符:
= += -= *= /= %= ^= = ++ --
  • 比较操作符:
x < y x <= y x > y x >= y x == y x != y x ~ y 匹配,x能被正则表达式y匹配到,为真 x !~ y 不匹配, subscript in array 在指定的数组array中如果有subscript则为真
  • 逻辑关系:
&& 与 || 或 ! 非
  • 三目表达式:
selector?if-true-exp:if-false-exp

更多请参见awk官方文档[http://www.gnu.org/software/gawk/manual/gawk.html]

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/92697.html

(0)
上一篇 2024-10-23 16:45
下一篇 2024-10-25 11:15

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信