前段时间看了一下awk的使用选项,字段变量,标准变量,操作运算符,正则表达式,数组和控制流,并且也附带着一些相关的案例,总的来说,在深入了解和使用AWK之后,还是带来了很多的便利,在处理文本的文件的时候提供了更多的思路和便捷,比如按需自定义打印文本显示格式,进行一些简单的数据处理,同时awk还有和shell,python,go一些编程语言类似的循环,条件,逻辑处理,以及一些内置的函数更方便的帮助在命令行完成一些文本处理工作。今天完成了awk剩余的一些知识点学习。
awk中的循环
FOR
格式: for(initialisation;condition;increment/decrement)action
for 语句首先执行初始化动作( initialisation ),然后再检查条件( condition )。如果条件为真,则执行动作( actio n ),然后执行递增( increment )或者递减( decrement )操作。只要条件为真循环就会一直执行。每次循环结束 都会进条件检查,若条件为假则结束 循环
代码语言:javascript复制awk 'BEGIN { for (i = 1; i <= 5; i) print i }' # 注意这里是 i,不是i
while
While 循环会一直执行动作直到逻辑条件为假为止,AWK 首先检查条件是否为真,若条件为真则执行动作。此过程一直重复直到条件为假时,则停止
代码语言:javascript复制awk 'BEGIN {i = 1; while (i < 6) { print i; i } }' # 等同上面的for语句
DO-WHILE
Do-While 循环与 While 循环相似,但是 Do-While 的条件测试放到了循环的尾部,在 do-while 循环中,无论条件是真是假,循环语句至少执行一次,执行后检查条件真假,使用格式如下:
代码语言:javascript复制do action
while (condition)
看一个案例:
代码语言:javascript复制awk 'BEGIN {i = 1; do { print i; i } while (i < 6) }'
break
break 用以结束循环过程
代码语言:javascript复制awk 'BEGIN {
sum = 0; for (i = 0; i < 20; i) {
sum = i; if (sum > 50) break; else print "Sum =", sum }
}'
continue
Continue 语句用于在循环体内部结束本次循环,从而直接进入下一次循环迭代。当我们希望跳过循环中某处数据 处理时就会用到 Continue
代码语言:javascript复制awk 'BEGIN {for (i = 1; i <= 20; i) {if (i % 2 == 0) print i ; else continue} }'
EXIT
Exit 用于结束脚本程序的执行。该函数接受一个整数作为参数表示 AWK 进程结束状态。如果没有提供该参数,其默认状态为 0
代码语言:javascript复制awk 'BEGIN { 10022 12:34:02
sum = 0; for (i = 0; i < 20; i) {
sum = i; if (sum > 50) exit(10); else print "Sum =", sum }
}'
Sum = 0
Sum = 1
Sum = 3
Sum = 6
Sum = 10
Sum = 15
Sum = 21
Sum = 28
Sum = 36
Sum = 45
root # echo ? #查看期退出的状态码为指定的10
10
内置函数
AWK 为程序开发者提供了丰富的内置函数。包括算术函数、字符串操作函数、时间操 作相关的函数、位操作函数以及其它各种各样的函数
算术函数
- exp(expr) 返回自然数e的expr次幂
awk 'BEGIN{printf "The exponential value of 5 is %f.n",exp(5)}'
- int(expr) 返回数值expr的整数部分
awk 'BEGIN {printf "34.1212的整数部分是: %d",int(34.1212)}'
awk 'BEGIN {param=4.232;result=int(param);printf "整数部分是:%d",result}'
- log(expr) 返回自然对数
- rand() 函数返回一个大于等于 0 小于 1 的随机数 N(0<= N < 1)
- sin(expr) 正弦函数返回角度 expr 的正弦值,角度以弧度为单位
- sqrt(expr) 计算 expr 的平方根
- srand([expr]) 使用种子值生成随机数,数值 expr 作为随机数生成器的种子值。如果没有指定 expr 的值则函数默认使 用当前系统时间作为种子值
awk 'BEGIN { param = 10
printf "srand() = %dn", srand()
printf "srand(%d) = %dn", param, srand(param) }'
字符串函数
- asort(arr,[, d [,how] ]) 函数使用 GAWK 值比较的一般规则排序 arr 中的内容,然后用以 1 开始的有序整数替换排序内容的索引
代码语言:javascript复制注意mac上的awk 20070501版本没有该函数
awk 'BEGIN {
arr[0] = "Three"
arr[1] = "One"
arr[2] = "Two"
print "Array elements before sorting:";
for (i in arr) {
print arr[i]
}
asort(arr)
print "Array elements after sorting:"
for (i in arr) {
print arr[i]
}
}'
- asorti(arr,[, d [,how] ]) asorti 函数的行为与 asort 函数的行为很相似,二者的差别在于 aosrt 对数组的值排序,而 asorti 对数组的索引 排序
- gsub(regx,sub, string) gsub 是全局替换( global substitution )的缩写。它将出现的子串(sub)替换为 regx。第三个参数 string 是可 选的,默认值为 $0,表示在整个输入记录中搜索子串
awk '{gsub("172.16.132.148","0.0.0.0");print }' docker-compose.yml # 替换docker-compose.yml中的172.16.132.148为0.0.0.0
- index(str,sub) index 函数用于检测字符串 sub 是否是 str 的子串。如果 sub 是 str 的子串,则返回子串 sub 在字符串 str 的开 始位置;若不是其子串,则返回 0。str 的字符位置索引从 1 开始计数
awk 'BEGIN {
str = "One Two Three"
subs = "Two"
ret = index(str, subs)
printf "Substring "%s" found at %d location.n", subs, ret }'
- length(str) 返回字符串的长度
- match(str, regex) match 返回正则表达式在字符串 str 中第一个最长匹配的位置。如果匹配失败则返回0。
- split(str, arr,regex) split 函数使用正则表达式 regex 分割字符串 str。分割后的所有结果存储在数组 arr 中。如果没有指定 regex 则 使用 FS 切分。
awk 'BEGIN {
str = "One,Two,Three,Four"
split(str, arr, ",")
print "Array contains following values"
for (i in arr) { print arr[i]
} }'
- sprintf(format,expr-list) sprintf 函数按指定的格式( format )将参数列表 expr-list 构造成字符串然后返回。
awk 'BEGIN {
str = sprintf("%s", "Hello, World !!!")
print str }'
- strtonum(str) strtonum 将字符串 str 转换为数值。如果字符串以 0 开始,则将其当作十进制数;如果字符串以 0x 或 0X 开 始,则将其当作十六进制数;否则,将其当作浮点数。
root@dev-node1:~# awk 'BEGIN {
> print "Decimal num = " strtonum("123")
> print "Octal num = " strtonum("0123")
> print "Hexadecimal num = " strtonum("0x123")
> }'
Decimal num = 123
Octal num = 83
Hexadecimal num = 291
- sub(regex,sub,string)sub 函数执行一次子串替换。它将第一次出现的子串用 regex 替换。第三个参数是可选的,默认为 $0。
- substr(str, start, l) substr 函数返回 str 字符串中从第 start 个字符开始长度为 l 的子串。如果没有指定 l 的值,返回 str 从第 start 个字符开始的后缀子串
root@dev-node1:~# awk 'BEGIN {
str = "Hello, World !!!"; subs = substr(str, 1, 5);
print "Substring = " subs }'
Substring = Hello
root@dev-node1:~# awk 'BEGIN {
str = "Hello, World !!!"; subs = substr(str, 1);
print "Substring = " subs }'
Substring = Hello, World !!!
- tolower(str) 此函数将字符串 str 中所有大写字母转换为小写字母然后返回。注意,字符串 str 本身并不被改变。
- toupper(str)此函数将字符串 str 中所有小写字母转换为大写字母然后返回。注意,字符串 str 本身不被改变。
时间函数
- systime 此函数返回从 Epoch 以来到当前时间的秒数
- mktime(dataspec) 此函数将字符串 dataspec 转换为与 systime 返回值相似的时间戳。dataspec 字符串的格式为 YYYY MM D D HH MM SS。
- strftime([format [, timestamp[, utc-flag]]]) 函数根据 format 指定的格式将时间戳 timestamp 格式化
位操作函数
- and 执行位与操作
- compl 按位求补
- lshift 左移位操作
awk 'BEGIN { num1 = 10
printf "lshift(%d) by 1 = %dn", num1, lshift(num1, 1) }'
- rshift 向右移位操作
- or 按位或操作
- xor 按位异或操作
其他函数
- delete 被用于从数组中删除元素
- exit 该函数终止脚本执行。它可以接受可选的参数 expr 传递 AWK 返回状态
- flush 函数用于刷新打开文件或管道的缓冲区
- getline 函数读入下一行
- next 停止处理当前记录,并且进入到下一条记录的处理过程
awk '{if ($0 ~/Shyam/) next; print $0}' marks.txt
- nextfile 停止处理当前文件,从下一个文件第一个记录开始处理
awk '{ if ($0 ~ /file1:str2/) nextfile; print $0 }' file1.txt file2.txt
- return 用于从用户自定义的函数中返回值。请注意,如果没有指定返回值,那么的返回值是未定义的
cat << EOF >> functions.awk
function addition(num1, num2) {
result = num1 num2
return result }
BEGIN {
res = addition(10, 20) print "10 20 = " res
}
EOF
- system 函数可以执行特定的命令然后返回其退出状态。返回值为 0 表示命令执行成功;非 0 表示命令执行失 败
awk 'BEGIN { ret = system("date"); print "Return value = " ret }'
输出重定向
- 重定向操作符
awk 'BEGIN { print "Hello, World !!!" > "/tmp/message.txt" }'
- 追加操作符
awk 'BEGIN { print "Hello, World !!!" > "/tmp/message.txt" }'
- 管道 除了使用文件在程序之间传递数据之外,AWK 还提供使用管道将一个程序的输出传递给另一个程序。这种重定 向方式会打开一个管道,将对象的值通过管道传递给管道另一端的进程,然后管道另一端的进程执行命令
awk 'BEGIN { print "hello, world !!!" | "tr [a-z] [A-Z]" }'
- 双向通信通道 AWK 允许使用 |& 与一个外部进程通信,并且可以双向通信。下面的例子中,我们仍然使用 tr 命令将字母转换为 大写字母
BEGIN {
cmd = "tr [a-z] [A-Z]"
print "hello, world !!!" |& cmd close(cmd, "to")
cmd |& getline out
print out;
close(cmd);
}
- 第一条语句 cmd = "tr [a-z] [A-Z]" 在AWK 中建立了一个双向的通信通道。
- 第二条语句 print 为 tr 命令提供输入。&| 表示双向通信。
- 第三条语句 close(cmd, "to") 执行后关闭 to 进程。
- 第四条语句 cmd |& getline out 使用 getline 函数将输出存储到 out 变量中。
- 接下来的输出语句打印输出的内容,最后 close 函数关闭 cmd