Shell 编程(五):文本三剑客之 sed

2023-02-17 17:10:24 浏览数 (1)

Sed 的工作模式

sed(Stream Editor)是一种流编辑器,sed 是对标准输出或文件逐行进行处理。sed 会在编辑器处理数据以前基于预先提供的一组规则来编辑数据流。能够根据命令来处理数据流中的数据,这些命令要么从命令行中输入,要么存储在一个命令文本文件中。

语法格式

第一种形式

代码语言:javascript复制
stdout | sed [option] "/pattern/command"

第二种形式

代码语言:javascript复制
sed [option] "/pattern/command" file

不加 pattern 则匹配全部

处理过程

  1. 依次次从输入中读取一行数据。
  2. 根据所提供的编辑器命令匹配数据。
  3. 按照命令修改流中的数据。
  4. 将新的数据输出到 STDOUT。

sed 的选项

选项

含义

-n

只打印模式匹配行

-e

直接在命令行进行sed编辑【默认选项】

-f

编辑动作保存在文件中,指定文件执行

-r

支持 扩展正则表达式

-i

直接修改文件内容

例子

  1. 匹配全部行
代码语言:javascript复制
> vim sed.txt
I love python
I love php
I love PYTHON
# 不加 -n 参数默认会打印匹配行和非匹配行
> sed 'p' sed.txt
I love python
I love python
I love php
I love php
I love PYTHON
I love PYTHON
> sed -n 'p' sed.txt 
I love python
I love php
I love PYTHON
  1. 匹配字符串
代码语言:javascript复制
> sed -n 'p' sed.txt 
I love python
I love php
I love PYTHON
  1. 匹配多个表达式
代码语言:javascript复制
> sed -n -e '/python/p' -e '/PYTHON/p' sed.txt
I love python
I love PYTHON
  1. 指定文件执行
代码语言:javascript复制
> vim edit.sed
/python/p
> sed -n -f edit.sed sed.txt
I love python
  1. 匹配扩展正则表达式
代码语言:javascript复制
> sed -n -r '/python|PYTHON/p' sed.txt 
I love python
I love PYTHON
  1. 替换字符串
代码语言:javascript复制
> sed -n 's/love/like/g;p' sed.txt    
I like python
I like php
I like PYTHON
> cat sed.txt 
I love python
I love php
I love PYTHON
> sed -i 's/love/like/g' sed.txt 
> cat sed.txt 
I like python
I like php
I like PYTHON

不加 -i 参数只会输出替换结果,并不会替换文件的内容

sed 中 pattern 详解

匹配模式

含义

10command

匹配到第10行

10,20command

匹配从第10行开始,到第20行结束

10, 5command

匹配从第10行开始,到第16行结束

/pattern1/command

匹配到pattern1的行【常用】

/pattern1/,/pattern2/command

匹配到pattern1的行开始,到匹配到pattern2的行结束【常用】

10,/pattern1/command

匹配从第10行开始,到匹配到pettern1的行结束

/pattern1/, 10command

匹配到pattern1的行开始,到第10行匹配结束

例子

  1. 直接打印第 10 行
代码语言:javascript复制
> sed -n '10p' passwd 
operator:x:11:0:operator:/root:/sbin/nologin
  1. 指定起始行号和结束行号
代码语言:javascript复制
> sed -n '1,10p' passwd 
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
  1. 指定起始行号,然后后面 N 行
代码语言:javascript复制
> sed -n '8, 2p' passwd 
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
  1. 正则表达式匹配的行 【常用】
代码语言:javascript复制
> sed -n '/^root/p' passwd
root:x:0:0:root:/root:/bin/bash
  1. 从匹配到 pattern1 的行,到匹配到 pattern2 【常用】
代码语言:javascript复制
> sed -n '/^ftp/,/^mail/p' passwd 
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
nobody:x:65534:65534:Kernel Overflow User:/:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin
...
redis:x:1002:1002::/home/redis:/sbin/nologin
mysql:x:1003:1003::/home/mysql:/sbin/nologin
  1. 从指定行号开始匹配,直到匹配到 pattern1 的内容
代码语言:javascript复制
> sed -n '8,/operator/p' passwd 
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
  1. 从 pattern1 匹配的行开始,直到匹配到指定行
代码语言:javascript复制
> sed -n '/operator/,12p' passwd
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin

sed 中的编辑命令详解

类别

编辑命令

含义

查询

p

打印

增加

a

行后追加

增加

i

行前追加

增加

r

外部文件读入,行后追加

增加

w

匹配行写入外部文件

删除

d

删除

修改

s/old/new

将行内第一个old替换为new

修改

s/old/new/ g

将行内全部的old替换为new

修改

s/old/new/2

将行内第2个开始的old替换为new

修改

s/old/new/ig

将行内olg全部替换为new,忽略大小写

例子

  1. 删除 /sbin/nologin 登入的用户
代码语言:javascript复制
> sed -i '/sbin/nologin/d' passwd
> cat passwd
root:x:0:0:root:/root:/bin/bash
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
  1. 删除以 mail 开头的行到以 ftp 开头的行
代码语言:javascript复制
> sed -i '/^mail/,/^ftp/d' passwd 
  1. 将能登入的用户追加一行 ‘This is user which can login to system’ passwd ’
代码语言:javascript复制
> sed -i '//bin/bash/a This is user which can login to system' passwd 
> cat passwd
root:x:0:0:root:/root:/bin/bash
This is user which can login to system
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
...
  1. 将 sed.txt 内容追加 /sbin/nologin 行后
代码语言:javascript复制
> sed -i '/root/r sed.txt' passwd 
> cat passwd 
root:x:0:0:root:/root:/bin/bash
I like python
I like php
I like PYTHON
bin:x:1:1:bin:/bin:/sbin/nologin
  1. 将匹配的 /bin/bash 行存入 user_login.txt 中
代码语言:javascript复制
> sed -i '//bin/bash/w user_login.txt' passwd 
> cat user_login.txt 
root:x:0:0:root:/root:/bin/bash
  1. 将 passwd 文件中 /sbin/nologin 替换 /SBIN/NOLOGIN
代码语言:javascript复制
> sed -i 's//sbin/nologin//SBIN/NOLOGIN/g' passwd 
> cat passwd 
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/SBIN/NOLOGIN
daemon:x:2:2:daemon:/sbin:/SBIN/NOLOGIN
adm:x:3:4:adm:/var/adm:/SBIN/NOLOGIN
lp:x:4:7:lp:/var/spool/lpd:/SBIN/NOLOGIN
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/SBIN/NOLOGIN
  1. 显示匹配的行号
代码语言:javascript复制
> sed -n '//sbin/nologin/=' passwd 
2
3
4
5
9
10
11

增、删、改、查都可以结合上街 sed 中 pattern 详解

反向引用

什么是反向引用?

&1 引用模式匹配到的整个串。

代码语言:javascript复制
sed 's/1..e/&r/g' file
sed 's/(1..e) /1r/g' file

两种方式实现了一样的功能,分别使用 &1 引用前面匹配到的整个字符串,区别在于 & 只能表示匹配到的完整字符串,只能引用整个宇符串;而 1 可以使用 () 对匹配到的字符串。

例子

新建文件

代码语言:javascript复制
> vim str.txt
hadoops is a bigdata frame
Spark hadoops Kafka
Skill on hadoops
Paper of hadoops
  1. 通过正则匹配 had..p 整句后加 s 【 & 反向引用】
代码语言:javascript复制
> sed -i 's/had..p/&s/g' str.txt
> cat str.txt
hadoopss is a bigdata frame
Spark hadoopss Kafka
Skill on hadoopss
Paper of hadoopss
  1. 通过正则匹配 had..p 整句后加 doop 【 1 反向引用】
代码语言:javascript复制
> sed -i 's/(had)..p/1doop/g' str.txt
> cat str.txt
haddoops is a bigdata frame
Spark haddoops Kafka
Skill on haddoops
Paper of haddoops

1 相当于站位符,替换了前面的 ()。当然也可以多写几个括号,再通过 12、…使用。

注意事项
  1. 匹配模式中存在变量,则建议使用双引号。
  2. sed 中需要引入自定义变量时,如果外面使用单引号,则自定义变量也必须使用单引号。

利用 sed 查找文件内容

练习

  1. 打印 /etc/passwd 中第 20 行的内容
代码语言:javascript复制
> sed -n '20p' /etc/passwd
chrony:x:996:993::/var/lib/chrony:/sbin/nologin
  1. 打印 /etc/passwd 中从第 8 行开始,到第 15 行结束的内容
代码语言:javascript复制
> sed -n '8,15p' /etc/passwd
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
nobody:x:65534:65534:Kernel Overflow User:/:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin
systemd-coredump:x:999:996:systemd Core Dumper:/:/sbin/nologin
  1. 打印 /ete/passwd 中人第 8 行开始,然后 5 行结束的内容
代码语言:javascript复制
> sed -n '8, 5p' /ete/passwd
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
nobody:x:65534:65534:Kernel Overflow User:/:/sbin/nologin
  1. 打印 /etc/passwd 中开头匹配 root 字符串的内容
代码语言:javascript复制
> sed -n '/^root/p' /etc/passwd
root:x:0:0:root:/root:/bin/bash
  1. 打印 /etc/passwd 中第 8 行开始,到含有 /sbin/nologin 的内容
代码语言:javascript复制
> sed -n '8,//sbin/nologin/p'  /etc/passwd
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
  1. 打印 /etc/passwd 中开头为 root 的行开始,到开头为 halt 的行结束的内容
代码语言:javascript复制
> sed -n '/^root/,/^halt/p' /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
  1. 打印 /etc/passwd 中第一个包含 /bin/bash 内容的行开始,到第 5 行结束的内容
代码语言:javascript复制
> sed -n '//bin/bash/,5p' /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin

实战

处理一个类似 MySql 配置文件 my.cnf 的文本,示例如下; 编写脚本实现以下功能:输出文件有几个段,并且针对每个段可以统计配置参数总个数;

my.cnf 如下 预想输出:

代码语言:javascript复制
client 2 
mysqld 19
...
代码语言:javascript复制
[client]
#password	= your_password
port		= 3306
socket		= /tmp/mysql.sock

[mysqld]
port		= 3306
socket		= /tmp/mysql.sock
datadir = /www/server/data
default_storage_engine = InnoDB
performance_schema_max_table_instances = 400
table_definition_cache = 400
skip-external-locking
key_buffer_size = 32M
max_allowed_packet = 100G
table_open_cache = 128
sort_buffer_size = 768K
net_buffer_length = 4K
read_buffer_size = 768K
read_rnd_buffer_size = 256K
myisam_sort_buffer_size = 8M
thread_cache_size = 16
query_cache_size = 16M
tmp_table_size = 32M
sql-mode=NO_ENGINE_SUBSTITUTION,STRICT_TRANS_TABLES

explicit_defaults_for_timestamp = true
#skip-name-resolve
max_connections = 500
max_connect_errors = 100
open_files_limit = 65535

log-bin=mysql-bin
binlog_format=mixed
server-id = 1
expire_logs_days = 10
slow_query_log=1
slow-query-log-file=/www/server/data/mysql-slow.log
long_query_time=3
#log_queries_not_using_indexes=on
early-plugin-load = ""


innodb_data_home_dir = /www/server/data
innodb_data_file_path = ibdata1:10M:autoextend
innodb_log_group_home_dir = /www/server/data
innodb_buffer_pool_size = 128M
innodb_log_file_size = 64M
innodb_log_buffer_size = 16M
innodb_flush_log_at_trx_commit = 1
innodb_lock_wait_timeout = 50
innodb_max_dirty_pages_pct = 90
innodb_read_io_threads = 2
innodb_write_io_threads = 2

[mysqldump]
quick
max_allowed_packet = 500M

[mysql]
no-auto-rehash

[myisamchk]
key_buffer_size = 32M
sort_buffer_size = 768K
read_buffer = 2M
write_buffer = 2M

[mysqlhotcopy]
interactive-timeout

代码

代码语言:javascript复制
#!/bin/bash

FILE_NAME=$(pwd)'/my.cnf'

function get_all_segments {
  sed -n '/[.*]/p' $FILE_NAME | sed -e 's/[//g' -e 's/]//g'
}

function count_items_in_segment {
  items=`sed -n "/[.*$1.*]/,/[.*]/p" $FILE_NAME | grep -v "^#" | grep -v "^$"|grep -v "[.*]"`
#  echo $items
  index=0

  for item in $items
  do
    index=`expr $index   1`
  done
  echo $index
}

for segment in `get_all_segments`
do
echo $segment `count_items_in_segment $segment`
done

利用 sed 删除特定内容

查询命令

含义

1d

删除第 1 行内容

1,10d

删除 1 行到 10 行的内容

1, 5d

删除 1 行到 6 行的内容

/pattern1/d

删除每行中匹配到 pattern1 的行内容

/pattern1/,/pattern2/d

删除匹配到 pattern1 的行直到匹配到 pattern2 的所有行内容

/pattern1/,10d

删除匹配到 pattern1 的行到 10 行的所有行内容

10,/pattern1/d

删除第 10 行直到匹配到 pattern1 的所有行内容

例子

  1. 删除配置文件 /etc/nginx 中的所有注释行和空行
代码语言:javascript复制
> sed -i '/[:blank:]*#/d;/^$/d' nginx 
  1. 在配置文件 /etc/nginx 中所有不以 # 开头的行前面添加 * 符号,注意:以 # 开头的行不添加
代码语言:javascript复制
> sed -i 's/^[^#]/*&/g' nginx 
  1. 删除 /etc/passwd 中的第 15 行
代码语言:javascript复制
> sed -i '15d' passwd
  1. 删除 /etc/passwd 中第 5 行到以 ftp 开头的所有行的内容
代码语言:javascript复制
> sed -i '5,/^ftp/d' passwd 

利用 sed 修改文件内容

编辑命令

含义

1s/old/new/

替换第1 行内容 old 为 new

1,10s/old/new/

替换 1 行到 10 行的内容 old 为 new

1, 5s/old/new/

替换 1 行到 6 行的内容 old 为 new

/pattern1/s/old/new/

替换匹配到 pattern1 的行内容 old 为 new

/pattern1/,/pattern2/s/old/new/

替换匹配到 pattern1 的行直到匹配到 pattern2 的所有行内容 old 为 new

/pattern1/, 10s/old/new/

替换匹配到 pattern1 的行到 10 行的所有行内容 old 为 new

10,/pattern 1/s/old/new/

替换第 10 行直到匹配到 pattern1 的所有行内容 old 为 new

例子

  1. 修改 /etc/passwd 中第 1 行中第 1 个 root 为 ROOT
代码语言:javascript复制
> sed -i '1s/root/ROOT/' passwd 
> cat passwd 
  1. 修改 /etc/passwd 中第 5 行到第 10 行中所有的 /sbin/nologin 为 /bin/bash
代码语言:javascript复制
> sed -i '5,10s//sbin/nologin//bin/bash/g' passwd
> cat passwd 
  1. 修改 /etc/passwd 中匹配到 /sbin/nologin 的行,将匹配到行中的 login 改为大写的 LOGIN
代码语言:javascript复制
> sed -i '//sbin/nologin/s/login/LOGIN/g' passwd
> cat passwd
  1. 修改 /etc/passwd 中从匹配到以 root 开头的行,到匹配到行中包含 mail 的所有行。修改内为将这些所有匹配到的行中的 bin 改为 HADOOP
代码语言:javascript复制
> sed -i '/^root/,/mail/s/bin/HADOOP/g' passwd 
> cat passwd 
  1. 修改 /etc/passwd 中从匹配到以 root 开头的行,到第 15 行中的所有行,修改内容为将这些行中的 nologin 修改为 SPARK
代码语言:javascript复制
> sed -i '/^root/,15s/nologin/SPARK/g' passwd
> cat passwd 
  1. 修改 /etc/passwd 中从第 15 行开始,到匹配到以 yarn 开头的所有行,修改内容为将这些行中的 bin 换位 BIN
代码语言:javascript复制
> sed -i '15,/^yarn/s/bin/BIN/g' passwd 
> cat passwd 

利用 sed 追加文件内容

追加用法

含义

a

在匹配行后面追加

i

在匹配行前面追加

r

将文件内容追加到匹配行后面

w

将匹配行写入指定文件

  1. passwd 文件匹配到 /bin/bash 的行后面追加 “Insert Line For /bin/bash Behind”
代码语言:javascript复制
> sed -i '//bin/bash/a Insert Line For /bin/bash Behind' passwd
> cat passwd
  1. passwd 文件每一行前面都追加 “Insert Line Before Every Line”
代码语言:javascript复制
> sed -i 'Insert Line Before Every Line' passwd
> cat passwd
  1. 将 /etc/vconsole.conf 文件内容追加到 passwd 文件中特定行后面,匹配以 ftp 开头的行,到第 18 行的所有行
代码语言:javascript复制
> sed -i '/^ftp/,18r /etc/vconsole.conf' passwd
> cat passwd
  1. 将 passwd 文件从第 10 行开始,到匹配到 hdfs 开头的所有行内容追加到 /tmp/sed-1.txt
代码语言:javascript复制
> sed -i '10,/^hdfs/w /tmp/sed-1.txt' passwd
> cat /tmp/sed-1.txt

0 人点赞