功能上新：CLS支持完全正则模式采集多行日志

操作场景

多行-完全正则模式适用于日志文本中一条完整的日志数据跨占多行（例如 Java 程序日志），可按正则表达式提取为多个 key-value 键值的日志解析模式。若不需要提取 key-value，请参阅多行全文格式进行配置。配置多行-完全正则模式时，您需要先输入日志样例，再自定义正则表达式。配置完成后，系统将根据正则表达式中的捕获组提取对应的 key-value。

如下内容将为您详细介绍如何如何采集多行-完全正则模式日志。

注意：多行-完全正则模式采集需升级至 Loglistener 2.4.5 版本，请前往安装最新版本。

前提条件

假设您的一条日志原始数据为：

代码语言：javascript复制

[2018-10-01T10:30:01,000] [INFO] java.lang.Exception: exception happened
   at TestPrintStackTrace.f(TestPrintStackTrace.java:3)
   at TestPrintStackTrace.g(TestPrintStackTrace.java:7)
   at TestPrintStackTrace.main(TestPrintStackTrace.java:16)

行首正则表达式为：

代码语言：javascript复制

[d -d -w :d :d ,d ]s[w ]s.*

配置的自定义正则表达式为：

代码语言：javascript复制

[(d -d -w :d :d ,d )]s[(w )]s(.*)

系统根据()捕获组提取对应的 key-value 后，您可以自定义每组的 key 名称如下所示：

代码语言：javascript复制

time： 2018-10-01T10:30:01,000`
level： INFO`
msg：java.lang.Exception: exception happened
   at TestPrintStackTrace.f(TestPrintStackTrace.java:3)
   at TestPrintStackTrace.g(TestPrintStackTrace.java:7)
   at TestPrintStackTrace.main(TestPrintStackTrace.java:16)

操作步骤

登录控制台

登录日志服务控制台。
在左侧导航栏中，单击【日志集管理】，进入日志集管理页面。

新增日志主题

选择您需要新增日志主题的日志集，单击该日志集ID/日志集名称，进入日志集信息页面。
单击【新增日志主题】。
在弹出的对话框中，将“日志主题名称”填写为“test-multi”，单击【确定】，即可新增日志主题。如下图所示：

3. 机器组管理

日志主题创建成功后，进入该日志主题管理页面。
选择【采集配置】页签，单击您需要采集的日志数据源格式。
在“机器组管理”页面，勾选需要与当前日志主题进行绑定的机器组，单击【下一步】。即可进入采集配置阶段，更多详情请参阅管理机器组。

采集配置

配置日志文件采集路径

在“采集配置”页面，根据日志采集路径格式，填写“采集路径”。如下图所示：日志采集路径格式：[目录前缀表达式]/**/[文件名表达式]。

填写日志采集路径后，LogListener 会按照[目录前缀表达式]匹配所有符合规则的公共前缀路径，并监听这些目录（包含子层目录）下所有符合[文件名表达式]规则的日志文件。其参数详细说明如下：

字段	说明
目录前缀	日志文件前缀目录结构，仅支持通配符 * 和 ?* 表示匹配多个任意字符? 表示匹配单个任意字符
/**/	表示当前目录以及所有子目录
文件名	日志文件名，仅支持通配符 * 和 ?* 表示匹配多个任意字符? 表示匹配单个任意字符

* 表示匹配多个任意字符
? 表示匹配单个任意字符

/**/表示当前目录以及所有子目录文件名日志文件名，仅支持通配符 * 和 ?

* 表示匹配多个任意字符
? 表示匹配单个任意字符

常用的配置模式如下：

[公共目录前缀]/**/[公共文件名前缀]*
[公共目录前缀]/*/[公共文件名后缀]
[公共目录前缀]/**/[公共文件名前缀]*[公共文件名后缀]
[公共目录前缀]/**/*[公共字符串]*

填写示例如下：

序号	目录前缀表达式	文件名表达式	说明
1.	/var/log/nginx	access.log	此例中，日志路径配置为/var/log/nginx/**/access.log，LogListener 将会监听/var/log/nginx前缀路径下所有子目录中以access.log命名的日志文件
2.	/var/log/nginx	*.log	此例中，日志路径配置为 /var/log/nginx/*/.log，LogListener 将会监听/var/log/nginx前缀路径下所有子目录中以 .log 结尾的日志文件
3.	/var/log/nginx	error*	此例中，日志路径配置为/var/log/nginx/*/error，LogListener 将会监听/var/log/nginx前缀路径下所有子目录中以error开头命名的日志文件

注意：

Loglistener 2.3.9及以上版本才可以添加多个采集路径。
默认情况下，一个日志文件只能被一个日志主题采集。如果一个文件需要对应多个采集配置，请给源文件添加一个软链接，并将其加到另一组采集配置中。

配置多行-完全正则模式

在“采集配置”页面，将“提取模式”设置为【多行-完全正则】，并在“日志样例”文本框中，输入日志样例，如下图所示：

根据如下规则，定义正则表达式。您可选择【自动生成】或者【手动输入】两种方式定义行首正则表达式，确定跨行日志边界。待表达式验证成功后，系统会为您判断行首正则表达式匹配的日志条数。
- 自动生成：单击【自动生成】，系统自动在置灰的文本框中生成行首正则表达式。如下图所示：
自动生成行首正则表达式
- 手动输入：在文本框中，手动输入行首正则表达式，单击【验证】，系统将判断表达式是否通过。如下图所示：
验证行首正则表达式
提取正则表达式系统有手动模式和自动模式两种方式定义正则表达式。您可手动输入表达式提取 key-value 进行验证，也可单击【正则表达式自动生成】切换为自动模式。系统会根据您选择的模式以及定义好的正则表达式，提取 key-value 进行正则表达式的验证。
- 手动模式：
手动验证正则表达式
1. 在“正则表达式”的文本框中，输入正则表达式。
2. 单击【验证】，系统将判断日志样例与正则表达式是否匹配。
- 自动模式 （单击【正则表达式自动生成】进行切换）：
  1. 在弹出的“正则表达式自动生成”模态视图中，根据实际的检索分析需求，选中需要提取 key-value 的日志内容，并在弹出的文本框中，输入键(key)名，单击【确认提取】。如下图所示：
  提取日志内容
  系统将自动对该部分内容提取一个正则表达式，【自动提取结果】会出现在 key-value 表格中。如下图所示：
  提取kv键
  1. 重复步骤 a，直到提取完所有的 key-value 对。如下图所示：
  完成kv键的提取
  1. 单击【确定】，系统将根据提取好的 key-value 对自动生成完整的正则表达式。如下图所示：
  自动生成正则表达式
说明：无论选择自动模式还是手动模式，正则提取模式均在完成定义并验证通过后，将提取结果展示在“抽取结果”中。您只需定义每一组 key-value 对的 key 名称，即可将该名称用于日志检索分析。

手动验证

当您的日志数据复杂时，可以将“手动验证”设置为

，即可开启手动验证。

输入多个日志样例，单击【验证】。系统将验证样例正则表达式的通过率。

配置采集时间

日志时间单位为：毫秒。
日志的时间属性有如下方式：
- 采集时间：默认作为日志的时间属性。
配置采集时间
- 原始时间戳：将“使用采集时间”设置为
，并填写原始时间戳的时间键以及对应的时间解析格式。时间解析格式请参见配置时间格式。
配置时间格式
采集时间：日志的时间属性由日志服务 CLS 采集该条日志的时间决定。
原始时间戳：日志的时间属性由原始日志中时间戳决定。

时间格式解析规则填写的示例如下：

示例1：日志样例原始时间戳：10/Dec/2017:08:00:00.000，解析格式为：%d/%b/%Y:%H:%M:%S.%f。
示例2：日志样例原始时间戳：2017-12-10 08:00:00.000，解析格式为：%Y-%m-%d %H:%M:%S.%f 。
示例3：日志样例原始时间戳：12/10/2017, 08:00:00.000，解析格式为：%m/%d/%Y, %H:%M:%S.%f。

注意：日志时间支持以毫秒为单位，若时间格式填写错误日志时间将以采集时间为准。

设定过滤器条件

过滤器旨在您根据业务需要添加日志采集过滤规则，帮助您筛选出有价值的日志数据。过滤规则为 Perl 正则表达式，所创建的过滤规则为命中规则，即匹配上正则表达式的日志才会被采集上报。

完全正则过来采集时，需要根据所自定义的键值对来配置过滤规则。例如，样例日志使用完全正则模式解析后，您希望 status 字段为400或500的所有日志数据被采集，那么 key 处配置 status，过滤规则处配置 400|500。

注意：多条过滤规则之间关系是"与"逻辑，若同一 key 名配置多条过滤规则，规则会被覆盖。

索引配置

单击【下一步】，进入“索引配置”页面。
在“索引配置”页面，设置如下信息。
- 索引状态：确认是否开启。
- 全文索引：确认是否需要设置大小写敏感。
- 全文分词符：默认为“@&()='",;:<>[]{}/ ntr”，确认是否需要修改。
- 键值索引：默认开启，您可根据 key 名按需进行字段类型、分词符以及是否开启统计分析的配置。若您不需要开启键值索引，可将
开启索引
设置为
关闭索引
。
单击【提交】，完成采集配置。如下图所示：