1 背景
我们想要提高微服务系统的可观察性,因此在go语言写的微服务中,使用Prometheus提供的go client实现上报metrics的功能。
2 什么是Exporter?
广义上讲,所有可以向Prometheus提供监控样本数据的程序都可以被称为一个Exporter。
而Exporter的一个实例称为target,如下所示,Prometheus通过轮询的方式定期从这些target中获取样本数据。
例如我有个微服务是用go语言写的,并且这个微服务部署了两个实例,且在每个实例中都对外提供了一个HTTP接口"/Metrics",然后Prometheus可以通过这个HTTP接口访问到该实例上的Metrics信息。
在这个例子中,go代码里的HTTP接口"/Metrics"的相关代码就是一个Exporter,而每个微服务实例中的这个HTTP接口就是一个target。
3 Prometheus以轮询的方式Pull拉取Metrics
Prometheus如何获取target里的Metrics信息?
Prometheus整体架构是以Pull的形式获取Metrics信息,因此它会以轮询的方式,从target那获取Metrics信息,例如访问target对外暴露的HTTP接口获取Metrics信息。
4 Target是如何在本地存储Metrics的?
我们以Counter类型的Metric为例。
4.1 基于Go Client开发的Exporter
代码语言:javascript复制package main
import (
"github.com/prometheus/client_golang/prometheus"
"net/http"
"github.com/prometheus/client_golang/prometheus/promhttp"
"time"
"math/rand"
"fmt"
)
// Counter类型的Metric
var httpRequestCount = prometheus.NewCounterVec(
prometheus.CounterOpts{
Name: "http_request_count", // Metric的name
Help: "http request count"}, // Metric的说明信息
[]string{"endpoint"}) // Metric有一个Label,名称是endpoint,Metric形如 http_request_count(endpoint="")
// Gauge类型的Metric
var orderNum = prometheus.NewGauge(
prometheus.GaugeOpts{
Name: "order_num",
Help: "order num"})
// Summary类型的Metric
var httpRequestDuration = prometheus.NewSummaryVec(
prometheus.SummaryOpts{
Name: "http_request_duration",
Help: "http request duration",
},
[]string{"endpoint"},
)
// 将Metric注册到本地的Prometheus
func init() {
prometheus.MustRegister(httpRequestCount)
prometheus.MustRegister(orderNum)
prometheus.MustRegister(httpRequestDuration)
}
func main() {
// Exporter
http.Handle("/metrics", promhttp.Handler()) // 对外暴露metrics接口,等待Prometheus来拉取
http.HandleFunc("/hello/", hello) // 处理业务请求,并变更Metric信息
ipport := "127.0.0.1:8888"
fmt.Println("服务器启动%s", ipport)
err := http.ListenAndServe(ipport, nil)
if err != nil {
fmt.Println(err)
}
}
func hello(w http.ResponseWriter, r *http.Request) {
fmt.Printf("process one request = %sn", r.URL.Path)
// Counter类型的Metric只能增
httpRequestCount.WithLabelValues(r.URL.Path).Inc()
start := time.Now()
n := rand.Intn(100)
// Gauge类型的Metric可增可减
if n >= 90 {
orderNum.Dec()
time.Sleep(100 * time.Millisecond)
} else {
orderNum.Inc()
time.Sleep(50 * time.Millisecond)
}
// Summary类型Metric
elapsed := (float64)(time.Since(start) / time.Millisecond)
httpRequestDuration.WithLabelValues(r.URL.Path).Observe(elapsed)
w.Write([]byte("ok"))
}
4.2.1 声明Counter类型变量
代码语言:javascript复制// Counter类型的Metric
var httpRequestCount = prometheus.NewCounterVec(
prometheus.CounterOpts{
Name: "http_request_count", // Metric的name
Help: "http request count"}, // Metric的说明信息
[]string{"endpoint"}) // Metric有一个Label,名称是endpoint,Metric形如 http_request_count(endpoint="")
4.2.2 Counter类型定义
代码语言:javascript复制// Counter定义
type CounterVec struct {
*MetricVec
}
// MetricVec定义
type MetricVec struct {
*metricMap // Metric最终是存在这里
curry []curriedLabelValue
// hashAdd and hashAddByte can be replaced for testing collision handling.
hashAdd func(h uint64, s string) uint64
hashAddByte func(h uint64, b byte) uint64
}
4.2.3 counter.go WithLabelValues方法
重点:
一个指标由Metric name Labels共同确定。
若Metric name相同,但Label的值不同,则是不同的Metric。
例如:http_request_count(endpoint="hello"),http_request_count(endpoint="world")是两个不同的指标
代码语言:javascript复制// @Param lvs 表示label values
func (v *CounterVec) WithLabelValues(lvs ...string) Counter {
c, err := v.GetMetricWithLabelValues(lvs...) // 根据label的值来找对应的Metric
if err != nil {
panic(err)
}
return c
}
4.2.4 counter.go GetMetricWithLabelValues方法
代码语言:javascript复制// 根据label的值来找对应的Metric
// @Param lvs表示label value
func (v *CounterVec) GetMetricWithLabelValues(lvs ...string) (Counter, error) {
metric, err := v.MetricVec.GetMetricWithLabelValues(lvs...)
if metric != nil {
return metric.(Counter), err
}
return nil, err
}
4.2.5 vec.go GetMetricWithLabelValues方法
代码语言:javascript复制// 根据label值找对应的metric
func (m *MetricVec) GetMetricWithLabelValues(lvs ...string) (Metric, error) {
h, err := m.hashLabelValues(lvs) // 获取label对应的hash值,非重点不展开讲,这块的核心是,若hash值一样,则对应的Metric是同一个
if err != nil {
return nil, err
}
// 根据hash值从metricMap里get对应的metric
// 若不存在则新创建一个metric并放入到metricMap里
return m.metricMap.getOrCreateMetricWithLabelValues(h, lvs, m.curry), nil
}
4.2.6 metricMap的结构,Metric最终存到一个map里,key=根据label值计算出的hash值,value=Metric元信息
代码语言:javascript复制// metricMap定义,Exporter的Metric都存在这个结构中
type metricMap struct {
mtx sync.RWMutex // Protects metrics.
metrics map[uint64][]metricWithLabelValues // Metric最终存到一个map里,key=根据label值计算出的hash值,value=Metric元信息
desc *Desc
newMetric func(labelValues ...string) Metric
}
type metricWithLabelValues struct {
values []string // label的值
metric Metric // Metric的meta信息
}
5 Prometheus拉取Exporter的哪些数据?
代码语言:javascript复制// Prometheus拉取的入口
http.Handle("/metrics", promhttp.Handler())
// http.go promhttp.Handler()
func Handler() http.Handler {
return InstrumentMetricHandler(
prometheus.DefaultRegisterer, HandlerFor(prometheus.DefaultGatherer, HandlerOpts{}),
)
}
// http.go HandlerFor
func HandlerFor(reg prometheus.Gatherer, opts HandlerOpts) http.Handler {
// 省略部分代码
mfs, err := reg.Gather() // 收集Metric信息
// 省略部分代码
}
// prometheus.DefaultGatherer
// registry.go
var (
defaultRegistry = NewRegistry() // DefaultGatherer就是defaultRegistry
DefaultRegisterer Registerer = defaultRegistry
DefaultGatherer Gatherer = defaultRegistry
)
// registry.go
// Gather implements Gatherer. 负责收集metrics信息
func (r *Registry) Gather() ([]*dto.MetricFamily, error) {
// 省略部分代码
// 声明Counter类型的Metric后,需要MustRegist注册到Registry,最终就是保存在collectorsByID里
// Counter类型本身就是一个collector
for _, collector := range r.collectorsByID {
checkedCollectors <- collector
}
// 省略部分代码
collectWorker := func() {
for {
select {
case collector := <-checkedCollectors:
collector.Collect(checkedMetricChan) // 执行Counter的Collect,见下文
case collector := <-uncheckedCollectors:
collector.Collect(uncheckedMetricChan)
default:
return
}
wg.Done()
}
}
// 省略部分代码
}
// vec.go
// Collect implements Collector.
// Counter类型的Collect方法
func (m *MetricVec) Collect(ch chan<- Metric) { m.metricMap.Collect(ch) }
// vec.go
// Collect implements Collector.
// 返回metricMap里所有的Metric
func (m *metricMap) Collect(ch chan<- Metric) {
m.mtx.RLock()
defer m.mtx.RUnlock()
for _, metrics := range m.metrics {
for _, metric := range metrics {
ch <- metric.metric
}
}
}
至此,可见Prometheus拉取的就是Counter类型的metricMap里的 metric数据。
这里有一点要注意:Prometheus拉取metric后并没有删除Local的metric信息。