一个高性能的web服务是如何搭建的?

2019-12-05 14:45:11 浏览数 (1)

阅读文本大概需要 8 分钟。

用过 Flask 框架的朋友都知道,Flask 自带的 wsgi 性能低下,不支持高并发。

只适合你开发调试的时候用,所以在线上一般都使用 Nginx gunicorn 才能获得更强的性能和更高的安全性!

gunicorn 是一个 python Wsgi http server,只支持在 Unix 系统上运行,下面我们来熟悉一下以 gunicorn 的配置与使用。

一、gunicorn 的安装

注意 gunicorn 不能在 windows 环境下使用

pip install gunicorn

比如有以下一个 app 的 py 文件

代码语言:javascript复制
 1from flask import Flask  
 2
 3app = Flask(__name__)  
 4
 5
 6@app.route('/')  
 7def index():  
 8    return 'hello world!' 
 9
10if __name__ == '__main__':  
11    app.run()   

那么我们在 flask 的项目的目录下如何使用 gunicorn 来启动呢? 命令如下:

代码语言:javascript复制
1gunicorn -w 4 -b 0.0.0.0:8000 app:app

其中: 第一个 app 指的是 app.py 文件; 第二个指的是第三行代码 flask 应用的名字。

二、gunicorn 的参数详解

通过 gunicorn -h 我们可以看到 gunicorn 有非常多的配置项,我将他们的参数配置项都列出来了,供大家参考:

代码语言:javascript复制
 1-c CONFIG : CONFIG,配置文件的路径,通过配置文件启动;生产环境使用;
 2
 3-b ADDRESS : ADDRESS,ip加端口,绑定运行的主机;
 4
 5-w INT,  --workers INT:用于处理工作进程的数量,为正整数,默认为1;
 6
 7-k STRTING, --worker-class STRTING:要使用的工作模式,默认为sync异步,可以下载eventlet和gevent并指定
 8--threads INT:处理请求的工作线程数,使用指定数量的线程运行每个worker。为正整数,默认为1。
 9
10--worker-connections INT:最大客户端并发数量,默认情况下这个值为1000。
11
12--backlog int:未决连接的最大数量,即等待服务的客户的数量。默认2048个,一般不修改;
13
14-p FILE, --pid FILE:设置pid文件的文件名,如果不设置将不会创建pid文件
15
16--access-logfile FILE : 要写入的访问日志目录
17
18--access-logformat STRING:要写入的访问日志格式
19
20--error-logfile FILE, --log-file FILE :  要写入错误日志的文件目录。
21
22--log-level LEVEL :  错误日志输出等级。
23
24--limit-request-line INT : HTTP请求头的行数的最大大小,此参数用于限制HTTP请求行的允许大小,默认情况下,这个值为4094。值是0~8190的数字。
25
26--limit-request-fields INT : 限制HTTP请求中请求头字段的数量。此字段用于限制请求头字段的数量以防止DDOS攻击,默认情况下,这个值为100,这个值不能超过32768
27
28--limit-request-field-size INT : 限制HTTP请求中请求头的大小,默认情况下这个值为8190字节。值是一个整数或者0,当该值为0时,表示将对请求头大小不做限制
29
30-t INT, --timeout INT:超过这么多秒后工作将被杀掉,并重新启动。一般设定为30秒;
31
32--daemon:是否以守护进程启动,默认false;
33
34--chdir :在加载应用程序之前切换目录;
35
36--graceful-timeout INT:默认情况下,这个值为30,在超时(从接收到重启信号开始)之后仍然活着的工作将被强行杀死;一般使用默认;
37
38--keep-alive INT:在keep-alive连接上等待请求的秒数,默认情况下值为2。一般设定在1~5秒之间。
39
40--reload:默认为False。此设置用于开发,每当应用程序发生更改时,都会导致工作重新启动。
41
42--spew:打印服务器执行过的每一条语句,默认False。此选择为原子性的,即要么全部打印,要么全部不打印;
43
44--check-config :显示现在的配置,默认值为False,即显示。
45
46-e ENV,  --env ENV: 设置环境变量;
47

是不是觉得 gunicorn 的参数很多?在部署的时候如果输入这么大一串命令,我相信就算是对参数很熟悉的人,也有可能会输错!

那么,有没有更方便的方法呢?当然!那就是用以配置文件的方式启动。

三、以配置文件的方式启动

一般这个配置文件名是 gunicorn.conf.py 或者 config.py。其中部分代码如下:

代码语言:javascript复制
 1# 并行工作进程数
 2workers = 4
 3
 4# 指定每个工作者的线程数
 5threads = 2
 6
 7# 端口 5000
 8bind = '0.0.0.0:5000'
 9
10# 设置守护进程,将进程交给supervisor管理
11daemon = 'false'
12
13# 工作模式协程
14worker_class = 'gevent'
15
16# 设置最大并发量
17worker_connections = 2000
18
19# 设置进程文件目录
20pidfile = '/var/run/gunicorn.pid'
21
22# 设置访问日志和错误信息日志路径
23accesslog = "log/access.log"
24errorlog = "log/debug.log"
25loglevel = "debug"
26
27# 设置日志记录水平
28loglevel = 'warning'

代码里面的注释都很详细了,但是还是有几点需要说明的:

1.日志

配置文件中指定了日志文件的输出目录,需要注意的是:

  • 需要log目录存在,如果不存在,启动会报错
  • accesslog 是访问日志,可以通过 access_log_format 设置访问日志格式
  • loglevel 用于控制 errorlog 的信息级别

不过更建议使用 logging 模块来管理日志

2. workers
  • worker_class 是指开启的每个工作进程的模式类型,默认为 sync 模式,这个使用 gevent 模式,gevent 是 python 的一个高并发库
  • workers 是并行工作进程数 ,在上述配置文件中,取的是服务器的 CPU的数量。
  • 需要注意的是,这个数字不是越大越好,因为我们还要注意部署机器的性能,不能无限制多开。一般是根据服务器的 CPU核心数来确定的!
  • workers = multiprocessing * cpu_count() * 2 1

配置文件搞定之后,启动命令就很简单了。启动 gunicorn 命令如下:

代码语言:javascript复制
1gunicorn -c gunicorn.conf app:app

THANKS

- End -

0 人点赞