装在笔记本里的私有云环境:K8s 集群准备

2022-11-29 23:34:11 浏览数 (1)

本篇是系列中的第六篇内容,继续聊聊如何把一个简化过的私有云环境部署在笔记本里,以满足低成本、低功耗、低延时的实验环境。

在前几篇内容中,我们聊过了:虚拟化、监控、基础的存储、持续集成等内容,接下来的内容中,我们聊聊 K8s 集群的部署和配置相关的内容。

前置准备

因为一台笔记本的计算资源有限,想要顺滑的使用在一台设备中安装和使用 K8s 集群,其实还是有一些挑战的。为此我们需要做一些前置的准备,包括硬件资源分配、网络规划、软件准备。

除此之外,为了让程序运行的更加丝滑,在本文中,对于之前使用的虚拟化方案的资源分配进行了一些调整。

我们先来聊聊硬件方面的准备。

硬件准备

搭建私有云使用的硬件搭建私有云使用的硬件

本文使用的设备是去年购置的笔记本之一,搭载了 AMD Zen3 的 ThinkBook 15,一句话来概括设备特点是:使用能耗控制出众的 7nm 的芯片,拥有 8C16T 的计算资源,设备本身没有 CPU 功耗限制,能够扩展一条 32G 内存将容量提升至 40GB,拥有两个硬盘位,本身具备不错的扩展性。

关于这台设备,我在去年的文章《 AMD 4750u 及 5800u 笔记本安装 Ubuntu 20.04 》中有提到过,感兴趣可以自行翻阅。如果你没有这台设备,但是同样希望只在一台设备中完成各种环境的模拟和测试,可以根据自己实际情况调整,在选择的过程中建议尽可能选择颗心数更多的设备,方便虚拟化资源分配。

安装了 ESXi 的笔记本设备安装了 ESXi 的笔记本设备

在准备好设备之后,便需要选择合适自己的虚拟化方案,在之前的文章《AMD 5800u 笔记本折腾 Proxmox VE 7.0 虚拟化》、《NUC 折腾笔记 - 安装 ESXi 7》中,我们提到过 PVE 和 ESXi 两个常见的简单方案的安装部署。这里选择哪一种都不影响最终的结果,这里根据自己的实际需求选择即可。 在一些设备上 PVE 能够相对简单的提供显卡的“直通”,所以如果你需要折腾“硬件直通”,可以选择 PVE。因为之前构建过 ESXi 的镜像,也申请了免费的 License,所以这里我的选择是 ESXi。更多的细节可以参考《装在笔记本里的私有云环境:准备篇》中关于“虚拟化环境”的介绍和比较部分。

让屏幕休眠运行的一种方案让屏幕休眠运行的一种方案

如果笔记本长时间运行,我们又不使用屏幕进行交互,不仅有一些浪费电力资源,还会出现不必要的积温。有一些设备支持使用键盘快捷键关闭屏幕,而更多的设备则设计了一个人性化的交互:当笔记本屏幕闭合到一定程度的时候,为屏幕断电。所以,如果你不希望屏幕一直亮着,可以参考上面的方式,在屏幕闭合处放一个手环之类的东西,让屏幕处于关闭但是没有完全关闭的状态。

网络公开的方案设计中,有的作者会考虑 “All in One”,将网络地址的分配和管理交给 ESXi 或者 PVE 的“软路由”虚拟机来负责,启动一个虚拟机来运行 Bind9 或者直接跑一个 OpenWRT。

但是,如果我们“精打细算”一番,会发现如果想要最高性价比的使用有限的 CPU 核心资源,并且保证任意虚拟机进入重启等维护状态时,整套设备不陷入瘫痪。最简单的方案是使用外部的服务,来完成网络地址分配和管理等事情。因为这个事情稳定性要求高,但是资源消耗量非常低、并且不应该被“自举(存在过耦合,引起维护上的麻烦)”,尤其是单独花费哪怕一个 CPU 都是非常非常浪费的。

因为有虚拟交换机,实际传输效率并不低因为有虚拟交换机,实际传输效率并不低

在生产环境中,我们会使用不少公有云的 DNS 服务,不过既然我们做好了私有化的准备,不妨做的更彻底一些,让它能够“完全离线”,运行时不依赖外部在线服务。我这里的考虑是增加一台廉价的外部设备,比如使用一台物理路由器:将需要稳定提供服务的 DHCP 移动到外部。

稳定可靠的 Padavan 路由固件稳定可靠的 Padavan 路由固件

在过去几年的尝试验证下,个人体验搭载廉价的 MTK 芯片的路由,搭配在之前的文章《近期家用设备(NUC、猫盘、路由器)散热升级记录》中提到的 “Padavan” 可以提供足够的稳定性。

最终,我选择了一台 100 块左右的路由器,并刷上了熟悉的固件:hanwckf/rt-n56u 。为了稳定的使用,建议在使用的过程中,尽可能关闭所有的非必要插件,避免不必要的程序的运行影响我们的核心诉求,争抢有限的路由资源。

虚拟化资源分配

因为我们一共只有 8C16T 的 CPU 资源 ,为了最大效率的使用虚拟机,我们要进行一些虚拟机隔离性上取舍。

在《装在笔记本里的私有云环境:准备篇》里,我们根据职能划分了 7 台虚拟机。在经过长时间验证后,我将虚拟机合并为了 5 台,除了保留 3 台虚拟机作为最小规模的 K8S 集群之外,将原本的 Base、Monitor、Database、Storage 合并为 2 台,让程序在 VM 里因为能享用更多的 CPU 资源,能运行的更有效率。

重新划分的虚拟机资源重新划分的虚拟机资源
  • K8s 集群:Node x3 (2核心8GB内存120GB磁盘)
  • 外部存储:Storage x1 (4核心 4GB 内存 100GB 磁盘)
  • 通用服务:Base x1 (4核心 4GB 内存 300 GB 磁盘)

在分配磁盘的时候,K8s 集群和其他两台虚拟机选择不同的磁盘,可以避免磁盘 IO 用满导致的服务性能骤降、甚至引发不可用的问题

这里有一个小细节,我们在创建虚拟机的时候,尽量不要完全占满磁盘,预留一些空间除了有助于磁盘性能释放之外,还能避免虚拟机创建后,因为各种原因,磁盘用量超出我们预先设定时,影响虚拟化系统的整体可靠性。

当我们完成对主机完成虚拟化和虚拟机资源分配之后,来聊聊网络设计的细节。

网络设计

前文提到,我计划使用一台小路由器来“固定网络环境”。在实践的过程中需要配置两个部分的内容。

第一部分是针对 ESXi(设备主机)和各个虚拟机进行 IP 地址的分配。

重新划分的虚拟机资源重新划分的虚拟机资源
代码语言:shell复制
esxi    10.10.10.70     7C:8A:E1:82:xx:xx
base    10.10.10.100    00:0C:29:DB:xx:xx
storage 10.10.10.101    00:0C:29:50:xx:xx
potato  10.10.10.200    00:0C:29:02:xx:xx
spud    10.10.10.201    00:0C:29:C8:xx:xx
murphy  10.10.10.202    00:0C:29:A5:xx:xx

完成 IP 绑定后,不论是重启主机和虚拟机,还是执行 dhclient 命令或者使用 service / systemctl 重启网络服务都可以,我们需要让虚拟机的 IP 得到更新。

除了完成地址的分配之外,考虑到日常操作使用的方便,我们还需要完成端口在路由器(外部网关设备)上的暴露。因为一般路由器的默认规则是禁止从外部访问到内部设备的,会影响到我们日常使用 SSHWeb 方式访问虚拟机上的服务,或者维护 ESXi,以及这台小路由器的。毕竟,每次想管理或者维护的时候,都要加入这台路由也挺麻烦的。

我们先来解决从外部访问路由器的问题。

允许外部访问路由管理后台允许外部访问路由管理后台

接着,我们来解决端口绑定,让我们能够通过在外部网络访问路由器的地址配合不同的端口,就能够实现管理路由器、ESXi、虚拟机,或者通过 Web 访问跑在虚拟机或者 K8s 集群上的服务的功能。

完成基本的端口映射完成基本的端口映射

这里不推荐使用路由器自带的 DMZ 功能,因为它将完全独占外部网关(路由)设备的 IP 端口。

系统环境准备和 K8s 集群部署

虚拟机上的 Linux 系统安装,可以参考《在笔记本上搭建高性价比的 Linux 学习环境:基础篇》一文中的方式。需要注意的是,K8s 集群的机器上不必安装和配置 Docker,其余内容完全跟着第二篇文章流程走即可。

当然,如果你和我一样是个懒人,觉得重复执行命令很麻烦,可以结合本文中接下来提到的 “Ansible” 来进行重复命令执行,节约时间。

轻量的标准化 K8s 集群搭建,可以参考《轻量高可用的 K8s 集群搭建方案:MicroK8s》,在此也就不过多赘述。

Linux 软件包下载加速

安装过程中,可以使用《Linux 软件包下载加速工具:APT Proxy》一文中提供的工具,来加速软件包的获取,未来 CI 容器构建等场景的加速。

使用容器方式启动和管理的情况下,最简单的用法可以参考下面,先创建一个目录,在目录中创建一个用于管理程序的 compose 配置文件:

代码语言:shell复制
mkdir -p /app/apt-proxy
touch /app/apt-proxy/docker-compose.yml
docker pull soulteary/apt-proxy

然后,编辑 docker-compose.yml 中的内容:

代码语言:yaml复制
version: "3"
services:

  apt-proxy:
    image: soulteary/apt-proxy
    restart: always
    command: --ubuntu=cn:tsinghua --debian=cn:tsinghua  --alpine=cn:tsinghua --centos=cn:tsinghua
    environment:
      - TZ=Asia/Shanghai
    ports:
      - "3142:3142"

最后,使用 docker compose up -d 启动服务即可。服务的使用,在下面的文章中还会提到,也就先不展开了。

工具的代码开源在 https://github.com/soulteary/apt-proxy ,如果觉得好用,欢迎点赞和分享给你的朋友 :D

配置简单的堡垒机 / 跳板机

为了方便后续操作,我们将“堡垒机”的职能也放在 “Base” 这台机器里,先在这台机器上生成一个用于登录和管理其他机器的密钥:

代码语言:shell复制
ssh-keygen -t rsa -C "base-manage-key"

执行完毕,看到类似下面的日志:

代码语言:shell复制
Generating public/private rsa key pair.
Enter file in which to save the key (/home/soulteary/.ssh/id_rsa): 
Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 
Your identification has been saved in /home/soulteary/.ssh/id_rsa
Your public key has been saved in /home/soulteary/.ssh/id_rsa.pub
The key fingerprint is:
SHA256:7iZLlm2iEFF exxxxYnzdfhr9CxxxxxI2GrxxxxcVo base-manage-key
The key's randomart image is:
 ---[RSA 3072]---- 
|    .         .oE|
|   o .       . o.|
|  . o o     o .  |
|   .       . .   |
|  . .   S     .  |
|   o o = ..  .   |
|  . * B *=.o.    |
|   o O.=  =. o   |
|    o o=o =o *   |
 ----[SHA256]----- 

然后使用 ssh-copy-id 来依次将密钥添加到要被管理的机器上(用户名请根据自己的实际情况进行替换):

代码语言:shell复制
ssh-copy-id -i ~/.ssh/id_rsa soulteary@10.10.10.200
ssh-copy-id -i ~/.ssh/id_rsa soulteary@10.10.10.201
ssh-copy-id -i ~/.ssh/id_rsa soulteary@10.10.10.202
...

程序正确正确执行后,我们会得到类似下面的日志:

代码语言:shell复制
/usr/bin/ssh-copy-id: INFO: Source of key(s) to be installed: "/home/soulteary/.ssh/id_rsa.pub"
/usr/bin/ssh-copy-id: INFO: attempting to log in with the new key(s), to filter out any that are already installed
/usr/bin/ssh-copy-id: INFO: 1 key(s) remain to be installed -- if you are prompted now it is to install the new keys
soulteary@10.10.10.200's password: 

Number of key(s) added: 1

Now try logging into the machine, with:   "ssh 'soulteary@10.10.10.200'"
and check to make sure that only the key(s) you wanted were added.

在完成配置之后,我们可以通过下面的命令来简单验证是否配置正确:

代码语言:shell复制
ssh 10.10.10.200 echo "ok"

如果命令行输出的结果是“ok”,那么说明我们的配置是正确的。如果你想验证所有的主机的配置都是正确,那么需要手动修改 IP 地址,依次执行上面的命令。

当然,你也可以选择使用接下来要聊的 “Ansible” 来执行命令的批量执行。

借助 Ansible 来偷部署的懒

RedHat Ansible 项目官方网站RedHat Ansible 项目官方网站

Ansible 是目前流行的 IT 自动化工具之一,也是久负盛名的开源软件之一,我们可以使用它来完成系统配置、软件部署、服务编排等任务,以及处理后续 CI/CD 中进行集成的相关任务。

本篇文章里,我们简单聊聊如何在初始化环节,通过它一步一步完成服务部署,避免在多台机器上重复执行命令,进行偷懒。

如何安装和简单配置 Ansible

最简单的使用场景下,我们只需要在控制端(比如堡垒机)完成 ansible 的安装即可。

因为我们选择了 Ubuntu 这种用户量非常大的 Linux 发行版,所以安装 ansible 的过程就特别简单,只需要一条命令:

代码语言:shell复制
sudo apt install -y ansible

在完成安装之后,我们先需要为 ansible 创建配置。首先要完成 ansible 的配置目录创建和目录的权限调整:

代码语言:shell复制
sudo mkdir -p /etc/ansible
sudo chown -R `whoami`:`whoami` /etc/ansible

接着,执行命令,将主机名、分组、IP 信息写入配置(参考你的实际情况):

代码语言:shell复制
cat > /etc/ansible/hosts << EOF
[k8s]
potato ansible_host=10.10.10.200
spud   ansible_host=10.10.10.201
murphy ansible_host=10.10.10.202

[data]
storage ansible_host=10.10.10.101

[common]
base    ansible_host=10.10.10.100

[all:vars]
ansible_python_interpreter=/usr/bin/python3

EOF

在执行完上面的命令之后,ansible 的基础配置就完成了。我们可以通过下面的命令来进行服务配置验证:

代码语言:shell复制
ansible-inventory --list -y

不出意外的话,将得到下面的日志输出:

代码语言:yaml复制
all:
  children:
    common:
      hosts:
        base:
          ansible_host: 10.10.10.100
          ansible_python_interpreter: /usr/bin/python3
    data:
      hosts:
        storage:
          ansible_host: 10.10.10.101
          ansible_python_interpreter: /usr/bin/python3
    k8s:
      hosts:
        murphy:
          ansible_host: 10.10.10.202
          ansible_python_interpreter: /usr/bin/python3
        potato:
          ansible_host: 10.10.10.200
          ansible_python_interpreter: /usr/bin/python3
        spud:
          ansible_host: 10.10.10.201
          ansible_python_interpreter: /usr/bin/python3
    ungrouped: {}

当你想进行连通性测试,验证主机是否在线的时候,可以执行 ansible all -m ping。如果在上文中,你有正确配置密钥登录,那么将得到类似下面的日志结果:

代码语言:shell复制
spud | SUCCESS => {
    "changed": false,
    "ping": "pong"
}
murphy | SUCCESS => {
    "changed": false,
    "ping": "pong"
}
potato | SUCCESS => {
    "changed": false,
    "ping": "pong"
}
storage | SUCCESS => {
    "changed": false,
    "ping": "pong"
}
base | SUCCESS => {
    "changed": false,
    "ping": "pong"
}

如何使用 Ansible 批量执行命令

如果我们想让 K8s 分组的机器都执行系统软件包更新的命令,可以这样编写命令(直接使用上文中 ansible 配置中的小组名称即可):

代码语言:shell复制
ansible k8s -a "sudo apt-get update && sudo apt-get -y upgrade"

如果我们希望是某几台机器、几个分组执行命令,可以使用 “:” 或 “,” 来分割要执行命令的目标名称:

代码语言:shell复制
ansible potato,murphy,spud -a "sudo apt-get update && sudo apt-get -y upgrade"

当然,ansible 不仅仅支持“组合”,还支持简单的“是(&)”和“非(!)” 操作,如果你有复杂的编排任务,可以参考官方文档里关于 “Advanced pattern options” 部分的介绍。

如果我们想结合上文提到的 APT Proxy 来加速系统软件包的下载,命令需要改写成下面这样:

代码语言:shell复制
ansible k8s -a "sudo http_proxy=http://10.10.10.100:3142 apt-get -o pkgProblemResolver=true -o Acquire::http=true update"

ansible k8s -a "sudo http_proxy=http://10.10.10.100:3142 apt-get -o pkgProblemResolver=true -o Acquire::http=true upgrade -y"

命令执行完毕,我们将看到 ansible 依次在每一台机器上执行命令,并会高亮执行失败的命令(如果有):

代码语言:shell复制
murphy | CHANGED | rc=0 >>
Hit:1 http://cn.archive.ubuntu.com/ubuntu jammy InRelease
Hit:2 http://cn.archive.ubuntu.com/ubuntu jammy-updates InRelease
Hit:3 http://cn.archive.ubuntu.com/ubuntu jammy-backports InRelease
Hit:4 http://cn.archive.ubuntu.com/ubuntu jammy-security InRelease
Reading package lists...
spud | CHANGED | rc=0 >>
Hit:1 http://cn.archive.ubuntu.com/ubuntu jammy InRelease
Hit:2 http://cn.archive.ubuntu.com/ubuntu jammy-updates InRelease
Hit:3 http://cn.archive.ubuntu.com/ubuntu jammy-backports InRelease
Hit:4 http://cn.archive.ubuntu.com/ubuntu jammy-security InRelease
Reading package lists...
potato | CHANGED | rc=0 >>
Hit:1 http://cn.archive.ubuntu.com/ubuntu jammy InRelease
Hit:2 http://cn.archive.ubuntu.com/ubuntu jammy-updates InRelease
Hit:3 http://cn.archive.ubuntu.com/ubuntu jammy-backports InRelease
Hit:4 http://cn.archive.ubuntu.com/ubuntu jammy-security InRelease
Reading package lists...
...

使用 ansible 完成软件的批量安装也很简单,只需要调整命令为具体的软件安装命令即可:

代码语言:shell复制
ansible k8s,data -a "sudo http_proxy=http://10.10.10.100:3142 apt-get -o pkgProblemResolver=true -o Acquire::http=true install -y iftop iotop bmon dstat"

不过,虽然 ansible 能够帮助我们安装交互式的命令工具,但它是不能够为我们批量执行交互式的命令的,比如:topiftopvim等。

如何使用 Ansible 简单管理 K8s

在上文中,我们针对 K8s 的主机资源进行了分组(k8s),所以当我们需要查看服务节点的时候,可以通过下面的命令来查看:

代码语言:shell复制
ansible k8s -a "sudo microk8s.status"

当然,因为有两个节点不是管理节点,所以我们会看的一些提示:

代码语言:shell复制
murphy | CHANGED | rc=0 >>
This MicroK8s deployment is acting as a node in a cluster.
Please use the control plane node.
spud | CHANGED | rc=0 >>
This MicroK8s deployment is acting as a node in a cluster.
Please use the control plane node.
potato | CHANGED | rc=0 >>
microk8s is running
high-availability: no
  datastore master nodes: 10.10.10.200:19001
  datastore standby nodes: none
addons:
  enabled:
    dashboard            # (core) The Kubernetes dashboard
    ha-cluster           # (core) Configure high availability on the current node
    helm                 # (core) Helm - the package manager for Kubernetes
    helm3                # (core) Helm 3 - the package manager for Kubernetes
    metrics-server       # (core) K8s Metrics Server for API access to service metrics
  disabled:
    cert-manager         # (core) Cloud native certificate management
    community            # (core) The community addons repository
    dns                  # (core) CoreDNS
    gpu                  # (core) Automatic enablement of Nvidia CUDA
    host-access          # (core) Allow Pods connecting to Host services smoothly
    hostpath-storage     # (core) Storage class; allocates storage from host directory
    ingress              # (core) Ingress controller for external access
    kube-ovn             # (core) An advanced network fabric for Kubernetes
    mayastor             # (core) OpenEBS MayaStor
    metallb              # (core) Loadbalancer for your Kubernetes cluster
    observability        # (core) A lightweight observability stack for logs, traces and metrics
    prometheus           # (core) Prometheus operator for monitoring and logging
    rbac                 # (core) Role-Based Access Control for authorisation
    registry             # (core) Private image registry exposed on localhost:32000
    storage              # (core) Alias to hostpath-storage add-on, deprecated

如果你只想操作管理节点,可以直接使用管理节点的主机名称,比如我们来查看到底有哪些服务在运行:

代码语言:shell复制
ansible potato -a "kubectl get pods --all-namespaces"

将得到下面的结果:

代码语言:shell复制
potato | CHANGED | rc=0 >>
NAMESPACE     NAME                                         READY   STATUS    RESTARTS       AGE
kube-system   kubernetes-dashboard-6f7f6c6876-mkd7s        1/1     Running   3 (3h2m ago)   43d
kube-system   calico-node-9fbw4                            1/1     Running   1 (3h2m ago)   46h
kube-system   calico-kube-controllers-6bb8f46dcd-f4flz     1/1     Running   1 (3h2m ago)   46h
kube-system   calico-node-lnk4k                            1/1     Running   1 (3h2m ago)   46h
kube-system   calico-node-m4rtp                            1/1     Running   1 (3h1m ago)   46h
kube-system   dashboard-metrics-scraper-64bcc67c9c-zjjt9   1/1     Running   3 (3h1m ago)   43d
kube-system   metrics-server-6b6844c455-45kjc              1/1     Running   3 (3h2m ago)   43d

我个人认为 Ansible 偷懒精华更多在 “Ansible Playbooks”,目前我们只了解和使用“Ansible SSH” 就足够了。在后面聊 CI 的时候,我们再进一步展开吧。

最后

时间不早了,本篇文章就先写到这里啦。

下一篇文章,我们聊聊结合 K8s 的存储部分的搭建和使用。

--EOF


本文使用「署名 4.0 国际 (CC BY 4.0)」许可协议,欢迎转载、或重新修改使用,但需要注明来源。 署名 4.0 国际 (CC BY 4.0)

本文作者: 苏洋

创建时间: 2022年11月29日

统计字数: 12906字

阅读时间: 26分钟阅读

本文链接: https://soulteary.com/2022/11/29/private-cloud-environment-installed-in-a-notebook-k8s-cluster-preparation.html

0 人点赞