kubernetes-18：kubelet无法启动的终极解决方式（非生产）

office365登陆账号没有反应 📅 2025-07-18 21:10:16 👤 admin 👁️ 5076 ❤️ 261

kubernetes集群很久没看了，发现集群挂掉，无法启动，报错：

The connection to the server 172.26.237.196:6443 was refused - did you specify the right host or port?

查看kubelet是stop状态：

systemctl status kubelet

并且重启失败：systemctl restart kubelet

查看系统日志中关于kubelet的部分：

journalctl -fu kubelet

可以看到kubelet在不断重启（因为在daemon-reload的范围之内，stop后会自动重启）。

没有什么有用信息，手动启动kubelet看一下日志：

/usr/bin/kubelet

主要有两个错误：

Observed a panic: "invalid memory address or nil pointer dereference" (runtime error: invalid memory address or nil pointer dereference)

和

orphaned pod "0f660127-21c3-461d-b1a7-fc12f2dcafe7" found, but volume paths are still present on disk : There were a total of 4 errors similar to this. Turn up verbosity to see them

github有一个issue：

kubelet: Observed a panic: "invalid memory address or nil pointer dereference"

https://github.com/kubernetes/ingress-nginx/issues/5219

但是没有提供明确的解决方式。

由于是个人机器，不想花费太多时间，所以采用最直接的方式，直接重置集群后在init。

这也是我强烈不建议生产使用自建kubernetes集群，99%的公司承受不了这个成本。

kubeadm reset

重新初始化集群：

kubeadm init --ignore-preflight-errors='NumCPU' --kubernetes-version v1.19.3 --pod-network-cidr=10.244.0.0/16

记住下述命令，按需执行：

To start using your cluster, you need to run the following as a regular user:

要让集群work，需要执行：

代码语言：javascript代码运行次数：0运行复制 mkdir -p $HOME/.kube

sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config

sudo chown (id -u):(id -g)

You should now deploy a pod network to the cluster.

Run "kubectl apply -f [podnetwork].yaml" with one of the options listed at:

https://kubernetes.io/docs/concepts/cluster-administration/addons/

Then you can join any number of worker nodes by running the following on each as root:

kubeadm join 172.26.237.196:6443 --token loe9wq.rt1w12hyeaantw6z \

--discovery-token-ca-cert-hash sha256:5544027d81f4580cbab5f8b6318c6719470263338e7278b13c3e857cfa36ecf8但是发现集群是ready，但是coredns无法创建：

describe coredns pod：

可以看到是网络问题。

老集群和新集群的网络配置发生了混乱，kubeadm reset重置后将相关网络配置都删除：

代码语言：javascript代码运行次数：0运行复制kubeadm reset

systemctl stop kubelet

systemctl stop docker

rm -rf /var/lib/cni/ /var/lib/kubelet/* /etc/cni/

ifconfig cni0 down

ifconfig flannel.1 down

ifconfig docker0 down

ip link delete cni0

ip link delete flannel.1

systemctl start docker然后顺次执行：

代码语言：javascript代码运行次数：0运行复制kubeadm init --ignore-preflight-errors='NumCPU' --kubernetes-version v1.19.3 --pod-network-cidr=10.244.0.0/16

mkdir -p $HOME/.kube

sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config

sudo chown (id -u):(id -g)

kubectl apply -f https://raw.githubusercontent.com/coreos/flannel/master/Documentation/kube-flannel.yml可能coredns上pending状态：

descirbe pod coredns：

这是因为删除了集群的配置，需要执行下允许master调度pod的命令：

kubectl taint node future node-role.kubernetes.io/master:NoSchedule-

集群恢复。

← 无餍的近义词映美FP-312K（白色）用户手册 →

kubernetes-18：kubelet无法启动的终极解决方式（非生产）

合作伙伴