云原生技术社区:Kubernetes、容器、DevOps与AI基础设施实践
云原生技术社区聚合 Kubernetes、容器、DevOps、微服务、平台工程、云原生安全和 AI 基础设施等实践内容,帮助开发者、运维团队和平台团队系统理解云原生架构、落地路径和生产环境治理方法。
文章精选
-
Dapr边车调用失败排查:超时与重试
应用日志只看到超时,Dapr sidecar 里却有服务发现、重试或连接错误?本篇从 app-id、端口、策略和日志入手,定位 Dapr 边车调用失败的真实断点。
-
容器化迁移方案:应用改造与回滚边界
老应用迁到容器平台时,最怕镜像能跑、上线却无法回退。围绕容器化迁移方案,本文拆解应用画像、环境解耦、灰度切流和回滚边界,帮助平台与业务团队在改造前对齐风险和验收口径。
-
异步链路追踪怎么做?消息队列断链排查
同步接口能看到 Trace,消息队列一异步就断链,是很多微服务排障的常见盲区。本篇从生产端、队列属性、消费者、重试和日志关联切入,梳理异步链路追踪的排查方法,帮助团队快速定位断点。
-
链路追踪采样怎么设?尾采样与成本边界
Trace 采得太少看不到慢请求,采得太多又拖垮后端。本篇从采样位置、保留优先级、尾采样等待窗口和 Collector 容量切入,帮助你设计更稳妥的链路追踪采样策略。
最新发布
-
运维全生命周期管理5阶段治理路径
集群、应用团队和发布频率增长后,运维问题常从单点故障变成流程失控。本篇用5阶段模型拆解运维全生命周期管理,给出阶段目标、协作边界、证据保留、实践路径和落地检查清单。
-
模型推理服务治理:路由、弹性与观测
模型上线后,真正难的是让不同版本、不同租户和不同负载稳定运行。本文从请求链路切入,拆解模型推理服务的路由、弹性、观测和风险控制,帮助平台团队建立上线后的治理视角。
-
GPU调度怎么做?队列配额落地路径
当训练任务排队、推理任务抢不到卡、团队之间争用算力时,问题通常不在单个 YAML。你可以从队列、配额、资源暴露和观测闭环四层理解 GPU调度,并形成可执行治理清单。
-
开发运维一体化实践:流水线到反馈闭环
工具齐全并不等于开发运维一体化落地成功。环境割裂、发布反馈慢和责任边界模糊时,可以从流水线证据、GitOps发布、观测关联和复盘更新四处找断点,形成可执行闭环清单。
-
容器即服务CaaS选型-5项评估清单
面对自建 Kubernetes、托管集群和企业容器平台,很多团队不知道 CaaS 该看什么。这里用概念边界、能力矩阵和场景判断,梳理容器即服务CaaS选型的关键检查项。
-
开源中间件的国产化全栈替代方案:评估框架
做中间件国产化替代时,存量依赖、能力差异、迁移风险和服务支持往往交织在一起。本篇用能力分层、评估矩阵和迁移闭环,帮助架构与平台团队判断先替什么、如何验证以及何时需要灵雀云 这类平台化承接。
-
开源容器管理平台 vs 商业容器云平台:选型区别
准备搭建企业级容器平台时,开源项目看起来灵活,商业容器云平台又强调治理和服务。本文用项目一览、能力对比和场景清单拆解差异,帮助你把技术偏好转成可讨论的选型依据。
-
中间件厂商评估清单:云原生适配与服务支持
面对多套注册中心、消息、网关和配置中心方案时,团队常难判断中间件厂商是否适合长期使用。本篇用云原生适配清单拆解产品能力、运维边界、迁移风险和服务支持,并给出 PoC 验证问题,避免选型只停留在演示功能。
-
微服务治理怎么做?注册发现与限流降级实践
当微服务数量增加后,调用关系、异常传播和外部访问边界会迅速变复杂。本篇从注册发现、限流降级、网关策略和观测告警拆解治理顺序,补充分阶段推进建议和上线前检查清单,便于平台与业务团队一起评审。
-
大模型部署到K8s怎么做?资源镜像服务上线要点
把大模型服务搬到 Kubernetes 后,最容易卡在镜像拉取慢、GPU 不可见、模型文件加载和服务暴露上。本篇按资源、镜像、模型和服务四条线梳理上线步骤与检查项。
-
K8s调度抢占怎么判断?3类约束决定调度边界
当高优先级 Pod 仍然 Pending,或抢占后分布不符合预期时,问题往往藏在亲和、拓扑约束和资源请求之间。本篇用调度链路拆解 K8s调度抢占的判断顺序与检查点。
-
K8s镜像拉取失败排查方法:事件、凭据与仓库
遇到 Pod 一直 Pending 或 ImagePullBackOff 时,先别急着重建应用。本篇按事件、Secret、镜像地址、仓库连通性和节点运行时逐层排查,帮助快速定位 K8s镜像拉取失败原因。
-
RuntimeClass隔离原理:gVisor与Kata边界
当多租户、沙箱执行或不可信工作负载进入集群时,RuntimeClass 常被提到。本篇用机制图和对比表解释 gVisor 与 Kata 的边界、适用场景和落地检查点。
-
NodeLocal DNSCache延迟排查:缓存与CoreDNS
DNS 已经启用 NodeLocal DNSCache,业务仍然偶发解析慢或超时?本篇按现象、命令、指标和配置拆解缓存与 CoreDNS 排查顺序,帮助快速缩小影响范围。
-
KubeVirt虚拟机调度:资源隔离与迁移
把虚拟机放进 Kubernetes 后,调度对象、资源隔离和迁移方式都会变化。本篇围绕 KubeVirt 虚拟机调度,拆解 VMI、virt-launcher、节点资源和迁移风险。
-
PDB怎么配置?驱逐与高可用边界
节点维护时 Pod 不让驱逐,或者 PDB 配了却没有保护效果,问题通常出在不可用预算理解上。本文用示例 YAML、边界表和维护验证清单解释 PDB 怎么配置,以及它不能替代哪些高可用设计。
-
Kubernetes CSI快照恢复失败排查-4步定位
快照对象显示 Ready,但 PVC 恢复一直 Pending?本篇按控制器、快照类、驱动能力和 PVC 绑定顺序排查 Kubernetes CSI 快照恢复失败,避免误删数据源。
-
内部开发平台门户:服务目录与权限边界
开发者在多个系统之间找应用、申请环境、查日志和追踪发布时,IDP 门户的价值才会显现。本文从服务目录、模板入口、动作权限和落地阶段拆解内部开发平台门户怎么设计。
-
Harbor镜像复制失败排查-5个检查点
跨机房、跨集群或主备仓库同步时,Harbor镜像复制失败会拖慢发布节奏。本文按策略触发、目标凭据、TLS 证书、jobservice 队列和 digest 校验拆解排查顺序,帮助团队少走盲目重试的弯路。
-
企业AI平台建设:权限、算力与模型资产
模型、数据集、GPU 队列和推理服务分散在不同系统时,企业AI平台容易变成“能跑但难管”。本篇从项目权限、算力配额、模型版本和发布审计切入,帮助团队判断平台建设优先级。