11 月 27 日晚滴滴发生了大范围、长时间的故障。官方消息说是“底层系统软件发生故障”,而据网上的小道消息,一个规模非常大的 K8s 集群进行在线热升级,因为某些原因,所有 Pod(容器)被 kill,而 K8s 的元数据已经被新版本 K8s 修改,无法回滚,因此恢复时间拉的很长。 从滴滴近期分享的技术文章来看,这个说法并不是空穴来风。滴滴团队近两个月正在把公司内部的 K […]
11 月 27 日晚滴滴发生了大范围、长时间的故障。官方消息说是“底层系统软件发生故障”,而据网上的小道消息,一个规模非常大的 K8s 集群进行在线热升级,因为某些原因,所有 Pod(容器)被 kill,而 K8s 的元数据已经被新版本 K8s 修改,无法回滚,因此恢复时间拉的很长。 从滴滴近期分享的技术文章来看,这个说法并不是空穴来风。滴滴团队近两个月正在把公司内部的 K […]
一次端口告警,发现 java 进程被异常杀掉,而根因竟然是因为在问题机器上 vim 查看了 nginx 日志。下面我将从时间维度详细回顾这次排查,希望读者在遇到相似问题时有些许启发。 时间线 15:19 收到端口异常 odin 告警。 状态:P1故障 名称:应用端口8989 指标:data-stream-openapi.port.8989 主机:data-stream-op […]
BeanUtils (1) BigDecimal (1) CDC (1) ETL (1) github (1) heap (1) LLaMa (1) MAT (5) MDM (1) Sora (1) TCP (1) 业务图 (1) 企业应用 (1) 停机迁移 (1) 内存泄露 (4) 协议 (1) 可用性 (1) 基础设施层 (1) 堆内存 (1) 堆外存 (1) 大事记 (1) 实时协作 (1) 对象转换 (1) 应用架构 (1) 异常 (3) 技术规范 (1) 技术选型 (4) 提示工程 (1) 数据交换 (1) 数据共享 (1) 数据双写 (1) 日期 (1) 时间 (1) 时间线 (1) 术语 (1) 架构方案 (14) 流程图 (1) 精度 (1) 线程模型 (1) 经验分享 (1) 网络编程 (2) 解耦 (1) 软件复杂性 (1) 软件工程 (1) 重构 (4) 重试 (1) 隔离级别 (1) 集群扩容 (1) 领域层 (3) 领域模型 (1)
COPYRIGHT © 2014-2024 verysu.com . ALL RIGHTS RESERVED.
Theme Kratos Made By Seaton Jiang