Su的技术博客

  • 首页
  • Java
  • MySQL
  • DDD
  • 事故复盘
  • 架构方案
  • Other
  • 工具
  • 打赏
  • 关于
事故复盘
生产事故复盘
事故复盘

悟空 一次磁盘占用率 100% 的排查记录

最近遇到一个服务器的问题:磁盘满了,占用率 100%~ 这个问题太常见了,于是先来排查一波是哪些文件占用了大量磁盘。 一、排查磁盘占用率100% 1.1 查看磁盘使用的大致情况 第一个命令就是 df -h,来查看磁盘的占用情况。df 是 disk free 的缩写,用于显示目前在 Linux 系统上的文件系统磁盘的使用情况统计。 如下图所示,可以看到磁盘占用率 100%。 […]

2023-02-20 0条评论 62点热度 0人点赞 阅读全文
事故复盘

悟空 阿里云香港云服务器P0史诗级宕机事件复盘

  上个周日12月18号,阿里云香港服务器发生了都不知道算 P 几事故的史诗级宕机事件,整个事件导致香港地区 C 区 ECS、OSS、EBS、RDS 等云服务大范围不可用,故障时间从 早上 8 点多一直持续到晚上 10 点多才最终恢复,整个故障时间长达 14 个小时。 比较有名的交易所平台如 Gate.io 和 OKEX 都受到大面积故障影响,我都还以为他们跑路了 […]

2023-02-20 0条评论 71点热度 0人点赞 阅读全文
事故复盘

悟空 一次 Redis 事务使用不当引发的生产事故

你好,我是悟空。 本文主要内容如下: 一、前言 最近项目的生产环境遇到一个奇怪的问题: 现象:每天早上客服人员在后台创建客服事件时,都会创建失败。当我们重启这个微服务后,后台就可以正常创建了客服事件了。到第二天早上又会创建失败,又得重启这个微服务才行。 初步排查:创建一个客服事件时,会用到 Redis 的递增操作来生成一个唯一的分布式 ID 作为事件 id。代码如下所示: […]

2023-02-20 0条评论 66点热度 0人点赞 阅读全文
事故复盘

八戒 一次误删除MySQL主库的恢复操作

数据库备份是保障猪八戒数据安全必不可少的一部分,在猪八戒MySQL数据库上我们通常进行热备和binlog备份,目的是能回溯、恢复企业生产数据。其中基于binlog和备份恢复是日常数据库运维中一定会遇到的操作,本文通过一次案例介绍如何在误删除之后基于已有备份和binlog恢复数据以及什么样的备份是可以进行数据恢复的。 背景: MySQL5.6.40,库比较小,row+gtid […]

2023-02-19 0条评论 57点热度 0人点赞 阅读全文
事故复盘

B站 2021.07.13 我们是这样崩的

至暗时刻 2021年7月13日22:52,SRE收到大量服务和域名的接入层不可用报警,客服侧开始收到大量用户反馈B站无法使用,同时内部同学也反馈B站无法打开,甚至APP首页也无法打开。基于报警内容,SRE第一时间怀疑机房、网络、四层LB、七层SLB等基础设施出现问题,紧急发起语音会议,拉各团队相关人员开始紧急处理(为了方便理解,下述事故处理过程做了部分简化)。 初因定位 2 […]

2023-02-17 1条评论 203点热度 1人点赞 阅读全文
事故复盘

京东零售 线上问题处理案例1:出乎意料的数据库连接池

简介 本文是《线上问题处理案例》系列之一,该系列旨在通过真实案例向读者介绍发现问题、定位问题、解决问题的方法。本文讲述了从垃圾回收耗时过长的表象,逐步定位到数据库连接池保活问题的全过程,并对其中用到的一些知识点进行了总结。 一、问题描述 大促期间,某接口超时次数增多,FullGC达500ms以上。 二、应用基本情况 容器:8C12G; JVM配置:-XX:+UseConcM […]

2023-02-16 0条评论 58点热度 0人点赞 阅读全文
事故复盘

原创 记一次升级MySQL驱动包引发的事故

一 背景 最近项目组在版本迭代时,组件也要进行升级,此时涉及到MySQL驱动包jdbc的版本升级。即从5.1.X升级到8.0.X。   然鹅在上线之后就出现了一部分兼容性问题,造成了一次“事故”:调用接口出现“系统错误”。查看日志:java.time.LocalDateTime cannot be cast to java.util.Date,也就是出现时间转换异 […]

2021-11-11 0条评论 46点热度 0人点赞 阅读全文
事故复盘

原创 iOS请求访问文件网关服务图片接口异常问题的解决

1 问题背景 文件网关服务提供访问图片的接口,Android和浏览器访问正常,然而就唯独iOS这边死活访问失败,失败信息如下: Error Domain=NSURLErrorDomain Code=-999 "已取消" UserInfo={NSErrorFailingURLStringKey=https://service.xxx/link/1202010141537537 […]

2021-07-16 0条评论 40点热度 0人点赞 阅读全文
事故复盘

原创 记一次网络请求连接超时的事故

点击上方蓝色字关注我们~ 前言 从HTTP请求超时、重试机制、操作系统网络等层面剖析了事故的原因,最终解决业务问题。 这里先抛两个问题: 1)你遭遇过由于网络连接或请求超时造成的生产事故吗? 2)你知道操作系统默认的网络连接超时是多少秒? 先思考下,可以将你的答案写在评论区哦。 问题背景 最近同事出现这么一个问题,简单业务场景: 服务A使用HTTP请求服务B接口m。服务A起 […]

2020-08-22 0条评论 44点热度 0人点赞 阅读全文

秋天0261

关注Java领域,后端开发、Netty、Zookeeper、Kafka、ES、分布式、微服务、架构等。分享技术干货,架构设计,实战经验等。

最近评论
秋天0261 发布于 1 个月前(02月19日) 厉害,对编译器底层原理得研究的深点才能写出这样的工具 :smile:
秋天0261 发布于 1 个月前(02月17日) 精彩的复盘! :exclaim:
admin 发布于 1 个月前(02月16日) :razz:

@Autowired (1) @Resource (1) API网关 (1) eureka (7) go (1) JSR (1) QQ音乐 (1) repository (1) Spring (1) SQL优化 (1) 依赖注入 (1) 同城双活 (1) 容灾 (1) 布隆过滤器 (1) 异地双活 (1) 接口优化 (1) 故障转移 (1) 整洁架构 (1) 服务续约 (1) 注册中心 (7) 流水账 (1) 第五 (1) 缓存 (1) 缓存击穿 (1) 聊聊 (1) 设计规范 (1) 详解 (1) 限流 (1) 领域驱动设计 (4) 高可用 (1)

COPYRIGHT © 2014-2023 verysu.com . ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang

粤ICP备15033072号-2