最近遇到一个服务器的问题:磁盘满了,占用率 100%~ 这个问题太常见了,于是先来排查一波是哪些文件占用了大量磁盘。 一、排查磁盘占用率100% 1.1 查看磁盘使用的大致情况 第一个命令就是 df -h,来查看磁盘的占用情况。df 是 disk free 的缩写,用于显示目前在 Linux 系统上的文件系统磁盘的使用情况统计。 如下图所示,可以看到磁盘占用率 100%。 […]
最近遇到一个服务器的问题:磁盘满了,占用率 100%~ 这个问题太常见了,于是先来排查一波是哪些文件占用了大量磁盘。 一、排查磁盘占用率100% 1.1 查看磁盘使用的大致情况 第一个命令就是 df -h,来查看磁盘的占用情况。df 是 disk free 的缩写,用于显示目前在 Linux 系统上的文件系统磁盘的使用情况统计。 如下图所示,可以看到磁盘占用率 100%。 […]
上个周日12月18号,阿里云香港服务器发生了都不知道算 P 几事故的史诗级宕机事件,整个事件导致香港地区 C 区 ECS、OSS、EBS、RDS 等云服务大范围不可用,故障时间从 早上 8 点多一直持续到晚上 10 点多才最终恢复,整个故障时间长达 14 个小时。 比较有名的交易所平台如 Gate.io 和 OKEX 都受到大面积故障影响,我都还以为他们跑路了 […]
你好,我是悟空。 本文主要内容如下: 一、前言 最近项目的生产环境遇到一个奇怪的问题: 现象:每天早上客服人员在后台创建客服事件时,都会创建失败。当我们重启这个微服务后,后台就可以正常创建了客服事件了。到第二天早上又会创建失败,又得重启这个微服务才行。 初步排查:创建一个客服事件时,会用到 Redis 的递增操作来生成一个唯一的分布式 ID 作为事件 id。代码如下所示: […]
数据库备份是保障猪八戒数据安全必不可少的一部分,在猪八戒MySQL数据库上我们通常进行热备和binlog备份,目的是能回溯、恢复企业生产数据。其中基于binlog和备份恢复是日常数据库运维中一定会遇到的操作,本文通过一次案例介绍如何在误删除之后基于已有备份和binlog恢复数据以及什么样的备份是可以进行数据恢复的。 背景: MySQL5.6.40,库比较小,row+gtid […]
至暗时刻 2021年7月13日22:52,SRE收到大量服务和域名的接入层不可用报警,客服侧开始收到大量用户反馈B站无法使用,同时内部同学也反馈B站无法打开,甚至APP首页也无法打开。基于报警内容,SRE第一时间怀疑机房、网络、四层LB、七层SLB等基础设施出现问题,紧急发起语音会议,拉各团队相关人员开始紧急处理(为了方便理解,下述事故处理过程做了部分简化)。 初因定位 2 […]
简介 本文是《线上问题处理案例》系列之一,该系列旨在通过真实案例向读者介绍发现问题、定位问题、解决问题的方法。本文讲述了从垃圾回收耗时过长的表象,逐步定位到数据库连接池保活问题的全过程,并对其中用到的一些知识点进行了总结。 一、问题描述 大促期间,某接口超时次数增多,FullGC达500ms以上。 二、应用基本情况 容器:8C12G; JVM配置:-XX:+UseConcM […]
一 背景 最近项目组在版本迭代时,组件也要进行升级,此时涉及到MySQL驱动包jdbc的版本升级。即从5.1.X升级到8.0.X。 然鹅在上线之后就出现了一部分兼容性问题,造成了一次“事故”:调用接口出现“系统错误”。查看日志:java.time.LocalDateTime cannot be cast to java.util.Date,也就是出现时间转换异 […]
1 问题背景 文件网关服务提供访问图片的接口,Android和浏览器访问正常,然而就唯独iOS这边死活访问失败,失败信息如下: Error Domain=NSURLErrorDomain Code=-999 "已取消" UserInfo={NSErrorFailingURLStringKey=https://service.xxx/link/1202010141537537 […]
点击上方蓝色字关注我们~ 前言 从HTTP请求超时、重试机制、操作系统网络等层面剖析了事故的原因,最终解决业务问题。 这里先抛两个问题: 1)你遭遇过由于网络连接或请求超时造成的生产事故吗? 2)你知道操作系统默认的网络连接超时是多少秒? 先思考下,可以将你的答案写在评论区哦。 问题背景 最近同事出现这么一个问题,简单业务场景: 服务A使用HTTP请求服务B接口m。服务A起 […]
COPYRIGHT © 2014-2023 verysu.com . ALL RIGHTS RESERVED.
Theme Kratos Made By Seaton Jiang