[[ 事故分析 ]]

8 篇文章提到了此关键词

…rnal mirrored repository. This migration advanced us several PgBouncer versions ahead. Railway 事故分析。DB schema 变更因为“不小心”被 revert 了,控制面崩了,控制面崩了发现是 PgBouncer 资源消耗异常,原来是因为 bitnami 不维护公开 image 了,所有他们迁…

…Heroku June 10 Outage | Heroku](https://www.heroku.com/blog/summary-of-june-10-outage/) Heroku 事故分析,这个故障造成一些客户长达 24h 的停机,属于重大事故了。 > A lack of sufficient immutability controls allowed an automated pr…

…backup was almost two years old. > “Complex systems usually operate in failure mode.” Slack 的事故分析,因为一次集群存储空间不足,导致所有的 Kibana 配置丢失。我没有理解即使再 bad state,为什么数据会丢失呢? 我猜是因为他们自信自己有备份所以直接删除了,然后发现自己的备份一直是失效…

…server is broken) > 因此,我认为合理的解释是DNS缓存只是故障的其中一个因素,真正的根本原因可能是架构设计上存在缺陷,dns只是一个替罪羊。 OpenAI 官方的 事故分析,以及关注的一些其他工程师针对事故分析给出自己的想法。对于 OpenAI 的代码变更部署速度有些担心(2:23PM 代码合并,2:52 PM 代码变更在所有生产集群开始生效,这个“效率”太高了…

…ps://blog.palark.com/sre-troubleshooting-ceph-systemd-containerd/) Palark 内部 kubernetes 集群 事故分析。 内部的日志存储系统运行在 kubernetes 上,依赖于 S3,S3 由使用 Rook 部署的 Ceph 集群提供。这套部署模式一致在不同的虚拟化环境和…

…t Blog](https://blog.rust-lang.org/inside-rust/2023/07/21/crates-io-postmortem.html) crates.io 事故分析,一个错误的 PR 导致 13min 宕机,其中分析为什么的阶段,连续的 Why 的答案也很无奈,大家都一样(此处不能用“草台班子”):没有单元测试、没有 reviewer、没有测试环境、全手动测试。…

…tps://gitlab.com/gitlab-com/gl-infra/production/-/issues/15999) Gitlab 对Terraform 使用不当导致故障的事故分析。在变更请求过程中,触发了一个过期的Terraform流水线。这导致一个过时的Terraform计划被应用到生产环境。同样的操作之前多次执行都没有问题。导致这次故障的原因是应用变更到生产环境有较长延迟…

…https://www.reddit.com/r/RedditEng/comments/11xx5o0/youbrokeredditthepidayoutage/) Reddit 事故分析,写的非常精彩。根本原因是这个集群存在一些没有人指导的变更动作,集群一直正常工作,这个变更动作依赖于 kubernetes master 标签,在升级到 1.24 版本时,这个标签被 contr…