提到「事故分析」的文章

…rnal mirrored repository. This migration advanced us several PgBouncer versions ahead. Railway 事故分析。DB schema 变更因为“不小心”被 revert 了，控制面崩了，控制面崩了发现是 PgBouncer 资源消耗异常，原来是因为 bitnami 不维护公开 image 了，所有他们迁…

…Heroku June 10 Outage | Heroku](https://www.heroku.com/blog/summary-of-june-10-outage/) Heroku 事故分析，这个故障造成一些客户长达 24h 的停机，属于重大事故了。 > A lack of sufficient immutability controls allowed an automated pr…

…backup was almost two years old. > “Complex systems usually operate in failure mode.” Slack 的事故分析，因为一次集群存储空间不足，导致所有的 Kibana 配置丢失。我没有理解即使再 bad state，为什么数据会丢失呢？我猜是因为他们自信自己有备份所以直接删除了，然后发现自己的备份一直是失效…

…server is broken) > 因此，我认为合理的解释是DNS缓存只是故障的其中一个因素，真正的根本原因可能是架构设计上存在缺陷，dns只是一个替罪羊。 OpenAI 官方的事故分析，以及关注的一些其他工程师针对事故分析给出自己的想法。对于 OpenAI 的代码变更部署速度有些担心（2:23PM 代码合并，2:52 PM 代码变更在所有生产集群开始生效，这个“效率”太高了…

…ps://blog.palark.com/sre-troubleshooting-ceph-systemd-containerd/) Palark 内部 kubernetes 集群事故分析。内部的日志存储系统运行在 kubernetes 上，依赖于 S3，S3 由使用 Rook 部署的 Ceph 集群提供。这套部署模式一致在不同的虚拟化环境和…

…t Blog](https://blog.rust-lang.org/inside-rust/2023/07/21/crates-io-postmortem.html) crates.io 事故分析，一个错误的 PR 导致 13min 宕机，其中分析为什么的阶段，连续的 Why 的答案也很无奈，大家都一样（此处不能用“草台班子”）：没有单元测试、没有 reviewer、没有测试环境、全手动测试。…

…tps://gitlab.com/gitlab-com/gl-infra/production/-/issues/15999) Gitlab 对Terraform 使用不当导致故障的事故分析。在变更请求过程中,触发了一个过期的Terraform流水线。这导致一个过时的Terraform计划被应用到生产环境。同样的操作之前多次执行都没有问题。导致这次故障的原因是应用变更到生产环境有较长延迟…

…https://www.reddit.com/r/RedditEng/comments/11xx5o0/youbrokeredditthepidayoutage/) Reddit 事故分析，写的非常精彩。根本原因是这个集群存在一些没有人指导的变更动作，集群一直正常工作，这个变更动作依赖于 kubernetes master 标签，在升级到 1.24 版本时，这个标签被 contr…