Cloudflare объяснила глобальный сбой ошибкой Bot Management

Cloudflare post-mortem ties global outage to bot-management bug - GNcrypto

В детальном отчете после инцидента 18 ноября 2025 года Cloudflare сообщила, что изменение прав доступа в БД породило ошибочный конфиг Bot Management. Он вызвал сбой ключевого прокси-софта, отчего X, ChatGPT и другие сервисы оказались вне сети.

После масштабного сбоя, который мы осветили в материале-анализе, Cloudflare уточнила, что неполадки стартовали в 11:20 UTC: системы начали выдавать лавину HTTP-ошибок 5xx из-за внутреннего бага, не имеющего отношения к кибератакам. К 14:30 UTC был восстановлен основной трафик, а в 17:06 UTC компания объявила о полном возвращении сервисов в рабочий режим.

Технический разбор показывает, что сбой зародился в 11:05 UTC: изменение прав доступа в ClickHouse-кластер изменило поведение запросов к метаданным и вызвало генерацию «feature file» с дубликатами строк. Его размер удвоился и был разослан по всему периметру — на все сервера Cloudflare, участвующие в обработке входящего трафика.

Этот feature-файл обрабатывается компонентами базового прокси Cloudflare, которые назначают bot-score и применяют защитные политики к входящим HTTP-запросам. Прокси-ПО имело строгие ограничения на размер и число признаков, которые оно способно загрузить без риска. Когда на сеть пришла новая — слишком тяжёлая — версия файла, Bot Management вышел за лимит и вызвал «panic» в Rust-части нового движка FL2, отчего прокси стал возвращать HTTP 5xx на обслуживаемый трафик.

Как уточнила Cloudflare, первым симптомом стал скачок 5xx-ответов в 11:20 UTC. Дальше показатель «плавал»: новые feature-файлы создавались раз в пять минут, и если запрос на генерацию выполнялся на обновлённом ClickHouse-узле, появлялся плохой файл; на старом — корректный. Поэтому система чередовала периоды краткого восстановления и нового отказа, пока все узлы не перешли на генерацию ошибочной конфигурации, после чего авария закрепилась окончательно.

Инцидент затронул не только доставку контента и защитные механизмы. В перечне Cloudflare фигурируют CDN-сервисы, security-инструменты, Turnstile, распределённое хранилище Workers KV, продукт Access и административная панель. Пользователи получали внутренние экраны ошибок, Turnstile не подгружался на страницах логина, Workers KV выдавал повышенный поток 5xx, а Access не позволял входить в новые сессии — тогда как уже активные соединения продолжали работать. Рост задержек по CDN объяснялся тем, что средства отладки и наблюдаемости активно потребляли ресурс CPU.

На ранних этапах сбоя сотрудники заподозрили именно атаку: публичная статус-страница легла практически одновременно с сервисами, хотя она размещена вне инфраструктуры Cloudflare. Внутренние чаты обсуждали вероятность мощного удара по production-среде и по статус-странице одновременно, пока инженеры не проследили сбой до feature-файла Bot Management и изменённого запроса метаданных в ClickHouse.

Меры по восстановлению вводились последовательно. В 13:05 UTC Cloudflare настроила обходные механизмы, благодаря которым Workers KV и Access смогли временно работать на предыдущем прокси-ядре, что снизило уровень ошибок. В 14:24 UTC команда остановила выпуск новых конфигов Bot Management и протестировала исправную версию. В 14:30 UTC корректный файл развернули по всему периметру, восстановив большинство систем. Оставшиеся узлы перезапускали и очищали от ошибок в течение последующих часов. Полное восстановление зафиксировали в 17:06 UTC.

Компания охарактеризовала случившееся как крупнейший по воздействию сбой с 2019 года. Обычно проблемы ограничивались панелью или новыми функциям, но отказ, который лишил сеть способности проводить большую часть базового трафика, Cloudflare не переживала более шести лет. Даже кратковременная невозможность маршрутизации трафика для провайдера инфраструктуры столь высокого уровня оборачивается большими проблемами, что уж и говорить о длительных сбоях.

Материалы на GNcrypto предоставляются исключительно в информационных целях и не являются финансовой рекомендацией. Мы стремимся публиковать точные и актуальные данные, однако не можем гарантировать их абсолютную достоверность, полноту или надёжность. GNcrypto не несёт ответственности за возможные ошибки, упущения или финансовые потери, возникшие вследствие использования данной информации. Все действия вы совершаете на свой страх и риск. Всегда проводите собственный анализ и консультируйтесь с профессионалами. Подробнее см. в наших страницах Условия, Политика конфиденциальности и Отказ от ответственности.

Статьи этого автора