Компас методологий: ITIL, SRE, DevOps после диагностики

Ключевая идея

TODOIT: System Exposure Framework отвечает на вопрос «что не так и куда двигаться» — это диагностика. ITIL, DevOps, Agile, SRE, ISO 22301 и похожие подходы отвечают на вопрос «как чинить» — это лечение: практики, процессы и инженерные инструменты. Если нужно понять, чем TODOIT отличается от FAIR или ISO 22301 — см. сравнение подходов.

Раздел полезен после первой оценки по методологии и когда вы составляете план работ — вместе с полным отчётом. Здесь нет новых формул из частей 2–7: это практическая подсказка, как типичные на рынке практики согласуются с вашими показателями и факторами TODOIT.

В разделе «Сравнение подходов» разобраны сами подходы — что измеряют FAIR, ISO 22301, SRE и т.д. Здесь — что делать дальше после диагностики TODOIT: какой тип практик обычно подходит под какой индекс или фактор.

ITIL, DevOps и SRE намеренно пересекаются по темам (инциденты, изменения, CI/CD). Строки таблиц ниже — ориентиры, а не жёсткие «один к одному» соглашения.

После оценки у вас есть профиль (FS, MS, RS, AS) и очередность внимания по логике MS → FS → RS → AS. Ниже — справочник методологий, матрица соответствия, схемы потока и детальная карта по осям.

Уточнение про SRM. В этом разделе под этим сокращением имеется в виду только Supplier Risk Management — управление рисками поставщиков. Названия HA (High Availability), отказоустойчивость и запас по мощности (capacity) к нему не относятся: иначе смешиваются разные задачи.

Справочник методологий

В прикладной литературе и стандартах эти объекты обычно относят к разным «семействам»: ITSM, инженерия надёжности, поставка ПО, непрерывность бизнеса, управление рисками цепочки поставок, проектирование предметной области. Ниже — нейтральные определения без привязки к конкретной оценочной модели; они не подменяют официальные источники и используются как вводный ориентир.

Во второй колонке таблицы показано, к каким осям и факторам методология чаще всего подключается в логике TODOIT (FS, MS, RS, AS, факторы F/C/R/A/M). Это эвристика для планирования, а не расширение формальных формул.

Методология / семейство	Определение	В контексте TODOIT
ITIL 4	Стандарт управления IT-услугами: цепочка ценности услуги, практики (инциденты, изменения, запросы, каталог), роли и жизненный цикл сервиса. Описывает организацию процессов вокруг IT-услуг, а не архитектуру приложений как таковую.	Ось MS: M2 (контроль изменений), M3 (владение), инцидентный контур — в связке с R4.
ISO / IEC 20000	Международный стандарт на систему менеджмента IT-услуг: требования к планированию, поставке, контролю и улучшению услуг; часто для подтверждения соответствия (аудит, контракты).	Процессная опора для MS и дисциплины изменений; в матрице ниже — рядом с ITIL как типичная пара «практика + стандарт».
SRE	Site Reliability Engineering — инженерная практика бесперебойной работы сервисов с заранее оговорённым уровнем надёжности. Подробнее — в блоке ниже.	M1 (наблюдаемость), M4 (обратная связь), при полной оценке — R4.
Observability	Свойство системы: по внешним следам (метрики, логи, трейсы) судить о внутреннем состоянии и причинах поведения; в инженерной традиции — «три столпа» наблюдаемости.	Прямо питает M1 и диагностику поведения под нагрузкой; нужна для решений по FS и RS.
DevOps	Культурные и технические практики, сокращающие разрыв между разработкой и эксплуатацией: автоматизация конвейера, частые интеграции, общая ответственность за результат в продакшене.	Усиливает M4 и M5; при зрелом внедрении снижает трение между изменениями и стабильностью (MS ↔ FS).
DORA	Исследовательская программа о производительности доставки ПО: частота деплоев, время восстановления, частота отказов изменений, время прохождения изменения.	Внешний ориентир для оценки M5 и потока поставки; не входит в формулы TODOIT, но помогает калибровать цели программы.
HA / отказоустойчивая архитектура	Избыточность компонентов, репликация, переключение ролей, балансировка нагрузки — чтобы отказ элемента не приводил к недоступности сервиса в целом.	Снижает F1 (концентрацию / SPOF) и влияет на TI через BR/RC; целевые SLA задаются вне формул TODOIT.
Resilience Engineering	Как системы переносят сбои и неопределённость; в ПО — circuit breaker, bulkhead, таймауты, лимиты.	Связана с C (каскад), R2 (контролируемая деградация), снижает «домино»-эффекты.
ISO 22301 / BCM	Business Continuity Management — управление непрерывностью бизнеса; ISO 22301 задаёт требования к политикам, планам, компетенциям. RTO/RPO — типичные целевые показатели восстановления.	Ось RS, факторы R3, RC, согласование с бизнесом через L.
Agile / Lean	Agile — итеративная поставка и адаптация; Lean — устранение потерь и поток ценности. В эксплуатации — ретроспективы и культура улучшений.	A1 (выводы после инцидентов), A5 (устранение классов проблем), M4.
Chaos Engineering	Контролируемые эксперименты в реалистичной среде: проверка гипотез о поведении при отказах (GameDays, инъекция сбоев).	Относится к A3; не ставится в приоритет при низкой MS — сначала управляемость и безопасность экспериментов.
AI-assisted диагностика (LLM)	Использование LLM для предварительной диагностики по формализованным факторам, шкалам и формулам; черновики отчётов, вопросов и сценариев «что если».	Высокая совместимость благодаря формализованным факторам; быстрые предварительные оценки и моделирование сценариев.
Supplier Risk Management	Управление рисками внешних поставщиков: отбор, мониторинг SLA, планы выхода из зависимости.	Уточняет F2 (цепочка поставок); не смешивать с HA.
Domain-Driven Design	Модель предметной области, общий язык с экспертами, bounded contexts — чтобы части системы не тянули друг у друга данные и правила вслепую.	Помогает со F3 (связанность) при декомпозиции; не заменяет оценку FS по шкалам.

SRE — развёрнутое описание

Инженерная практика SRE отвечает за бесперебойную работу сервисов — с соблюдением заранее оговорённого уровня надёжности.

SLO и SLI — договорённости о том, каким должен быть сервис с точки зрения пользователя: доступность, время отклика, задержки и другие метрики качества.
Error budget — допустимый объём сбоев или простоя: «запас прочности», показывающий, сколько нарушений система может «потратить», прежде чем потребуется снизить темп релизов.
Баланс скорости и стабильности — отдельно согласуется, насколько быстро можно внедрять изменения, не жертвуя стабильностью сервиса.
Инцидентная культура — быстрая реакция на инциденты, их разбор и внедрение улучшений, чтобы снизить вероятность повторения.

Матрица «проблема → методология»

Проблема по TODOIT	Индекс / фактор	Ось / шаг	Методология лечения	Практики / инструменты	Ожидаемый результат
Неуправляемость / хаос	MS < 3.0 (M1–M5)	Шаг 1: MS	ITIL 4 / ISO 20000	Incident Mgmt, Change Control, CMDB, Service Catalog	Предсказуемость изменений, учёт активов
Низкая наблюдаемость	M1 < 3.0	Шаг 1: MS	SRE / Observability	SLI/SLO, Prometheus, Grafana, Distributed Tracing	Видимость состояния, алертинг по значимым метрикам
Ручные деплои / откаты	M5 < 3.0	Шаг 1: MS	DevOps / DORA	CI/CD, GitOps, Blue-Green, Canary, Auto-rollback	Безопасные изменения, быстрее восстановление
Единые точки отказа	F1 (SPOF) ≥ 4.0	Шаг 2: FS	HA / отказоустойчивая архитектура	Кластеризация, репликация, Load Balancing, Active-Active	Снижение критических SPOF; доступность — по SLA
Каскадные сбои	C ≥ 4.0	Шаг 2: FS	Resilience Engineering	Circuit Breaker, Bulkhead, Rate Limiting, Timeout	Локализация сбоев, защита от домино-эффекта
Долгое восстановление	RC ≥ 4.0 или R3 < 3.0	Шаг 3: RS	ISO 22301 / BCM	DRP, Backup Strategy, RTO/RPO, Failover Tests	Восстановление в рамках целевого времени
Нет обучения на ошибках	AS < 3.0 (A1–A5)	Шаг 4: AS	Agile / Lean	Blameless Post-Mortem, Retrospective, Kaizen	Системное устранение причин, а не симптомов
Нет тестирования устойчивости	A3 < 3.0	Шаг 4: AS	Chaos Engineering	Chaos Monkey, GameDays, Fault Injection	Доказанная устойчивость до продакшена (при адекватной MS)
Риски сторонних поставщиков	F2 ≥ 4.0	Шаг 2: FS	Supplier Risk Management	Vendor Assessment, SLA Monitoring, Exit Strategy	Снижение рисков цепочки поставок

Одна строка — типичный триггер по индексу или фактору; в реальной системе срабатывают несколько строк одновременно. Выбор практик итеративный; порядок MS → FS → RS → AS задаёт фокус, а не запрет на параллельные работы.

Поток: от диагностики к лечению

Иллюстрация типовых маршрутов «профиль → классы практик», а не полная классификация всех комбинаций FS, MS, RS, AS. При расхождении с вашим профилем приоритет у текстовых правил интерпретации и полного отчёта.

[ TODOIT Диагностика ]
        │
        ▼
   { Профиль системы }
        │
        ├─ MS < 3.0 ──► Стабилизация ──► ITIL 4, DevOps
        ├─ MS ≥ 3.0 и FS ≥ 3.0 ──► Снижение хрупкости ──► HA/DR, SRE
        ├─ FS < 3.0 и RS < 3.0 ──► Укрепление устойчивости ──► ISO 22301
        └─ FS < 3.0, RS ≥ 3.0, AS < 3.0 ──► Антихрупкость ──► Agile, Chaos
        │
        ▼
   [ Повторная оценка TODOIT ] ──► (цикл)

flowchart TB
    Start["TODOIT Диагностика"] --> Profile{"Профиль системы"}
    Profile -->|MS < 3.0| Stabilize["СТОП-ЛИНИЯ: Стабилизация"]
    Profile -->|MS ≥ 3.0 и FS ≥ 3.0| ReduceFrag["Снижение хрупкости"]
    Profile -->|FS < 3.0 и RS < 3.0| StrengthenRes["Укрепление устойчивости"]
    Profile -->|FS < 3.0, RS ≥ 3.0, AS < 3.0| Evolve["Развитие антихрупкости"]
    Stabilize --> ITIL["ITIL 4: Change & Incident Mgmt"]
    Stabilize --> DevOps["DevOps: CI/CD, Observability"]
    ReduceFrag --> HA_DR["HA / DR архитектура"]
    ReduceFrag --> SRE["SRE: Circuit Breaker, Bulkhead"]
    StrengthenRes --> ISO22301["ISO 22301: BCM, DRP, RTO/RPO"]
    Evolve --> Agile["Agile / Lean: Post-Mortem"]
    Evolve --> Chaos["Chaos Engineering: GameDays"]
    ITIL & DevOps & HA_DR & SRE & ISO22301 & Agile & Chaos --> ReEval["Повторная оценка TODOIT"]
    ReEval --> Profile

Детальная карта по осям

Ось 1: управляемость (MS) — приоритет №1

Фактор	Проблема	Методология	Практика	Метрика улучшения
M1	«Чёрный ящик», нет метрик	SRE / Observability	Golden Signals, SLO	% сервисов с SLO, MTTD
M2	Изменения только через деплой	DevOps / Feature Management	Feature Flags, Kill Switches, Runtime Config	% изменений без деплоя, время отката
M3	Нет владельцев, зоны размыты	ITIL / Service Ownership	Service Owners, RACI	% систем с назначенным владельцем
M4	Долгий feedback-цикл	Agile / DevOps	CI/CD, Canary Releases	Lead Time, Deployment Frequency
M5	Рискованные изменения	DevOps / DORA	Blue-Green, Auto-rollback, IaC	Change Failure Rate, MTTR

Ось 2: хрупкость (FS) — приоритет №2

Фактор	Проблема	Методология	Практика	Метрика улучшения
F1	Единые точки отказа	HA / отказоустойчивая архитектура	Репликация, кластеризация, Active-Active	% критических компонентов без SPOF
F2	Скрытые связи	ITIL / CMDB	Карта зависимостей, Service Mapping	% задокументированных зависимостей
F3	Монолит, сильная связанность	Domain-Driven Design	Decomposition, Bounded Contexts, API Gateway	Количество межсервисных вызовов
F4	Ручное восстановление	SRE / Auto-Remediation	Self-healing, Auto-scaling, K8s Operators	% автоматически восстанавливаемых сбоев

Ось 3: устойчивость (RS) — приоритет №3

Фактор	Проблема	Методология	Практика	Метрика улучшения
R1	Нет избыточности	Capacity / инфраструктура	Capacity Headroom, Auto-scaling	% ресурсов в резерве
R2	Полный отказ при сбое	Resilience Engineering	Circuit Breaker, Fallback, Read-Only Mode	% сценариев с graceful degradation
R3	Нет планов восстановления	ISO 22301 / BCM	DRP, Backup Tests, RTO/RPO	% успешных DR-учений
R4	Нет runbooks, алерты шумят	SRE / Incident Mgmt	Runbooks, Alert Tuning, Escalation	% алертов с действиями
R5	Нет on-call, эскалаций	ITIL / SRE	On-call Rotation, Escalation Matrix	Время эскалации, нагрузка на команду

Ось 4: антихрупкость (AS) — приоритет №4

Фактор	Проблема	Методология	Практика	Метрика улучшения
A1	Инциденты без выводов	Agile / Lean	Blameless Post-Mortem, Action Tracking	% инцидентов с action items
A2	Нет регрессии после сбоев	DevOps / TDD	Automated Regression Tests	% инцидентов с новыми тестами
A3	Нет проверки устойчивости	Chaos Engineering	GameDays, Fault Injection	Количество экспериментов, найденных уязвимостей
A4	Решения без данных	SRE / Analytics	Incident Dashboards, Trend Analysis	% решений на основе данных инцидентов
A5	Точечные исправления	Lean / Kaizen	Root Cause Analysis, Systemic Fixes	% устранённых классов проблем

Жизненный цикл улучшения

Цепочка P1→…→P4 — мнемоника порядка внимания (MS → FS → RS → AS), а не взаимоисключающий алгоритм: на практике работы по осям перекрываются; критерий — где узкое место по профилю.

Диагностика → Приоритизация → Лечение → Контроль → (повтор)
  FS/MS/RS/AS     MS? FS? RS? AS?    ITIL/DevOps/HA/BCM/Chaos
  EX/SQI/SEI                      Повторная оценка, дорожная карта

flowchart LR
    subgraph Diag["TODOIT Диагностика"]
        D1["Оценка FS/MS/RS/AS"]
        D2["Расчёт EX/SQI/SEI"]
        D3["Категория системы"]
    end
    subgraph Prior["Приоритизация"]
        P1{"MS < 3.0?"}
        P2{"FS ≥ 3.0?"}
        P3{"RS < 3.0?"}
        P4{"AS < 3.0?"}
    end
    subgraph Treat["Методологии лечения"]
        T1["ITIL / DevOps: Стабилизация"]
        T2["HA / SRE: Снижение хрупкости"]
        T3["ISO 22301 / BCM: Устойчивость"]
        T4["Agile / Chaos: Антихрупкость"]
    end
    subgraph Control["Контроль результата"]
        C1["Повторная оценка TODOIT"]
        C2["Сравнение индексов"]
        C3["Обновление дорожной карты"]
    end
    Diag --> Prior
    Prior --> P1
    P1 -->|Да| T1
    P1 -->|Нет| P2
    P2 -->|Да| T2
    P2 -->|Нет| P3
    P3 -->|Да| T3
    P3 -->|Нет| P4
    P4 -->|Да| T4
    T1 & T2 & T3 & T4 --> Control
    Control --> Diag

Дорожная карта на 12 месяцев

Последовательность кварталов отражает порядок осей MS → FS → RS → AS; реальные программы могут перекрывать кварталы. Ниже — пример, а не универсальный календарь.

Квартал	Фокус TODOIT	Целевые индексы (иллюстрация)	Методологии	Ключевые инициативы
Q1	MS (управляемость)	MS: 2.0 → 3.0+	ITIL, DevOps	CI/CD, мониторинг, назначение владельцев
Q2	FS (хрупкость)	FS: 4.0 → 3.0	HA / SRE	Устранение SPOF, circuit breakers, карта зависимостей
Q3	RS (устойчивость)	RS: 2.0 → 3.0+	ISO 22301, BCM	DR-учения, runbooks, on-call процессы
Q4	AS (антихрупкость)	AS: 2.0 → 3.0+	Agile, Chaos Engineering	Post-mortem культура, GameDays, авто-тесты

Ожидаемый результат за год (условный ориентир для калибровки плана, не следствие формул):

SQI: 0.5 → 1.5+ (баланс управляемости и хрупкости)
SEI: 0.5 → 2.0+ (потенциал эволюции)
EX: возможное снижение порядка 40–60% при существенном снижении FS при неизменном L — пересчитывайте по EX = FS × L после повторной оценки

Пример: легаси-монолит

Сценарий из методологии (в т.ч. EX = 17.96, SQI ≈ 0.58, SEI ≈ 0.93).

Диагноз TODOIT

FS = 4.49 — критическая хрупкость
MS = 2.6 — слабая управляемость
RS = 2.0 — низкая устойчивость
AS = 1.6 — нет обучения на инцидентах
Категория: кризис

План действий по методологиям

Шаг	Проблема TODOIT	Факторы	Методология	Действие	Срок
1	MS < 3.0 (шаг 1)	M1, M3, M5	ITIL + DevOps	Базовый мониторинг, назначить владельцев, настроить CI/CD	1–2 месяца
2	F1 = 5 (SPOF — БД)	F1	HA / DR	Репликация БД, настройка failover	2–3 месяца
3	R3 = 2 (нет DR)	R3	ISO 22301	Разработать DRP, провести учение восстановления	3–4 месяца
4	A1 = 2 (нет постмортемов)	A1	Agile / Lean	Внедрить blameless post-mortem процесс	4–5 месяцев
5	Повторная оценка	—	TODOIT	Замерить новые индексы, скорректировать план	6 месяцев

Ожидаемый результат через 6 месяцев

Иллюстративная цель плана; сверка категории — по правилам интерпретации методологии.

FS: 4.49 → 3.0
MS: 2.6 → 3.5
RS: 2.0 → 3.0
AS: 1.6 → 2.5
Категория (ориентир): кризис → управляемая

Ключевые выводы

TODOIT не заменяет ITIL, DevOps, Agile, SRE и смежные подходы — он помогает выбрать фокус и типовой пакет практик.
Chaos Engineering и прочие практики оси AS не должны быть приоритетом, пока MS и управляемость изменений не на приемлемом уровне. Это не запрет экспериментов, а предупреждение о типичном порядке вложений.
Типовые методологии улучшают конкретные факторы TODOIT (DevOps → M5, HA → F1). Supplier Risk — отдельный контур для цепочки поставщиков (F2), не смешивайте с HA.
Оркестратор практик не отменяет критичность бизнеса (L); при высоком L интерпретация EX и приоритет инвестиций остаются в связке с бизнес-контекстом.
После внедрения практик — повторная оценка TODOIT для замера прогресса (SQI, SEI, EX).

TODOIT — это компас. ITIL, DevOps, Agile, SRE — это транспорт. Компас говорит, куда ехать. Транспорт доставляет туда. Без компаса транспорт едет вслепую. Без транспорта компас бесполезен.