Компас методологий
TODOIT: System Exposure · Оркестратор методологий
TODOIT как компас: диагностика показывает направление, а ITIL, DevOps, SRE, ISO 22301 и другие подходы помогают «лечить» конкретные проблемы.
Ключевая идея
TODOIT: System Exposure Framework отвечает на вопрос «что не так и куда двигаться» — это диагностика. ITIL, DevOps, Agile, SRE, ISO 22301 и похожие подходы отвечают на вопрос «как чинить» — это лечение: практики, процессы и инженерные инструменты. Если нужно понять, чем TODOIT отличается от FAIR или ISO 22301 — см. сравнение подходов.
Раздел полезен после первой оценки по методологии и когда вы составляете план работ — вместе с полным отчётом. Здесь нет новых формул из частей 2–7: это практическая подсказка, как типичные на рынке практики согласуются с вашими показателями и факторами TODOIT.
В разделе «Сравнение подходов» разобраны сами подходы — что измеряют FAIR, ISO 22301, SRE и т.д. Здесь — что делать дальше после диагностики TODOIT: какой тип практик обычно подходит под какой индекс или фактор.
ITIL, DevOps и SRE намеренно пересекаются по темам (инциденты, изменения, CI/CD). Строки таблиц ниже — ориентиры, а не жёсткие «один к одному» соглашения.
После оценки у вас есть профиль (FS, MS, RS, AS) и очередность внимания по логике MS → FS → RS → AS. Ниже — справочник методологий, матрица соответствия, схемы потока и детальная карта по осям.
Уточнение про SRM. В этом разделе под этим сокращением имеется в виду только Supplier Risk Management — управление рисками поставщиков. Названия HA (High Availability), отказоустойчивость и запас по мощности (capacity) к нему не относятся: иначе смешиваются разные задачи.
Справочник методологий
В прикладной литературе и стандартах эти объекты обычно относят к разным «семействам»: ITSM, инженерия надёжности, поставка ПО, непрерывность бизнеса, управление рисками цепочки поставок, проектирование предметной области. Ниже — нейтральные определения без привязки к конкретной оценочной модели; они не подменяют официальные источники и используются как вводный ориентир.
Во второй колонке таблицы показано, к каким осям и факторам методология чаще всего подключается в логике TODOIT (FS, MS, RS, AS, факторы F/C/R/A/M). Это эвристика для планирования, а не расширение формальных формул.
| Методология / семейство | Определение | В контексте TODOIT |
|---|---|---|
| ITIL 4 | Стандарт управления IT-услугами: цепочка ценности услуги, практики (инциденты, изменения, запросы, каталог), роли и жизненный цикл сервиса. Описывает организацию процессов вокруг IT-услуг, а не архитектуру приложений как таковую. | Ось MS: M2 (контроль изменений), M3 (владение), инцидентный контур — в связке с R4. |
| ISO / IEC 20000 | Международный стандарт на систему менеджмента IT-услуг: требования к планированию, поставке, контролю и улучшению услуг; часто для подтверждения соответствия (аудит, контракты). | Процессная опора для MS и дисциплины изменений; в матрице ниже — рядом с ITIL как типичная пара «практика + стандарт». |
| SRE | Site Reliability Engineering — инженерная практика бесперебойной работы сервисов с заранее оговорённым уровнем надёжности. Подробнее — в блоке ниже. | M1 (наблюдаемость), M4 (обратная связь), при полной оценке — R4. |
| Observability | Свойство системы: по внешним следам (метрики, логи, трейсы) судить о внутреннем состоянии и причинах поведения; в инженерной традиции — «три столпа» наблюдаемости. | Прямо питает M1 и диагностику поведения под нагрузкой; нужна для решений по FS и RS. |
| DevOps | Культурные и технические практики, сокращающие разрыв между разработкой и эксплуатацией: автоматизация конвейера, частые интеграции, общая ответственность за результат в продакшене. | Усиливает M4 и M5; при зрелом внедрении снижает трение между изменениями и стабильностью (MS ↔ FS). |
| DORA | Исследовательская программа о производительности доставки ПО: частота деплоев, время восстановления, частота отказов изменений, время прохождения изменения. | Внешний ориентир для оценки M5 и потока поставки; не входит в формулы TODOIT, но помогает калибровать цели программы. |
| HA / отказоустойчивая архитектура | Избыточность компонентов, репликация, переключение ролей, балансировка нагрузки — чтобы отказ элемента не приводил к недоступности сервиса в целом. | Снижает F1 (концентрацию / SPOF) и влияет на TI через BR/RC; целевые SLA задаются вне формул TODOIT. |
| Resilience Engineering | Как системы переносят сбои и неопределённость; в ПО — circuit breaker, bulkhead, таймауты, лимиты. | Связана с C (каскад), R2 (контролируемая деградация), снижает «домино»-эффекты. |
| ISO 22301 / BCM | Business Continuity Management — управление непрерывностью бизнеса; ISO 22301 задаёт требования к политикам, планам, компетенциям. RTO/RPO — типичные целевые показатели восстановления. | Ось RS, факторы R3, RC, согласование с бизнесом через L. |
| Agile / Lean | Agile — итеративная поставка и адаптация; Lean — устранение потерь и поток ценности. В эксплуатации — ретроспективы и культура улучшений. | A1 (выводы после инцидентов), A5 (устранение классов проблем), M4. |
| Chaos Engineering | Контролируемые эксперименты в реалистичной среде: проверка гипотез о поведении при отказах (GameDays, инъекция сбоев). | Относится к A3; не ставится в приоритет при низкой MS — сначала управляемость и безопасность экспериментов. |
| AI-assisted диагностика (LLM) | Использование LLM для предварительной диагностики по формализованным факторам, шкалам и формулам; черновики отчётов, вопросов и сценариев «что если». | Высокая совместимость благодаря формализованным факторам; быстрые предварительные оценки и моделирование сценариев. |
| Supplier Risk Management | Управление рисками внешних поставщиков: отбор, мониторинг SLA, планы выхода из зависимости. | Уточняет F2 (цепочка поставок); не смешивать с HA. |
| Domain-Driven Design | Модель предметной области, общий язык с экспертами, bounded contexts — чтобы части системы не тянули друг у друга данные и правила вслепую. | Помогает со F3 (связанность) при декомпозиции; не заменяет оценку FS по шкалам. |
SRE — развёрнутое описание
Инженерная практика SRE отвечает за бесперебойную работу сервисов — с соблюдением заранее оговорённого уровня надёжности.
- SLO и SLI — договорённости о том, каким должен быть сервис с точки зрения пользователя: доступность, время отклика, задержки и другие метрики качества.
- Error budget — допустимый объём сбоев или простоя: «запас прочности», показывающий, сколько нарушений система может «потратить», прежде чем потребуется снизить темп релизов.
- Баланс скорости и стабильности — отдельно согласуется, насколько быстро можно внедрять изменения, не жертвуя стабильностью сервиса.
- Инцидентная культура — быстрая реакция на инциденты, их разбор и внедрение улучшений, чтобы снизить вероятность повторения.
Матрица «проблема → методология»
| Проблема по TODOIT | Индекс / фактор | Ось / шаг | Методология лечения | Практики / инструменты | Ожидаемый результат |
|---|---|---|---|---|---|
| Неуправляемость / хаос | MS < 3.0 (M1–M5) | Шаг 1: MS | ITIL 4 / ISO 20000 | Incident Mgmt, Change Control, CMDB, Service Catalog | Предсказуемость изменений, учёт активов |
| Низкая наблюдаемость | M1 < 3.0 | Шаг 1: MS | SRE / Observability | SLI/SLO, Prometheus, Grafana, Distributed Tracing | Видимость состояния, алертинг по значимым метрикам |
| Ручные деплои / откаты | M5 < 3.0 | Шаг 1: MS | DevOps / DORA | CI/CD, GitOps, Blue-Green, Canary, Auto-rollback | Безопасные изменения, быстрее восстановление |
| Единые точки отказа | F1 (SPOF) ≥ 4.0 | Шаг 2: FS | HA / отказоустойчивая архитектура | Кластеризация, репликация, Load Balancing, Active-Active | Снижение критических SPOF; доступность — по SLA |
| Каскадные сбои | C ≥ 4.0 | Шаг 2: FS | Resilience Engineering | Circuit Breaker, Bulkhead, Rate Limiting, Timeout | Локализация сбоев, защита от домино-эффекта |
| Долгое восстановление | RC ≥ 4.0 или R3 < 3.0 | Шаг 3: RS | ISO 22301 / BCM | DRP, Backup Strategy, RTO/RPO, Failover Tests | Восстановление в рамках целевого времени |
| Нет обучения на ошибках | AS < 3.0 (A1–A5) | Шаг 4: AS | Agile / Lean | Blameless Post-Mortem, Retrospective, Kaizen | Системное устранение причин, а не симптомов |
| Нет тестирования устойчивости | A3 < 3.0 | Шаг 4: AS | Chaos Engineering | Chaos Monkey, GameDays, Fault Injection | Доказанная устойчивость до продакшена (при адекватной MS) |
| Риски сторонних поставщиков | F2 ≥ 4.0 | Шаг 2: FS | Supplier Risk Management | Vendor Assessment, SLA Monitoring, Exit Strategy | Снижение рисков цепочки поставок |
Одна строка — типичный триггер по индексу или фактору; в реальной системе срабатывают несколько строк одновременно. Выбор практик итеративный; порядок MS → FS → RS → AS задаёт фокус, а не запрет на параллельные работы.
Поток: от диагностики к лечению
Иллюстрация типовых маршрутов «профиль → классы практик», а не полная классификация всех комбинаций FS, MS, RS, AS. При расхождении с вашим профилем приоритет у текстовых правил интерпретации и полного отчёта.
[ TODOIT Диагностика ]
│
▼
{ Профиль системы }
│
├─ MS < 3.0 ──► Стабилизация ──► ITIL 4, DevOps
├─ MS ≥ 3.0 и FS ≥ 3.0 ──► Снижение хрупкости ──► HA/DR, SRE
├─ FS < 3.0 и RS < 3.0 ──► Укрепление устойчивости ──► ISO 22301
└─ FS < 3.0, RS ≥ 3.0, AS < 3.0 ──► Антихрупкость ──► Agile, Chaos
│
▼
[ Повторная оценка TODOIT ] ──► (цикл)
flowchart TB
Start["TODOIT Диагностика"] --> Profile{"Профиль системы"}
Profile -->|MS < 3.0| Stabilize["СТОП-ЛИНИЯ: Стабилизация"]
Profile -->|MS ≥ 3.0 и FS ≥ 3.0| ReduceFrag["Снижение хрупкости"]
Profile -->|FS < 3.0 и RS < 3.0| StrengthenRes["Укрепление устойчивости"]
Profile -->|FS < 3.0, RS ≥ 3.0, AS < 3.0| Evolve["Развитие антихрупкости"]
Stabilize --> ITIL["ITIL 4: Change & Incident Mgmt"]
Stabilize --> DevOps["DevOps: CI/CD, Observability"]
ReduceFrag --> HA_DR["HA / DR архитектура"]
ReduceFrag --> SRE["SRE: Circuit Breaker, Bulkhead"]
StrengthenRes --> ISO22301["ISO 22301: BCM, DRP, RTO/RPO"]
Evolve --> Agile["Agile / Lean: Post-Mortem"]
Evolve --> Chaos["Chaos Engineering: GameDays"]
ITIL & DevOps & HA_DR & SRE & ISO22301 & Agile & Chaos --> ReEval["Повторная оценка TODOIT"]
ReEval --> Profile
Детальная карта по осям
Ось 1: управляемость (MS) — приоритет №1
| Фактор | Проблема | Методология | Практика | Метрика улучшения |
|---|---|---|---|---|
| M1 | «Чёрный ящик», нет метрик | SRE / Observability | Golden Signals, SLO | % сервисов с SLO, MTTD |
| M2 | Изменения только через деплой | DevOps / Feature Management | Feature Flags, Kill Switches, Runtime Config | % изменений без деплоя, время отката |
| M3 | Нет владельцев, зоны размыты | ITIL / Service Ownership | Service Owners, RACI | % систем с назначенным владельцем |
| M4 | Долгий feedback-цикл | Agile / DevOps | CI/CD, Canary Releases | Lead Time, Deployment Frequency |
| M5 | Рискованные изменения | DevOps / DORA | Blue-Green, Auto-rollback, IaC | Change Failure Rate, MTTR |
Ось 2: хрупкость (FS) — приоритет №2
| Фактор | Проблема | Методология | Практика | Метрика улучшения |
|---|---|---|---|---|
| F1 | Единые точки отказа | HA / отказоустойчивая архитектура | Репликация, кластеризация, Active-Active | % критических компонентов без SPOF |
| F2 | Скрытые связи | ITIL / CMDB | Карта зависимостей, Service Mapping | % задокументированных зависимостей |
| F3 | Монолит, сильная связанность | Domain-Driven Design | Decomposition, Bounded Contexts, API Gateway | Количество межсервисных вызовов |
| F4 | Ручное восстановление | SRE / Auto-Remediation | Self-healing, Auto-scaling, K8s Operators | % автоматически восстанавливаемых сбоев |
Ось 3: устойчивость (RS) — приоритет №3
| Фактор | Проблема | Методология | Практика | Метрика улучшения |
|---|---|---|---|---|
| R1 | Нет избыточности | Capacity / инфраструктура | Capacity Headroom, Auto-scaling | % ресурсов в резерве |
| R2 | Полный отказ при сбое | Resilience Engineering | Circuit Breaker, Fallback, Read-Only Mode | % сценариев с graceful degradation |
| R3 | Нет планов восстановления | ISO 22301 / BCM | DRP, Backup Tests, RTO/RPO | % успешных DR-учений |
| R4 | Нет runbooks, алерты шумят | SRE / Incident Mgmt | Runbooks, Alert Tuning, Escalation | % алертов с действиями |
| R5 | Нет on-call, эскалаций | ITIL / SRE | On-call Rotation, Escalation Matrix | Время эскалации, нагрузка на команду |
Ось 4: антихрупкость (AS) — приоритет №4
| Фактор | Проблема | Методология | Практика | Метрика улучшения |
|---|---|---|---|---|
| A1 | Инциденты без выводов | Agile / Lean | Blameless Post-Mortem, Action Tracking | % инцидентов с action items |
| A2 | Нет регрессии после сбоев | DevOps / TDD | Automated Regression Tests | % инцидентов с новыми тестами |
| A3 | Нет проверки устойчивости | Chaos Engineering | GameDays, Fault Injection | Количество экспериментов, найденных уязвимостей |
| A4 | Решения без данных | SRE / Analytics | Incident Dashboards, Trend Analysis | % решений на основе данных инцидентов |
| A5 | Точечные исправления | Lean / Kaizen | Root Cause Analysis, Systemic Fixes | % устранённых классов проблем |
Жизненный цикл улучшения
Цепочка P1→…→P4 — мнемоника порядка внимания (MS → FS → RS → AS), а не взаимоисключающий алгоритм: на практике работы по осям перекрываются; критерий — где узкое место по профилю.
Диагностика → Приоритизация → Лечение → Контроль → (повтор) FS/MS/RS/AS MS? FS? RS? AS? ITIL/DevOps/HA/BCM/Chaos EX/SQI/SEI Повторная оценка, дорожная карта
flowchart LR
subgraph Diag["TODOIT Диагностика"]
D1["Оценка FS/MS/RS/AS"]
D2["Расчёт EX/SQI/SEI"]
D3["Категория системы"]
end
subgraph Prior["Приоритизация"]
P1{"MS < 3.0?"}
P2{"FS ≥ 3.0?"}
P3{"RS < 3.0?"}
P4{"AS < 3.0?"}
end
subgraph Treat["Методологии лечения"]
T1["ITIL / DevOps: Стабилизация"]
T2["HA / SRE: Снижение хрупкости"]
T3["ISO 22301 / BCM: Устойчивость"]
T4["Agile / Chaos: Антихрупкость"]
end
subgraph Control["Контроль результата"]
C1["Повторная оценка TODOIT"]
C2["Сравнение индексов"]
C3["Обновление дорожной карты"]
end
Diag --> Prior
Prior --> P1
P1 -->|Да| T1
P1 -->|Нет| P2
P2 -->|Да| T2
P2 -->|Нет| P3
P3 -->|Да| T3
P3 -->|Нет| P4
P4 -->|Да| T4
T1 & T2 & T3 & T4 --> Control
Control --> Diag
Дорожная карта на 12 месяцев
Последовательность кварталов отражает порядок осей MS → FS → RS → AS; реальные программы могут перекрывать кварталы. Ниже — пример, а не универсальный календарь.
| Квартал | Фокус TODOIT | Целевые индексы (иллюстрация) | Методологии | Ключевые инициативы |
|---|---|---|---|---|
| Q1 | MS (управляемость) | MS: 2.0 → 3.0+ | ITIL, DevOps | CI/CD, мониторинг, назначение владельцев |
| Q2 | FS (хрупкость) | FS: 4.0 → 3.0 | HA / SRE | Устранение SPOF, circuit breakers, карта зависимостей |
| Q3 | RS (устойчивость) | RS: 2.0 → 3.0+ | ISO 22301, BCM | DR-учения, runbooks, on-call процессы |
| Q4 | AS (антихрупкость) | AS: 2.0 → 3.0+ | Agile, Chaos Engineering | Post-mortem культура, GameDays, авто-тесты |
Ожидаемый результат за год (условный ориентир для калибровки плана, не следствие формул):
- SQI: 0.5 → 1.5+ (баланс управляемости и хрупкости)
- SEI: 0.5 → 2.0+ (потенциал эволюции)
- EX: возможное снижение порядка 40–60% при существенном снижении FS при неизменном L — пересчитывайте по EX = FS × L после повторной оценки
Пример: легаси-монолит
Сценарий из методологии (в т.ч. EX = 17.96, SQI ≈ 0.58, SEI ≈ 0.93).
Диагноз TODOIT
- FS = 4.49 — критическая хрупкость
- MS = 2.6 — слабая управляемость
- RS = 2.0 — низкая устойчивость
- AS = 1.6 — нет обучения на инцидентах
- Категория: кризис
План действий по методологиям
| Шаг | Проблема TODOIT | Факторы | Методология | Действие | Срок |
|---|---|---|---|---|---|
| 1 | MS < 3.0 (шаг 1) | M1, M3, M5 | ITIL + DevOps | Базовый мониторинг, назначить владельцев, настроить CI/CD | 1–2 месяца |
| 2 | F1 = 5 (SPOF — БД) | F1 | HA / DR | Репликация БД, настройка failover | 2–3 месяца |
| 3 | R3 = 2 (нет DR) | R3 | ISO 22301 | Разработать DRP, провести учение восстановления | 3–4 месяца |
| 4 | A1 = 2 (нет постмортемов) | A1 | Agile / Lean | Внедрить blameless post-mortem процесс | 4–5 месяцев |
| 5 | Повторная оценка | — | TODOIT | Замерить новые индексы, скорректировать план | 6 месяцев |
Ожидаемый результат через 6 месяцев
Иллюстративная цель плана; сверка категории — по правилам интерпретации методологии.
- FS: 4.49 → 3.0
- MS: 2.6 → 3.5
- RS: 2.0 → 3.0
- AS: 1.6 → 2.5
- Категория (ориентир): кризис → управляемая
Ключевые выводы
- TODOIT не заменяет ITIL, DevOps, Agile, SRE и смежные подходы — он помогает выбрать фокус и типовой пакет практик.
- Chaos Engineering и прочие практики оси AS не должны быть приоритетом, пока MS и управляемость изменений не на приемлемом уровне. Это не запрет экспериментов, а предупреждение о типичном порядке вложений.
- Типовые методологии улучшают конкретные факторы TODOIT (DevOps → M5, HA → F1). Supplier Risk — отдельный контур для цепочки поставщиков (F2), не смешивайте с HA.
- Оркестратор практик не отменяет критичность бизнеса (L); при высоком L интерпретация EX и приоритет инвестиций остаются в связке с бизнес-контекстом.
- После внедрения практик — повторная оценка TODOIT для замера прогресса (SQI, SEI, EX).