Термины и определения

Словарь обозначений и понятий, используемых в TODOIT: System Exposure и на сайте TODOIT (в т.ч. индексы GM / EX_adjusted и блок про AI-assisted диагностику). Введите термин или часть определения, чтобы быстро найти нужное.

Поиск

—

Индексы и производные метрики

FS: Fragility — индекс хрупкости системы: насколько сильно она ломается и каков масштаб последствий с учётом итоговой тяжести последствий (FS_impact). §2.6–2.7.
FS_base: Базовая хрупкость по факторам F1–F4. §2.6.1.
FS_impact: Итоговая тяжесть последствий сбоя (в формулах — FS_impact): объединяет TI и BI. §2.6.4.
TI: Technical Impact (тяжесть технических последствий сбоя): как система ломается по шкалам C, BR, RC. §2.6.2.
BI: Business Impact (тяжесть бизнес-последствий); в методологии BI = L. §2.6.3.
MS: Manageability — индекс управляемости системы. §3.
AS: Antifragility — индекс антихрупкости (обучение и усиление после стрессов). §4.
RS: Resilience — индекс устойчивости (сохранение функции и восстановление при стрессе). §5.
SQI: System Quality Index — баланс управляемости и хрупкости: MS/FS. §6.1.
SEI: Systemic Evolution Index — индекс эволюционного развития: AS×MS/FS (эквивалентно AS×SQI). §6.2.
EX: Exposure — подверженность (риску / потерям); произведение FS на L. §2.8.
GM: Governance Multiplier — коэффициент (1.0 или 1.5), учитывающий наличие «шкуры на кону» у CEO/CFO. §2.9.
EX_adjusted: Реальная подверженность (риску / потерям) с учётом Governance Multiplier (GM). Формула: EX × GM. §2.9.

Факторы хрупкости и последствий (оценка 1–5)

F1: Концентрация / SPOF — единые точки отказа. §2.3.
F2: Прозрачность зависимостей. §2.3.
F3: Связанность (Coupling). §2.3.
F4: Архитектурная восстанавливаемость (в т.ч. self-healing). §2.3.
C: Cascade — каскадный эффект (распространение сбоя). §2.4.1.
BR: Blast Radius — радиус поражения (масштаб затронутых функций/систем). Не путать с факторами R1–R5 устойчивости и с RS. §2.4.2.
RC: Recovery Cost — стоимость восстановления (ресурсы, время, риски). §2.5.1.
L: Loss — стоимость потерь / простоя для бизнеса. §2.5.2.

Факторы управляемости M1–M5

M1: Наблюдаемость (метрики, логи, трейсы, алерты). §3.2.
M2: Контроль (feature flags, admin API, runtime-конфигурация и т.п.). §3.2.
M3: Ответственность (владельцы, зоны). §3.2.
M4: Обратная связь о результатах изменений. §3.2.
M5: Изменяемость (CI/CD, тесты, откаты). §3.2.

Факторы антихрупкости A1–A5

A1: Постмортемы → конкретные изменения. §4.2.
A2: Тесты после инцидентов. §4.2.
A3: Эксперименты (Chaos Engineering, GameDays). §4.2.
A4: Data-driven решения по данным инцидентов. §4.2.
A5: Устранение классов проблем, а не точечных багов. §4.2.

Факторы устойчивости R1–R5

R1: Запас и избыточность. §5.2.
R2: Контролируемая деградация (fallback, circuit breaker, ограничение blast radius). §5.2.
R3: Восстановление и DR, RTO/RPO, backup/restore, учения. §5.2.
R4: Инцидентная готовность (runbooks, алерты, SLO/SLI как триггеры). §5.2.
R5: Организационная устойчивость (on-call, эскалации). §5.2.

Режимы оценки и контекст

RS_full: Полная оценка по R1–R5 с обоснованиями (критичные системы, Due Diligence). §5.5.
RS_quick: Укороченный чек-лист §8.4 с переводом ответов в ориентир RS. §5.5, §8.4.
Tier 0 / 1 / 2: Уровни критичности системы для бизнеса (в примерах и рекомендациях по режиму оценки). §5.5, часть 9.
Профиль системы: Совокупность индексов FS, MS, RS, AS (и при необходимости детализация по факторам); не сводится к одному ярлыку. §1.1–1.2.

Финансовая модель (Model 1): Expected Loss и ROI

Упрощённая оценка «цены риска» в калькуляторе TODOIT: вероятность серьёзного сбоя, длительность простоя, масштаб потерь и сценарий инвестиций. Термины ниже соответствуют подсказкам в блоке «Финансы» калькулятора.

T_base: Сколько дней заняло бы восстановление при идеальных условиях (RS=5). Обычно 0.5–1 день. Используется как множитель для расчёта реального простоя.
K_factor: Насколько бизнес зависит от ИТ: 0.05 — низкая, 0.10 — средняя, 0.15 — высокая. Используется в упрощённой формуле для быстрой проверки оценки.
Инвестиции в инициативу (Model 1): Сколько вы планируете вложить в улучшение системы (архитектура, DR, observability). Нужно для расчёта ROI и срока окупаемости.
P_incident: Оценка вероятности серьёзного сбоя в год на основе хрупкости системы (FS). Формула: 10% + 15% × (FS − 1).
P_real: P_incident, усиленная техническим воздействием (TI). Если сбой распространяется на подсистемы — риск растёт.
TTR_base: T_base × (6 − RS). Чем ниже устойчивость (RS), тем дольше простой. При RS=1: ~5 дней, при RS=5: ~0.5 дня.
TTR_adjusted: TTR_base с учётом сложности восстановления (RC). Если восстановление дорогое/сложное — простой удлиняется.
Impact_factor: Какую часть дневной выручки вы теряете во время сбоя. Зависит от управляемости (MS): при MS=1 теряете 100%, при MS=5 — только 20%.
Direct_Loss: Выручка, которую вы не получите из-за простоя: Revenue/день × TTR × Impact. Без учёта репутации, штрафов и затрат на восстановление.
k_indirect: Множитель для учёта вторичных убытков: репутация, отток клиентов, штрафы. Растёт с системной экспозицией (EX): 0.2 + 0.03 × EX.
Recovery_cost: Сколько стоит «поднять» систему после сбоя: работа команд, экстренные закупки, внешние эксперты. Зависит от ИТ-бюджета и устойчивости (RS) в формуле модели.
Total_Loss: Прямые потери × (1 + косвенные) + затраты на восстановление. Это «цена одного серьёзного сбоя» для бизнеса.
EL: Expected Loss (EL) — ожидаемые потери за год в финансовой модели калькулятора: P_real × Total_Loss; не гарантированный ущерб, а математическое ожидание.
Expected_Loss: P_real × Total_Loss. Средняя «цена риска» в год. Не гарантированный ущерб, а математическое ожидание — основа для инвестиционных решений.
Expected_Loss_simplified: Revenue × (EX/25) × K. Быстрый способ оценить порядок потерь. Если расхождение с основной моделью >10% — стоит перепроверить входные данные.
EL_after: Ожидаемые потери, если вы снизите хрупкость (FS), повысите управляемость (MS) или устойчивость (RS). Считается по тем же формулам с новыми значениями.
ROI (Model 1, EL / Investment): (EL_before − EL_after) / Investment. Показывает, сколько рублей риска вы «экономите» на каждый вложенный рубль. >100% = окупается менее чем за год.
Payback_months: За сколько месяцев инвестиции в улучшение системы «вернутся» за счёт снижения ожидаемых потерь. Формула: Investment / (EL_before − EL_after) × 12.
Risk_Reduction_pct: Насколько уменьшится «цена риска» после внедрения инициативы. Пример: 65% = вы сокращаете ожидаемые потери почти в 3 раза.
Как работает финансовая модель: FS → вероятность сбоя, RS → длительность простоя, MS → масштаб потерь. Вместе они дают «цену риска» в рублях. Меняете коэффициенты — видите, как меняется ROI.
Консервативная оценка: Модель намеренно не оптимистична: не учитывает «повезёт», берёт нижнюю границу эффекта. Лучше переоценить риск, чем недооценить.

Категории итоговой диагностики (§7.3)

Ниже — категории итоговой диагностики и условия их присвоения (по правилам §7.3.1 и матрице §7.2).

Антихрупкая: Эталон по MS, FS и AS: сильная управляемость, низкая хрупкость, высокое обучение из сбоев. Условие: MS ≥ 4.0, FS ≤ 2.0, AS ≥ 4.0 (§7.3.1).
Управляемая: Сбалансированное состояние: MS достаточна при FS ниже зоны «Риск» (FS < 3.0). Условие: MS ≥ 3.0 и FS < 3.0 (§7.3.1).
Нестабильная: Низкая MS при ещё не катастрофической FS: управляемость низкая; приоритет — MS. Условие: MS < 3.0, FS < 4.0 и не выполнено «Кризис» (§7.3.1).
Риск: Высокая FS при работоспособной MS: FS ≥ 3.0 при MS ≥ 3.0; нужен план снижения хрупкости. Условие: FS ≥ 3.0 и MS ≥ 3.0 (§7.3.1).
Кризис: Сочетание высокой FS и низкой MS: FS ≥ 4.0 и MS < 3.0 (§7.3.1).
Стабильная: Матрица MS vs FS (§7.2): MS ≥ 3.0 и FS < 3.0. Управляемость высокая, хрупкость ниже порога 3.0. Поддерживать.
Контролируемый риск: Матрица MS vs FS (§7.2): MS ≥ 3.0 и FS ≥ 3.0. Хрупкость на уровне «Риск» и выше, но управляемость позволяет контролировать. Снижать хрупкость.
Скрытые проблемы: Матрица MS vs FS (§7.2): MS < 3.0 и FS < 3.0. Хрупкость ниже 3.0, но управляемость плохая. Сначала повышать управляемость.
Критическая зона: Матрица MS vs FS (§7.2): MS < 3.0 и FS ≥ 3.0. Хрупкость ≥ 3.0 при низкой управляемости. Немедленное вмешательство.

Отраслевые и общие термины (кратко)

TODOIT: System Exposure: Название методологии (на английском — Framework), описывающей процесс диагностики фундаментальных изъянов архитектуры систем и оценки их подверженности риску (Exposure) с точки зрения масштабов бизнес-последствий.
CC BY‑NC‑ND 4.0: Лицензия Creative Commons 4.0: BY (Attribution) — требуется указание авторства (TODOIT); NC (Non-Commercial) — запрещено коммерческое использование; ND (No Derivatives) — запрещено создание производных работ (изменение, адаптация).
Методика: Совокупность конкретных методов, приёмов и алгоритмов, описывающая последовательность действий для выполнения определённой работы и достижения предсказуемого результата. Отвечает на вопрос «Как делать?»
Методология: Учение о методах, принципах и способах организации деятельности. Это система взглядов, теоретическая база и логика, которая определяет, какие методики выбирать и почему они работают. Отвечает на вопросы «Почему мы делаем именно так?» и «На чём основан подход?»
IT Strategy: ИТ-стратегия — долгосрочный план развития технологий в компании, который отвечает на один главный вопрос: «Как ИТ поможет бизнесу заработать больше денег или сэкономить их?». Это не просто список серверов и программ, которые нужно купить, а связующее звено между целями бизнеса и возможностями ИТ-отдела.
ИТ-интенсивность: Доля ИТ-затрат в выручке. В калькуляторе: (CAPEX+OPEX+ФОТ ИТ) / выручка × 100%. Используется для сравнения с отраслевым коридором (benchmarks).
ИТ-проникновение: Доля сотрудников, использующих корпоративные информационные системы в работе: пользователи ИС / общая численность × 100%.
ИТ-насыщенность: Доля ИТ-персонала по отношению к числу пользователей информационных систем: ИТ-штат / пользователи × 100%.
Распределение ИТ-персонала: Разложение ИТ‑штата по направлениям: управление, эксплуатация инфраструктуры, техническая поддержка, разработка и проекты. В сумме 100%.
Executive Diagnostic: Экспертная диагностика для руководителей — быстрый, высокоуровневый аудит ИТ-функции, проводимый опытным экспертом (CIO или Board Advisor) специально для собственников и топ-менеджмента. В отличие от классического глубокого аудита, который может длиться месяцы, Executive Diagnostic фокусируется на «болевых точках» бизнеса и даёт ответ на вопрос: «Насколько наше ИТ соответствует амбициям компании?»
Target Architecture: Целевая архитектура — детальный «образ будущего» ИТ-систем компании, к которому она хочет прийти через 2–3 года для реализации своей бизнес-стратегии. Если ИТ-стратегия — это направление (куда идём), то целевая архитектура — это чертёж здания, которое мы строим.
Architecture Review: Архитектурный надзор / аудит архитектуры — процесс критической оценки текущей или проектируемой ИТ-архитектуры на соответствие целям бизнеса и техническим стандартам. Если Target Architecture — это чертёж будущего здания, то Architecture Review — это проверка этого чертежа (или уже построенного здания) опытным архитектором на наличие ошибок, рисков и «костылей».
Cost of Failure Model: Модель стоимости отказа/неудачи — финансовый инструмент, который помогает рассчитать, во сколько компании обойдётся сбой в ИТ-системе, утечка данных или провал стратегического проекта.
Framework: Фреймворк — готовый «каркас» или структура, включающая набор правил, библиотек, компонентов и соглашений, который служит основой для создания конечного продукта, системы или процесса. Framework задаёт архитектуру, но требует наполнения конкретным содержанием.
SPOF: Single Point of Failure — единая точка отказа.
DR: Disaster Recovery — аварийное восстановление, планы и учения.
IT Resilience: ИТ-устойчивость — способность ИТ и критичных цифровых сервисов поддерживать непрерывность бизнеса и восстанавливаться после сбоев: Business Continuity, Disaster Recovery и киберустойчивость для минимизации ущерба.
Business Continuity: Непрерывность бизнеса — практика и планы, позволяющие продолжать работу критичных процессов при серьёзных сбоях (например, когда дата-центр недоступен), с заранее определёнными ролями, сценариями и обходными режимами.
Disaster Recovery: Аварийное восстановление — технические регламенты и меры, позволяющие быстро вернуть системы в строй после инцидентов (хакерская атака, пожар, авария): backup/restore, резервирование, переключение, целевые RTO/RPO и регулярные учения.
Skin in the Game: Принцип, при котором лица, принимающие решения, несут личные последствия своих решений (в контексте TODOIT — наличие KPI по надёжности у CEO/CFO).
Киберустойчивость (Cyber resilience): Переход от «нас не взломают» к «что мы будем делать, когда нас взломают»: готовность обнаружить, локализовать и пережить киберинцидент, минимизируя ущерб и время простоя, и восстановиться до приемлемого уровня.
DRP: DRP (Disaster Recovery Plan) — детальный план аварийного восстановления ИТ-инфраструктуры, данных и бизнес-процессов после катастроф или сбоев. Его цель — минимизировать простой (RTO) и потерю данных (RPO), обеспечивая непрерывность бизнеса.
BCP: BCP (Business Continuity Plan) — план обеспечения непрерывности бизнеса: сценарии, роли и действия, чтобы критичные процессы продолжали работать при сбоях и кризисах (в т.ч. в связке с DR/DRP для ИТ-восстановления).
RTO: Recovery Time Objective — целевое время восстановления: сколько простоя допустимо после сбоя до возврата сервиса или процесса к нормальной работе. Согласуется с бизнесом, фиксируется в DRP/BCP и проверяется учениями. В TODOIT — часть оценки восстановления и DR (фактор R3, ось RS).
RPO: Recovery Point Objective — целевая точка восстановления данных: какой «хвост» данных по времени можно потерять при сбое (например, «не более 15 минут»). Задаёт требования к резервному копированию и репликации; вместе с RTO описывает цели DR/BCM.
ИБ: ИБ (информационная безопасность) — защита информации и ИТ-систем от несанкционированного доступа, утечек и нарушений целостности/доступности; включает процессы, меры и контроль рисков.
КИИ: КИИ (критическая информационная инфраструктура) — информационные системы и сети, значимые для устойчивости/безопасности государства и экономики; к ним обычно предъявляются повышенные требования по защите и устойчивости.
ROI: ROI (Return on Investment) — показатель окупаемости инвестиций: отношение полученного эффекта (выгоды) к вложенным затратам, обычно в процентах.
CIO: CIO (Chief Information Officer) — ИТ-директор: отвечает за стратегию и управление ИТ-функцией, ландшафтом систем, бюджетом, рисками и ценностью ИТ для бизнеса.
Board Advisor: Советник совета директоров — помогает совету директоров (Board of Directors) понимать риски и возможности цифровизации. Участвует в принятии стратегических решений: стоит ли покупать технологическую компанию, внедрять ИИ или менять основную ИТ-систему. Оценивает эффективность текущего ИТ-отдела и самого штатного CIO (аудит).
Board-trigger: Триггер для совета директоров — критическое событие или показатель, при достижении которого вопрос автоматически выносится на уровень Совета директоров.
CDTO: CDTO (Chief Digital Transformation Officer) — руководитель цифровой трансформации: отвечает за изменения бизнес-модели, процессов и продуктов через цифровые инициативы, часто на стыке бизнеса и ИТ.
VP level: Уровень вице-президента — одна из высших руководящих должностей в иерархии западных и крупных технологических компаний.
Independent CIO: Независимый ИТ-директор — выступает как «арендованный» топ-менеджер для компаний, которым не нужен дорогой CIO в штате постоянно (например, в период трансформации). Действует независимо: он не связан корпоративными интригами или лоббированием конкретных вендоров программного обеспечения. Помогает в кризисных ситуациях или при слиянии/поглощении компаний для интеграции их ИТ-ландшафтов.
Interim CIO: Временный ИТ-директор — высококвалифицированный руководитель, который нанимается в компанию на короткий, заранее определённый срок (обычно от 3 до 12 месяцев). В отличие от «Independent CIO & Board Advisor», который чаще выступает как внешний эксперт-консультант, Interim CIO полностью берёт на себя операционное управление ИТ-департаментом и персоналом на период своего контракта.
Crisis Management: Кризис-менеджмент — система мер по управлению компанией в условиях чрезвычайной ситуации, когда под угрозой оказывается её репутация, финансы или само существование. Если IT Resilience — это подготовка к сбоям, то Crisis Management — это то, что происходит, когда «рвануло», и нужно спасать ситуацию здесь и сейчас.
Risk Advisory: Консультирование по рискам — идентификация угроз и слабых мест в ИТ-инфраструктуре, коде и процессах; проверка соответствия нормам и стандартам (compliance); ИТ-аудит эффективности текущих контролей и безопасности.
Compliance: Соответствие нормам — проверка и подтверждение того, что ИТ-системы и процессы соответствуют законам (например, о персональных данных) и/или отраслевым стандартам; включает требования, доказательства и контроль выполнения.
ИТ-аудит (IT audit): Независимая проверка и оценка всей информационной системы компании (инфраструктуры, безопасности, процессов и людей), чтобы понять, насколько эффективно и безопасно она работает. Простыми словами: это «диспансеризация» для айти-отдела, которая показывает, где есть дыры в защите, куда зря уходят деньги и почему всё тормозит.
IT Resilience & Risk Advisory: Услуги стратегического консультирования, направленные на то, чтобы ИТ-системы компании не только были защищены от угроз, но и могли быстро восстановиться после любых сбоев. В отличие от Interim CIO, который управляет людьми, этот тип адвайзеров работает с «живучестью» технологий и процессами управления рисками.
TOGAF: TOGAF (The Open Group Architecture Framework) — фреймворк корпоративной архитектуры (Enterprise Architecture): метод и набор практик для описания целевого состояния, перехода и управления архитектурой организации.
CAPEX: CAPEX (Capital Expenditures) — капитальные затраты: инвестиции в создание/приобретение долгосрочных активов (оборудование, лицензии, внедрения), обычно с амортизацией во времени.
OPEX: OPEX (Operating Expenditures) — операционные затраты: регулярные расходы на поддержку и эксплуатацию (персонал, облако, связь, сопровождение, подписки).
ФОТ: ФОТ (фонд оплаты труда) — суммарные расходы на персонал: зарплаты, премии и связанные начисления/налоги. В калькуляторе «ФОТ ИТ» — часть ФОТ, относящаяся к ИТ‑персоналу.
Зависимость от ИТ: Доля выручки/операций, которая теряется при недоступности ключевой ИТ‑системы. В калькуляторе задаётся в процентах (1–100%) и используется в оценке стоимости простоя.
Стоимость простоя: Оценка потерь бизнеса при недоступности критичной ИТ‑системы за период времени (час/день). В калькуляторе: (годовой оборот / 365) × зависимость от ИТ (для дня) и 1/24 от дневной оценки (для часа).
ERP: ERP (Enterprise Resource Planning) — класс корпоративных систем для управления ресурсами предприятия (финансы, закупки, склад, производство, продажи) и их сквозными процессами.
DWH: DWH (Data Warehouse) — хранилище данных: централизованный слой для накопления, консолидации и аналитической обработки данных из разных источников.
ELK: ELK — стек для логирования и поиска: Elasticsearch (хранилище/поиск), Logstash (сбор/обработка), Kibana (визуализация).
SSO: SSO (Single Sign-On) — единый вход: механизм аутентификации, позволяющий пользователю получать доступ к нескольким системам после одного входа.
OLA: OLA (Operational Level Agreement) — внутреннее соглашение об уровне обслуживания между командами/подразделениями, которое обеспечивает выполнение внешнего SLA.
SLA/OLA: SLA/OLA — связка внешнего SLA (обязательства перед потребителем услуги) и внутреннего OLA (договорённости между командами), которая делает SLA исполнимым на практике.
SLA / SLI / SLO: Соглашение об уровне сервиса / индикатор / целевой уровень (в т.ч. как основа для алертов и реакции).
Circuit breaker: Паттерн ограничения вызовов к сбойному компоненту. §5.2 (R2), §8.4.
Fallback: Запасной сценарий ответа при деградации. §5.2 (R2).
Blast radius: Радиус поражения — см. фактор BR в §2.4.2 и R2 в §5.2.
Chaos Engineering: Инженерия хаоса — дисциплина, в основе которой лежит идея: чтобы построить надёжную систему, нужно научиться ломать её специально. Суть: вы намеренно вносите неисправности в работающую систему (отключаете сервер, обрываете сетевое соединение, имитируете резкий наплыв пользователей) и смотрите, как она на это реагирует. Цель: убедиться, что система «выживет» автоматически, без вмешательства людей, или понять, где она сломается, до того, как это случится по-настоящему. Известный пример: Chaos Monkey от Netflix — программа, которая случайным образом выключает рабочие серверы в «боевом» режиме, заставляя инженеров строить максимально живучую архитектуру.
GameDay: Игровой день — формат командных учений, когда ИТ-отдел (а иногда и бизнес-подразделения) моделирует критическую ситуацию и отрабатывает реакцию на неё. Как это проходит: выбирается день, назначается «ведущий» (который в секрете от команды готовит проблему) и «игроки» (инженеры, поддержка, менеджеры). Сценарии: «У нас зашифрована база данных», «Дата-центр в Москве сгорел», «Главный разработчик уволился и удалил доступ». Цель GameDay: проверить, работают ли регламенты восстановления на самом деле; посмотреть, как команда взаимодействует в стрессе (кто паникует, кто берёт лидерство); найти «слепые зоны» в мониторинге (видим ли мы вообще, что система упала?).
Post-mortem: Разбор инцидента; в факторе A1 — с обязательными последующими действиями.
Runbook: Пошаговая инструкция реагирования на сбой. §5.2 (R4).
On-call: Дежурство и дежурные роли при инцидентах. §5.2 (R5).
IT Due Diligence: Оценка IT-активов при сделках или аудите портфеля.
Mermaid: Mermaid — текстовый формат описания диаграмм, который позволяет вставлять схемы в markdown и генерировать визуализацию из кода (в документе используется для иллюстративных схем).
ASCII: ASCII — текстовое представление схем/деревьев символами (plain text), удобное для ревью и обсуждения без графики; в документе используется как альтернативное представление логики.
HTML: HTML — язык разметки для представления контента в вебе (структура документа, заголовки, таблицы и т.п.); в документе упоминается как формат оформления отдельных блоков.
Хрупкая система (Fragile по TODOIT): Ломается. При стрессе система теряет ключевую функцию и создаёт непропорционально большой ущерб. Для хрупких систем характерны каскадные отказы, большой blast radius, высокая стоимость/сложность восстановления и зависимость от скрытых SPOF. При росте нагрузки или при сбое ущерб растёт быстрее, чем сама нагрузка, а восстановление часто требует ручных действий и «пожарного» режима.
Устойчивая система (Resilient по TODOIT): Выживает. При стрессе сохраняет ключевую функцию (возможно, с контролируемой деградацией), ограничивает распространение сбоя и восстанавливается до приемлемого уровня в прогнозируемые сроки. В отличие от антихрупкой системы, устойчивая не обязательно становится лучше после каждого стресса — её цель выдержать удар и вернуться в норму.
Устойчивость (Resilience, по TODOIT): Способность системы выдерживать стресс: сохранять ключевую функцию (при необходимости с контролируемой деградацией), ограничивать распространение сбоя (blast radius) и восстанавливаться до приемлемого уровня в прогнозируемые сроки. В TODOIT формализована индексом RS и факторами R1–R5. Отличается от антихрупкости (AS): устойчивость — про «выжить и вернуться в норму», антихрупкость — про усиление и обучение после стресса. См. также «устойчивая система».
Антихрупкая система (Antifragile по TODOIT): Улучшается. Использует стресс для роста. В контексте системы это означает, что после инцидентов и нагрузок она не только восстанавливается, но и повышает свою способность избегать повторения классов проблем: укрепляет практики, автоматизацию и архитектурные ограничения (например, снижает каскады и blast radius), сокращает время обнаружения/восстановления и делает изменения безопаснее.
Хрупкость (Fragility, по Талебу): Свойство системы ухудшаться при росте вариативности/стресса: чем сильнее стресс, тем непропорционально больше ущерб; система «не любит» волатильность.
Антихрупкость (Antifragility, по Талебу): Свойство системы выигрывать от вариативности/стресса: под воздействием стресса она становится лучше (усиливается, обучается), а не просто «выживает».
Устойчивые/Робастные (Robust, по Талебу): Способны выдерживать стресс, оставаясь в прежнем состоянии. Они мало чувствительны к хаосу (пример: камин, феникс в мифологии, сильные государственные институты).
Неопределённость (по TODOIT): Нехватка надёжной информации о будущих условиях и воздействиях среды: диапазон сценариев широк, исходы нельзя свести к одному прогнозу. Внешний контекст (экономика, регуляторика, операционная среда и т.п.). В TODOIT неопределённость отделяют от внутренних свойств системы (хрупкость, управляемость, устойчивость и др.), которые можно описать и измерить.
Непредсказуемость (по TODOIT): Свойство поведения сложной системы под стрессом: исход и масштаб сбоя заранее трудно оценить по отдельным симптомам или по опыту штатного режима. Снижается прозрачностью структуры, измеримостью и работой с индексами (FS, RS и др.), а не гаданием.
Стресс: Нагрузка, сбой или иное воздействие, проверяющее устойчивость системы. §1.1, §1.1.1.

Термины AI / LLM (AI-assisted диагностика)

AI-Ready: Свойство методологии быть пригодной для эффективной совместной работы с большими языковыми моделями. Формализованная структура факторов, унифицированные шкалы 1–5, прозрачные формулы и чёткие правила интерпретации позволяют LLM проводить оценку, рассчитывать индексы, моделировать сценарии «что если» и готовить черновики отчётов с высокой воспроизводимостью.
LLM (Large Language Model): Большая языковая модель — класс искусственного интеллекта, способный обрабатывать текстовые описания систем, отвечать на чек-листы TODOIT и выполнять расчёты по заданным правилам.
AI-assisted диагностика: Подход, при котором LLM помогает проводить предварительную оценку по факторам и чек-листам, рассчитывать индексы и формировать черновики рекомендаций. Финальная ответственность и интерпретация остаются за экспертом.
Машиночитаемая структура: Представление методологии в виде чётко определённых факторов, шкал и формул, удобное для автоматической обработки искусственным интеллектом.
Сценарий «что если»: Моделирование влияния изменений отдельных факторов или групп факторов на интегральные показатели (EX_adjusted, SQI, SEI) и последующие приоритеты улучшений.

Смежные методологии и аббревиатуры (кратко)

ITSM: ITSM (IT Service Management, управление ИТ-услугами) — это подход к организации работы ИТ-отделов, ориентированный на потребности бизнеса и предоставление качественных услуг, а не просто обслуживание техники. Он включает внедрение процессов, методов и инструментов для планирования, поддержки и улучшения ИТ-сервисов.
FAIR: FAIR (Factor Analysis of Information Risk) — количественная модель киберриска: оценка частоты и величины потерь, выражение риска в денежных единицах для обсуждения с бизнесом.
VaR: VaR (Value at Risk) — метрика оценки риска в денежных единицах: величина потенциальных потерь при заданном уровне доверия за период (в документе приводится как пример результата подхода FAIR).
NIST RMF: NIST RMF (Risk Management Framework) — рамка управления рисками для систем и организаций: категоризация, выбор контролей, непрерывный мониторинг в жизненном цикле.
Google SRE Maturity: Google SRE Maturity — подход к оценке зрелости операционных практик надёжности: SLO/SLI, error budget, инциденты и другие практики Site Reliability Engineering (в документе — как объект сравнения в §10.5).
HA: High Availability — высокая доступность: избыточность, репликация, переключение при отказе, чтобы сервис оставался доступен в заданных пределах.
BCM: Business Continuity Management — управление непрерывностью бизнеса; рядом в тексте часто ISO 22301.
DDD: Domain-Driven Design — проектирование от модели предметной области и границ контекстов.
DevOps: Культура и практики совместной работы разработки и эксплуатации; CI/CD, автоматизация, общая ответственность за продакшен.
DORA: Набор метрик зрелости доставки ПО (частота деплоев, время восстановления и др.) — внешний ориентир, не часть формул TODOIT.
ITIL: ITIL (IT Infrastructure Library) — это всемирно признанный фреймворк, содержащий лучшие практики по управлению ИТ-услугами (ITSM). Он помогает организациям наладить процессы так, чтобы ИТ-отдел не просто «чинил компьютеры», а создавал реальную ценность для бизнеса.
ISO / IEC 20000: Международный стандарт на систему менеджмента ИТ-услуг.
ISO 22301: Стандарт на систему менеджмента непрерывности бизнеса.
Observability: Наблюдаемость: метрики, логи, трейсы; вывод о внутреннем состоянии по внешним следам.
Resilience Engineering: (инж. смысл) паттерны сдерживания сбоя: circuit breaker, bulkhead, таймауты, лимиты.
SRE: Site Reliability Engineering — инженерная дисциплина надёжности сервисов (SLO/SLI, инциденты, баланс изменений и стабильности).
SRM: В этом документе, если речь о поставщиках — Supplier Risk Management (риски поставщиков). Не смешивать с HA и внутренней архитектурой.

Подробные нейтральные определения и колонка «в контексте TODOIT» — §10.6, подраздел «Справочник методологий».

Практики и метрики управляемости (M1–M5, кратко)

Ниже — расшифровки терминов и метрик, которые встречаются в §10.6 (детальная карта по осям MS). Смысл факторов M1–M5 в методологии — §3.2.

Золотые сигналы (Golden Signals): В традиции SRE — четыре базовых показателя состояния сервиса: Latency (задержка ответа), Traffic (нагрузка, запросы), Errors (ошибки), Saturation (насыщение ресурсов).
MTTD: Mean Time to Detect — среднее время от начала инцидента до обнаружения (по алертам, логам и т.д.).
SLA: Service Level Agreement — согласованное с потребителем услуги обязательство по уровню сервиса (доступность, время отклика и др.). Отличается от SLO: SLA — внешнее обязательство, SLO — внутренняя цель.
SLO: Service Level Objective — целевой уровень надёжности или качества по выбранным SLI (например, доля успешных запросов за период).
Feature Flags: Переключатели функциональности: включить/выключить поведение без полной пересборки и иногда без полного деплоя всего приложения.
Kill Switch: Аварийное отключение функции или пути в системе (быстро убрать рискованное поведение).
Runtime Config: Изменение параметров в работающей системе (конфигурация в рантайме), в отличие от смены только при выкатке нового артефакта.
Feature Management: Практика управления включением возможностей (часто на базе feature flags) как продуктом: кто, когда и для кого включает функцию.
RACI: Матрица ролей: Responsible (исполняет), Accountable (ответственный за результат), Consulted (консультируют), Informed (информируют).
Service Owner: Назначенный владелец услуги/системы: ответственность за жизненный цикл, контактная точка для приоритетов и изменений.
Error budget: Error budget — «бюджет ошибок» в SRE: допустимая доля/объём недоступности или ошибок относительно SLO, который помогает балансировать скорость изменений и стабильность.
Prometheus: Prometheus — система сбора и хранения метрик, часто используемая как базовый слой наблюдаемости (M1) и алертинга.
Grafana: Grafana — инструмент визуализации метрик и дашбордов; используется для наблюдаемости (M1) и контроля трендов/инцидентов.
Distributed Tracing: Distributed Tracing — распределённая трассировка запросов между компонентами: помогает находить узкие места и причины деградации, повышает наблюдаемость (M1).
GitOps: GitOps — подход к управлению деплоем и конфигурацией через Git как источник истины: изменения поставляются декларативно и воспроизводимо через конвейер.
API Gateway: API Gateway — компонент на входе в набор сервисов: маршрутизация, аутентификация, лимиты, трансформации. При сбоях может усиливать каскадный эффект, поэтому важны ограничения и деградация.
Bulkhead: Bulkhead — паттерн изоляции ресурсов/пулами, чтобы сбой или перегрузка одного контура не «утянули» весь сервис; используется для снижения каскадов и controlled degradation (R2).
CI/CD: Continuous Integration / Continuous Delivery (или Deployment) — автоматизированная сборка, тесты, поставка и развёртывание изменений.
Automated Testing: Автоматические тесты (unit, integration, e2e и т.д.) в конвейере — снижают риск регрессий при изменениях.
Canary Release: Постепенный выкат версии на часть пользователей или трафика (или на отдельный пул), чтобы откатить при проблемах.
Lead Time for Changes: Lead time for changes — время от коммита (или готовности изменения) до работы в продакшене; одна из метрик DORA.
Deployment Frequency: Как часто выкатывают в продакшен (релизы/деплои); метрика DORA.
Blue-Green: Схема развёртывания с двумя средами (синяя/зелёная): переключение трафика на новую версию после проверки; снижает простой при выкате.
Auto-rollback: Автоматический откат на предыдущую версию при сбоях по заданным условиям (метрики, health-checks).
Infrastructure as Code: Инфраструктура описана кодом в репозитории; воспроизводимые окружения и изменения через конвейер.