9. Метрики
Организации ОБЯЗАНЫ установить базовые значения, проведя измерения в течение минимум 3 Инкрементов, прежде чем определять целевые показатели. Целевые показатели индивидуальны для организации, а не универсальны.
9.1 Обязательные (ОБЯЗАТЕЛЬНО)
| # | Метрика | Формула | Что измеряет |
|---|---|---|---|
| 1 | Пропускная способность | tasks_done / sessions | Производительность поставки |
| 2 | Lead Time | completed_at - created_at | Скорость поставки |
| 3 | First-Pass Success Rate | single_cycle_tasks (завершены без доработки) / total × 100% | Качество контекста |
| 4 | Defect Escape Rate | post_done_defects / done × 100% | Эффективность шлюзов |
Дефект после завершения — это баг, явно привязанный к завершённой задаче, которая его породила. Связь ОБЯЗАНА фиксироваться в трекере задач.
9.2 Рекомендуемые (РЕКОМЕНДУЕТСЯ; ОБЯЗАТЕЛЬНО в Командная+)
| # | Метрика | Формула | Что измеряет |
|---|---|---|---|
| 5 | Knowledge Capture Rate | entries / tasks | Организационная память |
| 6 | Cost Predictability | actual_cost / planned_cost × 100% | Точность оценок |
| 7 | Cost per Task | total_cost / tasks (по сложности) | Эффективность |
| 8 | Manual Intervention Rate | manual_tasks / total × 100% | Приверженность AI-first |
| 9 | Cycle Time | completed_at - started_at | Скорость выполнения (vs Lead Time, включающий время ожидания) |
| 10 | Adversarial Detection Rate | adversarial_critical_findings / L3_reviewed_tasks | Плотность скрытых дефектов |
Manual Intervention Rate требует самоотчёта Супервайзера — флаг на задаче, указывающий, что код был написан вручную. Организациям РЕКОМЕНДУЕТСЯ определить, что считать «ручным вмешательством»: любой продакшен-код, написанный вручную, или только задачи, полностью выполненные без AI.
Adversarial Detection Rate (ADR) показывает, сколько критических находок приходится на одну задачу, прошедшую состязательное ревью L3 (Section 10.15). Целевой показатель: организациям РЕКОМЕНДУЕТСЯ стремиться к ADR < 0.5 (менее одной CRITICAL-находки на две проверенные задачи). ADR, равный 0, может означать как отличное качество вывода AI, так и поверхностное ревью — организациям РЕКОМЕНДУЕТСЯ уметь различать эти два случая.
Для вычисления ADR «L3_reviewed_tasks» означает задачи, прошедшие Состязательное ревью L3. Задачи, не получившие ревью L3 (например, задачи низкого риска, где L3 было пропущено согласно Section 10.15), исключаются из знаменателя. Это обеспечивает, что ADR отражает эффективность ревью, а не охват ревью.
Калибровка целевого показателя Knowledge Capture Rate: по мере накопления базы знаний темп появления новых записей закономерно снижается. Организации с устоявшимися базами РЕКОМЕНДУЕТСЯ устанавливать целевые показатели KCR с учётом этого эффекта. Показатель 1.0 (одна запись на задачу) уместен для новых проектов. Для зрелых проектов (>500 задач) показатель 0.33 (одна запись на три задачи) лучше соответствует реальному темпу обнаружения новых знаний. Организации ОБЯЗАНЫ документировать обоснование своего целевого показателя KCR.
9.3 Сбор
Метрики 1–5 и 9 ОБЯЗАНЫ автоматически формироваться из данных трекера задач и журнала сессий. Метрики 6–7 требуют интеграции с системой учёта затрат. Метрика 8 требует самоотчёта Супервайзера. Cost Predictability требует оценки Менеджера потока на Ретроспективе инкремента.
Метрика 10 (ADR) ОБЯЗАНА собираться из находок состязательного ревью, зафиксированных при ревью L3 (Section 10.15). Организации ОБЯЗАНЫ вести запись находок ревью по задачам, классифицированных по уровню серьёзности, для вычисления ADR.
При вычислении метрик ОБЯЗАНЫ учитываться все задачи — без отбрасывания данных за определённые периоды и без фильтрации исторических записей. Организации НЕ ДОЛЖНЫ исключать задачи из расчёта метрик на основании даты создания, статуса миграции или версии инструментария. Обоснование: фильтры по периодам усложняют систему и затрудняют поддержку, а также маскируют проблемы качества данных. По мере накопления новых данных влияние старых записей уменьшается, и метрики постепенно приближаются к актуальным значениям. Если ранние данные заведомо ненадёжны (например, ручные записи до автоматизации), это ОБЯЗАНО быть задокументировано как известное ограничение, а не отфильтровано.
Cost Predictability (метрика 6) требует фиксации запланированной стоимости до начала реализации. На практике оценка стоимости задач с участием AI ненадёжна: время выполнения недетерминировано, ценообразование моделей варьируется. В Командной конфигурации (Team) Cost Predictability ОБЯЗАН отслеживаться, но в первые 3 Инкремента базовые значения могут быть предварительными. В Корпоративной конфигурации (Enterprise) Cost Predictability ОБЯЗАН отслеживаться с установленными базовыми значениями. Cost per Task (метрика 7) является более практичной альтернативой для управления стоимостью на ранних этапах внедрения.
Работа с несколькими агентами и параллельными сессиями: когда несколько AI-агентов работают одновременно, метрики на уровне сессии (пропускная способность, длительность, стоимость) отражают результативность отдельного агента, а не совокупный выход команды. Организации с мультиагентными конфигурациями РЕКОМЕНДУЕТСЯ дополнительно отслеживать агрегированные метрики на уровне Инкремента. Токены и стоимость в мультиагентных сценариях РЕКОМЕНДУЕТСЯ учитывать по каждому агенту, а сводные итоги — быть доступны для отчётности на уровне Инкремента.