9. Метрики

Организации ОБЯЗАНЫ установить базовые значения, проведя измерения в течение минимум 3 Инкрементов, прежде чем определять целевые показатели. Целевые показатели индивидуальны для организации, а не универсальны.

9.1 Обязательные (ОБЯЗАТЕЛЬНО)

#МетрикаФормулаЧто измеряет
1Пропускная способностьtasks_done / sessionsПроизводительность поставки
2Lead Timecompleted_at - created_atСкорость поставки
3First-Pass Success Ratesingle_cycle_tasks (завершены без доработки) / total × 100%Качество контекста
4Defect Escape Ratepost_done_defects / done × 100%Эффективность шлюзов

Дефект после завершения — это баг, явно привязанный к завершённой задаче, которая его породила. Связь ОБЯЗАНА фиксироваться в трекере задач.

9.2 Рекомендуемые (РЕКОМЕНДУЕТСЯ; ОБЯЗАТЕЛЬНО в Командная+)

#МетрикаФормулаЧто измеряет
5Knowledge Capture Rateentries / tasksОрганизационная память
6Cost Predictabilityactual_cost / planned_cost × 100%Точность оценок
7Cost per Tasktotal_cost / tasks (по сложности)Эффективность
8Manual Intervention Ratemanual_tasks / total × 100%Приверженность AI-first
9Cycle Timecompleted_at - started_atСкорость выполнения (vs Lead Time, включающий время ожидания)
10Adversarial Detection Rateadversarial_critical_findings / L3_reviewed_tasksПлотность скрытых дефектов

Manual Intervention Rate требует самоотчёта Супервайзера — флаг на задаче, указывающий, что код был написан вручную. Организациям РЕКОМЕНДУЕТСЯ определить, что считать «ручным вмешательством»: любой продакшен-код, написанный вручную, или только задачи, полностью выполненные без AI.

Adversarial Detection Rate (ADR) показывает, сколько критических находок приходится на одну задачу, прошедшую состязательное ревью L3 (Section 10.15). Целевой показатель: организациям РЕКОМЕНДУЕТСЯ стремиться к ADR < 0.5 (менее одной CRITICAL-находки на две проверенные задачи). ADR, равный 0, может означать как отличное качество вывода AI, так и поверхностное ревью — организациям РЕКОМЕНДУЕТСЯ уметь различать эти два случая.

Для вычисления ADR «L3_reviewed_tasks» означает задачи, прошедшие Состязательное ревью L3. Задачи, не получившие ревью L3 (например, задачи низкого риска, где L3 было пропущено согласно Section 10.15), исключаются из знаменателя. Это обеспечивает, что ADR отражает эффективность ревью, а не охват ревью.

Калибровка целевого показателя Knowledge Capture Rate: по мере накопления базы знаний темп появления новых записей закономерно снижается. Организации с устоявшимися базами РЕКОМЕНДУЕТСЯ устанавливать целевые показатели KCR с учётом этого эффекта. Показатель 1.0 (одна запись на задачу) уместен для новых проектов. Для зрелых проектов (>500 задач) показатель 0.33 (одна запись на три задачи) лучше соответствует реальному темпу обнаружения новых знаний. Организации ОБЯЗАНЫ документировать обоснование своего целевого показателя KCR.

9.3 Сбор

Метрики 1–5 и 9 ОБЯЗАНЫ автоматически формироваться из данных трекера задач и журнала сессий. Метрики 6–7 требуют интеграции с системой учёта затрат. Метрика 8 требует самоотчёта Супервайзера. Cost Predictability требует оценки Менеджера потока на Ретроспективе инкремента.

Метрика 10 (ADR) ОБЯЗАНА собираться из находок состязательного ревью, зафиксированных при ревью L3 (Section 10.15). Организации ОБЯЗАНЫ вести запись находок ревью по задачам, классифицированных по уровню серьёзности, для вычисления ADR.

При вычислении метрик ОБЯЗАНЫ учитываться все задачи — без отбрасывания данных за определённые периоды и без фильтрации исторических записей. Организации НЕ ДОЛЖНЫ исключать задачи из расчёта метрик на основании даты создания, статуса миграции или версии инструментария. Обоснование: фильтры по периодам усложняют систему и затрудняют поддержку, а также маскируют проблемы качества данных. По мере накопления новых данных влияние старых записей уменьшается, и метрики постепенно приближаются к актуальным значениям. Если ранние данные заведомо ненадёжны (например, ручные записи до автоматизации), это ОБЯЗАНО быть задокументировано как известное ограничение, а не отфильтровано.

Cost Predictability (метрика 6) требует фиксации запланированной стоимости до начала реализации. На практике оценка стоимости задач с участием AI ненадёжна: время выполнения недетерминировано, ценообразование моделей варьируется. В Командной конфигурации (Team) Cost Predictability ОБЯЗАН отслеживаться, но в первые 3 Инкремента базовые значения могут быть предварительными. В Корпоративной конфигурации (Enterprise) Cost Predictability ОБЯЗАН отслеживаться с установленными базовыми значениями. Cost per Task (метрика 7) является более практичной альтернативой для управления стоимостью на ранних этапах внедрения.

Работа с несколькими агентами и параллельными сессиями: когда несколько AI-агентов работают одновременно, метрики на уровне сессии (пропускная способность, длительность, стоимость) отражают результативность отдельного агента, а не совокупный выход команды. Организации с мультиагентными конфигурациями РЕКОМЕНДУЕТСЯ дополнительно отслеживать агрегированные метрики на уровне Инкремента. Токены и стоимость в мультиагентных сценариях РЕКОМЕНДУЕТСЯ учитывать по каждому агенту, а сводные итоги — быть доступны для отчётности на уровне Инкремента.