Observation Week (4-9 мая 2026) + post-week backlog
После Sprint Truth большого дня (3 мая) — недельная заморозка кода. Но маркетинг/позиционирование можно и нужно делать руками.
Why
В один день включили 3 параллельных архитектурных изменения. Если что-то ещё трогать в эту неделю — не поймём что именно повлияло на метрики (latency, citations rate, verbatim coverage, regressions).
Запрещено (4-9 мая) — по коду
- ❌ Деплоить новый код
- ❌ Менять промпты (включая фикс «Пузырик»)
- ❌ Переключать модели Opus ↔ Sonnet
- ❌ Менять
USE_VERBATIM_QUOTES,USE_CITATIONS_API,USE_ANTHROPIC_DIRECT - ❌ Чистить базу или re-embedding
Разрешено — включая marketing/positioning руками
- ✅ Смотреть metrics_*.jsonl каждые 2-3 дня
- ✅ Pushkin-канал — постить как обычно
- ✅ Consulting и LinkedIn посты
- ✅ P0.5 marketing/positioning track — см. ниже
Контрольные точки
Среда 6 мая
ssh root@65.108.5.40 "ls -la /opt/lyumi/logs/metrics_*.jsonl"
Если файлы растут — логирование работает.
Пятница 8 мая
ssh root@65.108.5.40 "wc -l /opt/lyumi/logs/metrics_*.jsonl"
ssh root@65.108.5.40 "jq -r '.event' /opt/lyumi/logs/metrics_2026-05-08.jsonl | sort | uniq -c | sort -rn"
Посчитать триггер-rate для каждого события.
Суббота 9 мая
Обзор недели, решение что включать первым из P0.
Метрики к мониторингу
| Событие | Что смотрим | Целевой trigger rate |
|---|---|---|
refuse |
Архитектурные «не знаю» | 1-3% запросов |
citations_received |
Сколько citations возвращает Anthropic | 80-95% retrieval-запросов |
verbatim_injected |
Сколько quotes реально вставлены | ≥50% от citations_received |
reflection_applied |
Reflection отредактировал ответ | <5% |
numerical_unverified |
Числа без подтверждения в источнике | log-only |
rate_limit_retry |
429 от Anthropic | 0-2 в день |
[citations] skipped N chunks with KZ company |
KZ corp filter сработал | 0-1 в неделю |
P0.5 — Marketing/Positioning track (4 мая, после ChatGPT-разбора)
После Sprint Truth архитектура закрыта. Реальный bottleneck — воронка (3 активных из 48 за неделю). ChatGPT-план нащупал маркетинговый слой который не качали. 5 цепких пунктов, три из них можно делать на observation week без кода.
На этой неделе (руками, не код)
1. Слоган «Ответы, которые можно показать инспектору»
- Старый: «AI-эксперт по HSE»
- Новый: «Ответы по НПА РК с дословными цитатами — для проверки, отчётов, инспекций»
- Обновить: bio канала @LyumiHSEDigest, hero на lyumihse.kz, LinkedIn, bot description в Telegram
2. Три убийственных демо-кейса (PDF, не код)
- Кейс 1: НС → нарушения / статьи / санкции
- Кейс 2: Проверка инспектора → вопросы → ответы с НПА
- Кейс 3: Наряд-допуск (PTW Form 344) → требования + ссылки
- Для каждого: ответ Lyumi + ChatGPT + Gemini side-by-side
- Killer-материал для канала + sales
3. 1-страничная инфографика метриков
- Accuracy: 96.7% (NPA-450) / 90% (BiOT)
- NPA grounding: 80% (BiOT) vs 0-10% у конкурентов
- McNemar p=1.85e-14 против Gemini
- Canva или Figma, ~1 час
- Использовать: сайт + Pushkin + LinkedIn
P1 — после 10 мая, по коду
4. Slash /inspector — only-facts режим
- Жёсткий стиль, только цитаты, никаких «давай разберёмся»
- Опирается на Citations API + Verbatim которые уже в проде
- Объясняет себя именем команды
5. 1 HSE-руководитель для deep-work
- Найти одного из канала (195+ subs) или из активных (Bshopanov, Sultan?)
- Расширенный доступ + ежедневный support 2-4 недели
- Цель: case study → reference → следующие 5 клиентов
Что НЕ берём из ChatGPT-плана
- Multi-model fallback (Lyumi + Gemini ensemble) — single-path политика
- bge-fine-tune для structured queries — провалено в апреле
- Разбить ТК РК до подпунктов в SQL — micro-optimization
- Переписать retrieval decision layer — частично есть, не приоритет
P0 — следующий weekend (10-11 мая)
- #74 Retrieval honesty integration — подключить
decompose_query()в bot.py - #72 Verbatim → ON для всех — если observation week без регрессий
- Photo Citations — подключить Citations API к Vision pipeline
P1 — 17-18 мая
- «Пузырик» утечка — убрать из промпта/базы
- Haiku prompt caching — 0% hit rate сейчас, instant win $1-2/мес + −200мс
- #73 Per-claim citation enforcement — финальный слой защиты
P2 — 24-25 мая
- Медформы 075/У, 025/е
- Скорость <15 сек
- Broadcast для активации
- Web search verification (Perplexity)
- requirements.txt upper bounds
P3 — июнь
- Модуль расследований — Opus 4.7 + extended thinking
- Lyumi News редакция — апгрейд Pushkin
Бюджетный потолок
$200/мес = 100K₸ как комфортный. После всего backlog'а: ~$152-172/мес (запас $30-50).
Связанные
lyumi/sprints/2026-05-03-sprint-truth-day— что закрыли в деньlyumi/verbatim_quote_mode_design— design Verbatimlyumi/trust_first_principle— философия