Observation Week (4-9 мая 2026) + post-week backlog

После Sprint Truth большого дня (3 мая) — недельная заморозка кода. Но маркетинг/позиционирование можно и нужно делать руками.

Why

В один день включили 3 параллельных архитектурных изменения. Если что-то ещё трогать в эту неделю — не поймём что именно повлияло на метрики (latency, citations rate, verbatim coverage, regressions).

Запрещено (4-9 мая) — по коду

❌ Деплоить новый код
❌ Менять промпты (включая фикс «Пузырик»)
❌ Переключать модели Opus ↔ Sonnet
❌ Менять USE_VERBATIM_QUOTES, USE_CITATIONS_API, USE_ANTHROPIC_DIRECT
❌ Чистить базу или re-embedding

Разрешено — включая marketing/positioning руками

✅ Смотреть metrics_*.jsonl каждые 2-3 дня
✅ Pushkin-канал — постить как обычно
✅ Consulting и LinkedIn посты
✅ P0.5 marketing/positioning track — см. ниже

Контрольные точки

Среда 6 мая

ssh root@65.108.5.40 "ls -la /opt/lyumi/logs/metrics_*.jsonl"

Если файлы растут — логирование работает.

Пятница 8 мая

ssh root@65.108.5.40 "wc -l /opt/lyumi/logs/metrics_*.jsonl"
ssh root@65.108.5.40 "jq -r '.event' /opt/lyumi/logs/metrics_2026-05-08.jsonl | sort | uniq -c | sort -rn"

Посчитать триггер-rate для каждого события.

Суббота 9 мая

Обзор недели, решение что включать первым из P0.

Метрики к мониторингу

Событие	Что смотрим	Целевой trigger rate
`refuse`	Архитектурные «не знаю»	1-3% запросов
`citations_received`	Сколько citations возвращает Anthropic	80-95% retrieval-запросов
`verbatim_injected`	Сколько quotes реально вставлены	≥50% от citations_received
`reflection_applied`	Reflection отредактировал ответ	<5%
`numerical_unverified`	Числа без подтверждения в источнике	log-only
`rate_limit_retry`	429 от Anthropic	0-2 в день
`[citations] skipped N chunks with KZ company`	KZ corp filter сработал	0-1 в неделю

P0.5 — Marketing/Positioning track (4 мая, после ChatGPT-разбора)

После Sprint Truth архитектура закрыта. Реальный bottleneck — воронка (3 активных из 48 за неделю). ChatGPT-план нащупал маркетинговый слой который не качали. 5 цепких пунктов, три из них можно делать на observation week без кода.

На этой неделе (руками, не код)

1. Слоган «Ответы, которые можно показать инспектору»

Старый: «AI-эксперт по HSE»
Новый: «Ответы по НПА РК с дословными цитатами — для проверки, отчётов, инспекций»
Обновить: bio канала @LyumiHSEDigest, hero на lyumihse.kz, LinkedIn, bot description в Telegram

2. Три убийственных демо-кейса (PDF, не код)

Кейс 1: НС → нарушения / статьи / санкции
Кейс 2: Проверка инспектора → вопросы → ответы с НПА
Кейс 3: Наряд-допуск (PTW Form 344) → требования + ссылки
Для каждого: ответ Lyumi + ChatGPT + Gemini side-by-side
Killer-материал для канала + sales

3. 1-страничная инфографика метриков

Accuracy: 96.7% (NPA-450) / 90% (BiOT)
NPA grounding: 80% (BiOT) vs 0-10% у конкурентов
McNemar p=1.85e-14 против Gemini
Canva или Figma, ~1 час
Использовать: сайт + Pushkin + LinkedIn

P1 — после 10 мая, по коду

4. Slash `/inspector` — only-facts режим

Жёсткий стиль, только цитаты, никаких «давай разберёмся»
Опирается на Citations API + Verbatim которые уже в проде
Объясняет себя именем команды

5. 1 HSE-руководитель для deep-work

Найти одного из канала (195+ subs) или из активных (Bshopanov, Sultan?)
Расширенный доступ + ежедневный support 2-4 недели
Цель: case study → reference → следующие 5 клиентов

Что НЕ берём из ChatGPT-плана

Multi-model fallback (Lyumi + Gemini ensemble) — single-path политика
bge-fine-tune для structured queries — провалено в апреле
Разбить ТК РК до подпунктов в SQL — micro-optimization
Переписать retrieval decision layer — частично есть, не приоритет

P0 — следующий weekend (10-11 мая)

#74 Retrieval honesty integration — подключить decompose_query() в bot.py
#72 Verbatim → ON для всех — если observation week без регрессий
Photo Citations — подключить Citations API к Vision pipeline

P1 — 17-18 мая

«Пузырик» утечка — убрать из промпта/базы
Haiku prompt caching — 0% hit rate сейчас, instant win $1-2/мес + −200мс
#73 Per-claim citation enforcement — финальный слой защиты

P2 — 24-25 мая

Медформы 075/У, 025/е
Скорость <15 сек
Broadcast для активации
Web search verification (Perplexity)
requirements.txt upper bounds

P3 — июнь

Модуль расследований — Opus 4.7 + extended thinking
Lyumi News редакция — апгрейд Pushkin

Бюджетный потолок

$200/мес = 100K₸ как комфортный. После всего backlog'а: ~$152-172/мес (запас $30-50).

Связанные

lyumi/sprints/2026-05-03-sprint-truth-day — что закрыли в день
lyumi/verbatim_quote_mode_design — design Verbatim
lyumi/trust_first_principle — философия