Перейти к содержанию

Observation Week (4-9 мая 2026) + post-week backlog

После Sprint Truth большого дня (3 мая) — недельная заморозка кода. Но маркетинг/позиционирование можно и нужно делать руками.

Why

В один день включили 3 параллельных архитектурных изменения. Если что-то ещё трогать в эту неделю — не поймём что именно повлияло на метрики (latency, citations rate, verbatim coverage, regressions).

Запрещено (4-9 мая) — по коду

  • ❌ Деплоить новый код
  • ❌ Менять промпты (включая фикс «Пузырик»)
  • ❌ Переключать модели Opus ↔ Sonnet
  • ❌ Менять USE_VERBATIM_QUOTES, USE_CITATIONS_API, USE_ANTHROPIC_DIRECT
  • ❌ Чистить базу или re-embedding

Разрешено — включая marketing/positioning руками

  • ✅ Смотреть metrics_*.jsonl каждые 2-3 дня
  • ✅ Pushkin-канал — постить как обычно
  • ✅ Consulting и LinkedIn посты
  • P0.5 marketing/positioning track — см. ниже

Контрольные точки

Среда 6 мая

ssh root@65.108.5.40 "ls -la /opt/lyumi/logs/metrics_*.jsonl"

Если файлы растут — логирование работает.

Пятница 8 мая

ssh root@65.108.5.40 "wc -l /opt/lyumi/logs/metrics_*.jsonl"
ssh root@65.108.5.40 "jq -r '.event' /opt/lyumi/logs/metrics_2026-05-08.jsonl | sort | uniq -c | sort -rn"

Посчитать триггер-rate для каждого события.

Суббота 9 мая

Обзор недели, решение что включать первым из P0.

Метрики к мониторингу

Событие Что смотрим Целевой trigger rate
refuse Архитектурные «не знаю» 1-3% запросов
citations_received Сколько citations возвращает Anthropic 80-95% retrieval-запросов
verbatim_injected Сколько quotes реально вставлены ≥50% от citations_received
reflection_applied Reflection отредактировал ответ <5%
numerical_unverified Числа без подтверждения в источнике log-only
rate_limit_retry 429 от Anthropic 0-2 в день
[citations] skipped N chunks with KZ company KZ corp filter сработал 0-1 в неделю

P0.5 — Marketing/Positioning track (4 мая, после ChatGPT-разбора)

После Sprint Truth архитектура закрыта. Реальный bottleneck — воронка (3 активных из 48 за неделю). ChatGPT-план нащупал маркетинговый слой который не качали. 5 цепких пунктов, три из них можно делать на observation week без кода.

На этой неделе (руками, не код)

1. Слоган «Ответы, которые можно показать инспектору»

  • Старый: «AI-эксперт по HSE»
  • Новый: «Ответы по НПА РК с дословными цитатами — для проверки, отчётов, инспекций»
  • Обновить: bio канала @LyumiHSEDigest, hero на lyumihse.kz, LinkedIn, bot description в Telegram

2. Три убийственных демо-кейса (PDF, не код)

  • Кейс 1: НС → нарушения / статьи / санкции
  • Кейс 2: Проверка инспектора → вопросы → ответы с НПА
  • Кейс 3: Наряд-допуск (PTW Form 344) → требования + ссылки
  • Для каждого: ответ Lyumi + ChatGPT + Gemini side-by-side
  • Killer-материал для канала + sales

3. 1-страничная инфографика метриков

  • Accuracy: 96.7% (NPA-450) / 90% (BiOT)
  • NPA grounding: 80% (BiOT) vs 0-10% у конкурентов
  • McNemar p=1.85e-14 против Gemini
  • Canva или Figma, ~1 час
  • Использовать: сайт + Pushkin + LinkedIn

P1 — после 10 мая, по коду

4. Slash /inspector — only-facts режим

  • Жёсткий стиль, только цитаты, никаких «давай разберёмся»
  • Опирается на Citations API + Verbatim которые уже в проде
  • Объясняет себя именем команды

5. 1 HSE-руководитель для deep-work

  • Найти одного из канала (195+ subs) или из активных (Bshopanov, Sultan?)
  • Расширенный доступ + ежедневный support 2-4 недели
  • Цель: case study → reference → следующие 5 клиентов

Что НЕ берём из ChatGPT-плана

  • Multi-model fallback (Lyumi + Gemini ensemble) — single-path политика
  • bge-fine-tune для structured queries — провалено в апреле
  • Разбить ТК РК до подпунктов в SQL — micro-optimization
  • Переписать retrieval decision layer — частично есть, не приоритет

P0 — следующий weekend (10-11 мая)

  1. #74 Retrieval honesty integration — подключить decompose_query() в bot.py
  2. #72 Verbatim → ON для всех — если observation week без регрессий
  3. Photo Citations — подключить Citations API к Vision pipeline

P1 — 17-18 мая

  1. «Пузырик» утечка — убрать из промпта/базы
  2. Haiku prompt caching — 0% hit rate сейчас, instant win $1-2/мес + −200мс
  3. #73 Per-claim citation enforcement — финальный слой защиты

P2 — 24-25 мая

  1. Медформы 075/У, 025/е
  2. Скорость <15 сек
  3. Broadcast для активации
  4. Web search verification (Perplexity)
  5. requirements.txt upper bounds

P3 — июнь

  1. Модуль расследований — Opus 4.7 + extended thinking
  2. Lyumi News редакция — апгрейд Pushkin

Бюджетный потолок

$200/мес = 100K₸ как комфортный. После всего backlog'а: ~$152-172/мес (запас $30-50).

Связанные

  • lyumi/sprints/2026-05-03-sprint-truth-day — что закрыли в день
  • lyumi/verbatim_quote_mode_design — design Verbatim
  • lyumi/trust_first_principle — философия