LYUMI Private AI — Техническая архитектура

Три стадии развития от прототипа до полностью автономного продукта.

Связано: [[freelance/private_ai_assistant_concept]] — бизнес-концепт

Stage 0 — Prototype (сейчас — Q3 2026)

Цель: вылизать UX на себе, доказать методологию.

Инфраструктура: Hetzner VPS CX31 (~€30/мес)

Стек

Client: Telegram Bot (aiogram 3), Claude.ai Mobile (Wiki MCP OAuth), Cowork Desktop
Ingestion: Whisper API (голос), Opus Vision API (фото), regex+NLP (расходы, даты)
Knowledge: Wiki (markdown, доменная структура), JSONL expenses, ChromaDB (вектор)
Integrations: Google Calendar, Gmail, Google Drive, Kiwi.com — через MCP коннекторы
Infra: Ubuntu 22.04, systemd, WireGuard VPN, Let's Encrypt

Задачи этапа

Ежедневное использование 24/7, сбор всех edge cases
Доказать цикл Capture → Process → Access
Стабилизировать бота (конкурентность, rate limits, timezone)
Накопить базу знаний как демо для клиентов

Stage 1 — Production (Q4 2026 — Q1 2027)

Цель: 3-5 платящих клиентов, изоляция данных, мониторинг.

Инфраструктура: Dedicated server (~€300-500/мес)

Стек

Client: Персональный Telegram Bot на клиента + PWA Web App (React)
Gateway: NGINX reverse proxy, rate limiting, TLS, client.lyumi.ai/*
Orchestrator: FastAPI router, Redis/Celery queue, JWT + OAuth 2.1 auth
AI Engine: Whisper (API → self-hosted), LLM Router (Ollama + API fallback), LLaVA vision, BGE embeddings local
Per-Client: Docker namespace, PostgreSQL (отдельная БД), Qdrant/Chroma (персональный вектор), LUKS encrypted FS
Ops: Grafana + Prometheus, Loki logs, Restic + B2 backups, Admin Dashboard

Изоляция клиентов

Каждый клиент — отдельный Docker namespace: своя БД, свой вектор-стор, свой конфиг. Данные на зашифрованном разделе. Автоматический onboarding скриптом (~1 час). GDPR-ready: полный экспорт данных по запросу.

Задачи этапа

Docker-контейнеризация с изоляцией
PWA web-клиент (работает как приложение)
Гибридный AI: простое — локально, сложное — API
Onboarding скрипт для новых клиентов
Encrypted backups (Restic → B2)
Admin dashboard (usage, MRR, uptime)

Stage 2 — Sovereign AI (Q2 2027+)

Цель: 20+ клиентов, полная автономность, нулевая зависимость от облаков.

Инфраструктура: Dedicated GPU server 2×A100 80GB (~€2-5K/мес)

Стек

Client: Native iOS (Swift), Native Android (Kotlin), Desktop (Tauri), Voice Interface, Telegram legacy
Edge: WireGuard VPN per client, mTLS Gateway, WebSocket Hub (real-time)
AI Cluster: Llama 3.1 405B (vLLM, 4-bit), Whisper Large V3 local (<500ms), LLaVA-Next 34B, Bark/XTTS (TTS с клонированным голосом), BGE-M3 embeddings
Reasoning: Agent Framework (multi-step planning), RAG Pipeline (hybrid search + reranking), Memory Engine (long-term + episodic), Action Executor (calendar, email, payments)
Per-Client: K8s namespace, PostgreSQL + pgvector (encrypted), MinIO object storage, Neo4j knowledge graph
Security: E2E encryption (client-side keys), immutable audit trail, data sovereignty (export/delete anytime), quarterly pen testing

4 кольца безопасности

Network — WireGuard VPN tunnel per client, mTLS, no public endpoints
Infrastructure — K8s namespace isolation, LUKS disk, network policies
Application — E2E encryption, client-held keys, zero-knowledge
Legal — NDA, right to audit, data export, full deletion

WOW-факторы

Голосовой диалог в реальном времени с клонированным голосом
Персональный Knowledge Graph со связями между людьми/проектами/документами
Proactive помощник: готовит сводки к встречам без запроса
Zero-Knowledge: даже администратор не видит данные клиента
Multi-modal: текст, голос, фото, документы, геолокация
Действия: бронирует, платит, отправляет — с подтверждением

Дорожная карта

2026 H1-H2: Stage 0 — обкатка на себе
2026 Q4: Stage 1 — Docker, первые клиенты
2027 Q1: Stage 1 — PWA, гибридный AI
2027 Q2+: Stage 2 — GPU сервер, полная автономность
2027 H2: Stage 2 — native apps, voice, knowledge graph