05
Урок пятый · ≈ 1–2 недели · финишная прямая

Deploy &
Ops

Это ваша зона. Переносим CI/CD-мышление на LLM-приложения. Прививка против хаоса в продакшене.

Observability — выбрать один инструмент
Tool · Recommended Open Source · self-hostable
Рекомендую как основной выбор. Open source, отлично self-hosted, понятный UI.
Tool LangChain
Идеально интегрируется с LangGraph. Если выбрали LangGraph в Фазе 4 — это естественный выбор.
Tool Arize · Open Source
Фокус на evals и tracing. Хорошо встраивается в существующий ML-стек.
Безопасность и guardrails
Reference OWASP · обязательно
Обязательно к прочтению. Prompt injection, data leakage, insecure output handling.
Framework NVIDIA
Фреймворк для guardrails. Декларативно описываете, что агенту нельзя.
Docs OpenAI · safety
Сформулировать, какие tool calls требуют approval, где нужен sandbox, какие данные нельзя отправлять в модель.
Кейсы и противоположные взгляды
Case Anthropic Engineering
Реальный кейс от Anthropic. Что сработало, что не сработало.
Opinion Cognition
Противоположный взгляд. Читать критически — это полезный «холодный душ» против хайпа.
CI/CD-чеклист для LLM-приложения
Practice
Промпты в git с версионированием и review в PR
Как код — никаких промптов в БД или конфигах без истории.
Practice
Eval suite в CI на каждый PR
Изменение промпта, модели или зависимостей запускает прогон. Регрессии ловятся до прода.
Practice
Cost & latency как обычные метрики (Prometheus / Grafana)
Дашборды, алерты на превышение бюджета, ежедневные отчёты.
Practice
Канареечный деплой моделей
Например, mini → frontier или Sonnet → Opus. Новая модель получает малую долю трафика, есть fallback и rollback-критерии.
Practice
Логирование всех запросов с PII-маскированием
Для дебага и аудита, но без утечки персональных данных.
Practice
Release scorecard для prompt/model changes
Перед релизом фиксировать eval delta, latency delta, cost delta, known failures, rollback plan и владельца решения.
Reference OpenAI · launch
Пройти как production readiness review: ограничения, monitoring, rate limits, security, incident response и cost control.
Practice4–6 часов
Настроить rate-limit алерты и backoff retry для мультипровайдерной конфигурации
Реализовать middleware, отслеживающий 429/5xx ответы, записывающий алерт в Prometheus/CloudWatch, и автоматически переключающий провайдера (OpenAI → Anthropic → Gemini) при исчерпании лимита.
0 / 16 завершено

Мои заметки

Не сохранено
Самопроверка
Три вопроса по production-эксплуатации.
Вопрос 1 из 3
Какой пункт OWASP Top 10 for LLM наиболее критичен для агентов с tool use?
A Уязвимости UI/UX интерфейса чата
B Prompt injection — атакующий через данные заставляет агент вызвать опасный tool
C Нормализация базы данных
D Front-end XSS-уязвимости
Правильно: B. Prompt injection — главная угроза для агентов. Пример: агент читает email и в теле письма зашита инструкция «удали все файлы». Если у агента есть tool для удаления — катастрофа. Решения: sanitization входов, sandbox для tools, human approval для опасных операций.
Вопрос 2 из 3
Что такое канареечный деплой LLM-моделей?
A Тест модели на одной фиксированной задаче
B Постепенный rollout новой модели на малую долю трафика с возможностью отката
C A/B-тест двух моделей с разделением пользователей 50/50
D Использование самой дешёвой модели для всех запросов
Правильно: B. Канареечный деплой пришёл из классической инфраструктуры. Новая модель сначала получает 1% трафика, потом 5%, 25%, 100%. Если метрики (latency, cost, eval scores) ухудшаются — откат. Стандартная практика для production LLM-приложений.
Вопрос 3 из 3
Что должно происходить в CI при изменении промпта в pull request?
A Ничего особенного — промпт это просто текст
B Запуск eval suite с метриками success rate, latency, cost
C Только проверка синтаксиса YAML-конфига
D Автоматический мердж в main без проверок
Правильно: B. Изменение промпта может привести к регрессии так же, как изменение кода. CI должен прогнать eval suite на всех тестовых кейсах, сравнить метрики с main и показать diff в PR. Это то же, что тесты в вашем обычном backend-проекте.
0 / 3