Фаза 5 · Deploy & Ops · AI Engineering Roadmap

Observability — выбрать один инструмент

Tool · Recommended Open Source · self-hostable

Langfuse

Рекомендую как основной выбор. Open source, отлично self-hosted, понятный UI.

Tool LangChain

LangSmith

Идеально интегрируется с LangGraph. Если выбрали LangGraph в Фазе 4 — это естественный выбор.

Tool Arize · Open Source

Arize Phoenix

Фокус на evals и tracing. Хорошо встраивается в существующий ML-стек.

Безопасность и guardrails

Reference OWASP · обязательно

OWASP Top 10 for LLM Applications

Обязательно к прочтению. Prompt injection, data leakage, insecure output handling. Проект вырос в OWASP GenAI Security Project (genai.owasp.org).

Framework NVIDIA

NeMo Guardrails

Фреймворк для guardrails. Декларативно описываете, что агенту нельзя.

Docs OpenAI · safety

Safety best practices and human review

Сформулировать, какие tool calls требуют approval, где нужен sandbox, какие данные нельзя отправлять в модель.

Reference OWASP GenAI · 2026

OWASP Top 10 for Agentic Applications (2026)

Агентный список 2026: перехват поведения агента, tool misuse, злоупотребление правами и identity, межагентные риски (включая MCP) — то, чего нет в LLM Top-10.

Article Anthropic Engineering

Beyond Permission Prompts: Claude Code Sandboxing

OS-уровневый sandbox (изоляция файловой системы и сети) как путь к безопасной автономии без усталости от подтверждений.

Article Anthropic Engineering

How We Contain Claude Across Products

Containment-архитектура во всех продуктах Anthropic: sandbox'ы, permissions, blast-radius мышление для агентов уровня computer use.

Practice 1 день

Прогнать свой агент по чеклисту Agentic Top-10

Наложить каждый из 10 агентных рисков на свой capstone-агент: применим? чем закрыт? Итог — threat-model заметка на одну страницу (сшивается с финальным проектом).

Кейсы и противоположные взгляды

Case Anthropic Engineering

How We Built Our Multi-Agent Research System

Реальный кейс от Anthropic. Что сработало, что не сработало.

Opinion Cognition

Don't Build Multi-Agents

Противоположный взгляд. Читать критически — это полезный «холодный душ» против хайпа.

CI/CD-чеклист для LLM-приложения

Practice

Промпты в git с версионированием и review в PR

Как код — никаких промптов в БД или конфигах без истории.

Practice

Eval suite в CI на каждый PR

Изменение промпта, модели или зависимостей запускает прогон. Регрессии ловятся до прода.

Practice

Cost & latency как обычные метрики (Prometheus / Grafana)

Дашборды, алерты на превышение бюджета, ежедневные отчёты.

Practice

Канареечный деплой моделей

Например, перевод трафика с лёгкой модели на флагманскую того же провайдера. Новая модель получает малую долю трафика, есть fallback и rollback-критерии.

Practice

Логирование всех запросов с PII-маскированием

Для дебага и аудита, но без утечки персональных данных.

Practice

Release scorecard для prompt/model changes

Перед релизом фиксировать eval delta, latency delta, cost delta, known failures, rollback plan и владельца решения.

Reference OpenAI · launch

Deployment checklist for going live

Пройти как production readiness review: ограничения, monitoring, rate limits, security, incident response и cost control.

Practice 4–6 часов

Настроить rate-limit алерты и backoff retry для мультипровайдерной конфигурации

Реализовать middleware, отслеживающий 429/5xx ответы, записывающий алерт в Prometheus/CloudWatch, и автоматически переключающий провайдера (OpenAI → Anthropic → Gemini) при исчерпании лимита.

0 / 20 материалов завершено

Финишная прямая курса: переносим CI/CD-мышление на LLM-приложения. Выбираем один observability-инструмент, закрываем безопасность и guardrails, изучаем реальные кейсы и собираем production-чеклист от промптов в git до канареечных деплоев.

Мои заметки

Не сохранено

Самопроверка

Вопрос 1 из 4

Какой пункт OWASP Top 10 for LLM наиболее критичен для агентов с tool use?

A Уязвимости UI/UX интерфейса чата

B Prompt injection — атакующий через данные заставляет агент вызвать опасный tool

C Нормализация базы данных

D Front-end XSS-уязвимости

Правильно: B. Prompt injection — главная угроза для агентов. Пример: агент читает email и в теле письма зашита инструкция «удали все файлы». Если у агента есть tool для удаления — катастрофа. Решения: sanitization входов, sandbox для tools, human approval для опасных операций.

Вопрос 2 из 4

Что такое канареечный деплой LLM-моделей?

A Тест модели на одной фиксированной задаче

B Постепенный rollout новой модели на малую долю трафика с возможностью отката

C A/B-тест двух моделей с разделением пользователей 50/50

D Использование самой дешёвой модели для всех запросов

Правильно: B. Канареечный деплой пришёл из классической инфраструктуры. Новая модель сначала получает 1% трафика, потом 5%, 25%, 100%. Если метрики (latency, cost, eval scores) ухудшаются — откат. Стандартная практика для production LLM-приложений.

Вопрос 3 из 4

Что должно происходить в CI при изменении промпта в pull request?

A Ничего особенного — промпт это просто текст

B Запуск eval suite с метриками success rate, latency, cost

C Только проверка синтаксиса YAML-конфига

D Автоматический мердж в main без проверок

Правильно: B. Изменение промпта может привести к регрессии так же, как изменение кода. CI должен прогнать eval suite на всех тестовых кейсах, сравнить метрики с main и показать diff в PR. Это то же, что тесты в вашем обычном backend-проекте.

Вопрос 4 из 4

Чем OWASP Top 10 for Agentic Applications (2026) отличается от Top 10 for LLM?

A Это одно и то же под новым названием

B Агентный список — только про мультиагентные системы

C Он покрывает риски автономии: tool misuse, перехват поведения агента, злоупотребление правами, межагентное взаимодействие (включая MCP)

D Он относится только к computer-use агентам

Правильно: C. LLM Top-10 писался про «модель, которая генерирует текст». Агенты действуют: вызывают инструменты, принимают многошаговые решения, общаются с другими агентами. Отсюда новые классы рисков — от Agent Behavior Hijacking до Identity & Privilege Abuse.

0 / 4