03
Урок третий · ≈ 3–4 недели · основной блок

Production Agents

Здесь ваш CI/CD-бэкграунд даёт огромное преимущество. Evals как тесты, observability как метрики, cost как обычная статья бюджета.

Главная книга фазы
Book Packt · 2026
Практическое руководство по созданию 30 типов интеллектуальных агентов. Охватывает когнитивные архитектуры, работу с инструментами, мультимодальное восприятие и развертывание в продакшене.
Курсы
Course DeepLearning.AI · 5–7ч · Free
Четыре паттерна: Reflection, Tool Use, Planning, Multi-agent collaboration.
Course Anthropic · Free
Официальный бесплатный курс по интеграции Claude API: от базового использования инструментов до продвинутых агентных систем, включая Computer Use и MCP.
Evals — это тесты для LLM
Docs Anthropic
Официальный гайд по построению eval-метрик.
Tool Open Source
Практичный инструмент для прогона evals в CI. YAML-конфиг, легко интегрируется в pipeline.
Docs OpenAI · current
Разобрать связку dataset + testing criteria + graders. Это полезнее, чем просто прогонять ручные golden prompts.
Практика — построить агента без фреймворка
Practice 3–4 дня
Построить агента на голом Anthropic SDK или OpenAI SDK
Tool use loop, structured outputs через Pydantic, retries, fallbacks, логирование. Без LangGraph и CrewAI. Это даст понимание, что фреймворки потом просто абстрагируют.
Library Open Source
Pydantic-обёртка над LLM API. Превращает structured outputs из боли в удовольствие.
Practice 2 дня
Написать первый eval suite для своего агента
10–30 кейсов. Прогон через CI на каждый PR. Метрики: success rate, latency, cost.
Practice 1 день
Подключить traces и разобрать один плохой run
Сохранить вход, tool calls, intermediate outputs, latency, cost и причину ошибки. Итог — короткий incident note.
Practice 1 день
Сделать первый eval report как артефакт
Baseline model, candidate model/prompt, pass rate, false positives, false negatives, cost delta и решение: ship / hold / rollback.
Practice 3–4 часа
Добавить cost/token logger к своему агенту
Обернуть каждый вызов API в декоратор, логирующий model, input_tokens, output_tokens, latency_ms и стоимость. Вывести сводку за сессию в таблицу.
Practice 4–6 часов
Написать LLM-as-judge grader и сравнить с rule-based
Создать два грейдера для одного набора eval-кейсов: один на регулярках/exact match, второй — LLM-модель как судья. Сравнить agreement rate и стоимость.
0 / 13 завершено

Мои заметки

Не сохранено
Самопроверка
Три вопроса по production-практикам.
Вопрос 1 из 3
Зачем нужны evals для LLM-приложений?
A Чтобы измерить точность модели в академических бенчмарках
B Это аналог автотестов — ловить регрессии при изменении промптов, моделей или кода
C Только для научных публикаций и сравнения с конкурентами
D Чтобы сравнивать стоимость разных моделей
Правильно: B. Evals в production — это unit/integration тесты для LLM-приложений. Изменили промпт? Прогоните evals. Поменялась модель? Прогоните evals. Без них вы не заметите, как новая версия Claude или промпта стала хуже отрабатывать ваш конкретный кейс.
Вопрос 2 из 3
Что НЕ является типичной частью observability для LLM-приложения?
A Traces всех вызовов модели с входом и выходом
B Cost per request и общий бюджет
C Latency на каждом шаге агентного цикла
D Веса нейронной сети и градиенты во время инференса
Правильно: D. Веса и градиенты — это про обучение моделей, а не про наблюдаемость их использования. В production observability вы смотрите на traces (Langfuse, LangSmith), стоимость, латентность, success rate. То, что важно для бизнес-метрик и SLA.
Вопрос 3 из 3
Какая библиотека помогает получать structured outputs через Pydantic-схемы?
A Pandas
B Instructor
C FastAPI
D SQLAlchemy
Правильно: B. Instructor — небольшая обёртка над OpenAI/Anthropic SDK. Описываете Pydantic-модель — получаете типизированный ответ от LLM с автоматическими retries при невалидном выводе. Для вас как для Python-разработчика — must-have инструмент.
0 / 3