Фаза 3 · Production Agents · AI Engineering Roadmap

Книга фазы (опционально)

Book Packt

Практическое руководство по созданию 30 типов интеллектуальных агентов. Охватывает когнитивные архитектуры, работу с инструментами, мультимодальное восприятие и развертывание в продакшене.

Курсы

Course DeepLearning.AI · 5–7ч · Free

Agentic AI

Четыре паттерна: Reflection, Tool Use, Planning, Multi-agent collaboration.

Course Anthropic · Free

Building with the Claude API

Официальный бесплатный курс по интеграции Claude API: от базового использования инструментов до продвинутых агентных систем, включая Computer Use и MCP.

Evals — это тесты для LLM

Docs Anthropic

Define Your Success Criteria

Официальный гайд по построению eval-метрик.

Tool Open Source

Promptfoo

Практичный инструмент для прогона evals в CI. YAML-конфиг, легко интегрируется в pipeline. Теперь часть OpenAI; open-source инструмент продолжает развиваться.

Docs OpenAI · current

Working with evals and graders

Разобрать связку dataset + testing criteria + graders. Это полезнее, чем просто прогонять ручные golden prompts.

Article Anthropic Engineering · 01.2026

Demystifying Evals for AI Agents

Свежий пост: типы evals, подходы к грейдингу и дорожная карта «с нуля до продакшена» именно для агентов, а не просто промптов. Апгрейд всего eval-блока фазы на агентный уровень.

Практика — построить агента без фреймворка

Practice 3–4 дня

Построить агента на голом Anthropic SDK или OpenAI SDK

Tool use loop, structured outputs через Pydantic, retries, fallbacks, логирование. Без LangGraph и CrewAI. Это даст понимание, что фреймворки потом просто абстрагируют.

Library Open Source

Instructor

Pydantic-обёртка над LLM API. Превращает structured outputs из боли в удовольствие.

Practice 2 дня

Написать первый eval suite для своего агента

10–30 кейсов. Прогон через CI на каждый PR. Метрики: success rate, latency, cost.

Practice 1 день

Подключить traces и разобрать один плохой run

Сохранить вход, tool calls, intermediate outputs, latency, cost и причину ошибки. Итог — короткий incident note.

Practice 1 день

Сделать первый eval report как артефакт

Baseline model, candidate model/prompt, pass rate, false positives, false negatives, cost delta и решение: ship / hold / rollback.

Practice 3–4 часа

Добавить cost/token logger к своему агенту

Обернуть каждый вызов API в декоратор, логирующий model, input_tokens, output_tokens, latency_ms и стоимость. Вывести сводку за сессию в таблицу.

Practice 4–6 часов

Написать LLM-as-judge grader и сравнить с rule-based

Создать два грейдера для одного набора eval-кейсов: один на регулярках/exact match, второй — LLM-модель как судья. Сравнить agreement rate и стоимость.

Claude Agent SDK и память агента

Article Anthropic Engineering

Building Agents with the Claude Agent SDK

Почему Anthropic превратила цикл Claude Code в общий Agent SDK. Принцип «дать агенту компьютер»: файлы, терминал, инструменты. Естественный следующий шаг после агента на голом SDK из p3-8.

Docs Anthropic

Claude Agent SDK — документация

Production-harness, лежащий под Claude Code: сессии, permissions, hooks, MCP — программируется из Python/TS.

Docs Anthropic

Memory tool и context editing

Файловая память между сессиями + context editing/compaction (в бенчмарках Anthropic — до ~84% экономии токенов на длинных задачах). Обзор: anthropic.com/news/context-management.

Article Anthropic Engineering

Writing Effective Tools for Agents

Как проектировать и оценивать контракты инструментов — вплоть до того, что агенты улучшают собственные tools. Пара к практике tool-цикла из p3-8.

0 / 18 материалов завершено

Здесь ваш CI/CD-бэкграунд даёт огромное преимущество: evals работают как автотесты, observability — как метрики, а cost становится обычной статьёй бюджета. Цель фазы — собрать агента без фреймворка и обвесить его evals, трейсами и учётом стоимости.

Мои заметки

Не сохранено

Самопроверка

Вопрос 1 из 5

Зачем нужны evals для LLM-приложений?

A Чтобы измерить точность модели в академических бенчмарках

B Это аналог автотестов — ловить регрессии при изменении промптов, моделей или кода

C Только для научных публикаций и сравнения с конкурентами

D Чтобы сравнивать стоимость разных моделей

Правильно: B. Evals в production — это unit/integration тесты для LLM-приложений. Изменили промпт? Прогоните evals. Поменялась модель? Прогоните evals. Без них вы не заметите, как новая версия Claude или промпта стала хуже отрабатывать ваш конкретный кейс.

Вопрос 2 из 5

Что НЕ является типичной частью observability для LLM-приложения?

A Traces всех вызовов модели с входом и выходом

B Cost per request и общий бюджет

C Latency на каждом шаге агентного цикла

D Веса нейронной сети и градиенты во время инференса

Правильно: D. Веса и градиенты — это про обучение моделей, а не про наблюдаемость их использования. В production observability вы смотрите на traces (Langfuse, LangSmith), стоимость, латентность, success rate. То, что важно для бизнес-метрик и SLA.

Вопрос 3 из 5

Какая библиотека помогает получать structured outputs через Pydantic-схемы?

A Pandas

B Instructor

C FastAPI

D SQLAlchemy

Правильно: B. Instructor — небольшая обёртка над OpenAI/Anthropic SDK. Описываете Pydantic-модель — получаете типизированный ответ от LLM с автоматическими retries при невалидном выводе. Для вас как для Python-разработчика — must-have инструмент.

Вопрос 4 из 5

Какой принцип лежит в основе Claude Agent SDK?

A Максимум абстракций над LLM API

B «Дать агенту компьютер»: файловая система, терминал и инструменты — тот же harness, что у Claude Code

C Замена MCP-протокола

D Только для кодинг-задач

Правильно: B. Anthropic превратила внутренний цикл Claude Code в общий SDK: агент работает как человек за компьютером — файлы, bash, скрипты. Это противоположность тяжёлым фреймворкам-абстракциям.

Вопрос 5 из 5

Зачем агенту memory tool и context editing на длинных задачах?

A Для соблюдения GDPR

B Чтобы модель дообучалась на ваших данных

C Память выносит знания в файлы вне контекста, а context editing чистит устаревшие tool results — меньше токенов, стабильнее качество

D Это нужно только для мультимодальных моделей

Правильно: C. Контекстное окно — исчерпаемый ресурс. В бенчмарках Anthropic связка memory + context editing дала ~84% экономии токенов на 100-ходовой задаче. Память — это файлы, которыми управляет ваш код, а не «магия» модели.

0 / 5