AlphaEvolve от Google: ИИ-агент, который вернул себе 0,7% вычислений Google, и как его скопировать

Подпишитесь на наши ежедневные и еженедельные рассылки, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли материалах об ИИ. Узнать больше
Новая платформа AlphaEvolve от Google демонстрирует, что происходит, когда агент ИИ переходит от лабораторной демонстрации к производственной работе, а за ее рулем находится одна из самых талантливых технологических компаний.
Система, созданная DeepMind от Google, автономно переписывает критически важный код и уже окупает себя в Google. Она побила 56-летний рекорд в умножении матриц (ядро многих рабочих нагрузок машинного обучения) и вернула себе 0,7% вычислительной мощности в глобальных центрах обработки данных компании.
Эти главные достижения важны, но более глубокий урок для руководителей корпоративных технологий заключается в том, как AlphaEvolve их реализует. Его архитектура — контроллер, быстропроектные модели, глубокомысленные модели, автоматизированные оценщики и версионная память — иллюстрирует тип производственной сантехники, которая делает автономных агентов безопасными для масштабного развертывания.
Технология искусственного интеллекта Google, возможно, не имеет себе равных . Поэтому фокус в том, чтобы выяснить, как извлечь из нее уроки или даже использовать ее напрямую. Google говорит, что для академических партнеров появится программа раннего доступа, и что изучается «более широкая доступность », но подробности скудны. До тех пор AlphaEvolve является шаблоном передовой практики: если вам нужны агенты, которые касаются высокоценных рабочих нагрузок, вам понадобятся сопоставимая оркестровка, тестирование и ограждения.
Рассмотрим только победу центра обработки данных. Google не назовет цену возвращенных 0,7%, но ее ежегодные капитальные затраты составляют десятки миллиардов долларов . Даже грубая оценка показывает, что экономия составляет сотни миллионов в год — достаточно, как отметил независимый разработчик Сэм Виттевин в нашем недавнем подкасте , чтобы оплатить обучение одной из флагманских моделей Gemini, которая, по оценкам, обойдется более чем в 191 миллион долларов за версию вроде Gemini Ultra.
VentureBeat был первым, кто сообщил о новостях AlphaEvolve ранее на этой неделе. Теперь мы углубимся: как работает система, где на самом деле находится инженерная планка и конкретные шаги, которые предприятия могут предпринять, чтобы построить (или купить) что-то сопоставимое.
AlphaEvolve работает на том, что лучше всего описывается как агентская операционная система – распределенный асинхронный конвейер, созданный для непрерывного совершенствования в масштабе. Его основные части – контроллер, пара больших языковых моделей (Gemini Flash для широты; Gemini Pro для глубины), версионная база данных программной памяти и флот оценщиков-рабочих, все настроено на высокую пропускную способность, а не просто на низкую задержку.

Эта архитектура не концептуально нова, но ее реализация нова. «Это просто невероятно хорошее исполнение», — говорит Виттевен.
В статье AlphaEvolve оркестратор описывается как «эволюционный алгоритм, который постепенно разрабатывает программы, улучшающие показатели автоматизированной оценки» (стр. 3); короче говоря, это «автономный конвейер LLM, задача которого — улучшить алгоритм путем внесения прямых изменений в код» (стр. 1).
Совет для предприятий: если в планы вашего агента входит неконтролируемое выполнение важных задач, запланируйте аналогичную инфраструктуру: очереди заданий, хранилище с контролем версий, трассировку сервисной сетки и безопасную изолированную программную среду для любого кода, создаваемого агентом.
Ключевым элементом AlphaEvolve является его строгая структура оценки. Каждая итерация, предложенная парой LLM, принимается или отклоняется на основе предоставленной пользователем функции «evaluate», которая возвращает машинно-оцениваемые метрики. Эта система оценки начинается с сверхбыстрых проверок модульных тестов для каждого предложенного изменения кода — простых автоматических тестов (похожих на модульные тесты, которые уже пишут разработчики), которые проверяют, что фрагмент все еще компилируется и выдает правильные ответы на несколько микровходов — перед тем, как передать выживших на более тяжелые бенчмарки и обзоры, сгенерированные LLM. Это работает параллельно, поэтому поиск остается быстрым и безопасным.
Короче говоря: позвольте моделям предложить исправления, затем проверьте каждое из них с помощью тестов, которым вы доверяете. AlphaEvolve также поддерживает многоцелевую оптимизацию (одновременную оптимизацию задержки и точности), развивая программы, которые достигают нескольких метрик одновременно. Противореча интуиции, балансировка нескольких целей может улучшить одну целевую метрику, поощряя более разнообразные решения.
Вывод для предприятий: Производственным агентам нужны детерминированные оценщики. Будь то модульные тесты, полные симуляторы или анализ трафика canary. Автоматизированные оценщики — это и ваша страховочная сетка, и ваш двигатель роста. Перед запуском агентского проекта спросите себя: «Есть ли у нас метрика, по которой агент может оценивать себя?»
AlphaEvolve решает каждую проблему кодирования с помощью ритма двух моделей. Сначала Gemini Flash запускает быстрые черновики, предоставляя системе широкий набор идей для исследования. Затем Gemini Pro изучает эти черновики более глубоко и возвращает меньший набор более сильных кандидатов. Обе модели питаются легким «конструктором подсказок», вспомогательным скриптом, который собирает вопрос, который видит каждая модель. Он смешивает три вида контекста: более ранние попытки кода, сохраненные в базе данных проекта, любые ограничения или правила, написанные инженерной группой, и соответствующие внешние материалы, такие как исследовательские работы или заметки разработчиков. С этим более богатым фоном Gemini Flash может широко перемещаться, в то время как Gemini Pro сосредотачивается на качестве.
В отличие от многих демонстрационных версий агентов, которые настраивают одну функцию за раз, AlphaEvolve редактирует целые репозитории. Он описывает каждое изменение как стандартный блок различий — тот же формат патча, который инженеры отправляют на GitHub — поэтому он может затрагивать десятки файлов, не теряя след. После этого автоматизированные тесты решают, приживется ли патч. За счет повторяющихся циклов память агента об успехах и неудачах растет, поэтому он предлагает лучшие патчи и тратит меньше вычислений на тупики.
Вывод для предприятий: позвольте более дешевым и быстрым моделям справиться с мозговым штурмом, а затем вызовите более способную модель для уточнения лучших идей. Сохраняйте каждую попытку в доступной для поиска истории, потому что эта память ускоряет последующую работу и может быть повторно использована в разных командах. Соответственно, поставщики спешат предоставить разработчикам новые инструменты для таких вещей, как память. Такие продукты, как OpenMemory MCP , который предоставляет портативное хранилище памяти, и новые API для долговременной и краткосрочной памяти в LlamaIndex делают этот тип постоянного контекста почти таким же простым для подключения, как и ведение журнала.
Агент программного обеспечения Codex-1 от OpenAI, также выпущенный сегодня, подчеркивает тот же шаблон. Он запускает параллельные задачи внутри безопасной песочницы, запускает модульные тесты и возвращает черновики запросов на извлечение — по сути, кодоспецифичное эхо более широкого цикла поиска и оценки AlphaEvolve.
Ощутимые достижения AlphaEvolve — восстановление 0,7% емкости центра обработки данных, сокращение времени выполнения ядра обучения Gemini на 23%, ускорение FlashAttention на 32% и упрощение проектирования TPU — имеют одну общую черту: они нацелены на домены с надежными метриками.
Для планирования центров обработки данных AlphaEvolve разработала эвристику, которая была оценена с помощью симулятора центров обработки данных Google на основе исторических рабочих нагрузок. Для оптимизации ядра целью было минимизировать фактическое время выполнения на ускорителях TPU по набору данных реалистичных входных форм ядра.
Вывод для предприятий: Начиная свой путь агентского ИИ, сначала посмотрите на рабочие процессы, где «лучше» — это количественно определяемое число, которое может вычислить ваша система, будь то задержка, стоимость, частота ошибок или пропускная способность. Такой подход позволяет автоматизировать поиск и снизить риски развертывания, поскольку выходные данные агента (часто код, понятный человеку, как в случае AlphaEvolve) можно интегрировать в существующие конвейеры проверки и валидации.
Эта ясность позволяет агенту самосовершенствоваться и демонстрировать недвусмысленную ценность.
Хотя достижения AlphaEvolve воодушевляют, в документе Google также четко обозначены сфера его применения и требования.
Основным ограничением является необходимость в автоматизированном оценщике; проблемы, требующие ручного экспериментирования или обратной связи «влажной лаборатории», в настоящее время выходят за рамки этого конкретного подхода. Система может потреблять значительные вычислительные ресурсы — «порядка 100 вычислительных часов для оценки любого нового решения» (статья AlphaEvolve, стр. 8 ), что требует распараллеливания и тщательного планирования емкости.
Прежде чем выделять значительный бюджет на сложные агентские системы, технические руководители должны задать себе важные вопросы:
- Проблема, поддающаяся машинной оценке? Есть ли у нас четкая, автоматизируемая метрика, по которой агент может оценить свою собственную производительность?
- Вычислительная мощность? Можем ли мы позволить себе потенциально интенсивный по вычислениям внутренний цикл генерации, оценки и уточнения, особенно на этапе разработки и обучения?
- Готовность кодовой базы и памяти? Структурирована ли ваша кодовая база для итеративных, возможно, основанных на различиях, модификаций? И можете ли вы реализовать инструментированные системы памяти, необходимые агенту для обучения на своей эволюционной истории?
Вывод для предприятий: растущее внимание к надежной идентификации агентов и управлению доступом, как это видно на примере таких платформ, как Frontegg, Auth0 и других, также указывает на необходимость развития инфраструктуры, необходимой для развертывания агентов, которые безопасно взаимодействуют с несколькими корпоративными системами.
Сообщение AlphaEvolve для корпоративных команд многогранно. Во-первых, ваша операционная система вокруг агентов теперь гораздо важнее, чем модельный интеллект. План Google показывает три столпа, которые нельзя пропустить:
- Детерминированные оценщики, которые дают агенту однозначную оценку каждый раз, когда он вносит изменения.
- Длительная оркестровка, которая может жонглировать быстрыми «черновиками» моделей, такими как Gemini Flash, с более медленными, более строгими моделями — будь то стек Google или фреймворк, такой как LangGraph от LangChain.
- Постоянная память, благодаря которой каждая итерация основывается на предыдущей, а не переучивается с нуля.
Предприятия, у которых уже есть журналирование, тестовые обвязки и репозитории версионного кода, ближе, чем они думают. Следующий шаг — подключить эти активы к циклу оценки с самообслуживанием, чтобы несколько решений, созданных агентами, могли конкурировать, и только патчи с наивысшей оценкой отправлялись.
Как сказал в интервью VentureBeat на этой неделе Анураг Дхингра, вице-президент и генеральный директор Cisco по корпоративным связям и сотрудничеству: «Это происходит, это очень, очень реально», — сказал он о предприятиях, использующих агентов ИИ на производстве, складах, в контактных центрах для клиентов. «Это не что-то в будущем. Это происходит там сегодня». Он предупредил, что по мере того, как эти агенты становятся все более распространенными, выполняя «человеческую работу», нагрузка на существующие системы будет огромной: «Сетевой трафик будет зашкаливать», — сказал Дхингра. Ваша сеть, бюджет и конкурентное преимущество, скорее всего, почувствуют это напряжение до того, как цикл ажиотажа уляжется. Начните доказывать ограниченный, основанный на метриках вариант использования в этом квартале — а затем масштабируйте то, что работает.
Посмотрите видеоподкаст, который я сделал с разработчиком Сэмом Виттевеном, в котором мы подробно рассмотрим агенты промышленного уровня и то, как AlphaEvolve показывает нам путь:
Если вы хотите произвести впечатление на своего босса, VB Daily вам поможет. Мы даем вам внутреннюю информацию о том, что компании делают с генеративным ИИ, от изменений в регулировании до практических развертываний, чтобы вы могли поделиться идеями для максимальной окупаемости инвестиций.
Ознакомьтесь с нашей Политикой конфиденциальности
Спасибо за подписку. Ознакомьтесь с другими рассылками VB здесь .
Произошла ошибка.

venturebeat