Эта страница переведена с помощью Cloud Translation API.

Автоматизированное тестирование пользовательского интерфейса с помощью Antigravity (AGY) CLI, BrowserMCP, Playwright и Browser Agent.

1. Введение

Революция в области агентного ИИ трансформирует подход к разработке программного обеспечения, делая весь процесс невероятно интересным, захватывающим и доступным. Задачи и проекты, на выполнение которых раньше у разработчиков уходили месяцы, теперь можно выполнить за один сеанс с помощью агентных инструментов.

Одной из областей, идеально подходящих для такой трансформации в сторону агентного подхода, является тестирование веб-приложений. Традиционно тестирование веб-приложений было сложной задачей и постоянной борьбой с уязвимостью. Но что, если бы можно было полностью обойти эту сложность? Что, если бы можно было просто указать агенту, что нужно протестировать, простым, естественным языком, и позволить агенту рассуждать о том, как это выполнить?

В этом практическом занятии мы рассмотрим, как использовать Antigravity CLI вместе с навыками агентов и мультимодальными инструментами MCP, такими как BrowserMCP. Вы увидите, как создавать и запускать автоматизированные тесты пользовательского интерфейса с использованием естественного языка, демонстрируя, как инструменты для работы с агентами могут справляться со сложными задачами и наделять вас сверхспособностями как разработчика.

Важно отметить, что, хотя этот практический семинар посвящен конкретным примерам использования автоматизации пользовательского интерфейса и удаленного управления через браузер, по-настоящему важны лежащие в их основе принципы и огромный мир возможностей, которые они открывают. Обучая агентов использованию локальных интерфейсов командной строки и серверов MCP, мы можем делегировать сложные рабочие процессы, на выполнение которых у нас иначе не хватило бы времени или специальных знаний.

Что вы узнаете

Что такое Antigravity CLI и как он вписывается в экосистему Antigravity.
Что такое протокол контекста модели (MCP) и почему он меняет правила игры.
Как BrowserMCP позволяет агентам искусственного интеллекта управлять веб-браузерами.
Как запускать автоматизированные тесты пользовательского интерфейса из Antigravity CLI.
Понимание навыков агентов и их преимуществ.
Обучение агента использованию программы Playwright в сочетании с определенным навыком.
Понимание встроенного в Antigravity браузерного агента.
Другие варианты использования управления браузером.

Что вы будете делать

В этом практическом занятии используются Antigravity CLI, инструменты MCP, навыки агента и демонстрационное приложение React.

Вы будете:

Настройте среду разработки.
Ознакомьтесь с демонстрационным приложением, которое нуждается в тестировании.
Для взаимодействия с приложением через BrowserMCP используйте Antigravity CLI.
Научите своего агента использовать Playwright с навыком работы с агентами.

2. Экосистема антигравитации

В мае 2026 года Google выпустила новый пакет Antigravity. Это была масштабная переработка Antigravity и разделение на четыре продукта:

Antigravity 2.0 — это теперь специализированная среда разработки, ориентированная на агентов, прямо на вашем рабочем столе. Примечательно, что она не включает в себя IDE. Вместо этого мы взаимодействуем только с менеджером агентов. Эта среда призвана положить начало эре «от идеи к продукту» с использованием агентов, без необходимости разбираться в коде. Многим разработчикам, не имеющим опыта программирования, это понравится.
Antigravity IDE предоставляет нам более привычную среду программирования, похожую на VS Code, поддерживаемую агентским модулем Antigravity. Здесь мы можем заниматься разработкой с помощью агентов, и мы всегда видим код. Программисты почувствуют себя здесь как дома.
Antigravity SDK предоставляет вам инструменты и средства, необходимые для работы Antigravity, но представленные в виде Python Agent SDK. Импортируя его из google.antigravity, мы можем программно использовать возможности Antigravity.
Antigravity CLI — это следующая ступень развития невероятно удобного Gemini CLI. Это по-прежнему среда, ориентированная на работу с терминалом, для взаимодействия с моделями Gemini. Но новый Antigravity CLI написан на Go, и это заметно: он работает намного быстрее, чем Gemini CLI, как при запуске, так и при обычном использовании. Он использует ту же самую "инфраструктуру" агентов, что и Antigravity 2.0, и IDE, что позволяет использовать общие настройки и конфигурацию во всем пакете Antigravity.

Хотя в этой лабораторной работе основное внимание уделяется использованию Antigravity CLI, все действия можно выполнить также с помощью Agy IDE или Agy 2.0.

3. Предварительные требования

Прежде чем мы перейдем к самому интересному, давайте убедимся, что у вас есть все необходимое.

Инструменты

Для выполнения этой лабораторной работы предполагается, что у вас уже есть:

Для использования Antigravity CLI вам потребуется авторизоваться в Google. При первом запуске agy вам автоматически будет предложено войти в Google через ваш веб-браузер по умолчанию. Эта опция включает в себя щедрый бесплатный лимит использования Gemini и не требует проекта Google Cloud. Если у вас есть ключ API Gemini или проект Google Cloud, вы также можете настроить это.

В инструкциях предполагается, что вы работаете в среде Linux (или WSL) или macOS. Если вы используете Windows (как и я), вы можете следовать инструкциям, используя WSL .

(Обратите внимание, что BrowserMCP не будет работать из Google Cloud Shell, поскольку он будет подключаться только к локальному браузеру, работающему на том же компьютере.)

Настройка среды разработки

Я создал демонстрационный репозиторий на GitHub. Он включает в себя пример приложения, которое мы можем использовать для тестирования пользовательского интерфейса. Вы можете клонировать его, запустив следующую команду в локальном терминале:

git clone https://github.com/derailed-dash/agentic-ui-testing
cd agentic-ui-testing

В Makefile есть простой способ настроить среду для запуска демонстрационного приложения. Давайте запустим его, чтобы инициализировать нашу среду:

make install

# Or if you don't have make
npm install --prefix demo-app

4. Наше демонстрационное приложение

Сегодня мы тестируем приложение The Dazbo Omni-Dash — футуристическую панель управления телеметрией безопасности в темном стиле. (Да, она была написана с использованием Vibe Code!)

Почему именно это приложение?

Он создан для обеспечения реалистичной тестовой поверхности, обладающей следующими характеристиками:

Имитация аутентификации : процесс входа в систему, требующий ввода определенных учетных данных.
Динамический контент : карты телеметрии и журналы безопасности, имитирующие данные в реальном времени.
Интерактивные состояния : Навигационные меню и поля ввода форм, изменяющиеся в зависимости от действий пользователя.
Современные технологии : Создано с использованием React и Vite для быстрой и отзывчивой работы.

Запуск приложения

Для запуска приложения просто выполните команду:

make dev

# Or if you don't have make
npm run dev --prefix demo-app

Сервер разработки должен запуститься очень быстро, и приложение будет доступно по адресу http://localhost:5173 .

Мы можем просто щелкнуть по ссылке, чтобы открыть приложение в браузере. Просто оставьте этот процесс запущенным в терминале. Последующие команды терминала мы будем выполнять в отдельной сессии терминала.

5. Сложности тестирования пользовательского интерфейса

Традиционное тестирование пользовательского интерфейса, как известно, крайне сложно правильно организовать и ещё сложнее поддерживать. К распространённым проблемам относятся:

Высокая сложность освоения : разработчикам приходится тратить огромное количество времени на изучение сложных предметно-ориентированных языков программирования и особенностей фреймворков (таких как Selenium или Playwright) только для того, чтобы автоматизировать базовое взаимодействие.
Ненадежные селекторы и автоматизация : Традиционные скрипты полагаются на жесткие структуры DOM (например div > div > button ) или определенные текстовые метки. Что произойдет, если вы переименуете кнопку «Выход» в «Выйти»? Или переместите кнопку в совершенно другое меню? Или измените структуру вашего HTML-кода? Традиционные инструменты тестирования перестанут работать при таких действиях, что приведет к постоянной поддержке скриптов.
«Нестабильность» тестов: тесты, которые проходят одну минуту, а на следующей терпят неудачу из-за проблем со временем, состояний гонки или медленной загрузки ресурсов.
Соответствие среды : Борьба со сложно воспроизводимыми состояниями приложения и дополнительными затратами на очистку тестовых данных.

Намерение против реализации

Для решения этих проблем нам нужен способ тестирования, который фокусируется на намерениях, а не на реализации.

Используя инструменты агентного ИИ, мы можем создавать повторяемые автоматизированные процессы, полностью изолированные от незначительных изменений пользовательского интерфейса и структуры. Вместо жесткого кодирования имен, меток или точной иерархии объектов, агент выполняет действия на основе намерений пользователя, выраженных на естественном языке. Если кнопка перемещается или ее метка незначительно изменяется, многомодальные возможности агента позволяют ему найти элемент и успешно выполнить задачу.

6. MCP приходит на помощь

Протокол контекста модели (MCP) — это открытый стандарт, позволяющий моделям и агентам искусственного интеллекта взаимодействовать с внешними инструментами, API и данными. Представьте его как универсальный адаптер, позволяющий моделям и агентам находить и запускать доступные им инструменты.

Традиционно интеграция больших языковых моделей (LLM) с внешними данными и инструментами требовала от разработчиков написания пользовательских, жестко закодированных API-подключений для каждого нового источника данных, что создавало неустойчивую проблему интеграции типа «M x N», где каждая новая модель и инструмент многократно увеличивают нагрузку на обслуживание. Протокол контекста модели (MCP) решает эту проблему, устраняя необходимость написания специального кода для управления этими возможностями. Вместо явного кодирования сложных рабочих процессов выполнения разработчики могут полагаться на LLM для интерпретации запросов пользователя на естественном языке и динамического определения того, какие инструменты использовать в режиме реального времени.

Когда пользователь вводит команду на естественном языке (например , «Перейдите на localhost:5173, войдите как 'admin' и нажмите кнопку «Отправить» ), LLM обнаруживает доступные возможности и генерирует структурированный запрос для вызова конкретного инструмента. Клиент MCP выступает в роли транслятора, перенаправляя этот запрос на указанный сервер MCP, который выполняет действие или получает данные и возвращает контекст модели. Это позволяет ИИ действовать автономно, без необходимости для разработчика жестко прописывать конкретный путь выполнения.

Благодаря созданию универсального стандарта MCP, который часто называют «USB-C для приложений ИИ», открывается возможность массового повторного использования готовых решений . Разработчики могут создать сервер MCP один раз, и любой совместимый с MCP хост ИИ сможет мгновенно к нему подключиться, устраняя проблему интеграции M x N. Вам больше не нужно создавать пользовательские API-мосты для каждой платформы; вместо этого вы можете использовать экосистему готовых серверов MCP с открытым исходным кодом для распространенных сервисов, таких как GitHub, Slack, базы данных и т. д., подключая их напрямую к вашим рабочим процессам агентной интеграции. Эта модульная архитектура, работающая по принципу «подключи и работай», гарантирует, что если вы смените поставщика LLM или обновите свои инструменты позже, ваша основная интеграционная инфраструктура останется полностью неизменной.

7. Автоматизация с помощью BrowserMCP

Что такое BrowserMCP?

Это первый инструмент, с которым мы сегодня поработаем. BrowserMCP — это MCP-сервер, который предоставляет агентам ИИ «глаза» и «руки», необходимые для взаимодействия с веб-браузером. В двух словах, он имитирует взаимодействие человека с браузером. Это проект с открытым исходным кодом, и вы можете ознакомиться с репозиторием на GitHub здесь . Ознакомиться с основной документацией BrowserMCP можно здесь .

Вот некоторые из его возможностей:

Она может переходить по URL-адресам.
Она может проверять DOM.
Он может нажимать кнопки и вводить текст в формы.
Она поддерживает перетаскивание объектов.
Она может читать логи консоли браузера.
Это быстро: автоматизация происходит локально на вашем компьютере.

Установка Browser MCP

Для использования BrowserMCP необходимо выполнить два действия:

Установите расширение BrowserMCP в Chrome (или любой другой браузер на основе Chromium).
Настройте сервер MCP вручную в конфигурации Antigravity.

Для установки расширения просто следуйте инструкциям здесь . Это займет всего несколько секунд. После установки нажмите кнопку «Подключить» в расширении, чтобы ваш агент мог управлять текущей вкладкой. (Очевидно, что в текущей вкладке должна быть запущена демонстрационная версия приложения!)

Далее мы настраиваем сам MCP-сервер в Antigravity. Для этого мы добавляем определение сервера browsermcp в наш глобальный файл mcp_config.json .

Создайте или отредактируйте файл ~/.gemini/config/mcp_config.json и добавьте следующую конфигурацию:

{
  "mcpServers": {
    "browsermcp": {
      "command": "npx",
      "args": [
        "-y",
        "@browsermcp/mcp@latest"
      ]
    }
  }
}

Подробное пошаговое руководство по настройке серверов MCP и навыков в экосистеме Antigravity см. в следующих ресурсах:

Тестирование с помощью BrowserMCP

А теперь самое интересное. Сначала запустим Antigravity CLI (с помощью команды agy) в новой терминальной сессии. (Напомним, что демонстрационное приложение запущено в нашей исходной терминальной сессии.) В интерактивном TUI введите /mcp, чтобы проверить список активных инструментов и убедиться, что browsermcp доступен.

Если вы не запустили демонстрационное приложение ранее, запустите его сейчас:

make dev

Если вы еще этого не сделали, откройте приложение в браузере Chrome и подключите расширение BrowserMCP в этой вкладке. Перейдите по ссылке из команды run . Затем щелкните значок расширения BrowserMCP и нажмите «Подключить».

Теперь мы можем использовать Agy CLI для запуска теста. Скопируйте и вставьте эту командную строку в CLI:

Using BrowserMCP, connect to the application at http://localhost:5173. If the application is not showing a login screen, first logout. Then login as 'admin' with password 'password', and verify that the dashboard title says 'System Overview'. In the main dashboard, read the telemetry values shown, and present them back to me in a markdown table.

Интерфейс командной строки может сначала проверить, запущено ли демонстрационное приложение на указанном порту. Затем он предложит вам подтвердить действия, которые планируется выполнить.

Разрешите CLI запускать все инструменты BrowserMCP в течение этой сессии. Затем вернитесь в браузер и наблюдайте за автоматическим взаимодействием!

Несколько замечаний по поводу приведенного выше задания:

Для начала мы даём агенту команду выйти из системы, если приложение уже запущено. Обратите внимание, что нам не нужно указывать агенту, на какой именно текст нужно нажать, например, «Выйти из шлюза». Он и так достаточно умён, чтобы понять, на что нужно нажать.
После входа в систему и отображения главной страницы агент получает телеметрическую информацию. Опять же, нам не нужно указывать агенту, в каких именно блоках искать или сопоставлять определенные слова. Поэтому, если мы позже расширим или изменим информацию, отображаемую на этой странице, этот запрос все равно будет работать, и результат по-прежнему будет зафиксирован в нашей таблице Markdown.

Круто, правда?

На этом пока всё с BrowserMCP, поэтому отключите его в своём браузере.

8. Автоматизация с помощью навыков и драматурга

Ограничения BrowserMCP

BrowserMCP — отличная программа, но у неё есть несколько ограничений. Например:

Для этого требуется уже существующая сессия браузера с подключенным расширением BrowserMCP. (Новые сессии не создаются.)
Он не поддерживает браузеры, отличные от Chromium.
Для этого необходимо запустить отдельный браузерный процесс на том же компьютере, где работает сервер MCP.
Оно не может работать с локальной файловой системой. Например, оно не может создавать локальные файлы для подтверждения скриншотов или загружать и сохранять файлы из веб-приложения, такие как загружаемые PDF-файлы.
Это недетерминированная система. Она будет пытаться выполнять действия, которые вы ей укажете, но локальное состояние, например, неожиданное всплывающее окно, может нарушить взаимодействие.
Он не поддерживает работу в "безголовом" режиме, то есть не может запускаться в конвейере CI/CD без реального окна браузера.

Драматург

Playwright — гораздо более сложный инструмент. Это хорошо зарекомендовавшая себя платформа для автоматизации и тестирования браузеров с открытым исходным кодом. Она может делать многое из того, что не может BrowserMCP, включая все перечисленные выше функции.

Он гораздо лучше подходит для выполнения сложных, надежных и воспроизводимых тестовых сценариев. И он особенно хорошо подходит для работы с длительными сессиями или для параллельного выполнения нескольких независимых сессий.

Но с такими дополнительными возможностями значительно усложняется и процесс обучения.

Навыки

К счастью, нам не нужно учиться использовать Playwright напрямую. Вместо этого мы можем использовать навык агента.

Итак, что же такое навык агента? Представьте его как тщательно упакованный набор экспертных знаний в определенной области, который вы можете передать своему ИИ-агенту, когда ему нужно выполнить конкретное действие. Он содержит инструкции, лучшие практики, а иногда даже вспомогательные скрипты, адаптированные к конкретной задаче.

А вот и действительно умная часть: поэтапное раскрытие информации . Вместо того чтобы втискивать в начальный запрос системы LLM все мыслимые документы API и правила фреймворка тестирования — что занимает всё контекстное окно и расходует токены с невероятной скоростью — агент считывает навык только тогда, когда это действительно необходимо. Это позволяет сохранить базовый контекст лаконичным и эффективным, получая подробные инструкции «как это сделать» именно тогда, когда это нужно. И да, навык, безусловно, может включать инструкции по использованию конкретных серверов MCP для выполнения задачи.

Представьте себе сцену из «Матрицы»: агент смотрит на проблему, понимает, что ему нужно знать драматургию, загружает этот навык, и внезапно: «Я знаю кунг-фу». Бум. Мгновенный эксперт.

Если вы хотите узнать больше о навыках, ознакомьтесь со следующей информацией:

Почему навыки идеально подходят для драматурга

Использование навыка здесь — отличное решение. Playwright невероятно мощный инструмент, но его синтаксис может быть сложным. Предоставив агенту навык Playwright, нам не нужно беспокоиться о том, что наш магистр права будет распознавать устаревший синтаксис или писать ненадежные селекторы. Мы предоставляем ему тщательно отобранное, авторитетное руководство о том, как правильно использовать Playwright.

Я собираюсь использовать Playwright CLI и связанный с ним навык.

При таком подходе мы устанавливаем Playwright CLI локально, а затем предоставляем нашему агенту необходимые знания для его использования. Во избежание путаницы: я не устанавливаю сервер Playwright MCP.

Установка

Для начала установим открытый исходный код Microsoft Playwright CLI. Если вы еще этого не сделали, выйдите из интерактивного режима CLI, набрав / quit`. Затем в терминале:

# Pre-req: nodejs installed
npm install -g @playwright/cli@latest # Install Playwright CLI globally
npm install @playwright/test # Install Playwright test framework

npx playwright install-deps # Install dependencies
npx playwright install chromium chrome # Install browser binaries in Linux / WSL

А теперь добавим навык. Эта команда загрузит подпапку с навыком непосредственно с GitHub в нашу папку Gemini skills:

mkdir -p ~/.gemini/skills
npx degit microsoft/playwright-cli/skills/playwright-cli ~/.gemini/skills/playwright-cli

Теперь мы можем это проверить.

# Launch Playwright CLI with visible browser
playwright-cli open https://playwright.dev --headed

Это должно запустить сессию браузера, открытую по указанному URL-адресу.

Я также хочу, чтобы Gemini мог использовать Playwright в режиме "с управлением", то есть с видимым пользовательским интерфейсом. Но навык не указывает Gemini, как это сделать. Поэтому я добавил следующие строки в раздел Core ~/.gemini/skills/playwright-cli/SKILL.md :

# Add the following under the "playwright-cli open" command

# Run in headed mode so we can see the browser
playwright-cli open https://playwright.dev --headed

Тестирование с помощью Playwright

Как и прежде, нам нужно запустить приложение (если оно еще не запущено). Сделайте это из начальной сессии терминала:

make dev

Затем в другой терминальной сессии временно отключим BrowserMCP, чтобы агент не путался в выборе используемых инструментов. Перезапустим CLI Antigravity ( agy ). Временно отключить сервер browsermcp можно непосредственно через TUI:

Введите /mcp в командной строке, чтобы открыть панель управления MCP.
Используйте клавиши со стрелками (вверх/вниз), чтобы выбрать browsermcp , и нажмите Enter/Return.
Переместитесь вправо, выберите пункт «Отключить» и нажмите Enter, чтобы выключить его.

Теперь мы попросим агента перейти к нашему приложению с помощью Playwright. Но в отличие от BrowserMCP, нам не нужно сначала запускать браузер. Playwright сделает это за нас с помощью локального процесса.

Введите следующую команду в командную строку Agy:

Using Playwright, connect to the application at http://localhost:5173. Then login as 'admin' with password 'password', and verify that the dashboard title says 'System Overview'. Take a screenshot of the dashboard and save it to output/dashboard.png. In the main dashboard, read the telemetry values shown, and present them back to me in a markdown table.

(Как всегда, интерфейс командной строки запросит разрешение перед запуском любых инструментов.)

В чём здесь отличие?

Нам не нужно было сначала запускать браузер.
Нам не потребовалось запускать и подключать расширение для браузера.
Нам не нужно сначала сообщать агенту о необходимости выйти из системы. Тест запускается из "чистой" сессии.
Мы можем делать скриншоты и сохранять их в локальные файлы.

Вскоре после этого в выходной папке должен появиться файл dashboard.png.

Обратите внимание, что вы увидите вызовы инструментов, выполняемые в CLI Agy, но не увидите пользовательский интерфейс в браузере. Это потому, что Playwright по умолчанию работает в «безголовом режиме».

Но если вы запустите программу повторно с измененным приглашением, вы также сможете увидеть пользовательский интерфейс:

Using Playwright, connect to the application at http://localhost:5173 in **headed** mode, and keep the browser open when you're done. Login as 'admin' with password 'password', and verify that the dashboard title says 'System Overview'. Take a screenshot of the dashboard and save it to output/dashboard.png. In the main dashboard, read the telemetry values shown and record them. Then wait 3 seconds, read them again. Now present the data back to me in a markdown table.

Вывод командной строки Agy должен выглядеть примерно так:

Как же это было здорово!

9. Встроенный браузерный агент Antigravity

Google Antigravity поставляется со встроенным браузерным агентом ( Browser Subagent ), который обеспечивает автоматизацию браузера «из коробки», без необходимости установки отдельного инструмента, такого как Playwright CLI.

Как это работает

Для управления браузером встроенный агент браузера работает напрямую через протокол Chrome DevTools Protocol (CDP), что устраняет необходимость в каких-либо расширениях браузера или промежуточных плагинах в Antigravity 2.0 и IDE.

При запуске Antigravity подключается к вашему экземпляру Chrome через локальный порт отладки по протоколу WebSocket. Инструкции высокого уровня от агента напрямую преобразуются в команды CDP низкого уровня, которые:

Манипулируйте DOM-элементами страницы (например, щелкайте по элементам или вводите текст).
Управляйте состоянием браузера и запускайте навигацию.
Захватывайте кадры и визуальные данные в режиме реального времени.

Сочетая прямое управление CDP с визуальным мультимодальным анализом, субагент берет вашу общую цель (например, «проверить, что на панели мониторинга отображаются правильные значения телеметрии»), визуально анализирует страницу, чтобы определить, какие действия необходимы, и выполняет их самостоятельно. Он также автоматически записывает видео и делает снимки экрана своих действий, сохраняя их непосредственно в вашем рабочем пространстве в качестве артефактов , которые служат визуальным доказательством выполнения теста.

Наличие инструментов

Встроенный браузерный агент пока не поддерживается в ориентированном на терминал интерфейсе командной строки Antigravity (Agy CLI). Однако вы можете использовать его без дополнительных настроек в Antigravity IDE и Antigravity 2.0 уже сегодня. Надеемся, что поддержка браузерного агента появится в Agy CLI в одном из будущих релизов!

Примечание для пользователей WSL: Настройка Browser Agent в Antigravity под WSL теперь намного проще, чем раньше. Вместо сложной маршрутизации сети и переадресации портов вам просто нужно включить режим «зеркалирования» сети в конфигурации WSL. Полное пошаговое руководство см. в статье «Устранение проблем с WSL при работе с Google Antigravity: Agy 2.0 и Agy IDE Edition» .

10. Другие варианты использования автоматизации браузера

Автоматизация браузера — это не просто проверка работоспособности кнопки входа в систему перед развертыванием в пятницу днем. Как только вы поймете, что можете напрямую подключить LLM к браузеру, перед вами откроется совершенно новый мир собственных, агентских проектов.

Если вы создаёте собственных агентов искусственного интеллекта, вот несколько способов, как вы можете использовать такие инструменты, как BrowserMCP или Playwright CLI, для выполнения основной работы:

Персональный помощник по исследованиям: Представьте, что вы указываете своему агенту на определенный URL-адрес и просите его провести исследование по определенной теме, но для доступа к сайту требуется авторизация и навигация по сложным меню. Вместо того чтобы писать собственный веб-скрейпер, который сломается на следующей неделе, вы просто говорите своему агенту войти в систему, найти нужные данные и составить для вас краткое изложение.
Интегратор «на ходу»: У всех нас есть устаревшие интранет-системы, у которых нет API. Вы знаете, о каких я говорю — когда приходится вручную копировать данные из системы А и вставлять их в форму в системе Б. Агент с автоматизацией браузера может выступать в качестве универсального связующего звена, считывая экран устаревшей системы и заполняя форму в новой.
Автоматизированная сортировка и устранение неполадок: Получили оповещение P1 от вашей системы мониторинга в 3 часа ночи? Ваш агент может автоматически открыть URL-адрес конкретной панели мониторинга, прочитать графики или журналы (используя возможности многомодального компьютерного зрения) и опубликовать сводку непосредственно в вашем канале Slack, сэкономив вам драгоценные минуты во время инцидента.

Прелесть такого подхода в том, что вы больше не ограничены доступными API. Если человек может это сделать в браузере, ваш агент тоже сможет.

11. Заключение

Поздравляем! Вы только что создали и запустили автоматизированные, надежные тесты пользовательского интерфейса, просто сообщив ИИ-агенту, что вы от него хотите, простым языком. Никаких ненадежных CSS-селекторов, никаких сложных скриптов настройки.

Вы узнали:

Тестирование пользовательского интерфейса не обязательно должно быть сложным : сосредоточившись на цели теста, а не на хрупкой реализации DOM, мы можем значительно сократить затраты на его обслуживание.
Протокол контекста модели (MCP) предоставляет вашим агентам универсальный доступ к инструментам, данным и средам по принципу «подключи и работай».
BrowserMCP — это невероятный инструмент для интеграции возможностей агентского управления в ваши локальные, существующие сессии Chrome.
Skills и Playwright CLI открывают новый уровень повторяемого, детерминированного автоматизированного тестирования — и все это благодаря прогрессивному раскрытию информации.
Вспомогательный браузерный агент Antigravity делает еще один шаг вперед, внедряя автономную многомодальную навигацию и запись артефактов прямо из коробки.

А теперь вперед, автоматизируйте скучные задачи!

12. Полезные ссылки

Если вы хотите глубже изучить инструменты и концепции, которые мы сегодня рассмотрели, ознакомьтесь с этими ресурсами:

Код репозитория

Репозиторий agentic-ui-testing на GitHub — пожалуйста, поставьте звездочку, если этот практический урок оказался для вас полезным!

Основные инструменты и фреймворки

Агентские концепции и навыки

Другой