Эта страница переведена с помощью Cloud Translation API.

Выполнение инференции модели Gemma 4 в Cloud Run с использованием графического процессора RTX 6000 Pro и vLLM.

1. Введение

Обзор

Что вы узнаете

Как развернуть модель Gemma 4 на графическом процессоре Cloud Run RTX 6000 Pro
Как использовать vLLM и Run:ai Model Streamer для ускорения вывода результатов и сокращения времени запуска экземпляра.

Gemma 4 — это семейство моделей весов с открытой лицензией Apache 2 от Google DeepMind. Модели являются мультимодальными, многоязычными, предлагают логические рассуждения и имеют эффективную архитектуру. Cloud Run — это бессерверная среда для контейнеров с поддержкой графических процессоров.

2. Настройка и требования

Ниже приведены переменные окружения, которые будут использоваться на протяжении всего этого практического занятия. Вы можете сохранить их в файле окружения и выполнить команду «source». Убедитесь, что вы правильно указали значение идентификатора вашего проекта и, при необходимости, региона.

# Model name on HuggingFace Hub
export MODEL_NAME="google/gemma-4-31B-it"

# Cloud Run Service name
export SERVICE_NAME=gemma-rtx-vllm-codelab

# Cloud Project and Region for Cloud Run
export GOOGLE_CLOUD_PROJECT=<YOUR_PROJECT_ID> # Change to your Project Id
export GOOGLE_CLOUD_REGION=europe-west4

# Optional HuggingFace User Access Token for accessing model weights
# (https://huggingface.co/docs/hub/en/security-tokens),
# if you are loading a private model.
export HF_TOKEN=""

# Service account for Cloud Run service
export SERVICE_ACCOUNT="vllm-service-sa"
export SERVICE_ACCOUNT_EMAIL="${SERVICE_ACCOUNT}@${GOOGLE_CLOUD_PROJECT}.iam.gserviceaccount.com"

# GCS Bucket for the model cache.
export MODEL_CACHE_BUCKET="${GOOGLE_CLOUD_PROJECT}-${GOOGLE_CLOUD_REGION}-hf-model-cache"
# Model cache location in GSC bucket
export GCS_MODEL_LOCATION="gs://${MODEL_CACHE_BUCKET}/model-cache/${MODEL_NAME}"

# VPC Network for Direct VPC Egress
export VPC_NETWORK="vllm-${GOOGLE_CLOUD_REGION}-net"
export VPC_SUBNET="vllm-${GOOGLE_CLOUD_REGION}-subnet"
export SUBNET_RANGE="10.8.0.0/26"

# set the project
gcloud config set project $GOOGLE_CLOUD_PROJECT
gcloud config set run/region $GOOGLE_CLOUD_REGION

Включите API, необходимые для этого практического занятия.

gcloud services enable --project "${GOOGLE_CLOUD_PROJECT}" \
    run.googleapis.com \
    cloudbuild.googleapis.com \
    artifactregistry.googleapis.com \
    iam.googleapis.com \
    compute.googleapis.com \
    vpcaccess.googleapis.com \
    storage.googleapis.com

3. Создайте учетную запись службы.

Если при создании службы или задания Cloud Run не указана учетная запись службы, Cloud Run использует учетную запись службы Compute Engine по умолчанию. Рекомендуется использовать отдельную учетную запись службы для Cloud Run, чтобы избежать запуска службы с избыточными правами доступа.

Создание учетной записи службы для службы Cloud Run.

gcloud iam service-accounts create ${SERVICE_ACCOUNT} \
  --project "${GOOGLE_CLOUD_PROJECT}" \
  --display-name "vLLM Service Account"

4. Настройка облачного хранилища

Создайте сегмент Cloud Storage для хранения весов модели. Это позволит использовать прямой исходящий трафик VPC для более быстрой загрузки весов модели каждый раз, когда Cloud Run запускает экземпляр службы.

В сочетании с функцией Run:ai Model Streamer в vLLM это значительно сокращает время загрузки модели.

Создайте корзину

Убедитесь, что это однорегиональный сегмент, размещенный совместно со службой Cloud Run.

gcloud storage buckets create "gs://${MODEL_CACHE_BUCKET}" \
    --uniform-bucket-level-access --public-access-prevention \
    --project "${GOOGLE_CLOUD_PROJECT}" --location "${GOOGLE_CLOUD_REGION}"

5. Получение и кэширование весов модели.

Далее загрузите модель Gemma 4 в свой облачный накопитель.

Весовые коэффициенты моделей занимают десятки гигабайт, и загрузка их на локальный компьютер или в Cloud Shell может оказаться невозможной.

Вместо этого мы используем Cloud Build с достаточным объемом хранилища для размещения весов модели.

gcloud builds submit --project="${GOOGLE_CLOUD_PROJECT}" --region="${GOOGLE_CLOUD_REGION}" --no-source \
    --substitutions="_MODEL_NAME=${MODEL_NAME},_HF_TOKEN=${HF_TOKEN},_GCS_MODEL_LOCATION=${GCS_MODEL_LOCATION}" \
    --config=/dev/stdin <<'EOF'
steps:
- name: 'gcr.io/google.com/cloudsdktool/google-cloud-cli:slim'
  entrypoint: 'bash'
  args:
  - '-c'
  - |
    set -e
    pip3 install --root-user-action=ignore --break-system-packages huggingface_hub[cli]
    echo "Downloading the model..."
    if [[ "$_HF_TOKEN" != "" ]]; then
      hf download "$_MODEL_NAME" --token $_HF_TOKEN --local-dir "./model-cache/$_MODEL_NAME"
    else
      hf download "$_MODEL_NAME" --local-dir "./model-cache/$_MODEL_NAME"
    fi
    echo "Uploading the model..."
    gcloud storage cp -r "./model-cache/$_MODEL_NAME" "$_GCS_MODEL_LOCATION"
options:
  machineType: 'E2_HIGHCPU_32'
  diskSizeGb: 500
EOF

6. Настройка сети для прямого исходящего трафика VPC.

Для настройки прямого исходящего трафика VPC необходимо создать сеть и подсеть с включенным частным доступом Google .

Это позволяет сервисам Cloud Run подключаться к набору внешних IP-адресов, используемых API и сервисами Google, включая Cloud Storage.

Создайте сеть

gcloud compute networks create "$VPC_NETWORK" \
        --subnet-mode=custom \
        --bgp-routing-mode=regional \
        --project "$GOOGLE_CLOUD_PROJECT"

Создайте подсеть

gcloud compute networks subnets create "$VPC_SUBNET" \
        --network="$VPC_NETWORK" \
        --region="$GOOGLE_CLOUD_REGION" \
        --range="$SUBNET_RANGE" \
        --enable-private-ip-google-access \
        --project "$GOOGLE_CLOUD_PROJECT"

7. Настройка политики доступа к учетной записи службы.

Для доступа к весам модели в созданном вами сегменте хранилища (Storage Bucket) учетной записи службы Cloud Run Service Account требуются соответствующие разрешения.

gcloud storage buckets add-iam-policy-binding "gs://${MODEL_CACHE_BUCKET}" \
    --member "serviceAccount:${SERVICE_ACCOUNT_EMAIL}" \
    --role "roles/storage.admin" \
    --project "${GOOGLE_CLOUD_PROJECT}"

8. Инициализация переменных конфигурации

Определите переменные как для механизма вывода vLLM, так и для службы Cloud Run.

# vLLM variables
export MAX_MODEL_LEN="32767"    # 32767 to improve concurrency. Keep it empty to use model's maximim context length (256K)
export QUANTIZATION_TYPE="fp8"  # Model quantization for faster performance and lower memory usage.
export KV_CACHE_DTYPE="fp8"     # KV-cache quantization to save GPU memory.
export GPU_MEM_UTIL="0.95"      # Fraction of GPU memory to be used by the vLLM engine.
export TENSOR_PARALLEL_SIZE="1" # Partitioning model across GPUs (1 here as we have only 1 GPU).
export MAX_NUM_SEQS="8"         # Max concurrent requests vLLM processes in one batch.

# Cloud Run variables
export CLOUD_RUN_CPU_NUM=20
export CLOUD_RUN_MEMORY_GB=80
export CLOUD_RUN_MAX_INSTANCES=3
export CLOUD_RUN_CONCURRENCY=16

Примечание по настройке производительности: настройка этих параметров представляет собой баланс между пропускной способностью и задержкой:

MAX_NUM_SEQS против CLOUD_RUN_CONCURRENCY : CLOUD_RUN_CONCURRENCY должно быть как минимум равно MAX_NUM_SEQS . Для оптимального использования при пиковых нагрузках установите его немного выше (например, в 2 раза).
Нехватка памяти : MAX_MODEL_LEN и MAX_NUM_SEQS потребляют память графического процессора для кэша ключ-значение. Если вы сталкиваетесь с ошибками нехватки памяти (OOM) при большой длине контекста, рассмотрите возможность уменьшения MAX_NUM_SEQS .
Задержка : Более высокая степень параллелизма ( MAX_NUM_SEQS ) увеличивает общую пропускную способность, но может увеличить задержку отдельных запросов.
Масштабирование : CLOUD_RUN_MAX_INSTANCES позволяет масштабировать систему горизонтально. Если задержка на одном экземпляре вас устраивает, но вам требуется большая общая пропускная способность, увеличьте это значение.

9. Развертывание в облаке.

Подготовка командной строки контейнера vLLM

Для быстрого и эффективного запуска больших моделей vLLM требуется множество параметров. Эти параметры будут переданы в качестве аргументов контейнеру, развернутому в Cloud Run.

CONTAINER_ARGS=(
    "vllm"
    "serve"
    "${GCS_MODEL_LOCATION}"
    "--served-model-name" "${MODEL_NAME}"
    "--enable-log-requests"
    "--enable-chunked-prefill"
    "--enable-prefix-caching"
    "--generation-config" "auto"
    "--enable-auto-tool-choice"
    "--tool-call-parser" "gemma4"
    "--reasoning-parser" "gemma4"
    "--dtype" "bfloat16"
    "--quantization" "${QUANTIZATION_TYPE}"
    "--kv-cache-dtype" "${KV_CACHE_DTYPE}"
    "--max-num-seqs" "${MAX_NUM_SEQS}"
    "--gpu-memory-utilization" "${GPU_MEM_UTIL}"
    "--tensor-parallel-size" "${TENSOR_PARALLEL_SIZE}"
    "--load-format" "runai_streamer"
    "--port" "8080"
    "--host" "0.0.0.0"
)

if [[ "${MAX_MODEL_LEN}" != "" ]]; then
    CONTAINER_ARGS+=("--max-model-len" "${MAX_MODEL_LEN}")
fi

export CONTAINER_ARGS_STR="${CONTAINER_ARGS[*]}"
echo "Deployment string: ${CONTAINER_ARGS_STR}"

Развертывание службы Cloud Run

Выполните следующую команду для развертывания службы Cloud Run. Обратите внимание на тип графического процессора ( RTX 6000 Pro ), базовый образ ( pytorch-vllm-serve:gemma4 ) и необходимость аутентификации для вызова службы ( --no-allow-unauthenticated ).

gcloud beta run deploy "${SERVICE_NAME}" \
    --image="us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:gemma4" \
    --project "${GOOGLE_CLOUD_PROJECT}" \
    --region "${GOOGLE_CLOUD_REGION}" \
    --service-account "${SERVICE_ACCOUNT_EMAIL}" \
    --execution-environment gen2 \
    --no-allow-unauthenticated \
    --cpu="${CLOUD_RUN_CPU_NUM}" \
    --memory="${CLOUD_RUN_MEMORY_GB}Gi" \
    --gpu=1 \
    --gpu-type=nvidia-rtx-pro-6000 \
    --no-gpu-zonal-redundancy \
    --no-cpu-throttling \
    --max-instances ${CLOUD_RUN_MAX_INSTANCES} \
    --concurrency ${CLOUD_RUN_CONCURRENCY} \
    --network ${VPC_NETWORK} \
    --subnet ${VPC_SUBNET} \
    --vpc-egress all-traffic \
    --set-env-vars "MODEL_NAME=${MODEL_NAME}" \
    --set-env-vars "GOOGLE_CLOUD_PROJECT=${GOOGLE_CLOUD_PROJECT}" \
    --set-env-vars "GOOGLE_CLOUD_REGION=${GOOGLE_CLOUD_REGION}" \
    --port=8080 \
    --timeout=3600 \
    --cpu-boost \
    --startup-probe tcpSocket.port=8080,initialDelaySeconds=240,failureThreshold=40,timeoutSeconds=10,periodSeconds=15 \
    --command "bash" \
    --args="^;^-c;${CONTAINER_ARGS_STR}"

Развертывание займет несколько минут. После завершения у вас будет среда с поддержкой графических процессоров, обслуживающая Gemma 4 с использованием бессерверной инфраструктуры с автоматическим масштабированием, включая масштабирование до нуля (нет трафика, нет затрат).

10. Проверьте работу сервиса.

После развертывания вы сможете взаимодействовать с вашей моделью Gemma 4, используя API, совместимый с OpenAI и поддерживающий vLLM.

Получить URL-адрес сервиса

Получите URL-адрес развернутой вами службы Cloud Run.

SERVICE_URL=$(gcloud run services describe $SERVICE_NAME --project "${GOOGLE_CLOUD_PROJECT}" --region "${GOOGLE_CLOUD_REGION}" --format 'value(status.url)')
echo "Service URL: $SERVICE_URL"

Вывод о ходе выполнения

Отправьте запрос модели с помощью curl .

curl -s "$SERVICE_URL/v1/chat/completions" \
  -H "Authorization: Bearer $(gcloud auth print-identity-token)" \
  -H "Content-Type: application/json" \
  -d '{
  "model": "'"${MODEL_NAME}"'",
  "messages": [
    {"role": "user", "content": "Why is the sky blue?"}
  ],
  "chat_template_kwargs": {
    "enable_thinking": true
  },
  "skip_special_tokens": false
}' | jq -r '.choices[0].message.content'

11. Поздравляем!

Поздравляем с завершением практического занятия!

Мы рекомендуем ознакомиться с документацией Cloud Run .

Что мы рассмотрели

Как развернуть модель Gemma 4 на графическом процессоре RTX 6000 Pro в облачной среде
Как настроить прямой исходящий трафик VPC и потоковую передачу данных по модели vLLM с использованием Cloud Storage для более быстрого запуска сервиса.

12. Уборка

Чтобы избежать списания средств с вашего аккаунта Google Cloud за ресурсы, использованные в этом руководстве, вы можете либо удалить проект, либо удалить отдельные ресурсы.

Вариант 1: Удалить ресурсы

Удалите службу Cloud Run.

gcloud run services delete $SERVICE_NAME \
      --project "${GOOGLE_CLOUD_PROJECT}" \
      --region "${GOOGLE_CLOUD_REGION}" \
      --quiet

Удалите учетную запись службы.

gcloud iam service-accounts delete \
      ${SERVICE_ACCOUNT_EMAIL} \
      --project "${GOOGLE_CLOUD_PROJECT}" \
      --quiet

Удалите корзину облачного хранилища.

gcloud storage rm --recursive gs://$MODEL_CACHE_BUCKET

Удалите сеть и подсеть VPC.

gcloud compute networks subnets delete $VPC_SUBNET \
    --region "${GOOGLE_CLOUD_REGION}" \
    --project "${GOOGLE_CLOUD_PROJECT}" \
    --quiet

gcloud compute networks delete $VPC_NETWORK \
    --project "${GOOGLE_CLOUD_PROJECT}" \
    --quiet

Вариант 2: Удалить проект

Чтобы удалить весь проект, перейдите в раздел «Управление ресурсами» , выберите проект, созданный на шаге 2, и нажмите «Удалить». Если вы удалите проект, вам потребуется изменить проекты в вашем Cloud SDK. Вы можете просмотреть список всех доступных проектов, выполнив gcloud projects list . Если вы хотите использовать командную строку, вы также можете использовать следующую команду:

gcloud projects delete ${GOOGLE_CLOUD_PROJECT}