نحوه اجرای Transformers.js در پردازنده های گرافیکی Cloud Run

1. مقدمه

نمای کلی

Cloud Run اخیراً پشتیبانی GPU را اضافه کرده است. به عنوان پیش‌نمایش عمومی فهرست انتظار در دسترس است. اگر می‌خواهید این ویژگی را امتحان کنید، این فرم را پر کنید تا به لیست انتظار بپیوندید. Cloud Run یک پلتفرم کانتینری در Google Cloud است که اجرای کد خود را در یک کانتینر ساده می کند، بدون اینکه نیازی به مدیریت یک کلاستر باشد.

امروزه، پردازنده‌های گرافیکی که ما در دسترس قرار می‌دهیم، پردازنده‌های گرافیکی Nvidia L4 با 24 گیگابایت VRAM هستند. هر نمونه Cloud Run یک GPU وجود دارد و مقیاس خودکار Cloud Run همچنان اعمال می‌شود. این شامل کاهش تا 5 نمونه (با افزایش سهمیه در دسترس)، و همچنین کاهش مقیاس به صفر در صورت عدم وجود درخواست است.

Transformers.js به گونه ای طراحی شده است که از نظر عملکردی معادل کتابخانه پایتون ترانسفورماتور Hugging Face باشد، به این معنی که می توانید همان مدل های از پیش آموزش دیده را با استفاده از یک API بسیار مشابه اجرا کنید. می توانید در وب سایت Transformers.js اطلاعات بیشتری کسب کنید.

در این کد لبه، شما یک برنامه را در Cloud Run ایجاد و مستقر خواهید کرد که از Transformers.js و GPU استفاده می کند.

چیزی که یاد خواهید گرفت

  • نحوه اجرای برنامه با استفاده از Transformers.js در Cloud Run با استفاده از GPU

2. API ها را فعال کنید و متغیرهای محیط را تنظیم کنید

قبل از اینکه بتوانید از این کد لبه استفاده کنید، چندین API وجود دارد که باید آنها را فعال کنید. این آزمایشگاه کد نیاز به استفاده از API های زیر دارد. با اجرای دستور زیر می توانید آن API ها را فعال کنید:

gcloud services enable run.googleapis.com \
    storage.googleapis.com \
    cloudbuild.googleapis.com \

سپس می توانید متغیرهای محیطی را تنظیم کنید که در سرتاسر این Codelab مورد استفاده قرار می گیرند.

PROJECT_ID=<YOUR_PROJECT_ID>

AR_REPO_NAME=repo
REGION=us-central1

3. برنامه Transformers.js را ایجاد کنید

ابتدا یک دایرکتوری برای کد منبع و سی دی در آن دایرکتوری ایجاد کنید.

mkdir transformers-js-codelab && cd $_

یک فایل package.json ایجاد کنید.

{
    "name": "huggingface",
    "version": "1.0.0",
    "main": "index.js",
    "type": "module",
    "scripts": {
      "test": "echo \"Error: no test specified\" && exit 1"
    },
    "keywords": [],
    "author": "",
    "license": "ISC",
    "description": "",
    "dependencies": {
      "@huggingface/transformers": "^3.0.0-alpha.8",
      "@xenova/transformers": "^2.17.2",
      "express": "^4.17.1"
    }
  }

یک فایل به نام index.js ایجاد کنید

import { pipeline } from "@xenova/transformers";

import express from 'express';

// make sure the text-generation pipeline is created first
// before anyone can access the routes
const generator = await pipeline('text-generation', 'Xenova/llama2.c-stories15M', {
    device: 'cuda',
    dtype: 'fp32',
});

// now create the app and routes
const app = express();

app.get('/', async (req, res) => {
  const text = 'A long time ago in a galaxy far far away,';
  const output = await generator(text, { max_new_tokens: 50 });
  res.send(output);
});

const port = parseInt(process.env.PORT) || 8080;
app.listen(port, () => {
  console.log(`transformers-js app: listening on port ${port}`);
});

یک Dockerfile ایجاد کنید. Dockerfile درایورهای اضافی NVIDIA مورد نیاز Transformers.js را نصب می کند

FROM node:20
WORKDIR /usr/src/app

RUN apt-get update && \
 apt-get install software-properties-common -y && \
 wget https://developer.download.nvidia.com/compute/cuda/repos/debian12/x86_64/cuda-keyring_1.1-1_all.deb && \
 dpkg -i cuda-keyring_1.1-1_all.deb && \
 add-apt-repository contrib && \
 apt-get update && \
 apt-get -y install cuda-toolkit-12-6 && \
 apt-get -y install cudnn-cuda-12

EXPOSE 8080
COPY package.json .

RUN npm install

COPY index.js .
ENTRYPOINT ["node", "index.js"]

4. ساخت و استقرار سرویس Cloud Run

یک مخزن در Artifact Registry ایجاد کنید.

gcloud artifacts repositories create $AR_REPO_NAME \
  --repository-format docker \
  --location us-central1

کد خود را به Cloud Build ارسال کنید.

IMAGE=us-central1-docker.pkg.dev/$PROJECT_ID/$AR_REPO_NAME/gpu-transformers-js
gcloud builds submit --tag $IMAGE

سپس در Cloud Run مستقر شوید

gcloud beta run deploy transformers-js-codelab \
 --image=$IMAGE \
 --cpu 8 --memory 32Gi \
 --gpu=1 --no-cpu-throttling --gpu-type nvidia-l4 \
 --allow-unauthenticated \
 --region us-central1 \
 --project=$PROJECT_ID \
 --max-instances 1

5. سرویس را تست کنید

با اجرای موارد زیر می توانید این سرویس را تست کنید:

SERVICE_URL=$(gcloud run services describe transformers-js-codelab --region $REGION --format 'value(status.url)')

curl $SERVICE_URL

و چیزی شبیه به زیر خواهید دید:

[{"generated_text":"A long time ago in a galaxy far far away, there was a beautiful garden. Every day, the little girl would go to the garden and look at the flowers. She loved the garden so much that she would come back every day to visit it.\nOne day, the little girl was walking through"}]

6. تبریک می گویم!

برای تکمیل کد لبه تبریک می گویم!

توصیه می‌کنیم اسناد مربوط به پردازنده‌های گرافیکی Cloud Run را مرور کنید.

آنچه را پوشش داده ایم

  • نحوه اجرای برنامه با استفاده از Transformers.js در Cloud Run با استفاده از GPU

7. پاکسازی کنید

برای جلوگیری از هزینه‌های غیرعمدی، (به عنوان مثال، اگر سرویس‌های Cloud Run سهواً بیشتر از تخصیص فراخوانی ماهانه Cloud Run در ردیف رایگان فراخوانی می‌شوند)، می‌توانید Cloud Run را حذف کنید یا پروژه‌ای را که در مرحله 2 ایجاد کرده‌اید حذف کنید.

برای حذف سرویس Cloud Run، به Cloud Run Cloud Console در https://console.cloud.google.com/run بروید و سرویس transformers-js-codelab را حذف کنید.

اگر تصمیم به حذف کل پروژه دارید، می‌توانید به https://console.cloud.google.com/cloud-resource-manager بروید، پروژه‌ای را که در مرحله ۲ ایجاد کرده‌اید انتخاب کنید و حذف را انتخاب کنید. اگر پروژه را حذف کنید، باید پروژه ها را در Cloud SDK خود تغییر دهید. با اجرای gcloud projects list می توانید لیست تمام پروژه های موجود را مشاهده کنید.