نحوه اجرای Transformers.js در پردازنده های گرافیکی Cloud Run

۱. مقدمه

نمای کلی

Cloud Run اخیراً پشتیبانی از GPU را اضافه کرده است. این قابلیت به صورت پیش‌نمایش عمومی در لیست انتظار موجود است. اگر علاقه‌مند به امتحان کردن این ویژگی هستید، این فرم را پر کنید تا به لیست انتظار بپیوندید. Cloud Run یک پلتفرم کانتینر در Google Cloud است که اجرای کد شما را در یک کانتینر، بدون نیاز به مدیریت یک کلاستر، ساده می‌کند.

امروزه، پردازنده‌های گرافیکی که ما ارائه می‌دهیم، پردازنده‌های گرافیکی Nvidia L4 با ۲۴ گیگابایت حافظه مجازی هستند. به ازای هر نمونه Cloud Run یک پردازنده گرافیکی وجود دارد و مقیاس‌بندی خودکار Cloud Run همچنان اعمال می‌شود. این شامل مقیاس‌بندی تا ۵ نمونه (با امکان افزایش سهمیه) و همچنین کاهش مقیاس به صفر نمونه در صورت عدم درخواست می‌شود.

Transformers.js به گونه‌ای طراحی شده است که از نظر عملکردی معادل کتابخانه پایتون transformers در Hugging Face باشد، به این معنی که می‌توانید همان مدل‌های از پیش آموزش‌دیده را با استفاده از یک API بسیار مشابه اجرا کنید. می‌توانید اطلاعات بیشتر را در وب‌سایت Transformers.js کسب کنید.

در این آزمایشگاه کد، شما یک برنامه ایجاد و روی Cloud Run مستقر خواهید کرد که از Transformers.js و GPUها استفاده می‌کند.

آنچه یاد خواهید گرفت

  • نحوه اجرای یک برنامه با استفاده از Transformers.js در Cloud Run با استفاده از GPU ها

۲. فعال کردن APIها و تنظیم متغیرهای محیطی

قبل از اینکه بتوانید از این codelab استفاده کنید، باید چندین API را فعال کنید. این codelab به استفاده از APIهای زیر نیاز دارد. می‌توانید با اجرای دستور زیر این APIها را فعال کنید:

gcloud services enable run.googleapis.com \
    storage.googleapis.com \
    cloudbuild.googleapis.com \

سپس می‌توانید متغیرهای محیطی را که در سراسر این آزمایشگاه کد استفاده خواهند شد، تنظیم کنید.

PROJECT_ID=<YOUR_PROJECT_ID>

AR_REPO_NAME=repo
REGION=us-central1

۳. برنامه Transformers.js را ایجاد کنید

ابتدا، یک دایرکتوری برای کد منبع ایجاد کنید و با دستور cd به آن دایرکتوری بروید.

mkdir transformers-js-codelab && cd $_

یک فایل package.json ایجاد کنید.

{
    "name": "huggingface",
    "version": "1.0.0",
    "main": "index.js",
    "type": "module",
    "scripts": {
      "test": "echo \"Error: no test specified\" && exit 1"
    },
    "keywords": [],
    "author": "",
    "license": "ISC",
    "description": "",
    "dependencies": {
      "@huggingface/transformers": "^3.0.0-alpha.8",
      "@xenova/transformers": "^2.17.2",
      "express": "^4.17.1"
    }
  }

یک فایل به نام index.js ایجاد کنید.

import { pipeline } from "@xenova/transformers";

import express from 'express';

// make sure the text-generation pipeline is created first
// before anyone can access the routes
const generator = await pipeline('text-generation', 'Xenova/llama2.c-stories15M', {
    device: 'cuda',
    dtype: 'fp32',
});

// now create the app and routes
const app = express();

app.get('/', async (req, res) => {
  const text = 'A long time ago in a galaxy far far away,';
  const output = await generator(text, { max_new_tokens: 50 });
  res.send(output);
});

const port = parseInt(process.env.PORT) || 8080;
app.listen(port, () => {
  console.log(`transformers-js app: listening on port ${port}`);
});

یک Dockerfile ایجاد کنید. این dockerfile درایورهای اضافی NVIDIA مورد نیاز برای Transformers.js را نصب خواهد کرد.

FROM node:20
WORKDIR /usr/src/app

RUN apt-get update && \
 apt-get install software-properties-common -y && \
 wget https://developer.download.nvidia.com/compute/cuda/repos/debian12/x86_64/cuda-keyring_1.1-1_all.deb && \
 dpkg -i cuda-keyring_1.1-1_all.deb && \
 add-apt-repository contrib && \
 apt-get update && \
 apt-get -y install cuda-toolkit-12-6 && \
 apt-get -y install cudnn-cuda-12

EXPOSE 8080
COPY package.json .

RUN npm install

COPY index.js .
ENTRYPOINT ["node", "index.js"]

۴. سرویس Cloud Run را بسازید و مستقر کنید

یک مخزن در رجیستری مصنوعات ایجاد کنید.

gcloud artifacts repositories create $AR_REPO_NAME \
  --repository-format docker \
  --location us-central1

کد خود را به Cloud Build ارسال کنید.

IMAGE=us-central1-docker.pkg.dev/$PROJECT_ID/$AR_REPO_NAME/gpu-transformers-js
gcloud builds submit --tag $IMAGE

در مرحله بعد، به Cloud Run مستقر شوید

gcloud beta run deploy transformers-js-codelab \
 --image=$IMAGE \
 --cpu 8 --memory 32Gi \
 --gpu=1 --no-cpu-throttling --gpu-type nvidia-l4 \
 --allow-unauthenticated \
 --region us-central1 \
 --project=$PROJECT_ID \
 --max-instances 1

۵. سرویس را آزمایش کنید

شما می‌توانید با اجرای دستور زیر، سرویس را آزمایش کنید:

SERVICE_URL=$(gcloud run services describe transformers-js-codelab --region $REGION --format 'value(status.url)')

curl $SERVICE_URL

و چیزی شبیه به موارد زیر خواهید دید:

[{"generated_text":"A long time ago in a galaxy far far away, there was a beautiful garden. Every day, the little girl would go to the garden and look at the flowers. She loved the garden so much that she would come back every day to visit it.\nOne day, the little girl was walking through"}]

۶. تبریک می‌گویم!

تبریک می‌گویم که آزمایشگاه کد را تمام کردید!

توصیه می‌کنیم مستندات مربوط به GPUهای Cloud Run را بررسی کنید.

آنچه ما پوشش داده‌ایم

  • نحوه اجرای یک برنامه با استفاده از Transformers.js در Cloud Run با استفاده از GPU ها

۷. تمیز کردن

برای جلوگیری از هزینه‌های ناخواسته، (برای مثال، اگر سرویس‌های Cloud Run سهواً بیشتر از تخصیص فراخوانی ماهانه Cloud Run شما در سطح رایگان فراخوانی شوند)، می‌توانید Cloud Run یا پروژه‌ای را که در مرحله 2 ایجاد کرده‌اید، حذف کنید.

برای حذف سرویس Cloud Run، به کنسول ابری Cloud Run در آدرس https://console.cloud.google.com/run بروید و سرویس transformers-js-codelab را حذف کنید.

اگر تصمیم به حذف کل پروژه دارید، می‌توانید به آدرس https://console.cloud.google.com/cloud-resource-manager بروید، پروژه‌ای را که در مرحله ۲ ایجاد کرده‌اید انتخاب کنید و گزینه Delete را انتخاب کنید. اگر پروژه را حذف کنید، باید پروژه‌ها را در Cloud SDK خود تغییر دهید. می‌توانید با اجرای gcloud projects list لیست تمام پروژه‌های موجود را مشاهده کنید.