Cloud Run के जीपीयू पर Transformers.js को चलाने का तरीका

1. परिचय

खास जानकारी

Cloud Run में हाल ही में जीपीयू इस्तेमाल करने की सुविधा जोड़ी गई है. यह सुविधा, Public Preview के तौर पर उपलब्ध है. इसके लिए, आपको इंतज़ार की सूची में शामिल होना होगा. अगर आपको इस सुविधा को आज़माना है, तो वेटलिस्ट में शामिल होने के लिए यह फ़ॉर्म भरें. Cloud Run, Google Cloud पर एक कंटेनर प्लैटफ़ॉर्म है. इसकी मदद से, कंटेनर में कोड को आसानी से चलाया जा सकता है. इसके लिए, आपको क्लस्टर मैनेज करने की ज़रूरत नहीं होती.

फ़िलहाल, हम 24 जीबी वीआरएएम वाले Nvidia L4 जीपीयू उपलब्ध कराते हैं. Cloud Run के हर इंस्टेंस के लिए एक जीपीयू होता है. साथ ही, Cloud Run की ऑटो स्केलिंग की सुविधा अब भी लागू होती है. इसमें ज़्यादा से ज़्यादा पांच इंस्टेंस तक स्केल आउट करने की सुविधा शामिल है. साथ ही, अनुरोध न होने पर इंस्टेंस की संख्या को घटाकर शून्य करने की सुविधा भी शामिल है. इसके अलावा, कोटे को बढ़ाने की सुविधा भी उपलब्ध है.

Transformers.js को Hugging Face की transformers Python लाइब्रेरी के बराबर काम करने के लिए डिज़ाइन किया गया है. इसका मतलब है कि एक जैसे प्रीट्रेन किए गए मॉडल को, मिलते-जुलते एपीआई का इस्तेमाल करके चलाया जा सकता है. ज़्यादा जानने के लिए, Transformers.js की वेबसाइट पर जाएं.

इस कोडलैब में, Cloud Run पर एक ऐसा ऐप्लिकेशन बनाया और डिप्लॉय किया जाएगा जो Transformers.js और GPU का इस्तेमाल करता है.

आपको क्या सीखने को मिलेगा

  • GPU का इस्तेमाल करके, Cloud Run पर Transformers.js का इस्तेमाल करके ऐप्लिकेशन चलाने का तरीका

2. एपीआई चालू करना और एनवायरमेंट वैरिएबल सेट करना

इस कोडलैब का इस्तेमाल करने से पहले, आपको कई एपीआई चालू करने होंगे. इस कोडलैब के लिए, इन एपीआई का इस्तेमाल करना ज़रूरी है. इन एपीआई को चालू करने के लिए, यह कमांड चलाएं:

gcloud services enable run.googleapis.com \
    storage.googleapis.com \
    cloudbuild.googleapis.com \

इसके बाद, ऐसे एनवायरमेंट वैरिएबल सेट किए जा सकते हैं जिनका इस्तेमाल इस कोडलैब में किया जाएगा.

PROJECT_ID=<YOUR_PROJECT_ID>

AR_REPO_NAME=repo
REGION=us-central1

3. Transformers.js ऐप्लिकेशन बनाना

सबसे पहले, सोर्स कोड के लिए एक डायरेक्ट्री बनाएं और उस डायरेक्ट्री में cd करें.

mkdir transformers-js-codelab && cd $_

package.json फ़ाइल बनाएं.

{
    "name": "huggingface",
    "version": "1.0.0",
    "main": "index.js",
    "type": "module",
    "scripts": {
      "test": "echo \"Error: no test specified\" && exit 1"
    },
    "keywords": [],
    "author": "",
    "license": "ISC",
    "description": "",
    "dependencies": {
      "@huggingface/transformers": "^3.0.0-alpha.8",
      "@xenova/transformers": "^2.17.2",
      "express": "^4.17.1"
    }
  }

index.js नाम की फ़ाइल बनाना

import { pipeline } from "@xenova/transformers";

import express from 'express';

// make sure the text-generation pipeline is created first
// before anyone can access the routes
const generator = await pipeline('text-generation', 'Xenova/llama2.c-stories15M', {
    device: 'cuda',
    dtype: 'fp32',
});

// now create the app and routes
const app = express();

app.get('/', async (req, res) => {
  const text = 'A long time ago in a galaxy far far away,';
  const output = await generator(text, { max_new_tokens: 50 });
  res.send(output);
});

const port = parseInt(process.env.PORT) || 8080;
app.listen(port, () => {
  console.log(`transformers-js app: listening on port ${port}`);
});

Dockerfile बनाएं. dockerfile, Transformers.js के लिए ज़रूरी NVIDIA के अतिरिक्त ड्राइवर इंस्टॉल करेगा

FROM node:20
WORKDIR /usr/src/app

RUN apt-get update && \
 apt-get install software-properties-common -y && \
 wget https://developer.download.nvidia.com/compute/cuda/repos/debian12/x86_64/cuda-keyring_1.1-1_all.deb && \
 dpkg -i cuda-keyring_1.1-1_all.deb && \
 add-apt-repository contrib && \
 apt-get update && \
 apt-get -y install cuda-toolkit-12-6 && \
 apt-get -y install cudnn-cuda-12

EXPOSE 8080
COPY package.json .

RUN npm install

COPY index.js .
ENTRYPOINT ["node", "index.js"]

4. Cloud Run सेवा को बनाना और डिप्लॉय करना

Artifact Registry में कोई डेटा स्टोर करने की जगह बनाएं.

gcloud artifacts repositories create $AR_REPO_NAME \
  --repository-format docker \
  --location us-central1

Cloud Build में अपना कोड सबमिट करें.

IMAGE=us-central1-docker.pkg.dev/$PROJECT_ID/$AR_REPO_NAME/gpu-transformers-js
gcloud builds submit --tag $IMAGE

इसके बाद, Cloud Run पर डिप्लॉय करें

gcloud beta run deploy transformers-js-codelab \
 --image=$IMAGE \
 --cpu 8 --memory 32Gi \
 --gpu=1 --no-cpu-throttling --gpu-type nvidia-l4 \
 --allow-unauthenticated \
 --region us-central1 \
 --project=$PROJECT_ID \
 --max-instances 1

5. सेवा को आज़माना

इस सेवा को आज़माने के लिए, यहां दिया गया तरीका अपनाएं:

SERVICE_URL=$(gcloud run services describe transformers-js-codelab --region $REGION --format 'value(status.url)')

curl $SERVICE_URL

इसके बाद, आपको कुछ ऐसा दिखेगा:

[{"generated_text":"A long time ago in a galaxy far far away, there was a beautiful garden. Every day, the little girl would go to the garden and look at the flowers. She loved the garden so much that she would come back every day to visit it.\nOne day, the little girl was walking through"}]

6. बधाई हो!

कोडलैब पूरा करने के लिए बधाई!

हमारा सुझाव है कि आप Cloud Run के जीपीयू से जुड़ा दस्तावेज़ पढ़ें.

हमने क्या-क्या कवर किया है

  • GPU का इस्तेमाल करके, Cloud Run पर Transformers.js का इस्तेमाल करके ऐप्लिकेशन चलाने का तरीका

7. व्यवस्थित करें

अनचाहे शुल्क से बचने के लिए, Cloud Run को मिटा दें. उदाहरण के लिए, अगर Cloud Run की सेवाओं को मुफ़्त टियर में, Cloud Run के लिए तय की गई सीमा से ज़्यादा बार इस्तेमाल किया गया है, तो ऐसा करें. इसके अलावा, दूसरे चरण में बनाए गए प्रोजेक्ट को भी मिटाया जा सकता है.

Cloud Run सेवा मिटाने के लिए, Cloud Run Cloud Console पर जाएं. इसके लिए, https://console.cloud.google.com/run पर जाएं और transformers-js-codelab सेवा मिटाएं.

अगर आपको पूरा प्रोजेक्ट मिटाना है, तो https://console.cloud.google.com/cloud-resource-manager पर जाएं. इसके बाद, दूसरे चरण में बनाया गया प्रोजेक्ट चुनें और मिटाएं को चुनें. प्रोजेक्ट मिटाने पर, आपको Cloud SDK में प्रोजेक्ट बदलने होंगे. gcloud projects list कमांड चलाकर, सभी उपलब्ध प्रोजेक्ट की सूची देखी जा सकती है.