Transformers.js'yi Cloud Run GPU'larında çalıştırma

1. Giriş

Genel Bakış

Cloud Run'a kısa süre önce GPU desteği eklendi. Bu özellik, bekleme listesine alınmış bir genel önizleme olarak kullanılabilir. Özelliği denemek istiyorsanız bekleme listesine katılmak için bu formu doldurun. Cloud Run, Google Cloud'da bulunan bir container platformudur. Küme yönetmenizi gerektirmeden kodunuzu container'da çalıştırmanızı kolaylaştırır.

Bugün kullanıma sunduğumuz GPU'lar, 24 GB vRAM'e sahip Nvidia L4 GPU'lardır. Cloud Run örneği başına bir GPU vardır ve Cloud Run otomatik ölçeklendirme özelliği geçerliliğini korur. Bu kapsamda, 5 örneğe kadar ölçeklendirme (kota artışı mümkündür) ve istek olmadığında sıfır örneğe kadar ölçeklendirme yer alır.

Transformers.js, Hugging Face'in transformers Python kitaplığıyla işlevsel olarak eşdeğer olacak şekilde tasarlanmıştır. Bu sayede, çok benzer bir API kullanarak aynı önceden eğitilmiş modelleri çalıştırabilirsiniz. Daha fazla bilgiyi Transformers.js web sitesinde bulabilirsiniz.

Bu codelab'de, Transformers.js ve GPU'ları kullanan bir uygulama oluşturup Cloud Run'a dağıtacaksınız.

Neler öğreneceksiniz?

  • GPU'ları kullanarak Cloud Run'da Transformers.js ile uygulama çalıştırma

2. API'leri etkinleştirme ve ortam değişkenlerini ayarlama

Bu codelab'i kullanmaya başlamadan önce etkinleştirmeniz gereken birkaç API vardır. Bu codelab'de aşağıdaki API'lerin kullanılması gerekir. Bu API'leri aşağıdaki komutu çalıştırarak etkinleştirebilirsiniz:

gcloud services enable run.googleapis.com \
    storage.googleapis.com \
    cloudbuild.googleapis.com \

Ardından, bu codelab boyunca kullanılacak ortam değişkenlerini ayarlayabilirsiniz.

PROJECT_ID=<YOUR_PROJECT_ID>

AR_REPO_NAME=repo
REGION=us-central1

3. Transformers.js uygulamasını oluşturma

Öncelikle kaynak kodu için bir dizin oluşturun ve bu dizine gidin.

mkdir transformers-js-codelab && cd $_

package.json dosyası oluşturun.

{
    "name": "huggingface",
    "version": "1.0.0",
    "main": "index.js",
    "type": "module",
    "scripts": {
      "test": "echo \"Error: no test specified\" && exit 1"
    },
    "keywords": [],
    "author": "",
    "license": "ISC",
    "description": "",
    "dependencies": {
      "@huggingface/transformers": "^3.0.0-alpha.8",
      "@xenova/transformers": "^2.17.2",
      "express": "^4.17.1"
    }
  }

index.js adlı bir dosya oluşturun.

import { pipeline } from "@xenova/transformers";

import express from 'express';

// make sure the text-generation pipeline is created first
// before anyone can access the routes
const generator = await pipeline('text-generation', 'Xenova/llama2.c-stories15M', {
    device: 'cuda',
    dtype: 'fp32',
});

// now create the app and routes
const app = express();

app.get('/', async (req, res) => {
  const text = 'A long time ago in a galaxy far far away,';
  const output = await generator(text, { max_new_tokens: 50 });
  res.send(output);
});

const port = parseInt(process.env.PORT) || 8080;
app.listen(port, () => {
  console.log(`transformers-js app: listening on port ${port}`);
});

Dockerfile oluşturun. Dockerfile, Transformers.js için gereken ek NVIDIA sürücülerini yükler.

FROM node:20
WORKDIR /usr/src/app

RUN apt-get update && \
 apt-get install software-properties-common -y && \
 wget https://developer.download.nvidia.com/compute/cuda/repos/debian12/x86_64/cuda-keyring_1.1-1_all.deb && \
 dpkg -i cuda-keyring_1.1-1_all.deb && \
 add-apt-repository contrib && \
 apt-get update && \
 apt-get -y install cuda-toolkit-12-6 && \
 apt-get -y install cudnn-cuda-12

EXPOSE 8080
COPY package.json .

RUN npm install

COPY index.js .
ENTRYPOINT ["node", "index.js"]

4. Cloud Run hizmetini oluşturma ve dağıtma

Artifact Registry'de bir depo oluşturun.

gcloud artifacts repositories create $AR_REPO_NAME \
  --repository-format docker \
  --location us-central1

Kodunuzu Cloud Build'e gönderin.

IMAGE=us-central1-docker.pkg.dev/$PROJECT_ID/$AR_REPO_NAME/gpu-transformers-js
gcloud builds submit --tag $IMAGE

Ardından, Cloud Run'a dağıtın.

gcloud beta run deploy transformers-js-codelab \
 --image=$IMAGE \
 --cpu 8 --memory 32Gi \
 --gpu=1 --no-cpu-throttling --gpu-type nvidia-l4 \
 --allow-unauthenticated \
 --region us-central1 \
 --project=$PROJECT_ID \
 --max-instances 1

5. Hizmeti test etme

Aşağıdaki komutu çalıştırarak hizmeti test edebilirsiniz:

SERVICE_URL=$(gcloud run services describe transformers-js-codelab --region $REGION --format 'value(status.url)')

curl $SERVICE_URL

ve aşağıdakine benzer bir ifade görürsünüz:

[{"generated_text":"A long time ago in a galaxy far far away, there was a beautiful garden. Every day, the little girl would go to the garden and look at the flowers. She loved the garden so much that she would come back every day to visit it.\nOne day, the little girl was walking through"}]

6. Tebrikler!

Tebrikler, codelab'i tamamladınız.

Cloud Run GPU'ları ile ilgili dokümanları incelemenizi öneririz.

İşlediğimiz konular

  • GPU'ları kullanarak Cloud Run'da Transformers.js ile uygulama çalıştırma

7. Temizleme

Yanlışlıkla ücretlendirilmemek için (örneğin, Cloud Run hizmetleri ücretsiz katmandaki aylık Cloud Run çağırma tahsisinizden daha fazla sayıda çağrılırsa) Cloud Run'ı veya 2. adımda oluşturduğunuz projeyi silebilirsiniz.

Cloud Run hizmetini silmek için https://console.cloud.google.com/run adresinden Cloud Run Cloud Console'a gidin ve transformers-js-codelab hizmetini silin.

Projenin tamamını silmeyi tercih ederseniz https://console.cloud.google.com/cloud-resource-manager adresine gidebilir, 2. adımda oluşturduğunuz projeyi seçip Sil'i tıklayabilirsiniz. Projeyi silerseniz Cloud SDK'nızda projeleri değiştirmeniz gerekir. gcloud projects list komutunu çalıştırarak kullanılabilir tüm projelerin listesini görüntüleyebilirsiniz.