Google Cloud पर ओपन सोर्स एलएलएम को फ़ाइन-ट्यून करना

1. परिचय

इस लैब में, आपको Google Kubernetes Engine (GKE) का इस्तेमाल करके, Llama 2 के लिए प्रोडक्शन-ग्रेड फ़ाइन-ट्यूनिंग पाइपलाइन बनाने का तरीका सिखाया जाएगा. Llama 2, एक लोकप्रिय ओपन-सोर्स भाषा मॉडल है. आपको आर्किटेक्चर से जुड़े फ़ैसलों, सामान्य ट्रेड-ऑफ़, और ऐसे कॉम्पोनेंट के बारे में जानकारी मिलेगी जो असल दुनिया के मशीन लर्निंग ऑपरेशंस (एमएलऑप्स) वर्कफ़्लो को दिखाते हैं.

आपको GKE क्लस्टर उपलब्ध कराया जाएगा. साथ ही, LoRA (लो-रैंक अडैप्टेशन) का इस्तेमाल करके, कंटेनर वाली ट्रेनिंग पाइपलाइन बनाई जाएगी. इसके बाद, GKE पर ट्रेनिंग का काम पूरा किया जाएगा.

आर्किटेक्चर के बारे में खास जानकारी

आज हम यह बनाएंगे:

जीपीयू नोड, GCS बकेट, और मॉडल सर्विंग के साथ GKE क्लस्टर दिखाने वाला आर्किटेक्चर

आर्किटेक्चर में ये शामिल हैं:

GKE क्लस्टर: यह हमारे कंप्यूट संसाधनों को मैनेज करता है
जीपीयू नोड पूल: ट्रेनिंग के लिए 1x L4 जीपीयू (स्पॉट)
GCS बकेट: इसमें मॉडल और डेटासेट सेव किए जाते हैं
Workload Identity: K8s और GCS के बीच सुरक्षित ऐक्सेस

आपको क्या सीखने को मिलेगा

मशीन लर्निंग वर्कलोड के लिए ऑप्टिमाइज़ की गई सुविधाओं के साथ, GKE क्लस्टर को प्रोविज़न और कॉन्फ़िगर करें.
Workload Identity का इस्तेमाल करके, GKE से Google Cloud की अन्य सेवाओं को बिना पासवर्ड के सुरक्षित तरीके से ऐक्सेस करें.
Docker का इस्तेमाल करके, कंटेनर वाली ट्रेनिंग पाइपलाइन बनाएं.
LoRA के साथ पैरामीटर-एफ़िशिएंट फ़ाइन-ट्यूनिंग (पीईएफ़टी) का इस्तेमाल करके, ओपन-सोर्स मॉडल को बेहतर तरीके से फ़ाइन-ट्यून करें.

2. प्रोजेक्ट सेटअप करना

Google खाता

अगर आपके पास पहले से कोई निजी Google खाता नहीं है, तो आपको Google खाता बनाना होगा.

ऑफ़िस या स्कूल वाले खाते के बजाय, निजी खाते का इस्तेमाल करें.

किसी निजी Google खाते का इस्तेमाल करके, Google Cloud Console में साइन इन करें.

प्रोजेक्ट बनाना (ज़रूरी नहीं)

अगर आपके पास कोई ऐसा मौजूदा प्रोजेक्ट नहीं है जिसका इस्तेमाल आपको इस लैब के लिए करना है, तो यहां नया प्रोजेक्ट बनाएं.

3. Cloud Shell Editor खोलें

सीधे Cloud Shell Editor पर जाने के लिए, इस लिंक पर क्लिक करें
अगर आज किसी भी समय अनुमति देने के लिए कहा जाता है, तो जारी रखने के लिए अनुमति दें पर क्लिक करें.
अगर टर्मिनल स्क्रीन पर सबसे नीचे नहीं दिखता है, तो इसे खोलें:
- देखें पर क्लिक करें
- टर्मिनल पर क्लिक करें
टर्मिनल में, इस कमांड का इस्तेमाल करके अपना प्रोजेक्ट सेट करें:
```
gcloud config set project [PROJECT_ID]
```
- उदाहरण:
```
gcloud config set project lab-project-id-example
```
- अगर आपको अपना प्रोजेक्ट आईडी याद नहीं है, तो इन कमांड का इस्तेमाल करके अपने सभी प्रोजेक्ट आईडी की सूची देखी जा सकती है:
```
gcloud projects list
```
आपको यह मैसेज दिखेगा:
```
Updated property [core/project].
```
अगर आपको WARNING दिखता है और आपसे Do you want to continue (Y/n)? पूछा जाता है, तो हो सकता है कि आपने प्रोजेक्ट आईडी गलत डाला हो. n दबाएं, Enter दबाएं, और gcloud config set project निर्देश को फिर से चलाने की कोशिश करें.

4. एपीआई चालू करें

GKE और अन्य सेवाओं का इस्तेमाल करने के लिए, आपको अपने Google Cloud प्रोजेक्ट में ज़रूरी एपीआई चालू करने होंगे.

टर्मिनल में, इन एपीआई को चालू करें:

gcloud services enable container.googleapis.com \
    artifactregistry.googleapis.com \
    cloudbuild.googleapis.com \
    iam.googleapis.com \
    compute.googleapis.com \
    iamcredentials.googleapis.com \
    storage.googleapis.com

एपीआई के बारे में जानकारी

Google Kubernetes Engine API (container.googleapis.com) की मदद से, GKE क्लस्टर बनाया और मैनेज किया जा सकता है. यह क्लस्टर आपके ऐप्लिकेशन को चलाता है.
Artifact Registry API (artifactregistry.googleapis.com) आपकी कंटेनर इमेज को सेव करने के लिए, सुरक्षित और निजी रिपॉज़िटरी उपलब्ध कराता है.
Cloud Build API (cloudbuild.googleapis.com) का इस्तेमाल, gcloud builds submit कमांड से क्लाउड में कंटेनर इमेज बनाने के लिए किया जाता है.
IAM API (iam.googleapis.com) की मदद से, Google Cloud संसाधनों के लिए ऐक्सेस कंट्रोल और पहचान मैनेज की जा सकती है.
Compute Engine API (compute.googleapis.com) सुरक्षित और पसंद के मुताबिक बनाई जा सकने वाली वर्चुअल मशीनें उपलब्ध कराता है. ये मशीनें Google के इन्फ़्रास्ट्रक्चर पर काम करती हैं.
IAM सर्विस अकाउंट क्रेडेंशियल एपीआई (iamcredentials.googleapis.com) की मदद से, सेवा खातों के लिए कम समय तक इस्तेमाल किए जा सकने वाले क्रेडेंशियल बनाए जा सकते हैं.
Cloud Storage API (storage.googleapis.com) की मदद से, क्लाउड में डेटा सेव किया जा सकता है और उसे वापस पाया जा सकता है. इसका इस्तेमाल यहां मॉडल और डेटासेट को सेव करने के लिए किया जाता है.

5. प्रोजेक्ट एनवायरमेंट सेट अप करना

वर्किंग डायरेक्ट्री बनाना

टर्मिनल में, अपने प्रोजेक्ट के लिए एक डायरेक्ट्री बनाएं और उसमें नेविगेट करें.
```
mkdir llama-finetuning
cd llama-finetuning
```

एनवायरमेंट वैरिएबल सेट अप करना

एनवायरमेंट वैरिएबल सेव करने के लिए, टर्मिनल में env.sh नाम की फ़ाइल बनाएं. इससे यह पक्का होता है कि सेशन बंद होने पर, उन्हें आसानी से फिर से लोड किया जा सकता है.
```
cat <<EOF > env.sh
export PROJECT_ID=$(gcloud config get-value project)
export CLUSTER_NAME="ml-gke"
export GPU_NODE_POOL_NAME="gpu-pool"
export MACHINE_TYPE="e2-standard-4"
export GPU_MACHINE_TYPE="g2-standard-16"
export GPU_TYPE="nvidia-l4"
export GPU_COUNT=1
export REGION="asia-southeast1"
export NODE_LOCATIONS="asia-southeast1-a,asia-southeast1-b"
EOF
```
अपने मौजूदा सेशन में वैरिएबल लोड करने के लिए, फ़ाइल को सोर्स करें:
```
source env.sh
```
ध्यान दें: अगर आपका Cloud Shell सेशन रीफ़्रेश होता है या आपने नया टर्मिनल टैब खोला है, तो इन वैरिएबल को फिर से लोड करने के लिए, source env.sh चलाएं.
ध्यान दें: L4 GPU की मांग ज़्यादा है. इसलिए, ऐसा हो सकता है कि यह कुछ इलाकों में सीमित तौर पर उपलब्ध हो. यह लैब $REGION का इस्तेमाल करता है. उदाहरण के लिए, asia-southeast1) जहां आम तौर पर क्षमता उपलब्ध होती है.

अगर आपको ZONE_RESOURCE_POOL_EXHAUSTED या क्षमता से जुड़ी अन्य गड़बड़ियां दिखती हैं, तो:
- कुछ मिनट इंतज़ार करें और फिर से कोशिश करें. क्षमता में अक्सर बदलाव होता रहता है.
- किसी दूसरे क्षेत्र/ज़ोन का इस्तेमाल करें (उदाहरण के लिए, us-central1, us-west1, europe-west4). उपलब्धता की जांच करने के लिए: gcloud compute accelerator-types list --filter="name=nvidia-l4"

6. GKE क्लस्टर को प्रोविज़न करना

टर्मिनल में, डिफ़ॉल्ट नोड पूल के साथ GKE क्लस्टर बनाएं. इसमें करीब पांच मिनट लगेंगे.

gcloud container clusters create $CLUSTER_NAME \
    --project=$PROJECT_ID \
    --region=$REGION \
    --release-channel=rapid \
    --machine-type=$MACHINE_TYPE \
    --workload-pool=${PROJECT_ID}.svc.id.goog \
    --addons=GcsFuseCsiDriver,HttpLoadBalancing \
    --enable-image-streaming \
    --enable-ip-alias \
    --num-nodes=1 \
    --enable-autoscaling \
    --min-nodes=1 \
    --max-nodes=3

इसके बाद, क्लस्टर में एक जीपीयू नोड पूल जोड़ें. इस नोड पूल का इस्तेमाल मॉडल को ट्रेनिंग देने के लिए किया जाएगा.

gcloud container node-pools create $GPU_NODE_POOL_NAME \
    --project=$PROJECT_ID \
    --cluster=$CLUSTER_NAME \
    --region=$REGION \
    --machine-type=$GPU_MACHINE_TYPE \
    --accelerator type=$GPU_TYPE,count=$GPU_COUNT,gpu-driver-version=latest \
    --ephemeral-storage-local-ssd=count=1 \
    --enable-autoscaling \
    --enable-image-streaming \
    --num-nodes=0 \
    --min-nodes=0 \
    --max-nodes=1 \
    --location-policy=ANY \
    --node-taints=nvidia.com/gpu=present:NoSchedule \
    --node-locations=$NODE_LOCATIONS \
    --spot

आखिर में, अपने नए क्लस्टर के क्रेडेंशियल पाएं और पुष्टि करें कि इससे कनेक्ट किया जा सकता है.
```
gcloud container clusters get-credentials $CLUSTER_NAME --region=$REGION

kubectl get nodes
```

7. Hugging Face के ऐक्सेस को कॉन्फ़िगर करना

इंफ़्रास्ट्रक्चर तैयार होने के बाद, अब आपको अपने प्रोजेक्ट को ज़रूरी क्रेडेंशियल देने होंगे, ताकि वह आपके मॉडल और डेटा को ऐक्सेस कर सके. इस टास्क में, आपको सबसे पहले Hugging Face टोकन मिलेगा.

Hugging Face टोकन पाना

अगर आपके पास Hugging Face खाता नहीं है, तो नई ब्राउज़र टैब में huggingface.co/join पर जाएं और रजिस्ट्रेशन की प्रोसेस पूरी करें.
रजिस्टर करने और लॉग इन करने के बाद, huggingface.co/meta-llama/Llama-2-7b-hf पर जाएं.
लाइसेंस की शर्तें पढ़ें और उन्हें स्वीकार करने के लिए, बटन पर क्लिक करें.
huggingface.co/settings/tokens पर जाकर, Hugging Face के ऐक्सेस टोकन वाले पेज पर जाएं.
नया टोकन पर क्लिक करें.
भूमिका के लिए, पढ़ें चुनें.
नाम के लिए, ज़्यादा जानकारी देने वाला नाम डालें. उदाहरण के लिए, finetuning-lab.
टोकन बनाएं पर क्लिक करें.
जनरेट किए गए टोकन को अपने क्लिपबोर्ड पर कॉपी करें. आपको इसकी ज़रूरत अगले चरण में पड़ेगी.

एनवायरमेंट वैरिएबल अपडेट करना

अब अपनी env.sh फ़ाइल में, Hugging Face टोकन और GCS बकेट का नाम जोड़ें. [your-hf-token] को उस टोकन से बदलें जिसे आपने अभी कॉपी किया है.

टर्मिनल में, नए वैरिएबल को env.sh में जोड़ें और उन्हें फिर से लोड करें:
```
cat <<EOF >> env.sh
export HF_TOKEN="[your-hf-token]"
export BUCKET_NAME="\${PROJECT_ID}-llama-fine-tuning"
EOF

source env.sh
```

8. Workload Identity कॉन्फ़िगर करना

इसके बाद, आपको वर्कलोड आइडेंटिटी सेट अप करनी होगी. यह GKE पर चल रहे ऐप्लिकेशन को Google Cloud की सेवाओं को ऐक्सेस करने की अनुमति देने का सबसे सही तरीका है. इससे आपको स्टैटिक सेवा खाते की कुंजियों को मैनेज करने की ज़रूरत नहीं पड़ती. ज़्यादा जानने के लिए, वर्कलोड आइडेंटिटी से जुड़ा दस्तावेज़ पढ़ें.

सबसे पहले, Google सेवा खाता (जीएसए) बनाएं. टर्मिनल में, यह कमांड चलाएं:

cat <<EOF >> env.sh
export GSA_NAME="llama-fine-tuning"
EOF
source env.sh

gcloud iam service-accounts create $GSA_NAME \
  --display-name="Llama Fine-tuning Service Account"

इसके बाद, GCS बकेट बनाएं और GSA को इसे ऐक्सेस करने की अनुमतियां दें:

gcloud storage buckets create gs://$BUCKET_NAME --project=$PROJECT_ID --location=$REGION
gcloud storage buckets add-iam-policy-binding gs://$BUCKET_NAME \
    --member=serviceAccount:${GSA_NAME}@${PROJECT_ID}.iam.gserviceaccount.com \
    --role=roles/storage.admin

अब, Kubernetes सेवा खाता (केएसए) बनाएं:

cat <<EOF >> env.sh
export KSA_NAME="llama-workload-sa"
export NAMESPACE="ml-workloads"
EOF
source env.sh

kubectl create namespace $NAMESPACE
kubectl create serviceaccount $KSA_NAME --namespace $NAMESPACE

आखिर में, GSA और KSA के बीच IAM नीति बाइंडिंग बनाएं:

gcloud iam service-accounts add-iam-policy-binding ${GSA_NAME}@${PROJECT_ID}.iam.gserviceaccount.com \
    --role roles/iam.workloadIdentityUser \
    --member "serviceAccount:${PROJECT_ID}.svc.id.goog[${NAMESPACE}/${KSA_NAME}]"

kubectl annotate serviceaccount $KSA_NAME --namespace $NAMESPACE \
    iam.gke.io/gcp-service-account=${GSA_NAME}@${PROJECT_ID}.iam.gserviceaccount.com

9. बेस मॉडल को स्टेज करना

आम तौर पर, प्रोडक्शन एमएल पाइपलाइन में Llama 2 (~13 जीबी) जैसे बड़े मॉडल को ट्रेनिंग के दौरान डाउनलोड करने के बजाय, Cloud Storage में पहले से ही स्टेज किया जाता है. इस तरीके से, बेहतर भरोसेमंद डेटा मिलता है. साथ ही, डेटा को तेज़ी से ऐक्सेस किया जा सकता है और नेटवर्क से जुड़ी समस्याओं से बचा जा सकता है. Google Cloud, सार्वजनिक GCS बकेट में लोकप्रिय मॉडल के पहले से डाउनलोड किए गए वर्शन उपलब्ध कराता है. इस लैब के लिए, आपको इनका इस्तेमाल करना होगा.

सबसे पहले, आइए पुष्टि करें कि आपके पास Google की ओर से उपलब्ध कराए गए Llama 2 मॉडल को ऐक्सेस करने की अनुमति है या नहीं:
```
gcloud storage ls gs://vertex-model-garden-public-us-central1/llama2/llama2-7b-hf/
```
gcloud storage कमांड का इस्तेमाल करके, इस सार्वजनिक बकेट से Llama 2 मॉडल को अपने प्रोजेक्ट की बकेट में कॉपी करें. इस ट्रांसफ़र के लिए, Google के तेज़ स्पीड वाले इंटरनल नेटवर्क का इस्तेमाल किया जाता है. इसमें सिर्फ़ एक या दो मिनट लगते हैं.
```
gcloud storage cp -r gs://vertex-model-garden-public-us-central1/llama2/llama2-7b-hf \
  gs://${BUCKET_NAME}/llama2-7b/
```
पुष्टि करें कि मॉडल फ़ाइलें सही तरीके से कॉपी की गई हैं. इसके लिए, अपनी बकेट का कॉन्टेंट देखें.
```
gcloud storage ls --recursive --long gs://${BUCKET_NAME}/llama2-7b/llama2-7b-hf/
```

10. ट्रेनिंग कोड तैयार करना

अब आपको कंटेनर वाला ऐसा ऐप्लिकेशन बनाना होगा जो मॉडल को बेहतर बनाएगा. इस टास्क में LoRA (लो-रैंक अडैप्टेशन) का इस्तेमाल किया जाता है. यह पैरामीटर-इफ़िशिएंट फ़ाइन-ट्यूनिंग (पीईएफ़टी) की एक ऐसी तकनीक है जो पूरे मॉडल के बजाय सिर्फ़ छोटी "अडैप्टर" लेयर को ट्रेन करके, मेमोरी की ज़रूरत को काफ़ी कम कर देती है.

अब ट्रेनिंग पाइपलाइन के लिए Python स्क्रिप्ट बनाएं.

train.py फ़ाइल खोलने के लिए, टर्मिनल में यह कमांड चलाएं:
```
cloudshell edit train.py
```
नीचे दिए गए कोड को train.py फ़ाइल में चिपकाएं:

#!/usr/bin/env python3
"""Fine-tune Llama 2 with LoRA on American Stories dataset """

import os
import torch
import logging

from pathlib import Path
from datasets import load_dataset, concatenate_datasets
from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    Trainer,
    TrainingArguments,
    DataCollatorForLanguageModeling
)
from peft import get_peft_model, LoraConfig

os.environ["TOKENIZERS_PARALLELISM"] = "false"
os.environ["NCCL_DEBUG"] = "INFO"

logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

class SimpleTextDataset(torch.utils.data.Dataset):
    def __init__(self, input_ids, attention_mask):
        self.input_ids = input_ids
        self.attention_mask = attention_mask
    
    def __len__(self):
        return len(self.input_ids)
    
    def __getitem__(self, idx):
        return {
            'input_ids': self.input_ids[idx],
            'attention_mask': self.attention_mask[idx],
            'labels': self.input_ids[idx].clone()
        }

def get_lora_config():
    config = {
       "r": 16,
       "lora_alpha": 32,
       "target_modules": [
          "q_proj", "k_proj", "v_proj", "o_proj",
          "gate_proj", "up_proj", "down_proj"
       ],
       "lora_dropout": 0.05,
       "task_type": "CAUSAL_LM",
    }
    return LoraConfig(**config)

def load_model_and_tokenizer(model_path):
    logger.info("Loading tokenizer...")
    tokenizer = AutoTokenizer.from_pretrained(model_path)
    
    if tokenizer.pad_token is None:
        tokenizer.pad_token = tokenizer.eos_token
    tokenizer.padding_side = "left"
    
    logger.info("Loading model...")

    model = AutoModelForCausalLM.from_pretrained(
        model_path,
        torch_dtype=torch.float16,
        device_map="auto",
        trust_remote_code=True,
        use_cache=False
    )
    
    return model, tokenizer

def prepare_dataset(tokenizer, max_length=512):
    logger.info("Loading American Stories dataset...")
     We recommend using o
    dataset = load_dataset(
        "dell-research-harvard/AmericanStories",
        "subset_years",
        year_list=["1809", "1810", "1811", "1812", "1813", "1814", "1815"],
        trust_remote_code=True
    )
    
    all_articles = []
    for year_data in dataset.values():
        all_articles.extend(year_data["article"])
    
    logger.info(f"Total articles collected: {len(all_articles)}")
    
    batch_size = 1000
    all_input_ids = []
    all_attention_masks = []
    
    for i in range(0, len(all_articles), batch_size):
        batch_articles = all_articles[i:i+batch_size]
        logger.info(f"Processing batch {i//batch_size + 1}/{(len(all_articles) + batch_size - 1)//batch_size}")
        
        encodings = tokenizer(
            batch_articles,
            padding="max_length",
            truncation=True,
            max_length=max_length,
            return_tensors="pt"
        )
        
        all_input_ids.append(encodings['input_ids'])
        all_attention_masks.append(encodings['attention_mask'])
    
    # Concatenate all batches
    input_ids = torch.cat(all_input_ids, dim=0)
    attention_mask = torch.cat(all_attention_masks, dim=0)
    
    logger.info(f"Total tokenized examples: {len(input_ids)}")
    
    # Create simple dataset
    dataset = SimpleTextDataset(input_ids, attention_mask)
    
    return dataset

def train_model(model, tokenizer, train_dataset, output_dir):
    logger.info(f"Train dataset size: {len(train_dataset)}")
    
    n_gpus = torch.cuda.device_count()
    logger.info(f"Available GPUs: {n_gpus}")
    
    # For multi-GPU, we can increase batch size
    per_device_batch_size = 2 if n_gpus > 1 else 1
    gradient_accumulation_steps = 2 if n_gpus > 1 else 4
    
    # Training for 250 steps
    max_steps = 250
    
    training_args = TrainingArguments(
        output_dir=output_dir,
        max_steps=max_steps,
        per_device_train_batch_size=per_device_batch_size,
        gradient_accumulation_steps=gradient_accumulation_steps,
        learning_rate=2e-4,
        warmup_steps=20,
        fp16=True,
        gradient_checkpointing=True,
        logging_steps=10,
        evaluation_strategy="no",
        save_strategy="no",
        optim="adamw_torch",
        ddp_find_unused_parameters=False,
        dataloader_num_workers=0,
        remove_unused_columns=False,
        report_to=[],
        disable_tqdm=False,
        logging_first_step=True,
    )
    
    # Create trainer
    trainer = Trainer(
        model=model,
        args=training_args,
        train_dataset=train_dataset,
        tokenizer=tokenizer,
        data_collator=DataCollatorForLanguageModeling(
            tokenizer=tokenizer,
            mlm=False,
            pad_to_multiple_of=8
        )
    )
    
    # Train
    logger.info(f"Starting training on {n_gpus} GPU(s)...")
    logger.info(f"Training for {max_steps} steps - approximately {(max_steps * 2.5 / 60):.1f} minutes")
    
    try:
        trainer.train()
        logger.info("Training completed successfully!")
    except Exception as e:
        logger.error(f"Training error: {e}")
        logger.info("Attempting to save model despite error...")
    
    logger.info("Saving model...")
    try:
        trainer.save_model(output_dir)
        tokenizer.save_pretrained(output_dir)
        logger.info(f"Model saved successfully to {output_dir}!")

        if not output_dir.startswith("/gcs-mount"):
            logger.info("Copying artifacts to GCS bucket...")
            gcs_target = "/gcs-mount/llama2-7b-american-stories"
            os.makedirs(gcs_target, exist_ok=True)
            return_code = os.system(f"cp -r {output_dir}/* {gcs_target}/")
            if return_code != 0:
                raise RuntimeError(f"Failed to copy model to GCS: cp command returned {return_code}")
            logger.info(f"Copied to {gcs_target}")

    except Exception as e:
        logger.error(f"Error saving model or copying to GCS: {e}")
        raise

def run_inference(model, tokenizer):
    logger.info("Running inference test...")
    
    prompt = "The year was 1812, and the"
    
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    
    model.eval()
    
    with torch.no_grad():
        outputs = model.generate(
            **inputs, 
            max_new_tokens=50, 
            do_sample=True, 
            temperature=0.7,
            pad_token_id=tokenizer.pad_token_id
        )
    
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
    logger.info("-" * 50)
    logger.info(f"Input Prompt: {prompt}")
    logger.info(f"Generated Text: {generated_text}")
    logger.info("-" * 50)

def main():
    if torch.cuda.is_available():
        for i in range(torch.cuda.device_count()):
            logger.info(f"GPU {i}: {torch.cuda.get_device_name(i)}")
    
    model_path = os.getenv('MODEL_PATH', '/gcs-mount/llama2-7b/llama2-7b-hf')
    output_path = os.getenv('OUTPUT_PATH', '/gcs-mount/llama2-7b-american-stories')
    
    # Load model and tokenizer
    model, tokenizer = load_model_and_tokenizer(model_path)
    model.enable_input_require_grads()

    # Apply LoRA
    logger.info("Applying LoRA configuration...")
    lora_config = get_lora_config()
    model = get_peft_model(model, lora_config)
    model.train()
    
    # Prepare dataset
    train_dataset = prepare_dataset(tokenizer)
    
    # Train
    train_model(model, tokenizer, train_dataset, output_path)
    
    # Run Inference
    run_inference(model, tokenizer)
    
    logger.info("Training and inference complete!")

if __name__ == "__main__":
    main()

11. ट्रेनिंग कोड के बारे में जानकारी

train.py स्क्रिप्ट, फ़ाइन-ट्यूनिंग की प्रोसेस को व्यवस्थित करती है. आइए, इसके मुख्य कॉम्पोनेंट के बारे में जानते हैं.

कॉन्फ़िगरेशन

स्क्रिप्ट में, लो-रैंक अडैप्टेशन की सेटिंग तय करने के लिए LoraConfig का इस्तेमाल किया जाता है. LoRA, ट्रेनिंग के लिए इस्तेमाल किए जाने वाले पैरामीटर की संख्या को काफ़ी कम कर देता है. इससे छोटे जीपीयू पर बड़े मॉडल को फ़ाइन-ट्यून किया जा सकता है.

def get_lora_config():
    config = {
       "r": 16,
       "lora_alpha": 32,
       "target_modules": ["q_proj", "k_proj", "v_proj", "o_proj", ...],
       "lora_dropout": 0.05,
       "task_type": "CAUSAL_LM",
    }
    return LoraConfig(**config)

डेटासेट तैयार करना

prepare_dataset फ़ंक्शन, "अमेरिकन स्टोरीज़" डेटासेट को लोड करता है और उसे टोकन वाले हिस्सों में प्रोसेस करता है. यह इनपुट टेंसर को असरदार तरीके से हैंडल करने के लिए, कस्टम SimpleTextDataset का इस्तेमाल करता है.

def prepare_dataset(tokenizer, max_length=512):
    dataset = load_dataset("dell-research-harvard/AmericanStories", ...)
    # ... tokenization logic ...
    return SimpleTextDataset(input_ids, attention_mask)

ट्रेन

train_model फ़ंक्शन, इस वर्कलोड के लिए ऑप्टिमाइज़ किए गए खास आर्ग्युमेंट के साथ Trainer को सेट अप करता है. मुख्य पैरामीटर में ये शामिल हैं:

gradient_accumulation_steps: इससे मेमोरी का इस्तेमाल बढ़ाए बिना, बड़े बैच साइज़ का सिम्युलेशन करने में मदद मिलती है.
fp16=True: यह मेमोरी को कम करने और स्पीड को बढ़ाने के लिए, मिक्स्ड प्रिसिशन ट्रेनिंग का इस्तेमाल करता है.
gradient_checkpointing=True: यह बैकवर्ड पास के दौरान ऐक्टिवेशन को फिर से कंप्यूट करके मेमोरी को सेव करता है. इसके लिए, ऐक्टिवेशन को सेव करने के बजाय, उन्हें फिर से कंप्यूट किया जाता है.
optim="adamw_torch": PyTorch से स्टैंडर्ड AdamW ऑप्टिमाइज़र का इस्तेमाल करता है.

training_args = TrainingArguments(
    per_device_train_batch_size=per_device_batch_size,
    gradient_accumulation_steps=gradient_accumulation_steps,
    fp16=True,
    gradient_checkpointing=True,
    optim="adamw_torch",
)

अनुमान

run_inference फ़ंक्शन, सैंपल प्रॉम्प्ट का इस्तेमाल करके फ़ाइन-ट्यून किए गए मॉडल की तुरंत जांच करता है. इससे यह पक्का होता है कि मॉडल, आकलन मोड में है. साथ ही, यह पुष्टि करने के लिए टेक्स्ट जनरेट करता है कि अडैप्टर सही तरीके से काम कर रहे हैं.

def run_inference(model, tokenizer):
    prompt = "The year was 1812, and the"
    # ... generation logic ...
    logger.info(f"Generated Text: {generated_text}")

12. ऐप्लिकेशन को कंटेनर में बदलना

अब Docker का इस्तेमाल करके, ट्रेनिंग कंटेनर इमेज बनाएं और उसे Google Artifact Registry पर पुश करें.

Dockerfile फ़ाइल खोलने के लिए, टर्मिनल में यह कमांड चलाएं:
```
cloudshell edit Dockerfile
```
नीचे दिए गए कोड को Dockerfile फ़ाइल में चिपकाएं:

FROM pytorch/pytorch:2.5.1-cuda12.4-cudnn9-runtime

WORKDIR /app

# Install required packages
RUN pip install --no-cache-dir \
    transformers==4.46.0 \
    datasets==3.1.0 \
    pyarrow==15.0.0 \
    peft==0.13.2 \
    accelerate==1.1.0 \
    tensorboard==2.18.0 \
    nvidia-ml-py==12.535.161 \
    scipy==1.13.1

# Copy training scripts
COPY train.py /app/

# Run training
CMD ["python", "train.py"]

कंटेनर बनाना और उसे पुश करना

Artifact Registry में डेटा स्टोर करने की जगह बनाएं:

gcloud artifacts repositories create gke-finetune \
    --repository-format=docker \
    --location=$REGION \
    --description="Docker repository for Llama fine-tuning"

Cloud Build का इस्तेमाल करके इमेज बनाएं और उसे पुश करें:
```
gcloud builds submit --tag ${REGION}-docker.pkg.dev/${PROJECT_ID}/gke-finetune/llama-trainer:latest .
```

13. फ़ाइन-ट्यूनिंग की प्रोसेस को लागू करना

फ़ाइन-ट्यूनिंग का काम शुरू करने के लिए, Kubernetes जॉब मेनिफ़ेस्ट बनाएं. टर्मिनल में, यह कमांड चलाएं:
```
cloudshell edit training_job.yaml
```
नीचे दिए गए कोड को training_job.yaml फ़ाइल में चिपकाएं:

apiVersion: batch/v1
kind: Job
metadata:
  name: llama-fine-tuning
  namespace: ml-workloads
spec:
  template:
    metadata:
      annotations:
        gke-gcsfuse/volumes: "true"
        gke-gcsfuse/memory-limit: "4Gi"
    spec:
      serviceAccountName: llama-workload-sa
      restartPolicy: OnFailure
      tolerations:
        - key: nvidia.com/gpu
          operator: Exists
          effect: NoSchedule
        - key: cloud.google.com/gke-spot
          operator: Exists
          effect: NoSchedule
      nodeSelector:
        cloud.google.com/gke-accelerator: nvidia-l4

      containers:
        - name: training
          image: ${REGION}-docker.pkg.dev/${PROJECT_ID}/gke-finetune/llama-trainer:latest
          env:
            - name: MODEL_PATH
              value: "/gcs-mount/llama2-7b/llama2-7b-hf"
            - name: OUTPUT_PATH
              value: "/tmp/llama2-7b-american-stories"
            - name: NCCL_DEBUG
              value: "INFO"
          resources:
            requests:
              nvidia.com/gpu: 1
              cpu: "8"
              memory: "32Gi"
            limits:
              nvidia.com/gpu: 1

          volumeMounts:
            - name: gcs-fuse
              mountPath: /gcs-mount
            - name: shm
              mountPath: /dev/shm
      volumes:
        - name: gcs-fuse
          csi:
            driver: gcsfuse.csi.storage.gke.io
            volumeAttributes:
              bucketName: ${BUCKET_NAME}
              mountOptions: "implicit-dirs"
        - name: shm
          emptyDir:
            medium: Memory
            sizeLimit: 32Gi

आखिर में, अपने GKE क्लस्टर पर फ़ाइन-ट्यूनिंग का काम शुरू करने के लिए, Kubernetes जॉब मेनिफ़ेस्ट लागू करें.
```
envsubst < training_job.yaml | kubectl apply -f -
```

14. ट्रेनिंग जॉब की निगरानी करना

Google Cloud Console में जाकर, ट्रेनिंग जॉब की प्रोग्रेस पर नज़र रखी जा सकती है.

Kubernetes Engine > वर्कलोड पेज पर जाएं.
GKE वर्कलोड देखें
नौकरी की जानकारी देखने के लिए, llama-fine-tuning पर क्लिक करें.
जानकारी टैब डिफ़ॉल्ट रूप से दिखता है. संसाधन सेक्शन में, जीपीयू के इस्तेमाल से जुड़ी मेट्रिक देखी जा सकती हैं.
ट्रेनिंग के लॉग देखने के लिए, लॉग टैब पर क्लिक करें. आपको ट्रेनिंग की प्रोग्रेस दिखनी चाहिए. इसमें लॉस और लर्निंग रेट भी शामिल है.

15. व्यवस्थित करें

इस ट्यूटोरियल में इस्तेमाल किए गए संसाधनों के लिए, अपने Google Cloud खाते से शुल्क न लिए जाने के लिए, संसाधनों वाला प्रोजेक्ट मिटाएं. इसके अलावा, प्रोजेक्ट को बनाए रखने और अलग-अलग संसाधनों को मिटाने का विकल्प भी है.

GKE क्लस्टर मिटाना

gcloud container clusters delete $CLUSTER_NAME --region $REGION --quiet

Artifact Registry की रिपॉज़िटरी मिटाना

gcloud artifacts repositories delete gke-finetune --location $REGION --quiet

GCS बकेट मिटाएं

gcloud storage rm -r gs://${BUCKET_NAME}

16. बधाई हो!

आपने GKE पर ओपन-सोर्स एलएलएम को फ़ाइन-ट्यून कर लिया है!

रीकैप

इस लैब में, आपको:

आपने जीपीयू ऐक्सेलरेटेड GKE क्लस्टर को प्रोविज़न किया हो.
Google Cloud सेवाओं को सुरक्षित तरीके से ऐक्सेस करने के लिए, Workload Identity कॉन्फ़िगर की गई हो.
Docker और Artifact Registry का इस्तेमाल करके, PyTorch ट्रेनिंग जॉब को कंटेनर में रखा गया है.
LoRA का इस्तेमाल करके, फ़ाइन-ट्यूनिंग का काम डिप्लॉय किया गया, ताकि Llama 2 को नए डेटासेट के हिसाब से बनाया जा सके.

आगे क्या करना है

GKE पर एआई के बारे में ज़्यादा जानें.
Vertex AI Model Garden एक्सप्लोर करें.
अन्य डेवलपर से जुड़ने के लिए, Google Cloud कम्यूनिटी में शामिल हों.

Google Cloud लर्निंग पाथ

यह लैब, Google Cloud के साथ प्रोडक्शन-रेडी एआई लर्निंग पाथ का हिस्सा है. प्रोटोटाइप से लेकर प्रोडक्शन तक के सभी चरणों के बारे में जानने के लिए, पूरा पाठ्यक्रम देखें.

अपनी प्रोग्रेस को #ProductionReadyAI हैशटैग के साथ शेयर करें.