1. ভূমিকা
আমরা কীভাবে স্মার্ট অ্যাপ্লিকেশন তৈরি করি তা বড় ভাষা মডেল (LLMs) পরিবর্তন করছে। কিন্তু বাস্তব-বিশ্ব ব্যবহারের জন্য এই শক্তিশালী মডেলগুলি প্রস্তুত করা কঠিন হতে পারে। তাদের প্রচুর কম্পিউটিং শক্তি প্রয়োজন, বিশেষ করে গ্রাফিক্স কার্ড (GPU) এবং একসাথে অনেক অনুরোধ পরিচালনা করার জন্য স্মার্ট উপায়। এছাড়াও, আপনি খরচ কম রাখতে চান এবং আপনার আবেদনটি বিলম্ব ছাড়াই মসৃণভাবে চলতে চান।
এই কোডল্যাব আপনাকে দেখাবে কিভাবে এই চ্যালেঞ্জগুলো মোকাবেলা করতে হয়! আমরা দুটি মূল টুল ব্যবহার করব:
- ভিএলএলএম : এলএলএম-এর জন্য এটিকে একটি অতি-দ্রুত ইঞ্জিন হিসেবে ভাবুন। এটি আপনার মডেলগুলিকে আরও দক্ষতার সাথে চালায়, একবারে আরও অনুরোধগুলি পরিচালনা করে এবং মেমরির ব্যবহার হ্রাস করে৷
- গুগল ক্লাউড রান : এটি গুগলের সার্ভারহীন প্ল্যাটফর্ম। এটি অ্যাপ্লিকেশন স্থাপনের জন্য চমত্কার কারণ এটি আপনার জন্য সমস্ত স্কেলিং পরিচালনা করে - শূন্য ব্যবহারকারী থেকে হাজার হাজার, এবং আবার ফিরে আসে। সর্বোপরি, ক্লাউড রান এখন GPU সমর্থন করে , যা LLM হোস্ট করার জন্য অপরিহার্য!
একসাথে, vLLM এবং ক্লাউড রান আপনার LLM পরিবেশন করার জন্য একটি শক্তিশালী, নমনীয়, এবং সাশ্রয়ী উপায় অফার করে। এই নির্দেশিকায়, আপনি একটি উন্মুক্ত মডেল স্থাপন করবেন, এটিকে একটি আদর্শ ওয়েব API হিসাবে উপলব্ধ করে।
আপনি যা শিখবেন ***:**
- পরিবেশনের জন্য সঠিক মডেলের আকার এবং বৈকল্পিক কীভাবে চয়ন করবেন।
- OpenAI- সামঞ্জস্যপূর্ণ API এন্ডপয়েন্ট পরিবেশন করতে কিভাবে vLLM সেট আপ করবেন।
- ডকারের সাথে ভিএলএলএম সার্ভারকে কীভাবে ধারক করা যায়।
- কিভাবে আপনার কন্টেইনার ইমেজ গুগল আর্টিফ্যাক্ট রেজিস্ট্রিতে পুশ করবেন।
- জিপিইউ ত্বরণ সহ ক্লাউড রানে কন্টেইনারটি কীভাবে স্থাপন করবেন।
- কিভাবে আপনার স্থাপন করা মডেল পরীক্ষা করতে.
আপনার যা লাগবে ***:**
- একটি ব্রাউজার, যেমন Chrome, Google ক্লাউড কনসোল অ্যাক্সেস করতে
- একটি নির্ভরযোগ্য ইন্টারনেট সংযোগ
- বিলিং সক্ষম সহ একটি Google ক্লাউড প্রকল্প৷
- একটি আলিঙ্গন ফেস অ্যাক্সেস টোকেন (এখনও না থাকলে এখানে একটি তৈরি করুন)
- পাইথন, ডকার এবং কমান্ড লাইন ইন্টারফেসের সাথে প্রাথমিক পরিচিতি
- একটি কৌতূহলী মন এবং শেখার আগ্রহ
2. আপনি শুরু করার আগে
Google ক্লাউড প্রজেক্ট সেটআপ করুন
এই কোডল্যাবের জন্য একটি সক্রিয় বিলিং অ্যাকাউন্ট সহ একটি Google ক্লাউড প্রকল্প প্রয়োজন৷
- প্রশিক্ষক-নেতৃত্বাধীন সেশনের জন্য: আপনি যদি একটি শ্রেণীকক্ষে থাকেন, তাহলে আপনার প্রশিক্ষক আপনাকে প্রয়োজনীয় প্রকল্প এবং বিলিং তথ্য সরবরাহ করবেন। সেট আপ সম্পূর্ণ করতে আপনার প্রশিক্ষকের নির্দেশাবলী অনুসরণ করুন..
- স্বাধীন শিক্ষার্থীদের জন্য: আপনি যদি নিজে থেকে এটি করছেন, তাহলে আপনাকে একটি নতুন প্রকল্প সেট আপ করতে হবে এবং একটি ট্রায়াল বিলিং অ্যাকাউন্ট সক্রিয় করতে হবে৷ শুরু করতে নিচের ধাপ অনুসরণ করুন.
- ( Ctrl + Shift + N বা Cmd + Shift + N ) টিপে একটি ছদ্মবেশী উইন্ডো খুলুন
- ছদ্মবেশী উইন্ডো থেকে এই রিডেম্পশন পোর্টালে যান
- লগইন করুন এবং আপনার ব্যক্তিগত জিমেইল অ্যাকাউন্ট দিয়ে একটি ট্রায়াল বিলিং অ্যাকাউন্ট পান
- সেটআপ সম্পূর্ণ করতে এই ডেক থেকে নির্দেশাবলী অনুসরণ করুন
ক্লাউড শেল কনফিগার করুন
এখন ক্লাউড শেল সেট আপ করা যাক, একটি সহজ কমান্ড-লাইন ইন্টারফেস সরাসরি Google ক্লাউড কনসোলের মধ্যে।
ক্লাউড শেল চালু করুন
আপনার Google ক্লাউড কনসোলের উপরের ডানদিকে, আপনি একটি আইকন দেখতে পাবেন যা একটি টার্মিনাল ( >_
) এর মতো দেখাচ্ছে৷ ক্লাউড শেল সক্রিয় করতে এটিতে ক্লিক করুন।
অ্যাক্সেস অনুমোদন করুন
অনুরোধ করা হলে, আপনার Google ক্লাউড প্রকল্পের সাথে ইন্টারঅ্যাক্ট করার জন্য ক্লাউড শেলকে প্রয়োজনীয় অনুমতি দেওয়ার জন্য অনুমোদনে ক্লিক করুন।
প্রজেক্ট আইডি যাচাই করুন
আপনার টার্মিনালে Project ID
দেখুন। নীচের ছবিতে দেখানো হিসাবে এটি হলুদ রঙে লেখা হবে। আপনি প্রজেক্ট তৈরি করার সময় যে আইডিটি রেকর্ড করেছিলেন সেটি নিশ্চিত করুন।
যদি Project ID
টার্মিনালে সঠিকভাবে প্রতিফলিত হয়, তাহলে প্রয়োজনীয় APIs সক্ষম করুন ধাপে এগিয়ে যান।
সঠিক প্রকল্প আইডি (যদি প্রয়োজন হয়)
যদি Project ID
ভুল হয় বা সম্পূর্ণভাবে দেখা যাচ্ছে না, তাহলে এটি ঠিক করতে এই কমান্ডটি ব্যবহার করুন। কমান্ডটি কার্যকর করার আগে your-project-id
পাঠ্যটি আপনার সঠিক Project ID
দিয়ে প্রতিস্থাপন করতে ভুলবেন না।
gcloud config set project your-project-id
প্রয়োজনীয় API সক্রিয় করুন
ক্লাউড রানের মতো Google ক্লাউড পরিষেবাগুলি ব্যবহার করতে, আপনাকে প্রথমে আপনার প্রকল্পের জন্য তাদের নিজ নিজ API সক্রিয় করতে হবে৷ এই কোডল্যাবের জন্য প্রয়োজনীয় পরিষেবাগুলি সক্ষম করতে ক্লাউড শেলে নিম্নলিখিত কমান্ডগুলি চালান:
gcloud services enable run.googleapis.com
gcloud services enable cloudbuild.googleapis.com
gcloud services enable secretmanager.googleapis.com
gcloud services enable artifactregistry.googleapis.com
3. সঠিক মডেল নির্বাচন করা
আপনি Hugging Face Hub এবং Kaggle এর মত ওয়েবসাইটগুলিতে অনেকগুলি খোলা মডেল খুঁজে পেতে পারেন৷ আপনি যখন Google ক্লাউড রানের মতো একটি পরিষেবাতে এই মডেলগুলির মধ্যে একটি ব্যবহার করতে চান, তখন আপনাকে আপনার কাছে থাকা সংস্থানগুলির সাথে মানানসই একটি বেছে নিতে হবে (যেমন NVIDIA L4 GPU)৷
শুধু আকারের বাইরে, মডেলটি আসলে কী করতে পারে তা বিবেচনা করতে ভুলবেন না। মডেল সব একই নয়; প্রত্যেকের নিজস্ব সুবিধা এবং অসুবিধা আছে। উদাহরণস্বরূপ, কিছু মডেল বিভিন্ন ধরণের ইনপুট পরিচালনা করতে পারে (যেমন চিত্র এবং পাঠ্য – যা মাল্টিমোডাল ক্ষমতা হিসাবে পরিচিত), অন্যরা একই সাথে আরও তথ্য মনে রাখতে এবং প্রক্রিয়া করতে পারে (অর্থাৎ তাদের বড় প্রসঙ্গ উইন্ডো রয়েছে)। প্রায়শই, বড় মডেলগুলিতে ফাংশন কলিং এবং চিন্তাভাবনার মতো আরও উন্নত ক্ষমতা থাকে।
আপনার পছন্দসই মডেলটি সার্ভিং টুল (এই ক্ষেত্রে vLLM) দ্বারা সমর্থিত কিনা তা পরীক্ষা করাও গুরুত্বপূর্ণ। আপনি এখানে vLLM দ্বারা সমর্থিত সমস্ত মডেল পরীক্ষা করতে পারেন।
এখন, Gemma 3 অন্বেষণ করা যাক, যা Google-এর প্রকাশ্যে উপলব্ধ লার্জ ল্যাঙ্গুয়েজ মডেলের (LLMs) নতুন পরিবার। Gemma 3 তাদের জটিলতার উপর ভিত্তি করে চারটি ভিন্ন স্কেলে আসে, প্যারামিটারে পরিমাপ করা হয়: 1 বিলিয়ন, 4 বিলিয়ন, 12 বিলিয়ন এবং একটি ভারী 27 বিলিয়ন।
এই প্রতিটি আকারের জন্য, আপনি দুটি প্রধান প্রকার পাবেন:
- একটি বেস (প্রাক-প্রশিক্ষিত) সংস্করণ: এটি এমন একটি মৌলিক মডেল যা বিপুল পরিমাণ ডেটা থেকে শিখেছে।
- একটি নির্দেশ-সুরিত সংস্করণ: নির্দিষ্ট নির্দেশাবলী বা আদেশগুলিকে আরও ভালভাবে বুঝতে এবং অনুসরণ করার জন্য এই সংস্করণটিকে আরও পরিমার্জিত করা হয়েছে।
বৃহত্তর মডেলগুলি (4 বিলিয়ন, 12 বিলিয়ন এবং 27 বিলিয়ন প্যারামিটার) হল মাল্টিমোডাল , যার মানে তারা ছবি এবং টেক্সট উভয়ই বুঝতে এবং কাজ করতে পারে। ক্ষুদ্রতম 1 বিলিয়ন প্যারামিটার বৈকল্পিক, তবে, শুধুমাত্র পাঠ্যের উপর ফোকাস করে।
এই কোডল্যাবের জন্য, আমরা জেমা 3 এর 1 বিলিয়ন রূপ ব্যবহার করব: gemma-3-1b-it । একটি ছোট মডেল ব্যবহার করা আপনাকে সীমিত সংস্থানগুলির সাথে কীভাবে কাজ করতে হয় তা শিখতে সহায়তা করে, যা খরচ কম রাখার জন্য এবং আপনার অ্যাপটি ক্লাউডে মসৃণভাবে চলে তা নিশ্চিত করার জন্য গুরুত্বপূর্ণ।
4. এনভায়রনমেন্ট ভেরিয়েবল এবং সিক্রেটস
একটি পরিবেশ ফাইল তৈরি করুন
আমরা এগিয়ে যাওয়ার আগে, এই কোডল্যাব জুড়ে আপনি যে সমস্ত কনফিগারেশন ব্যবহার করবেন তা এক জায়গায় রাখা একটি ভাল অভ্যাস। শুরু করতে, আপনার টার্মিনাল খুলুন এই পদক্ষেপগুলি করুন:
- এই প্রকল্পের জন্য একটি নতুন ফোল্ডার তৈরি করুন ।
- নতুন তৈরি ফোল্ডারে নেভিগেট করুন।
- এই ফোল্ডারের মধ্যে একটি খালি .env ফাইল তৈরি করুন (এই ফাইলটি পরে আপনার পরিবেশের ভেরিয়েবল ধরে রাখবে)
এই পদক্ষেপগুলি সম্পাদন করার জন্য এখানে নির্দেশ রয়েছে:
mkdir vllm-gemma3
cd vllm-gemma3
touch .env
এর পরে, নীচে তালিকাভুক্ত ভেরিয়েবলগুলি অনুলিপি করুন এবং আপনার তৈরি করা .env ফাইলে পেস্ট করুন। আপনার নির্দিষ্ট প্রকল্পের তথ্য দিয়ে স্থানধারক মান ( your_project_id
এবং your_region
) প্রতিস্থাপন করতে ভুলবেন না। উদাহরণস্বরূপ ( PROJECT_ID=unique-ai-project
এবং REGION=us-central1
)
PROJECT_ID=your_project_id
REGION=your_region
MODEL_PROVIDER=google
MODEL_VARIANT=gemma-3-1b-it
MODEL_NAME=${MODEL_PROVIDER}/${MODEL_VARIANT}
AR_REPO_NAME=vllm-gemma3-repo
SERVICE_NAME=${MODEL_VARIANT}-service
IMAGE_NAME=${REGION}-docker.pkg.dev/${PROJECT_ID}/${AR_REPO_NAME}/${SERVICE_NAME}
SERVICE_ACC_NAME=${SERVICE_NAME}-sa
SERVICE_ACC_EMAIL=${SERVICE_ACC_NAME}@${PROJECT_ID}.iam.gserviceaccount.com
একবার .env ফাইলটি সম্পাদনা ও সংরক্ষিত হয়ে গেলে, টার্মিনাল সেশনে সেই পরিবেশ ভেরিয়েবলগুলি লোড করতে এই কমান্ডটি টাইপ করুন:
source .env
আপনি একটি ভেরিয়েবলের প্রতিধ্বনি করে ভেরিয়েবল সফলভাবে লোড হয়েছে কি না তা পরীক্ষা করতে পারেন। যেমন:
echo $SERVICE_NAME
আপনি যদি .env ফাইলে বরাদ্দ করা একই মান পান তবে ভেরিয়েবলগুলি সফলভাবে লোড হয়।
সিক্রেট ম্যানেজারে একটি গোপনীয়তা সংরক্ষণ করুন
অ্যাক্সেস কোড, শংসাপত্র এবং পাসওয়ার্ড সহ যেকোন সংবেদনশীল ডেটার জন্য, একটি গোপন ব্যবস্থাপক ব্যবহার করা প্রস্তাবিত পদ্ধতি।
Gemma 3 মডেলগুলি ব্যবহার করার আগে, আপনাকে প্রথমে শর্তাবলী স্বীকার করতে হবে, কারণ সেগুলি গেটেড। হাগিং ফেস হাবের Gamma3 মডেল কার্ডে যান এবং শর্তাবলী স্বীকার করুন।
একবার আপনার কাছে আলিঙ্গন ফেস অ্যাক্সেস টোকেন হয়ে গেলে, সিক্রেট ম্যানেজার পৃষ্ঠায় যান এবং এই নির্দেশাবলী অনুসরণ করে একটি গোপনীয়তা তৈরি করুন
- Google ক্লাউড কনসোলে হেডওভার
- উপরের বাম ড্রপডাউন বার থেকে প্রকল্পটি নির্বাচন করুন
- সার্চ বারে সিক্রেট ম্যানেজার অনুসন্ধান করুন এবং প্রদর্শিত হলে সেই বিকল্পটিতে ক্লিক করুন
আপনি যখন সিক্রেট ম্যানেজার পৃষ্ঠা:
- +Create Secret বাটনে ক্লিক করুন,
- এই তথ্য পূরণ করুন:
- নাম : HF_TOKEN
- গোপন মান : <your_hf_access_token>
- আপনার কাজ শেষ হয়ে গেলে ক্রিয়েট সিক্রেট বোতামে ক্লিক করুন।
আপনার কাছে এখন Google ক্লাউড সিক্রেট ম্যানেজারে একটি গোপন হিসাবে আলিঙ্গন করা ফেস অ্যাক্সেস টোকেন থাকা উচিত৷
আপনি টার্মিনালে নীচের কমান্ডটি কার্যকর করে গোপনে আপনার অ্যাক্সেস পরীক্ষা করতে পারেন, সেই কমান্ডটি সিক্রেট ম্যানেজার থেকে এটি পুনরুদ্ধার করবে:
gcloud secrets versions access latest --secret=HF_TOKEN
আপনি দেখতে পাবেন আপনার অ্যাক্সেস টোকেন পুনরুদ্ধার করা হচ্ছে এবং টার্মিনাল উইন্ডোতে দেখানো হচ্ছে।
5. একটি পরিষেবা অ্যাকাউন্ট তৈরি করুন
নিরাপত্তা বাড়াতে এবং প্রোডাকশন সেটিংয়ে কার্যকরভাবে অ্যাক্সেস পরিচালনা করতে, পরিষেবাগুলিকে ডেডিকেটেড পরিষেবা অ্যাকাউন্টগুলির অধীনে কাজ করা উচিত যা তাদের নির্দিষ্ট কাজের জন্য প্রয়োজনীয় অনুমতিগুলির মধ্যে কঠোরভাবে সীমাবদ্ধ।
একটি পরিষেবা অ্যাকাউন্ট তৈরি করতে এই কমান্ডটি চালান
gcloud iam service-accounts create $SERVICE_ACC_NAME --display-name='Cloud Run vLLM Model Serving SA'
নিম্নলিখিত কমান্ডটি প্রয়োজনীয় অনুমতি সংযুক্ত করে
gcloud secrets add-iam-policy-binding HF_TOKEN \
--member="serviceAccount:${SERVICE_ACC_EMAIL}" \
--role="roles/secretmanager.secretAccessor"
6. আর্টিফ্যাক্ট রেজিস্ট্রিতে একটি চিত্র তৈরি করুন
এই ধাপে একটি ডকার ইমেজ তৈরি করা জড়িত যাতে মডেলের ওজন এবং একটি প্রাক-ইনস্টল করা ভিএলএলএম অন্তর্ভুক্ত থাকে।
1. আর্টিফ্যাক্ট রেজিস্ট্রিতে একটি ডকার সংগ্রহস্থল তৈরি করুন
আপনার নির্মিত চিত্রগুলিকে পুশ করার জন্য আর্টিফ্যাক্ট রেজিস্ট্রিতে একটি ডকার সংগ্রহস্থল তৈরি করা যাক। টার্মিনালে নিম্নলিখিত কমান্ডটি চালান:
gcloud artifacts repositories create ${AR_REPO_NAME} \
--repository-format docker \
--location ${REGION}
2. মডেল সংরক্ষণ করা
GPU সর্বোত্তম অনুশীলনের ডকুমেন্টেশনের উপর ভিত্তি করে, আপনি হয় ML মডেলগুলিকে কন্টেইনার ইমেজের মধ্যে সঞ্চয় করতে পারেন বা ক্লাউড স্টোরেজ থেকে লোড করা অপ্টিমাইজ করতে পারেন ৷ অবশ্যই, প্রতিটি পদ্ধতির নিজস্ব সুবিধা এবং অসুবিধা আছে। আপনি তাদের সম্পর্কে আরও জানতে ডকুমেন্টেশন পড়তে পারেন। সরলতার জন্য, আমরা শুধু মডেলটিকে কন্টেইনার ইমেজে সংরক্ষণ করব।
3. একটি ডকার ফাইল তৈরি করুন
ডকারফাইল নামে একটি ফাইল তৈরি করুন এবং এতে নীচের বিষয়বস্তু অনুলিপি করুন:
FROM vllm/vllm-openai:v0.9.0
ARG MODEL_NAME
ARG HF_TOKEN
ENV HF_HOME=/model-cache
ENV MODEL_NAME=${MODEL_NAME}
# Use the HF_TOKEN argument to log in and download the model
RUN huggingface-cli login --token ${HF_TOKEN} && \
huggingface-cli download ${MODEL_NAME}
ENV HF_HUB_OFFLINE=1
EXPOSE 8080
ENTRYPOINT python3 -m vllm.entrypoints.openai.api_server \
--port ${PORT:-8080} \
--model ${MODEL_NAME} \
--gpu-memory-utilization 0.90 \
${MAX_MODEL_LEN:+--max-model-len "$MAX_MODEL_LEN"}
4. একটি cloudbuild.yaml
ফাইল তৈরি করুন
এরপর, একই ডিরেক্টরিতে cloudbuild.yaml
নামে একটি ফাইল তৈরি করুন। এই ফাইলটি ক্লাউড বিল্ডের অনুসরণ করার জন্য পদক্ষেপগুলি সংজ্ঞায়িত করে৷ Cloudbuild.yaml-এ নিম্নলিখিত বিষয়বস্তু কপি এবং পেস্ট করুন:
steps:
- name: 'gcr.io/cloud-builders/docker'
entrypoint: 'bash'
args:
- '-c'
- |
docker build \
--build-arg MODEL_NAME=${_MODEL_NAME} \
--build-arg HF_TOKEN=$$HF_TOKEN_SECRET \
-t ${_IMAGE_NAME} .
secretEnv: ['HF_TOKEN_SECRET']
images:
- '${_IMAGE_NAME}'
availableSecrets:
secretManager:
- versionName: projects/${PROJECT_ID}/secrets/HF_TOKEN/versions/latest
env: 'HF_TOKEN_SECRET'
5. ক্লাউড বিল্ডে বিল্ড জমা দিন
নিম্নলিখিত কোডটি অনুলিপি করুন এবং পেস্ট করুন এবং এটি টার্মিনালে চালান:
gcloud builds submit . \
--config=cloudbuild.yaml \
--region=${REGION} \
--substitutions=_MODEL_NAME=${MODEL_NAME},_IMAGE_NAME=${IMAGE_NAME}
এই কমান্ডটি আপনার কোড আপলোড করে ( Dockerfile
এবং cloudbuild.yaml
), আপনার শেল ভেরিয়েবলগুলিকে প্রতিস্থাপন ( _MODEL_NAME
এবং _IMAGE_NAME
) হিসাবে পাস করে এবং বিল্ড শুরু করে।
ক্লাউড বিল্ড এখন cloudbuild.yaml
এ সংজ্ঞায়িত পদক্ষেপগুলি চালাবে। আপনি আপনার টার্মিনালে লগগুলি অনুসরণ করতে পারেন বা ক্লাউড কনসোলে বিল্ড বিবরণের লিঙ্কে ক্লিক করে। এটি শেষ হয়ে গেলে, ধারক চিত্রটি আপনার আর্টিফ্যাক্ট রেজিস্ট্রি সংগ্রহস্থলে উপলব্ধ হবে, স্থাপনার জন্য প্রস্তুত।
7. পরিষেবা পরীক্ষা করুন
একটি প্রক্সি তৈরি করতে টার্মিনালে নিম্নলিখিত কমান্ডটি চালান, যাতে আপনি লোকালহোস্টে যেভাবে চলছে সেইভাবে পরিষেবাটি অ্যাক্সেস করতে পারেন:
gcloud run services proxy ${SERVICE_NAME} --region ${REGION}
একটি নতুন টার্মিনাল উইন্ডোতে, সংযোগ পরীক্ষা করতে টার্মিনালে এই curl
কমান্ডটি চালান
curl -X POST http://localhost:8080/v1/completions \
-H "Authorization: Bearer $(gcloud auth print-identity-token)" \
-H "Content-Type: application/json" \
-d '{
"model": "google/gemma-3-1b-it",
"prompt": "Cloud Run is a ",
"max_tokens": 128,
"temperature": 0.90
}'
আপনি যদি নীচের মত একটি অনুরূপ আউটপুট দেখতে পান:
{"id":"cmpl-e96d05d2893d42939c1780d44233defa","object":"text_completion","created":1746870778,"model":"google/gemma-3-1b-it","choices":[{"index":0,"text":"100% managed Kubernetes service. It's a great option for many use cases.\n\nHere's a breakdown of key features and considerations:\n\n* **Managed Kubernetes:** This means Google handles the underlying infrastructure, including scaling, patching, and maintenance. You don't need to worry about managing Kubernetes clusters.\n* **Serverless:** You only pay for the compute time your application actually uses. No charges when your code isn't running.\n* **Scalability:** Cloud Run automatically scales your application based on demand. You can easily scale up or down to handle fluctuating traffic.\n*","logprobs":null,"finish_reason":"length","stop_reason":null,"prompt_logprobs":null}],"usage":{"prompt_tokens":6,"total_tokens":134,"completion_tokens":128,"prompt_tokens_details":null}}
8. উপসংহার
অভিনন্দন! আপনি এই কোডল্যাবটি সফলভাবে সম্পন্ন করেছেন। আপনি শিখেছেন কিভাবে:
- একটি লক্ষ্য স্থাপনার জন্য একটি উপযুক্ত মডেল আকার চয়ন করুন.
- একটি OpenAI- সামঞ্জস্যপূর্ণ API পরিবেশন করতে vLLM সেট আপ করুন।
- ডকারের সাথে ভিএলএলএম সার্ভার এবং মডেলের ওজনগুলি সুরক্ষিতভাবে কনটেইনারাইজ করুন।
- Google আর্টিফ্যাক্ট রেজিস্ট্রিতে একটি কন্টেইনার ইমেজ পুশ করুন।
- ক্লাউড রানে একটি GPU-এক্সিলারেটেড পরিষেবা স্থাপন করুন।
- একটি প্রমাণীকৃত, স্থাপন করা মডেল পরীক্ষা করুন।
আপনার শেখার যাত্রা চালিয়ে যাওয়ার জন্য লামা, মিস্ট্রাল বা কুয়েনের মতো অন্যান্য উত্তেজনাপূর্ণ মডেলগুলি স্থাপনের জন্য নির্দ্বিধায় অন্বেষণ করুন!
9. পরিষ্কার করুন
ভবিষ্যতের চার্জ এড়াতে, আপনার তৈরি করা সংস্থানগুলি মুছে ফেলা গুরুত্বপূর্ণ৷ আপনার প্রকল্প পরিষ্কার করতে নিম্নলিখিত কমান্ডগুলি চালান।
1. ক্লাউড রান পরিষেবা মুছুন:
gcloud run services delete ${SERVICE_NAME} --region=${REGION} --quiet
2. আর্টিফ্যাক্ট রেজিস্ট্রি সংগ্রহস্থল মুছুন:
gcloud artifacts repositories delete ${AR_REPO_NAME} --location=${REGION} --quiet
3. পরিষেবা অ্যাকাউন্ট মুছুন:
gcloud iam service-accounts delete ${SERVICE_ACC_EMAIL} --quiet
4. সিক্রেট ম্যানেজার থেকে গোপনীয়তা মুছুন:
gcloud secrets delete HF_TOKEN --quiet