AlloyDB-তে হাইব্রিড সার্চ শুরু করা

১. ভূমিকা

এই কোডল্যাবে আপনি RUM এক্সটেনশন (র‍্যাঙ্কিং আপডেট মেথড) এবং স্কেলেবল নিয়ারেস্ট নেইবার (ScaNN) ইনডেক্স ব্যবহার করে AlloyDB-তে হাইব্রিড সার্চ কীভাবে করতে হয় তা শিখবেন। এই ল্যাবটি AlloyDB AI ফিচারগুলোর উপর নিবেদিত একটি ল্যাব সংগ্রহের অংশ। আপনি ডকুমেন্টেশনের AlloyDB AI পেজে এ বিষয়ে আরও পড়তে পারেন।

পূর্বশর্ত

  • গুগল ক্লাউড ও কনসোল সম্পর্কে প্রাথমিক ধারণা
  • কমান্ড লাইন ইন্টারফেস এবং গুগল শেলে প্রাথমিক দক্ষতা

আপনি যা শিখবেন

  • AlloyDB ক্লাস্টার এবং প্রাইমারি ইনস্ট্যান্স কীভাবে স্থাপন করবেন
  • গুগল কম্পিউট ইঞ্জিন ভিএম থেকে অ্যালয়ডিবি-তে কীভাবে সংযোগ করবেন
  • কীভাবে ডাটাবেস তৈরি করবেন এবং AlloyDB AI সক্রিয় করবেন
  • ডাটাবেসে ডেটা লোড করার পদ্ধতি
  • AlloyDB Studio কীভাবে ব্যবহার করবেন
  • ভার্টেক্স এআই দিয়ে এমবেডিং তৈরি করুন
  • ভেক্টর সার্চকে উন্নত করতে কীভাবে একটি ScanN ভেক্টর ইনডেক্স তৈরি করবেন
  • পূর্ণ-পাঠ্য অনুসন্ধানের জন্য RUM এক্সটেনশনটি কীভাবে সক্রিয় এবং ব্যবহার করবেন
  • পূর্ণ-পাঠ্য অনুসন্ধান, ভেক্টর অনুসন্ধান এবং পারস্পরিক র‍্যাঙ্ক ফিউশন (RRF) এর সমন্বয়ে হাইব্রিড অনুসন্ধান সম্পাদন করুন।

আপনার যা যা লাগবে

  • একটি গুগল ক্লাউড অ্যাকাউন্ট এবং গুগল ক্লাউড প্রজেক্ট
  • ক্রোমের মতো একটি ওয়েব ব্রাউজার

২. সেটআপ এবং প্রয়োজনীয়তা

প্রজেক্ট সেটআপ

Google Cloud Console- এ সাইন-ইন করুন। যদি আপনার আগে থেকে Gmail বা Google Workspace অ্যাকাউন্ট না থাকে, তবে আপনাকে একটি তৈরি করতে হবে।

কর্মক্ষেত্র বা শিক্ষা প্রতিষ্ঠানের অ্যাকাউন্টের পরিবর্তে ব্যক্তিগত অ্যাকাউন্ট ব্যবহার করুন।

একটি গুগল ক্লাউড প্রজেক্ট তৈরি করুন

  1. গুগল ক্লাউড কনসোলের প্রজেক্ট সিলেক্টর পেজে, একটি গুগল ক্লাউড প্রজেক্ট নির্বাচন করুন বা তৈরি করুন
  2. আপনার ক্লাউড প্রোজেক্টের জন্য বিলিং চালু আছে কিনা তা নিশ্চিত করুন। কোনো প্রোজেক্টে বিলিং চালু আছে কিনা তা কীভাবে পরীক্ষা করবেন, তা জেনে নিন।

বিলিং সক্ষম করুন

বিলিং চালু করার জন্য আপনার কাছে দুটি বিকল্প আছে। আপনি হয় আপনার ব্যক্তিগত বিলিং অ্যাকাউন্ট ব্যবহার করতে পারেন অথবা নিম্নলিখিত ধাপগুলো অনুসরণ করে ক্রেডিট রিডিম করতে পারেন।

একটি ব্যক্তিগত বিলিং অ্যাকাউন্ট তৈরি করুন

আপনি যদি গুগল ক্লাউড ক্রেডিট ব্যবহার করে বিলিং সেট আপ করেন, তাহলে এই ধাপটি এড়িয়ে যেতে পারেন।

একটি ব্যক্তিগত বিলিং অ্যাকাউন্ট তৈরি করতে, ক্লাউড কনসোলে বিলিং চালু করার জন্য এখানে যান

কিছু নোট:

  • এই ল্যাবটি সম্পন্ন করতে ক্লাউড রিসোর্সে ৩ মার্কিন ডলারের কম খরচ হওয়া উচিত।
  • পরবর্তী চার্জ এড়াতে, এই ল্যাবের শেষে দেওয়া ধাপগুলো অনুসরণ করে আপনি রিসোর্সগুলো মুছে ফেলতে পারেন।
  • নতুন ব্যবহারকারীরা ৩০০ মার্কিন ডলারের ফ্রি ট্রায়ালের জন্য যোগ্য।

ক্লাউড শেল শুরু করুন

যদিও গুগল ক্লাউড আপনার ল্যাপটপ থেকে দূরবর্তীভাবে পরিচালনা করা যায়, এই কোডল্যাবে আপনি গুগল ক্লাউড শেল ব্যবহার করবেন, যা ক্লাউডে চলমান একটি কমান্ড লাইন পরিবেশ।

ক্লাউড শেল হলো গুগল ক্লাউডে চালিত একটি কমান্ড-লাইন পরিবেশ, যা প্রয়োজনীয় টুলস সহ আগে থেকেই লোড করা থাকে।

  1. Google Cloud কনসোলের শীর্ষে থাকা Activate Cloud Shell-এ ক্লিক করুন।
  2. ক্লাউড শেলে সংযুক্ত হওয়ার পর, আপনার প্রমাণীকরণ যাচাই করুন:
    gcloud auth list
    
  3. আপনার প্রজেক্টটি কনফিগার করা হয়েছে কিনা তা নিশ্চিত করুন:
    gcloud config get project
    
  4. আপনার প্রজেক্টটি প্রত্যাশা অনুযায়ী সেট করা না থাকলে, এটি সেট করুন:
    export PROJECT_ID=<YOUR_PROJECT_ID>
    gcloud config set project $PROJECT_ID
    

এই ভার্চুয়াল মেশিনটিতে আপনার প্রয়োজনীয় সমস্ত ডেভেলপমেন্ট টুলস লোড করা আছে। এটি একটি স্থায়ী ৫ জিবি হোম ডিরেক্টরি প্রদান করে এবং গুগল ক্লাউডে চলে, যা নেটওয়ার্ক পারফরম্যান্স ও অথেনটিকেশনকে ব্যাপকভাবে উন্নত করে। এই কোডল্যাবে আপনার সমস্ত কাজ একটি ব্রাউজারের মধ্যেই করা যাবে। আপনাকে কিছুই ইনস্টল করতে হবে না।

৩. শুরু করার আগে

এপিআই সক্ষম করুন

আউটপুট:

AlloyDB , Compute Engine , Networking services , এবং Vertex AI ব্যবহার করার জন্য, আপনাকে আপনার Google Cloud প্রজেক্টে এগুলোর নিজ নিজ API সক্রিয় করতে হবে।

এপিআইগুলি সক্রিয় করা

টার্মিনালে ক্লাউড শেল-এর ভিতরে, নিশ্চিত করুন যে আপনার প্রজেক্ট আইডি সেটআপ করা আছে:

gcloud config set project [YOUR-PROJECT-ID]

PROJECT_ID এনভায়রনমেন্ট ভেরিয়েবল সেট করুন:

PROJECT_ID=$(gcloud config get-value project)

সকল প্রয়োজনীয় এপিআই সক্রিয় করুন:

gcloud services enable alloydb.googleapis.com \
                       compute.googleapis.com \
                       cloudresourcemanager.googleapis.com \
                       servicenetworking.googleapis.com \
                       aiplatform.googleapis.com

প্রত্যাশিত আউটপুট

student@cloudshell:~ (test-project-001-402417)$ gcloud config set project test-project-001-402417
Updated property [core/project].
student@cloudshell:~ (test-project-001-402417)$ PROJECT_ID=$(gcloud config get-value project)
Your active configuration is: [cloudshell-14650]
student@cloudshell:~ (test-project-001-402417)$ 
student@cloudshell:~ (test-project-001-402417)$ gcloud services enable alloydb.googleapis.com \
                       compute.googleapis.com \
                       cloudresourcemanager.googleapis.com \
                       servicenetworking.googleapis.com \
                       aiplatform.googleapis.com
Operation "operations/acat.p2-4470404856-1f44ebd8-894e-4356-bea7-b84165a57442" finished successfully.

এপিআইগুলো চালু করা হচ্ছে

  • AlloyDB API ( alloydb.googleapis.com ) আপনাকে AlloyDB for PostgreSQL ক্লাস্টার তৈরি, পরিচালনা এবং স্কেল করতে দেয়। এটি একটি সম্পূর্ণ পরিচালিত, PostgreSQL-সামঞ্জস্যপূর্ণ ডেটাবেস পরিষেবা প্রদান করে, যা উচ্চ চাহিদাসম্পন্ন এন্টারপ্রাইজ ট্রানজ্যাকশনাল এবং অ্যানালিটিক্যাল ওয়ার্কলোডের জন্য ডিজাইন করা হয়েছে।
  • কম্পিউট ইঞ্জিন এপিআই ( compute.googleapis.com ) আপনাকে ভার্চুয়াল মেশিন (VM), পারসিস্টেন্ট ডিস্ক এবং নেটওয়ার্ক সেটিংস তৈরি ও পরিচালনা করার সুযোগ দেয়। এটি আপনার ওয়ার্কলোড চালানোর জন্য এবং অনেক পরিচালিত পরিষেবার অন্তর্নিহিত পরিকাঠামো হোস্ট করার জন্য প্রয়োজনীয় মূল ইনফ্রাস্ট্রাকচার-অ্যাজ-এ-সার্ভিস (IaaS) ভিত্তি প্রদান করে।
  • ক্লাউড রিসোর্স ম্যানেজার এপিআই ( cloudresourcemanager.googleapis.com ) আপনাকে প্রোগ্রাম্যাটিকভাবে আপনার গুগল ক্লাউড প্রজেক্টের মেটাডেটা এবং কনফিগারেশন পরিচালনা করার সুযোগ দেয়। এটি আপনাকে রিসোর্স সংগঠিত করতে, আইডেন্টিটি অ্যান্ড অ্যাক্সেস ম্যানেজমেন্ট (IAM) পলিসি পরিচালনা করতে এবং প্রজেক্টের স্তরবিন্যাস জুড়ে অনুমতি যাচাই করতে সক্ষম করে।
  • সার্ভিস নেটওয়ার্কিং এপিআই ( servicenetworking.googleapis.com ) আপনাকে আপনার ভার্চুয়াল প্রাইভেট ক্লাউড (VPC) নেটওয়ার্ক এবং গুগলের পরিচালিত পরিষেবাগুলির মধ্যে ব্যক্তিগত সংযোগ স্থাপন স্বয়ংক্রিয় করতে সাহায্য করে। AlloyDB-এর মতো পরিষেবাগুলির জন্য ব্যক্তিগত আইপি অ্যাক্সেস স্থাপন করতে এটি বিশেষভাবে প্রয়োজন, যাতে তারা আপনার অন্যান্য রিসোর্সগুলির সাথে নিরাপদে যোগাযোগ করতে পারে।
  • ভার্টেক্স এআই এপিআই ( aiplatform.googleapis.com ) আপনার অ্যাপ্লিকেশনগুলোকে মেশিন লার্নিং মডেল তৈরি, স্থাপন এবং স্কেল করতে সক্ষম করে। এটি গুগল ক্লাউডের সমস্ত এআই পরিষেবার জন্য একটি সমন্বিত ইন্টারফেস প্রদান করে, যার মধ্যে জেনারেটিভ এআই মডেল (যেমন জেমিনি) এবং কাস্টম মডেল প্রশিক্ষণের সুবিধাও রয়েছে।

ঐচ্ছিকভাবে আপনি ভার্টেক্স এআই এমবেডিং মডেল ব্যবহার করার জন্য আপনার ডিফল্ট অঞ্চল কনফিগার করতে পারেন। ভার্টেক্স এআই-এর জন্য উপলব্ধ অবস্থানগুলো সম্পর্কে আরও পড়ুন। এই উদাহরণে আমরা us-central1 অঞ্চলটি ব্যবহার করছি।

gcloud config set compute/region us-central1

৪. AlloyDB স্থাপন করুন

একটি AlloyDB ক্লাস্টার তৈরি করার আগে, আমাদের VPC-তে একটি উপলব্ধ প্রাইভেট আইপি রেঞ্জ থাকা প্রয়োজন, যা ভবিষ্যতের AlloyDB ইনস্ট্যান্সটি ব্যবহার করবে। যদি আমাদের কাছে এটি না থাকে, তবে আমাদের এটি তৈরি করতে হবে এবং অভ্যন্তরীণ গুগল পরিষেবাগুলির ব্যবহারের জন্য বরাদ্দ করতে হবে। এরপরেই আমরা ক্লাস্টার এবং ইনস্ট্যান্স তৈরি করতে পারব।

ব্যক্তিগত আইপি রেঞ্জ তৈরি করুন

আমাদের AlloyDB-এর জন্য VPC-তে প্রাইভেট সার্ভিস অ্যাক্সেস কনফিগারেশন করতে হবে। এখানে ধরে নেওয়া হচ্ছে যে, প্রজেক্টটিতে 'ডিফল্ট' VPC নেটওয়ার্ক রয়েছে এবং সমস্ত কাজের জন্য এটিই ব্যবহৃত হবে।

ব্যক্তিগত আইপি রেঞ্জ তৈরি করুন:

gcloud compute addresses create psa-range \
    --global \
    --purpose=VPC_PEERING \
    --prefix-length=24 \
    --description="VPC private service access" \
    --network=default

বরাদ্দকৃত আইপি রেঞ্জ ব্যবহার করে ব্যক্তিগত সংযোগ তৈরি করুন:

gcloud services vpc-peerings connect \
    --service=servicenetworking.googleapis.com \
    --ranges=psa-range \
    --network=default

প্রত্যাশিত কনসোল আউটপুট:

student@cloudshell:~ (test-project-402417)$ gcloud compute addresses create psa-range \
    --global \
    --purpose=VPC_PEERING \
    --prefix-length=24 \
    --description="VPC private service access" \
    --network=default
Created [https://www.googleapis.com/compute/v1/projects/test-project-402417/global/addresses/psa-range].

student@cloudshell:~ (test-project-402417)$ gcloud services vpc-peerings connect \
    --service=servicenetworking.googleapis.com \
    --ranges=psa-range \
    --network=default
Operation "operations/pssn.p24-4470404856-595e209f-19b7-4669-8a71-cbd45de8ba66" finished successfully.

student@cloudshell:~ (test-project-402417)$

AlloyDB ক্লাস্টার তৈরি করুন

এই অংশে আমরা us-central1 অঞ্চলে একটি AlloyDB ক্লাস্টার তৈরি করছি।

postgres ব্যবহারকারীর জন্য পাসওয়ার্ড নির্ধারণ করুন। আপনি নিজের পাসওয়ার্ড তৈরি করতে পারেন অথবা একটি র‍্যান্ডম ফাংশন ব্যবহার করে তা তৈরি করতে পারেন।

export PGPASSWORD=`openssl rand -hex 12`

প্রত্যাশিত কনসোল আউটপুট:

student@cloudshell:~ (test-project-402417)$ export PGPASSWORD=`openssl rand -hex 12`

ভবিষ্যতে ব্যবহারের জন্য PostgreSQL পাসওয়ার্ডটি লিখে রাখুন।

echo $PGPASSWORD

ভবিষ্যতে postgres ব্যবহারকারী হিসেবে ইনস্ট্যান্সটিতে সংযোগ করতে আপনার ওই পাসওয়ার্ডটি লাগবে। আমি পরামর্শ দেবো এটি লিখে রাখতে বা কোথাও কপি করে রাখতে, যাতে পরে ব্যবহার করতে পারেন।

প্রত্যাশিত কনসোল আউটপুট:

student@cloudshell:~ (test-project-402417)$ echo $PGPASSWORD
bbefbfde7601985b0dee5723

AlloyDB ক্লাস্টার তৈরি করুন

অঞ্চল এবং AlloyDB ক্লাস্টারের নাম নির্ধারণ করুন। আমরা us-central1 অঞ্চল এবং alloydb-hybrid-search কে ক্লাস্টারের নাম হিসেবে ব্যবহার করতে যাচ্ছি:

export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search

ক্লাস্টার তৈরি করতে কমান্ডটি চালান:

gcloud alloydb clusters create $ADBCLUSTER \
    --password=$PGPASSWORD \
    --network=default \
    --region=$REGION

প্রত্যাশিত কনসোল আউটপুট:

export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search
gcloud alloydb clusters create $ADBCLUSTER \
    --password=$PGPASSWORD \
    --network=default \
    --region=$REGION 
Operation ID: operation-1697655441138-6080235852277-9e7f04f5-2012fce4
Creating cluster...done.                                                                                                                                                                                                                                                           

একই ক্লাউড শেল সেশনে আমাদের ক্লাস্টারের জন্য একটি AlloyDB প্রাইমারি ইনস্ট্যান্স তৈরি করুন। সংযোগ বিচ্ছিন্ন হয়ে গেলে আপনাকে আবার রিজিয়ন এবং ক্লাস্টারের নামের এনভায়রনমেন্ট ভেরিয়েবলগুলো নির্ধারণ করতে হবে।

gcloud alloydb instances create $ADBCLUSTER-pr \
    --instance-type=PRIMARY \
    --cpu-count=2 \
    --region=$REGION \
    --cluster=$ADBCLUSTER

প্রত্যাশিত কনসোল আউটপুট:

student@cloudshell:~ (alloydb-hybrid-search)$ gcloud alloydb instances create $ADBCLUSTER-pr \
    --instance-type=PRIMARY \
    --cpu-count=2 \
    --region=$REGION \
    --availability-type ZONAL \
    --cluster=$ADBCLUSTER
Operation ID: operation-1697659203545-6080315c6e8ee-391805db-25852721
Creating instance...done.                                                                                                                                                                                                                                                     

৫. AlloyDB-এর সাথে সংযোগ করুন

AlloyDB একটি প্রাইভেট-অনলি কানেকশন ব্যবহার করে ডেপ্লয় করা হয়েছে, তাই ডাটাবেসটির সাথে কাজ করার জন্য আমাদের এমন একটি VM প্রয়োজন যেখানে PostgreSQL ক্লায়েন্ট ইনস্টল করা আছে।

GCE VM স্থাপন করুন

AlloyDB ক্লাস্টারের মতো একই অঞ্চল এবং VPC-তে একটি GCE VM তৈরি করুন।

ক্লাউড শেলে চালান:

export ZONE=us-central1-a
gcloud compute instances create instance-1 \
    --zone=$ZONE \
    --create-disk=auto-delete=yes,boot=yes,image=projects/debian-cloud/global/images/$(gcloud compute images list --filter="family=debian-12 AND family!=debian-12-arm64" --format="value(name)") \
    --scopes=https://www.googleapis.com/auth/cloud-platform

প্রত্যাশিত কনসোল আউটপুট:

student@cloudshell:~ (alloydb-hybrid-search)$ export ZONE=us-central1-a
student@cloudshell:~ (talloydb-hybrid-search)$ export ZONE=us-central1-a
gcloud compute instances create instance-1 \
    --zone=$ZONE \
    --create-disk=auto-delete=yes,boot=yes,image=projects/debian-cloud/global/images/$(gcloud compute images list --filter="family=debian-12 AND family!=debian-12-arm64" --format="value(name)") \
    --scopes=https://www.googleapis.com/auth/cloud-platform

Created [https://www.googleapis.com/compute/v1/projects/test-project-402417/zones/us-central1-a/instances/instance-1].
NAME: instance-1
ZONE: us-central1-a
MACHINE_TYPE: n1-standard-1
PREEMPTIBLE: 
INTERNAL_IP: 10.128.0.2
EXTERNAL_IP: 34.71.192.233
STATUS: RUNNING

পোস্টগ্রেস ক্লায়েন্ট ইনস্টল করুন

ডেপ্লয় করা ভিএম-এ PostgreSQL ক্লায়েন্ট সফটওয়্যারটি ইনস্টল করুন।

ভিএম-এ সংযোগ করুন:

gcloud compute ssh instance-1 --zone=us-central1-a

প্রত্যাশিত কনসোল আউটপুট:

student@cloudshell:~ (alloydb-hybrid-search)$ gcloud compute ssh instance-1 --zone=us-central1-a
Updating project ssh metadata...working..Updated [https://www.googleapis.com/compute/v1/projects/alloydb-hybrid-search].                                                                                                                                                         
Updating project ssh metadata...done.                                                                                                                                                                                                                                              
Waiting for SSH key to propagate.
Warning: Permanently added 'compute.5110295539541121102' (ECDSA) to the list of known hosts.
Linux instance-1.us-central1-a.c.gleb-test-short-001-418811.internal 6.1.0-18-cloud-amd64 #1 SMP PREEMPT_DYNAMIC Debian 6.1.76-1 (2024-02-01) x86_64

The programs included with the Debian GNU/Linux system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.

Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent
permitted by applicable law.
student@instance-1:~$ 

ভিএম-এর ভিতরে কমান্ডটি চালিয়ে সফ্টওয়্যারটি ইনস্টল করুন:

sudo apt-get update
sudo apt-get install --yes postgresql-client

প্রত্যাশিত কনসোল আউটপুট:

student@instance-1:~$ sudo apt-get update
sudo apt-get install --yes postgresql-client
Get:1 https://packages.cloud.google.com/apt google-compute-engine-bullseye-stable InRelease [5146 B]
Get:2 https://packages.cloud.google.com/apt cloud-sdk-bullseye InRelease [6406 B]   
Hit:3 https://deb.debian.org/debian bullseye InRelease  
Get:4 https://deb.debian.org/debian-security bullseye-security InRelease [48.4 kB]
Get:5 https://packages.cloud.google.com/apt google-compute-engine-bullseye-stable/main amd64 Packages [1930 B]
Get:6 https://deb.debian.org/debian bullseye-updates InRelease [44.1 kB]
Get:7 https://deb.debian.org/debian bullseye-backports InRelease [49.0 kB]
...redacted...
update-alternatives: using /usr/share/postgresql/13/man/man1/psql.1.gz to provide /usr/share/man/man1/psql.1.gz (psql.1.gz) in auto mode
Setting up postgresql-client (13+225) ...
Processing triggers for man-db (2.9.4-2) ...
Processing triggers for libc-bin (2.31-13+deb11u7) ...

ইনস্ট্যান্সের সাথে সংযোগ করুন

psql ব্যবহার করে VM থেকে প্রাইমারি ইনস্ট্যান্সে সংযোগ করুন।

আপনার ইনস্ট্যান্স-১ ভিএম-এর জন্য খোলা SSH সেশন সহ একই ক্লাউড শেল ট্যাবে।

GCE VM থেকে AlloyDB-তে সংযোগ করতে উল্লিখিত AlloyDB পাসওয়ার্ড (PGPASSWORD) এবং AlloyDB ক্লাস্টার আইডি ব্যবহার করুন:

export PGPASSWORD=<Noted password>
export PROJECT_ID=$(gcloud config get-value project)
export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search
export INSTANCE_IP=$(gcloud alloydb instances describe $ADBCLUSTER-pr --cluster=$ADBCLUSTER --region=$REGION --format="value(ipAddress)")
psql "host=$INSTANCE_IP user=postgres sslmode=require"

প্রত্যাশিত কনসোল আউটপুট:

student@instance-1:~$ export PGPASSWORD=CQhOi5OygD4ps6ty
student@instance-1:~$ ADBCLUSTER=alloydb-aip-01
student@instance-1:~$ REGION=us-central1
student@instance-1:~$ INSTANCE_IP=$(gcloud alloydb instances describe $ADBCLUSTER-pr --cluster=$ADBCLUSTER --region=$REGION --format="value(ipAddress)")
gleb@instance-1:~$ psql "host=$INSTANCE_IP user=postgres sslmode=require"
psql (15.6 (Debian 15.6-0+deb12u1), server 15.5)
SSL connection (protocol: TLSv1.3, cipher: TLS_AES_256_GCM_SHA384, compression: off)
Type "help" for help.

postgres=>

psql সেশনটি বন্ধ করুন:

exit

৬. ডাটাবেস প্রস্তুত করুন

আমাদের একটি ডাটাবেস তৈরি করতে হবে, ভার্টেক্স এআই ইন্টিগ্রেশন সক্রিয় করতে হবে, ডাটাবেস অবজেক্ট তৈরি করতে হবে এবং ডেটা ইম্পোর্ট করতে হবে।

AlloyDB-কে প্রয়োজনীয় অনুমতি প্রদান করুন

AlloyDB সার্ভিস এজেন্টে Vertex AI-এর অনুমতি যোগ করুন।

উপরে থাকা "+" চিহ্নটি ব্যবহার করে আরেকটি ক্লাউড শেল ট্যাব খুলুন।

abc505ac4d41f24e.png

নতুন ক্লাউড শেল ট্যাবে নিম্নলিখিতটি চালান:

PROJECT_ID=$(gcloud config get-value project)
gcloud projects add-iam-policy-binding $PROJECT_ID \
  --member="serviceAccount:service-$(gcloud projects describe $PROJECT_ID --format="value(projectNumber)")@gcp-sa-alloydb.iam.gserviceaccount.com" \
  --role="roles/aiplatform.user"

প্রত্যাশিত কনসোল আউটপুট:

student@cloudshell:~ (test-project-001-402417)$ PROJECT_ID=$(gcloud config get-value project)
Your active configuration is: [cloudshell-11039]
student@cloudshell:~ (test-project-001-402417)$ gcloud projects add-iam-policy-binding $PROJECT_ID \
  --member="serviceAccount:service-$(gcloud projects describe $PROJECT_ID --format="value(projectNumber)")@gcp-sa-alloydb.iam.gserviceaccount.com" \
  --role="roles/aiplatform.user"
Updated IAM policy for project [test-project-001-402417].
bindings:
- members:
  - serviceAccount:service-4470404856@gcp-sa-alloydb.iam.gserviceaccount.com
  role: roles/aiplatform.user
- members:
...
etag: BwYIEbe_Z3U=
version: 1
 

ট্যাবের মধ্যে 'exit' কমান্ডটি চালিয়ে ট্যাবটি বন্ধ করুন:

exit

ডাটাবেস তৈরি করুন

quickstart নামে একটি ডাটাবেস তৈরি করুন।

GCE VM সেশনে নিম্নলিখিতটি সম্পাদন করুন:

ডাটাবেস তৈরি করুন:

psql "host=$INSTANCE_IP user=postgres" -c "CREATE DATABASE quickstart_db"

প্রত্যাশিত কনসোল আউটপুট:

student@instance-1:~$ psql "host=$INSTANCE_IP user=postgres" -c "CREATE DATABASE quickstart_db"
CREATE DATABASE
student@instance-1:~$  

ভার্টেক্স এআই ইন্টিগ্রেশন সক্ষম করুন

ডাটাবেসে Vertex AI ইন্টিগ্রেশন এবং pgvector এক্সটেনশনগুলো সক্রিয় করুন।

GCE VM-এ নিম্নলিখিতটি চালান:

psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "CREATE EXTENSION IF NOT EXISTS google_ml_integration CASCADE"
psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "CREATE EXTENSION IF NOT EXISTS vector"

প্রত্যাশিত কনসোল আউটপুট:

student@instance-1:~$ psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "CREATE EXTENSION IF NOT EXISTS google_ml_integration CASCADE"
psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "CREATE EXTENSION IF NOT EXISTS vector"
CREATE EXTENSION
CREATE EXTENSION
student@instance-1:~$ 

ডেটা আমদানি করুন

প্রস্তুতকৃত ডেটা ডাউনলোড করে নতুন ডেটাবেসে ইম্পোর্ট করুন।

GCE VM-এ নিম্নলিখিতটি চালান:

gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_demo_schema.sql |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db"
gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_products.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_products from stdin csv header"
gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_inventory.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_inventory from stdin csv header"
gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_stores.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_stores from stdin csv header"

প্রত্যাশিত কনসোল আউটপুট:

student@instance-1:~$ gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_demo_schema.sql |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db"
SET
SET
SET
SET
SET
 set_config 
------------
 
(1 row)
SET
SET
SET
SET
SET
SET
CREATE TABLE
ALTER TABLE
CREATE TABLE
ALTER TABLE
CREATE TABLE
ALTER TABLE
CREATE TABLE
ALTER TABLE
CREATE SEQUENCE
ALTER TABLE
ALTER SEQUENCE
ALTER TABLE
ALTER TABLE
ALTER TABLE
student@instance-1:~$ gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_products.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_products from stdin csv header"
COPY 941
student@instance-1:~$ gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_inventory.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_inventory from stdin csv header"
COPY 263861
student@instance-1:~$ gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_stores.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_stores from stdin csv header"
COPY 4654
student@instance-1:~$

৭. ভেক্টর এমবেডিং তৈরি করুন

ডেটা ইম্পোর্ট করার পর, আমরা নিম্নলিখিত টেবিলগুলো পাই: cymbal_products , যা পণ্য সম্পর্কিত তথ্য সংরক্ষণ করে; cymbal_inventory , যা প্রতিটি দোকানে আইটেমের স্টক ট্র্যাক করে; এবং cymbal_stores , যা দোকানগুলোর একটি তালিকা। আমাদের পণ্যগুলোর উপর সিমান্টিক সার্চ করার জন্য, initialize_embeddings ফাংশন ব্যবহার করে আমাদের পণ্যের বিবরণের ভেক্টর এমবেডিং তৈরি করতে হবে। আমরা আমাদের পণ্যের বিবরণের উপর ভিত্তি করে ভেক্টর ডেটা গণনা করতে এবং তা টেবিলে যোগ করতে Vertex AI ইন্টিগ্রেশন ব্যবহার করব। ব্যবহৃত প্রযুক্তি সম্পর্কে আপনি ডকুমেন্টেশনে আরও পড়তে পারেন।

ইন্টিগ্রেশনটি ব্যবহার করতে, আপনার ভিএম থেকে AlloyDB ইনস্ট্যান্সের আইপি এবং পোস্টগ্রেস পাসওয়ার্ড ব্যবহার করে psql-এর মাধ্যমে ডাটাবেসে সংযোগ করুন:

psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db"

google_ml_integration এক্সটেনশনটির সংস্করণ যাচাই করুন।

SELECT extversion FROM pg_extension WHERE extname = 'google_ml_integration';

সংস্করণটি ১.৫.২ বা তার চেয়ে উচ্চতর হতে হবে। আউটপুটের একটি উদাহরণ নিচে দেওয়া হলো:

quickstart_db=> SELECT extversion FROM pg_extension WHERE extname = 'google_ml_integration';
 extversion 
------------
 1.5.2
(1 row)

ডিফল্ট সংস্করণটি ১.৫.২ বা তার বেশি হওয়া উচিত, কিন্তু আপনার ইনস্ট্যান্সে যদি পুরোনো কোনো সংস্করণ দেখা যায়, তবে সম্ভবত এটি আপডেট করা প্রয়োজন। ইনস্ট্যান্সটির জন্য রক্ষণাবেক্ষণ নিষ্ক্রিয় করা হয়েছে কিনা তা পরীক্ষা করুন।

আমরা কার্যকারিতা বাড়ানোর জন্য ব্যাচ এমবেডিং জেনারেশন ব্যবহার করব। আপনি গাইডটিতে বিভিন্ন এমবেডিং জেনারেশন অপশন এবং কৌশল সম্পর্কে আরও পড়তে পারেন। ব্যাচ এমবেডিং ব্যবহার করার জন্য, আমাদেরকে ` goole_ml_integration.enable_faster_embedding_generation সক্রিয় করতে হবে।

show google_ml_integration.enable_faster_embedding_generation;

ফ্ল্যাগটি সঠিক অবস্থানে থাকলে প্রত্যাশিত আউটপুটটি দেখতে এইরকম হবে:

quickstart_db=> show google_ml_integration.enable_faster_embedding_generation;                          
 google_ml_integration.enable_faster_embedding_generation 
----------------------------------------------------------
 on
(1 row)

কিন্তু যদি এটি "off" দেখায়, তাহলে আমাদের ইনস্ট্যান্সটি আপডেট করতে হবে। ডকুমেন্টেশনে যেমন বর্ণনা করা আছে, সে অনুযায়ী আপনি ওয়েব কনসোল অথবা gcloud কমান্ড ব্যবহার করে এটি করতে পারেন। এখানে আমি দেখাচ্ছি কিভাবে gcloud কমান্ড ব্যবহার করে এটি করতে হয়:

export PROJECT_ID=$(gcloud config get-value project)
export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search
gcloud beta alloydb instances update $ADBCLUSTER-pr \
   --database-flags google_ml_integration.enable_faster_embedding_generation=on \
   --region=$REGION \
   --cluster=$ADBCLUSTER \
   --project=$PROJECT_ID \
   --update-mode=FORCE_APPLY

এতে কয়েক মিনিট সময় লাগতে পারে, কিন্তু অবশেষে ফ্ল্যাগের মান 'অন' হয়ে যাবে। এরপর আপনি পরবর্তী ধাপগুলো অনুসরণ করতে পারেন।

psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db"

ডাটাবেসের সাথে সংযুক্ত psql সেশনে, cymbal_products এ এমবেডিং সংরক্ষণের জন্য একটি নতুন কলাম তৈরি করুন।

ALTER TABLE cymbal_products ADD COLUMN product_embedding vector(768);

প্রত্যাশিত কনসোল আউটপুট:

quickstart_db=> ALTER TABLE cymbal_products ADD COLUMN product_embedding vector(768);
ALTER TABLE
quickstart_db=> 

সবশেষে, আমরা চাই যে ফাংশন কলে incremental_refresh_mode আর্গুমেন্টটি অন্তর্ভুক্ত করার মাধ্যমে কলামের মান পরিবর্তিত হওয়ার সাথে সাথে এমবেডিংগুলোও রিফ্রেশ হোক। এটি আমাদের ডাটাবেসে অতিরিক্ত চাপ সৃষ্টি করে, কিন্তু কন্টেন্টের সাথে এমবেডিংগুলোকে স্বয়ংক্রিয়ভাবে সিঙ্ক রাখার জন্য এটি একটি আপোস। আপনি যদি ম্যানুয়ালি এমবেডিং আপডেট করতে চান, তাহলে ডকুমেন্টেশনে এর নির্দেশাবলী খুঁজে নিতে পারেন।

এখন সবকিছু একত্রিত করে এমবেডিং তৈরি করার জন্য, আমরা initialize_embeddings ফাংশনটি ব্যবহার করি এবং ব্যাচ হিন্ট হিসেবে batch_size 50 পাস করি ও incremental_refresh_mode transactional এ সেট করি।

CALL ai.initialize_embeddings(
    model_id => 'text-embedding-005',
    table_name => 'cymbal_products',
    content_column => 'product_description',
    embedding_column => 'product_embedding',
    batch_size => 50,
    incremental_refresh_mode => 'transactional'
);

এবং এখন যদি আমরা product_embedding কলামের জন্য NULL মান দিয়ে টেবিলটিতে একটি নতুন সারি যোগ করি

INSERT INTO "cymbal_products" ("uniq_id", "crawl_timestamp", "product_url", "product_name", "product_description", "list_price", "sale_price", "brand", "item_number", "gtin", "package_size", "category", "postal_code", "available", "product_embedding") VALUES ('fd604542e04b470f9e6348e640cff794', NOW(), 'https://example.com/new_product', 'New Cymbal Product', 'This is a new cymbal product description.', 199.99, 149.99, 'Example Brand', 'EB123', '1234567890', 'Single', 'Cymbals', '12345', TRUE, NULL);

এখন আমরা যে সারিটি এইমাত্র যোগ করেছি, সেটি কোয়েরি করলে দেখব যে product_embedding কলামটি স্বয়ংক্রিয়ভাবে আপডেট হয়ে গেছে।

SELECT uniq_id, (product_embedding::real[])[1:5] as product_embedding  FROM cymbal_products WHERE uniq_id='fd604542e04b470f9e6348e640cff794';

আউটপুটটি নিম্নলিখিতের মতো হওয়া উচিত:

quickstart_db=> SELECT uniq_id,(product_embedding::real[])[1:5] as product_embedding  FROM cymbal_products WHERE uniq_id='fd604542e04b470f9e6348e640cff794';
             uniq_id              |                      product_embedding                       
----------------------------------+---------------------------------------------------------------
 fd604542e04b470f9e6348e640cff794 | {0.015003494,-0.005349732,-0.059790313,-0.0087091,-0.0271452}
(1 row)

Time: 3.295 ms

৮. ভেক্টর সূচক তৈরি করুন

ভেক্টর সার্চের পারফরম্যান্স উন্নত করতে, আমরা একটি ScaNN ইনডেক্স যোগ করব।

স্ক্যান সূচক তৈরি করুন

SCANN ইনডেক্স তৈরি করার জন্য আমাদের আরও একটি এক্সটেনশন সক্রিয় করতে হবে। alloydb_scann এক্সটেনশনটি গুগলের ScaNN অ্যালগরিদম ব্যবহার করে ANN টাইপের ভেক্টর ইনডেক্সের সাথে কাজ করার জন্য একটি ইন্টারফেস প্রদান করে।

CREATE EXTENSION IF NOT EXISTS alloydb_scann;

প্রত্যাশিত আউটপুট:

quickstart_db=> CREATE EXTENSION IF NOT EXISTS alloydb_scann;
CREATE EXTENSION
Time: 27.468 ms
quickstart_db=> 

ইনডেক্সটি ম্যানুয়াল (MANUAL) অথবা অটো (AUTO) মোডে তৈরি করা যায়। ম্যানুয়াল মোড ডিফল্টভাবে সক্রিয় থাকে এবং আপনি অন্য যেকোনো ইনডেক্সের মতোই এটি তৈরি ও রক্ষণাবেক্ষণ করতে পারেন। কিন্তু আপনি যদি অটো মোড সক্রিয় করেন, তবে আপনি এমন একটি ইনডেক্স তৈরি করতে পারবেন যার জন্য আপনার পক্ষ থেকে কোনো রক্ষণাবেক্ষণের প্রয়োজন হবে না। আপনি ডকুমেন্টেশনে সমস্ত অপশন সম্পর্কে বিস্তারিত পড়তে পারেন। আমাদের ক্ষেত্রে, অটো মোডে ইনডেক্স তৈরি করার জন্য যথেষ্ট সংখ্যক রো (row) নেই - তাই আমরা এটি ম্যানুয়াল মোডে তৈরি করব এবং টিউনিং প্যারামিটার অন্তর্ভুক্ত করব। আপনি ডকুমেন্টেশনে ইনডেক্স প্যারামিটার টিউনিং সম্পর্কে পড়তে পারেন।

টিউনিং প্যারামিটারগুলো পরিবর্তন করার জন্য আমাদের অবশ্যই scann.enable_preview_features ফ্ল্যাগটি সক্রিয় করতে হবে। ক্লাউডশেলে

export PROJECT_ID=$(gcloud config get-value project)
export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search
gcloud beta alloydb instances update $ADBCLUSTER-pr \
   --database-flags scann.enable_preview_features=on \
   --region=$REGION \
   --cluster=$ADBCLUSTER \
   --project=$PROJECT_ID \
   --update-mode=FORCE_APPLY

এতে কয়েক মিনিট সময় লাগতে পারে, কিন্তু অবশেষে ফ্ল্যাগের মান 'on'-এ পরিবর্তিত হয়ে যাবে। ফ্ল্যাগটি সেট হয়ে গেলে, আমরা VM-এ আমাদের psql সেশনে ফিরে গিয়ে টিউনিং প্যারামিটারসহ ইনডেক্সটি তৈরি করতে পারব।

CREATE INDEX cymbal_products_embeddings_scann ON cymbal_products
  USING scann (product_embedding cosine)
  WITH (mode='MANUAL', num_leaves=31, max_num_levels = 2);

প্রত্যাশিত আউটপুট:

quickstart_db=> CREATE INDEX cymbal_products_embeddings_scann ON cymbal_products
  USING scann (product_embedding cosine)
  WITH (num_leaves=31, max_num_levels = 2);
CREATE INDEX
quickstart_db=>

সূচক ব্যবহার পরিদর্শন করুন

এখন আমরা EXPLAIN মোডে ভেক্টর সার্চ কোয়েরিটি চালিয়ে যাচাই করতে পারি যে ইনডেক্সটি ব্যবহৃত হচ্ছে কিনা।

EXPLAIN (analyze) 
WITH trees as (
SELECT
        cp.product_name,
        left(cp.product_description,80) as description,
        cp.sale_price,
        cs.zip_code,
        cp.uniq_id as product_id
FROM
        cymbal_products cp
JOIN cymbal_inventory ci on
        ci.uniq_id=cp.uniq_id
JOIN cymbal_stores cs on
        cs.store_id=ci.store_id
        AND ci.inventory>0
        AND cs.store_id = 1583
ORDER BY
        (cp.product_embedding <=> embedding('text-embedding-005','What kind of fruit trees grow well here?')::vector) ASC
LIMIT 1)
SELECT json_agg(trees) FROM trees;

প্রত্যাশিত আউটপুট (স্পষ্টতার জন্য সম্পাদিত):

...
Aggregate (cost=16.59..16.60 rows=1 width=32) (actual time=2.875..2.877 rows=1 loops=1)
-> Subquery Scan on trees (cost=8.42..16.59 rows=1 width=142) (actual time=2.860..2.862 rows=1 loops=1)
-> Limit (cost=8.42..16.58 rows=1 width=158) (actual time=2.855..2.856 rows=1 loops=1)
-> Nested Loop (cost=8.42..6489.19 rows=794 width=158) (actual time=2.854..2.855 rows=1 loops=1)
-> Nested Loop (cost=8.13..6466.99 rows=794 width=938) (actual time=2.742..2.743 rows=1 loops=1)
-> Index Scan using cymbal_products_embeddings_scann on cymbal_products cp (cost=7.71..111.99 rows=876 width=934) (actual time=2.724..2.724 rows=1 loops=1)
Order By: (embedding <=> '[0.008864171,0.03693164,-0.024245683,-0.00355923,0.0055611245,0.015985578,...<redacted>...5685,-0.03914233,-0.018452475,0.00826032,-0.07372604]'::vector)
...

আউটপুট থেকে আমরা পরিষ্কারভাবে দেখতে পাচ্ছি যে কোয়েরিটি "Index Scan using cymbal_products_embeddings_scann on cymbal_products" ব্যবহার করছিল।

৯. পূর্ণ-পাঠ্য অনুসন্ধান সূচক

AlloyDB ফুল-টেক্সট সার্চের জন্য সেই সমস্ত ইনডেক্স টাইপ সমর্থন করে যা নেটিভ PostgreSQL সমর্থন করে। ইনডেক্সের পছন্দ নির্ভর করে সার্চের গতি, ইনডেক্স তৈরির সময়, আপডেটের গতি এবং প্রয়োজনীয় নির্দিষ্ট সার্চ কার্যকারিতা, যেমন—শব্দগুচ্ছ অনুসন্ধান বা প্রাসঙ্গিকতা র‍্যাঙ্কিং-এর মধ্যে ভারসাম্যের উপর।

আমাদের উদাহরণে, আমরা আরও উন্নত কর্মক্ষম ফুল-টেক্সট সার্চ অপারেশনের জন্য RUM এক্সটেনশন ব্যবহার করব। RUM সরাসরি ইনডেক্সে পজিশনাল তথ্য সংরক্ষণ করে স্ট্যান্ডার্ড GIN ইনডেক্সের উন্নতি ঘটায়, যার ফলে টেবিলের ডেটা অ্যাক্সেস না করেই আপনি দ্রুততর ফ্রেজ সার্চ এবং প্রাসঙ্গিকতা র‍্যাঙ্কিং করতে পারেন।

আপনি AlloyDB Studio ব্যবহার করতে পারেন অথবা rum এক্সটেনশনটি সক্রিয় করতে psql ক্লায়েন্ট ব্যবহার চালিয়ে যেতে পারেন।

RUM সূচক তৈরি করুন

CREATE EXTENSION IF NOT EXISTS rum;

cymbal_products টেবিলের মধ্যে পণ্যের বিবরণ অনুসন্ধান করার জন্য, আমাদের এমন একটি কলাম তৈরি করতে হবে যা পণ্যের বিবরণকে tsvector হিসেবে সংরক্ষণ করবে। এই কলামটি স্বয়ংক্রিয়ভাবে প্রক্রিয়াকৃত টেক্সট সংরক্ষণ করে এবং কোয়েরির পারফরম্যান্স উন্নত করে।

ALTER TABLE cymbal_products
ADD COLUMN product_search_vector tsvector
GENERATED ALWAYS AS (to_tsvector('english', product_description)) STORED;

এখন আমরা product_search_vector কলামের জন্য একটি নতুন RUM ইনডেক্স তৈরি করতে পারি।

CREATE INDEX cymbal_products_rum
ON cymbal_products
USING rum (product_search_vector rum_tsvector_ops);

ইনডেক্স ব্যবহার করে টেবিলটি কোয়েরি করতে, 'cherry tree'-এর মিল খোঁজার জন্য নিম্নলিখিত কোয়েরিটি চালান। <=> অপারেটরটি সরাসরি ইনডেক্স থেকে ডকুমেন্ট এবং কোয়েরির মধ্যে প্রাসঙ্গিকতার স্কোর বা দূরত্ব গণনা করে।

SELECT product_name, product_description
FROM cymbal_products
WHERE product_search_vector @@ to_tsquery('english', 'cherry <-> tree')
ORDER BY product_search_vector <=> to_tsquery('english', 'cherry <-> tree');

১০. হাইব্রিড অনুসন্ধান সম্পাদন করুন

google_vector_utils.hybrid_search() ফাংশনটি আপনাকে ভেক্টর সার্চ এবং ফুল-টেক্সট সার্চের মতো একাধিক সার্চ টাইপের ফলাফল একত্রিত করতে দেয়। এই ফাংশনটি রেসিপ্রোকাল র‍্যাঙ্ক ফিউশন (RRF) অ্যালগরিদম ব্যবহার করে প্রতিটি সার্চ উপাদানের র‍্যাঙ্ক করা ফলাফলগুলোকে একটি একক, একীভূত তালিকায় ফিউজ করে। এই পদ্ধতিটি শুধুমাত্র একটি সার্চ টাইপের ফলাফলের চেয়ে বেশি প্রাসঙ্গিক ফলাফল প্রদান করে।

` hybrid_search() ফাংশনটি ডায়নামিকভাবে একটি একক SQL কোয়েরি তৈরি ও কার্যকর করে। এটি আপনার সংজ্ঞায়িত প্রতিটি সার্চ কম্পোনেন্টের জন্য একটি কমন টেবিল এক্সপ্রেশন (CTE) তৈরি করে। এরপর ফাংশনটি সমস্ত CTE থেকে প্রাপ্ত ফলাফলগুলোকে যুক্ত করে এবং প্রতিটি ডকুমেন্টের জন্য একটি চূড়ান্ত RRF স্কোর গণনা করে একটি সমন্বিত, র‍্যাঙ্ক করা তালিকা তৈরি করে।

ফাংশনটি ব্যবহার করার জন্য আমাদের প্রাইমারি ইনস্ট্যান্সে enable_preview_ai_functions চালু করতে হবে। ক্লাউডশেলে নিম্নলিখিত কমান্ডটি চালান।

export PROJECT_ID=$(gcloud config get-value project)
export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search
gcloud beta alloydb instances update $ADBCLUSTER-pr \
   --database-flags google_ml_integration.enable_preview_ai_functions=on \
   --region=$REGION \
   --cluster=$ADBCLUSTER \
   --project=$PROJECT_ID \
   --update-mode=FORCE_APPLY

নিম্নলিখিত কোয়েরিটি আমাদের পূর্ববর্তী ভেক্টর সার্চ প্রশ্ন এবং ফুল-টেক্সট সার্চ প্রশ্নকে একত্রিত করে। এটি একটি খুব সাধারণ হাইব্রিড সার্চ কোয়েরি; আপনি আরও জটিল কিছু চেষ্টা করতে পারেন, যেমন ভেক্টর সার্চ অংশে 'বাড়ির চেয়ে লম্বা গাছ' এবং এফটিএস অংশে 'ক্যালিফোর্নিয়া' ব্যবহার করা।

SELECT score, id, p.product_name
FROM ai.hybrid_search(
  search_inputs => ARRAY[
      '{
        "data_type": "vector",
        "table_name": "cymbal_products",
        "key_column": "uniq_id",
        "vec_column": "product_embedding",
        "distance_operator": "public.<=>",
        "limit": 5,
        "query_vector": "ai.embedding(''text-embedding-005'', ''cherry'')::vector"
      }'::JSONB,
      '{
        "data_type": "text",
        "table_name": "cymbal_products",
        "key_column": "uniq_id",
        "text_column": "product_search_vector",
        "limit": 5,
        "ranking_function": "<=>",
        "query_text_input": "tree"
      }'::JSONB
  ]
) JOIN cymbal_products p ON id = p.uniq_id;

প্রত্যাশিত আউটপুট

"score","id","product_name"
"0.00819672631147241","d536e9e823296a2eba198e52dd23e712","Cherry Tree"
"0.015873015873015872","23e41a71d63d8bbc9bdfa1d118cfddc5","Apple Tree"
"0.00819672631147241","dc789a2f87b142e94e6e325689482af9","Oak Tree"
"0.008064521129029258","f5c70d62ccf3118d73863bf3b17edcbe","Cypress Tree"
"0.008064521129029258","b70c44b1a38c0a2329fa583c9109a80f","Peach Tree"

ফলাফলে আপনি id পাবেন, যা হলো নির্দিষ্ট key_column , score হলো RRF দ্বারা গণনা করা চূড়ান্ত মান। রেসিপ্রোকাল র‍্যাঙ্ক ফিউশন (RRF) একটি র‍্যাঙ্ক-ভিত্তিক অ্যালগরিদম যা প্রতিটি ডকুমেন্টকে একটি স্কোর প্রদানের মাধ্যমে সার্চ ফলাফলের একাধিক র‍্যাঙ্ক করা তালিকাকে একটি একক র‍্যাঙ্ক করা তালিকায় একত্রিত করে। এই স্কোরটি সমস্ত অবদানকারী তালিকার মধ্যে RRF-এর পারস্পরিক র‍্যাঙ্কের উপর ভিত্তি করে নির্ধারিত হয়, যেখানে উচ্চ-র‍্যাঙ্কের ডকুমেন্টগুলো বেশি অবদান পায়। প্যারামিটারে ` include_json_output => true ব্যবহার করলে, একটি detail_json কলাম ফেরত আসবে, যেখানে প্রতিটি উপাদানের জন্য স্কোর গণনার একটি বিশদ বিবরণ থাকবে।

যদিও ফুল-টেক্সট সার্চ নির্দিষ্ট শব্দ বা হুবহু মিল খুঁজে বের করার জন্য সেরা, ভেক্টর সার্চ শব্দের মিল না থাকলেও সমার্থক শব্দ এবং অভিপ্রায় খুঁজে বের করতে পারদর্শী। এই দুটি পদ্ধতিকে একত্রিত করে হাইব্রিড সার্চ নিশ্চিত করে যে ব্যবহারকারীরা এমন একটি নির্ভরযোগ্য ফলাফল পান যা আক্ষরিকভাবে নির্ভুল এবং অর্থগতভাবে প্রাসঙ্গিক।

১১. পরিবেশ পরিষ্কার করা

ল্যাবের কাজ শেষ হলে AlloyDB ইনস্ট্যান্স এবং ক্লাস্টারটি ধ্বংস করে দিন।

AlloyDB ক্লাস্টার এবং এর সমস্ত ইনস্ট্যান্স মুছে ফেলুন

আপনি যদি AlloyDB-এর ট্রায়াল সংস্করণ ব্যবহার করে থাকেন এবং সেই ট্রায়াল ক্লাস্টার ব্যবহার করে অন্যান্য ল্যাব ও রিসোর্স পরীক্ষা করার পরিকল্পনা থাকে, তাহলে সেটি ডিলিট করবেন না। আপনি একই প্রজেক্টে আরেকটি ট্রায়াল ক্লাস্টার তৈরি করতে পারবেন না।

`force` অপশনটির মাধ্যমে ক্লাস্টারটি ধ্বংস করা হয়, যা ক্লাস্টারের অন্তর্গত সমস্ত ইনস্ট্যান্সকেও মুছে দেয়।

যদি আপনার সংযোগ বিচ্ছিন্ন হয়ে যায় এবং পূর্বের সমস্ত সেটিংস হারিয়ে যায়, তাহলে ক্লাউড শেলে প্রজেক্ট এবং এনভায়রনমেন্ট ভেরিয়েবলগুলো নির্ধারণ করুন:

gcloud config set project <your project id>
export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search
export PROJECT_ID=$(gcloud config get-value project)

ক্লাস্টারটি মুছে ফেলুন:

gcloud alloydb clusters delete $ADBCLUSTER --region=$REGION --force

প্রত্যাশিত কনসোল আউটপুট:

student@cloudshell:~ (test-project-001-402417)$ gcloud alloydb clusters delete $ADBCLUSTER --region=$REGION --force
All of the cluster data will be lost when the cluster is deleted.

Do you want to continue (Y/n)?  Y

Operation ID: operation-1697820178429-6082890a0b570-4a72f7e4-4c5df36f
Deleting cluster...done.   

AlloyDB ব্যাকআপগুলি মুছুন

ক্লাস্টারের সমস্ত AlloyDB ব্যাকআপ মুছে ফেলুন:

for i in $(gcloud alloydb backups list --filter="CLUSTER_NAME: projects/$PROJECT_ID/locations/$REGION/clusters/$ADBCLUSTER" --format="value(name)" --sort-by=~createTime) ; do gcloud alloydb backups delete $(basename $i) --region $REGION --quiet; done

প্রত্যাশিত কনসোল আউটপুট:

student@cloudshell:~ (test-project-001-402417)$ for i in $(gcloud alloydb backups list --filter="CLUSTER_NAME: projects/$PROJECT_ID/locations/$REGION/clusters/$ADBCLUSTER" --format="value(name)" --sort-by=~createTime) ; do gcloud alloydb backups delete $(basename $i) --region $REGION --quiet; done
Operation ID: operation-1697826266108-60829fb7b5258-7f99dc0b-99f3c35f
Deleting backup...done.                                                                                                                                                                                                                                                            

এখন আমরা আমাদের ভিএম ধ্বংস করতে পারি

GCE VM মুছে ফেলুন

ক্লাউড শেলে চালান:

export GCEVM=instance-1
export ZONE=us-central1-a
gcloud compute instances delete $GCEVM \
    --zone=$ZONE \
    --quiet

প্রত্যাশিত কনসোল আউটপুট:

student@cloudshell:~ (test-project-001-402417)$ export GCEVM=instance-1
export ZONE=us-central1-a
gcloud compute instances delete $GCEVM \
    --zone=$ZONE \
    --quiet
Deleted

১২. অভিনন্দন

কোডল্যাবটি সম্পন্ন করার জন্য অভিনন্দন।

আমরা যা আলোচনা করেছি

  • AlloyDB ক্লাস্টার এবং প্রাইমারি ইনস্ট্যান্স কীভাবে স্থাপন করবেন
  • গুগল কম্পিউট ইঞ্জিন ভিএম থেকে অ্যালয়ডিবি-তে কীভাবে সংযোগ করবেন
  • কীভাবে ডাটাবেস তৈরি করবেন এবং AlloyDB AI সক্রিয় করবেন
  • ডাটাবেসে ডেটা লোড করার পদ্ধতি
  • AlloyDB Studio কীভাবে ব্যবহার করবেন
  • ভার্টেক্স এআই দিয়ে এমবেডিং তৈরি করুন
  • ভেক্টর সার্চকে উন্নত করতে কীভাবে একটি ScanN ভেক্টর ইনডেক্স তৈরি করবেন
  • পূর্ণ-পাঠ্য অনুসন্ধানের জন্য RUM এক্সটেনশনটি কীভাবে সক্রিয় এবং ব্যবহার করবেন
  • পূর্ণ-পাঠ্য অনুসন্ধান, ভেক্টর অনুসন্ধান এবং পারস্পরিক র‍্যাঙ্ক ফিউশন (RRF) এর সমন্বয়ে হাইব্রিড অনুসন্ধান সম্পাদন করুন।