תחילת העבודה עם הטמעות Vector באמצעות AlloyDB AI

1. מבוא

ב-Codelab הזה תלמדו איך להשתמש ב- AlloyDB AI על ידי שילוב של חיפוש וקטורי עם הטמעות של Vertex AI.

17e86406ab251142.png

דרישות מוקדמות

  • הבנה בסיסית של Google Cloud, מסוף
  • מיומנויות בסיסיות בממשק שורת הפקודה ובמעטפת של Google

מה תלמדו

  • איך פורסים את אשכול AlloyDB ואת המכונה הראשית
  • איך מתחברים למכונה הווירטואלית AlloyDB של Google Compute Engine
  • איך יוצרים מסד נתונים ומפעילים את AlloyDB AI
  • איך לטעון נתונים למסד הנתונים
  • איך משתמשים במודל ההטמעה של Vertex AI ב- AlloyDB
  • איך להעשיר את התוצאה באמצעות מודל גנרטיבי של Vertex AI

מה צריך להכין

  • חשבון Google Cloud ופרויקט ב-Google Cloud
  • דפדפן אינטרנט כמו Chrome

2. הגדרה ודרישות

הגדרת סביבה בקצב עצמאי

  1. נכנסים למסוף Google Cloud ויוצרים פרויקט חדש או עושים שימוש חוזר בפרויקט קיים. אם אין לכם עדיין חשבון Gmail או חשבון Google Workspace, עליכם ליצור חשבון.

fbef9caa1602edd0.png

a99b7ace416376c4.png

5e3ff691252acf41.png

  • Project name הוא השם המוצג של המשתתפים בפרויקט. זו מחרוזת תווים שלא משמשת את Google APIs. תמיד אפשר לעדכן.
  • Project ID הוא ייחודי בכל הפרויקטים ב-Google Cloud ואי אפשר לשנות אותו (אי אפשר לשנות אותו אחרי שמגדירים אותו). מסוף Cloud יוצר מחרוזת ייחודית באופן אוטומטי; בדרך כלל לא מעניין אותך מה זה. ברוב ה-codelabs תצטרכו להפנות למזהה הפרויקט שלכם (בדרך כלל מזוהה כ-PROJECT_ID). אם המזהה שנוצר לא מוצא חן בעיניכם, אתם יכולים ליצור מזהה אקראי אחר. לחלופין, אפשר לנסות שם משלך ולראות אם הוא זמין. לא ניתן לשנות אותו אחרי השלב הזה, והוא נשאר למשך הפרויקט.
  • לידיעתך, יש ערך שלישי, Project Number, שבו משתמשים בחלק מממשקי ה-API. מידע נוסף על כל שלושת הערכים האלה זמין במסמכי התיעוד.
  1. בשלב הבא צריך להפעיל את החיוב במסוף Cloud כדי להשתמש במשאבים או בממשקי API של Cloud. מעבר ב-Codelab הזה לא יעלה הרבה כסף, אם בכלל. כדי להשבית משאבים ולא לצבור חיובים מעבר למדריך הזה, אתם יכולים למחוק את המשאבים שיצרתם או למחוק את הפרויקט. משתמשים חדשים ב-Google Cloud זכאים להשתתף בתוכנית תקופת ניסיון בחינם בשווי 1,200 ש"ח.

הפעלת Cloud Shell

אומנם אפשר להפעיל את Google Cloud מרחוק מהמחשב הנייד, אבל ב-Codelab הזה משתמשים ב-Google Cloud Shell, סביבת שורת הפקודה שפועלת ב-Cloud.

במסוף Google Cloud, לוחצים על הסמל של Cloud Shell בסרגל הכלים שבפינה השמאלית העליונה:

55efc1aaa7a4d3ad.png

נדרשים רק כמה דקות כדי להקצות את הסביבה ולהתחבר אליה. בסיום התהליך, אתם אמורים לראות משהו כזה:

7ffe5cbb04455448.png

למכונה הווירטואלית הזו נטען כל כלי הפיתוח הדרושים. יש בה ספריית בית בנפח מתמיד של 5GB והיא פועלת ב-Google Cloud, מה שמשפר משמעותית את ביצועי הרשת והאימות. כל העבודה ב-Codelab הזה יכולה להתבצע בתוך דפדפן. אתה לא צריך להתקין שום דבר.

3. לפני שמתחילים

להפעלת ה-API

פלט:

ב-Inside Cloud Shell, מוודאים שמזהה הפרויקט מוגדר:

gcloud config set project [YOUR-PROJECT-ID]

מגדירים את משתנה הסביבה PROJECT_ID:

PROJECT_ID=$(gcloud config get-value project)

מפעילים את כל השירותים הנחוצים:

gcloud services enable alloydb.googleapis.com \
                       compute.googleapis.com \
                       cloudresourcemanager.googleapis.com \
                       servicenetworking.googleapis.com \
                       aiplatform.googleapis.com

הפלט הצפוי:

student@cloudshell:~ (test-project-001-402417)$ gcloud config set project test-project-001-402417
Updated property [core/project].
student@cloudshell:~ (test-project-001-402417)$ PROJECT_ID=$(gcloud config get-value project)
Your active configuration is: [cloudshell-14650]
student@cloudshell:~ (test-project-001-402417)$ 
student@cloudshell:~ (test-project-001-402417)$ gcloud services enable alloydb.googleapis.com \
                       compute.googleapis.com \
                       cloudresourcemanager.googleapis.com \
                       servicenetworking.googleapis.com \
                       aiplatform.googleapis.com
Operation "operations/acat.p2-4470404856-1f44ebd8-894e-4356-bea7-b84165a57442" finished successfully.

צריך להגדיר את האזור שמוגדר כברירת המחדל לשימוש במודלים של הטמעה של Vertex AI. מידע נוסף על מיקומים זמינים של Vertex AI בדוגמה הזו אנחנו משתמשים באזור us-central1.

gcloud config set compute/region us-central1

4. פריסה של AlloyDB

כדי ליצור אשכול AlloyDB, אנחנו צריכים טווח IP פרטי זמין ב-VPC שלנו, שישמש את מכונת AlloyDB העתיד. אם אין לנו אותו, עלינו ליצור אותו, להקצות אותו לשימוש של שירותי Google פנימיים ולאחר מכן נוכל ליצור את האשכול ואת המכונה.

יצירת טווח כתובות IP פרטי

אנחנו צריכים להגדיר את הגישה לשירות פרטי ב-VPC שלנו עבור AlloyDB. ההנחה כאן היא שיש לנו את 'ברירת המחדל' רשת ה-VPC בפרויקט ותשתמש בה לכל הפעולות.

יוצרים את טווח ה-IP הפרטי:

gcloud compute addresses create psa-range \
    --global \
    --purpose=VPC_PEERING \
    --prefix-length=24 \
    --description="VPC private service access" \
    --network=default

יצירת חיבור פרטי באמצעות טווח ה-IP שהוקצה:

gcloud services vpc-peerings connect \
    --service=servicenetworking.googleapis.com \
    --ranges=psa-range \
    --network=default

הפלט הצפוי של המסוף:

student@cloudshell:~ (test-project-402417)$ gcloud compute addresses create psa-range \
    --global \
    --purpose=VPC_PEERING \
    --prefix-length=24 \
    --description="VPC private service access" \
    --network=default
Created [https://www.googleapis.com/compute/v1/projects/test-project-402417/global/addresses/psa-range].

student@cloudshell:~ (test-project-402417)$ gcloud services vpc-peerings connect \
    --service=servicenetworking.googleapis.com \
    --ranges=psa-range \
    --network=default
Operation "operations/pssn.p24-4470404856-595e209f-19b7-4669-8a71-cbd45de8ba66" finished successfully.

student@cloudshell:~ (test-project-402417)$

יצירת אשכול AlloyDB

יוצרים אשכול AlloyDB באזור us-central1.

הגדרת סיסמה למשתמש שמפרסם פוסט. אתם יכולים להגדיר סיסמה משלכם או להשתמש בפונקציה אקראית כדי ליצור אותה

export PGPASSWORD=`openssl rand -hex 12`

הפלט הצפוי של המסוף:

student@cloudshell:~ (test-project-402417)$ export PGPASSWORD=`openssl rand -hex 12`

חשוב לשים לב לסיסמה של PostgreSQL לשימוש עתידי:

echo $PGPASSWORD

הפלט הצפוי של המסוף:

student@cloudshell:~ (test-project-402417)$ echo $PGPASSWORD
bbefbfde7601985b0dee5723

הגדרת האזור והשם של אשכול AlloyDB. אנחנו נשתמש באזור us-central1 וב-alloydb-aip-01 בתור שם האשכול:

export REGION=us-central1
export ADBCLUSTER=alloydb-aip-01

מריצים את הפקודה כדי ליצור את האשכול:

gcloud alloydb clusters create $ADBCLUSTER \
    --password=$PGPASSWORD \
    --network=default \
    --region=$REGION

הפלט הצפוי של המסוף:

export REGION=us-central1
export ADBCLUSTER=alloydb-aip-01
gcloud alloydb clusters create $ADBCLUSTER \
    --password=$PGPASSWORD \
    --network=default \
    --region=$REGION
Operation ID: operation-1697655441138-6080235852277-9e7f04f5-2012fce4
Creating cluster...done.                                                                                                                                                                                                                                                           

יצירת מכונה ראשית של AlloyDB

יוצרים מכונה ראשית מסוג AlloyDB לאשכול שלנו באותו סשן של Cloud Shell. אם אתם מנותקים, תצטרכו להגדיר שוב את משתני הסביבה של שמות האזור והאשכול.

gcloud alloydb instances create $ADBCLUSTER-pr \
    --instance-type=PRIMARY \
    --cpu-count=2 \
    --region=$REGION \
    --cluster=$ADBCLUSTER

הפלט הצפוי של המסוף:

student@cloudshell:~ (test-project-402417)$ gcloud alloydb instances create $ADBCLUSTER-pr \
    --instance-type=PRIMARY \
    --cpu-count=2 \
    --region=$REGION \
    --availability-type ZONAL \
    --cluster=$ADBCLUSTER
Operation ID: operation-1697659203545-6080315c6e8ee-391805db-25852721
Creating instance...done.                                                                                                                                                                                                                                                     

5. חיבור אל AlloyDB

היישום של AlloyDB נפרס באמצעות חיבור פרטי בלבד, ולכן אנחנו זקוקים למכונה וירטואלית שמותקן בה לקוח PostgreSQL כדי לעבוד עם מסד הנתונים.

פריסת VM של GCE

יצירת מכונה וירטואלית ב-GCE באותו אזור ו-VPC שבו נמצא אשכול AlloyDB.

ב-Cloud Shell, מריצים את:

export ZONE=us-central1-a
gcloud compute instances create instance-1 \
    --zone=$ZONE \
    --create-disk=auto-delete=yes,boot=yes,image=projects/debian-cloud/global/images/$(gcloud compute images list --filter="family=debian-12 AND family!=debian-12-arm64" --format="value(name)") \
    --scopes=https://www.googleapis.com/auth/cloud-platform

הפלט הצפוי של המסוף:

student@cloudshell:~ (test-project-402417)$ export ZONE=us-central1-a
student@cloudshell:~ (test-project-402417)$ export ZONE=us-central1-a
gcloud compute instances create instance-1 \
    --zone=$ZONE \
    --create-disk=auto-delete=yes,boot=yes,image=projects/debian-cloud/global/images/$(gcloud compute images list --filter="family=debian-12 AND family!=debian-12-arm64" --format="value(name)") \
    --scopes=https://www.googleapis.com/auth/cloud-platform

Created [https://www.googleapis.com/compute/v1/projects/test-project-402417/zones/us-central1-a/instances/instance-1].
NAME: instance-1
ZONE: us-central1-a
MACHINE_TYPE: n1-standard-1
PREEMPTIBLE: 
INTERNAL_IP: 10.128.0.2
EXTERNAL_IP: 34.71.192.233
STATUS: RUNNING

לקוח Postgres

התקנת תוכנת הלקוח PostgreSQL במכונה הווירטואלית שנפרסה

מתחברים ל-VM:

gcloud compute ssh instance-1 --zone=us-central1-a

הפלט הצפוי של המסוף:

student@cloudshell:~ (test-project-402417)$ gcloud compute ssh instance-1 --zone=us-central1-a
Updating project ssh metadata...working..Updated [https://www.googleapis.com/compute/v1/projects/test-project-402417].                                                                                                                                                         
Updating project ssh metadata...done.                                                                                                                                                                                                                                              
Waiting for SSH key to propagate.
Warning: Permanently added 'compute.5110295539541121102' (ECDSA) to the list of known hosts.
Linux instance-1.us-central1-a.c.gleb-test-short-001-418811.internal 6.1.0-18-cloud-amd64 #1 SMP PREEMPT_DYNAMIC Debian 6.1.76-1 (2024-02-01) x86_64

The programs included with the Debian GNU/Linux system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.

Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent
permitted by applicable law.
student@instance-1:~$ 

מתקינים את התוכנה שמריצה בתוך ה-VM:

sudo apt-get update
sudo apt-get install --yes postgresql-client

הפלט הצפוי של המסוף:

student@instance-1:~$ sudo apt-get update
sudo apt-get install --yes postgresql-client
Get:1 https://packages.cloud.google.com/apt google-compute-engine-bullseye-stable InRelease [5146 B]
Get:2 https://packages.cloud.google.com/apt cloud-sdk-bullseye InRelease [6406 B]   
Hit:3 https://deb.debian.org/debian bullseye InRelease  
Get:4 https://deb.debian.org/debian-security bullseye-security InRelease [48.4 kB]
Get:5 https://packages.cloud.google.com/apt google-compute-engine-bullseye-stable/main amd64 Packages [1930 B]
Get:6 https://deb.debian.org/debian bullseye-updates InRelease [44.1 kB]
Get:7 https://deb.debian.org/debian bullseye-backports InRelease [49.0 kB]
...redacted...
update-alternatives: using /usr/share/postgresql/13/man/man1/psql.1.gz to provide /usr/share/man/man1/psql.1.gz (psql.1.gz) in auto mode
Setting up postgresql-client (13+225) ...
Processing triggers for man-db (2.9.4-2) ...
Processing triggers for libc-bin (2.31-13+deb11u7) ...

התחברות למכונה

מתחברים למכונה הראשית מה-VM באמצעות psql.

באותה כרטיסייה של Cloud Shell בסשן ה-SSH הפתוח למכונה הווירטואלית מסוג מופע 1.

כדי להתחבר אל AlloyDB מהמכונה הווירטואלית של GCE, משתמשים בסיסמה AlloyDB שצוינה (PGpassword) ובמזהה האשכול AlloyDB:

export PGPASSWORD=<Noted password>
export PROJECT_ID=$(gcloud config get-value project)
export REGION=us-central1
export ADBCLUSTER=alloydb-aip-01
export INSTANCE_IP=$(gcloud alloydb instances describe $ADBCLUSTER-pr --cluster=$ADBCLUSTER --region=$REGION --format="value(ipAddress)")
psql "host=$INSTANCE_IP user=postgres sslmode=require"

הפלט הצפוי של המסוף:

student@instance-1:~$ export PGPASSWORD=CQhOi5OygD4ps6ty
student@instance-1:~$ ADBCLUSTER=alloydb-aip-01
student@instance-1:~$ REGION=us-central1
student@instance-1:~$ INSTANCE_IP=$(gcloud alloydb instances describe $ADBCLUSTER-pr --cluster=$ADBCLUSTER --region=$REGION --format="value(ipAddress)")
gleb@instance-1:~$ psql "host=$INSTANCE_IP user=postgres sslmode=require"
psql (15.6 (Debian 15.6-0+deb12u1), server 15.5)
SSL connection (protocol: TLSv1.3, cipher: TLS_AES_256_GCM_SHA384, compression: off)
Type "help" for help.

postgres=>

סגירת הסשן של psql:

exit

6. הכנת מסד הנתונים

אנחנו צריכים ליצור מסד נתונים, להפעיל שילוב של Vertex AI, ליצור אובייקטים של מסד נתונים ולייבא את הנתונים.

הענקת ההרשאות הנדרשות ל- AlloyDB

מוסיפים הרשאות של Vertex AI לסוכן השירות של AlloyDB.

פותחים כרטיסייה נוספת ב-Cloud Shell באמצעות הסימן '+'. למעלה.

4ca978f5142bb6ce.png

בכרטיסייה החדשה של Cloud Shell, מריצים את הפקודה:

PROJECT_ID=$(gcloud config get-value project)
gcloud projects add-iam-policy-binding $PROJECT_ID \
  --member="serviceAccount:service-$(gcloud projects describe $PROJECT_ID --format="value(projectNumber)")@gcp-sa-alloydb.iam.gserviceaccount.com" \
  --role="roles/aiplatform.user"

הפלט הצפוי של המסוף:

student@cloudshell:~ (test-project-001-402417)$ PROJECT_ID=$(gcloud config get-value project)
Your active configuration is: [cloudshell-11039]
student@cloudshell:~ (test-project-001-402417)$ gcloud projects add-iam-policy-binding $PROJECT_ID \
  --member="serviceAccount:service-$(gcloud projects describe $PROJECT_ID --format="value(projectNumber)")@gcp-sa-alloydb.iam.gserviceaccount.com" \
  --role="roles/aiplatform.user"
Updated IAM policy for project [test-project-001-402417].
bindings:
- members:
  - serviceAccount:service-4470404856@gcp-sa-alloydb.iam.gserviceaccount.com
  role: roles/aiplatform.user
- members:
...
etag: BwYIEbe_Z3U=
version: 1
 

סגירת הכרטיסייה באמצעות פקודת הביצוע 'exit' בכרטיסייה:

exit

יצירת מסד נתונים

יצירת מדריך למתחילים למסד נתונים.

בסשן של ה-VM ב-GCE, מבצעים את הפעולות הבאות:

יצירת מסד נתונים:

psql "host=$INSTANCE_IP user=postgres" -c "CREATE DATABASE quickstart_db"

הפלט הצפוי של המסוף:

student@instance-1:~$ psql "host=$INSTANCE_IP user=postgres" -c "CREATE DATABASE quickstart_db"
CREATE DATABASE
student@instance-1:~$  

הפעלת שילוב Vertex AI

להפעיל את השילוב של Vertex AI ואת התוספים של pgvector במסד הנתונים.

ב-GCE VM מריצים:

psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "CREATE EXTENSION IF NOT EXISTS google_ml_integration CASCADE"
psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "CREATE EXTENSION IF NOT EXISTS vector"

הפלט הצפוי של המסוף:

student@instance-1:~$ psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "CREATE EXTENSION IF NOT EXISTS google_ml_integration CASCADE"
psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "CREATE EXTENSION IF NOT EXISTS vector"
CREATE EXTENSION
CREATE EXTENSION
student@instance-1:~$ 

ייבוא נתונים

מורידים את הנתונים המוכנים ומייבאים אותם למסד הנתונים החדש.

ב-GCE VM מריצים:

gsutil cat gs://cloud-training/gcc/gcc-tech-004/cymbal_demo_schema.sql |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db"
gsutil cat gs://cloud-training/gcc/gcc-tech-004/cymbal_products.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_products from stdin csv header"
gsutil cat gs://cloud-training/gcc/gcc-tech-004/cymbal_inventory.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_inventory from stdin csv header"
gsutil cat gs://cloud-training/gcc/gcc-tech-004/cymbal_stores.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_stores from stdin csv header"

הפלט הצפוי של המסוף:

student@instance-1:~$ gsutil cat gs://cloud-training/gcc/gcc-tech-004/cymbal_demo_schema.sql |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db"
SET
SET
SET
SET
SET
 set_config 
------------
 
(1 row)
SET
SET
SET
SET
SET
SET
CREATE TABLE
ALTER TABLE
CREATE TABLE
ALTER TABLE
CREATE TABLE
ALTER TABLE
CREATE TABLE
ALTER TABLE
CREATE SEQUENCE
ALTER TABLE
ALTER SEQUENCE
ALTER TABLE
ALTER TABLE
ALTER TABLE
student@instance-1:~$ gsutil cat gs://cloud-training/gcc/gcc-tech-004/cymbal_products.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_products from stdin csv header"
COPY 941
student@instance-1:~$ gsutil cat gs://cloud-training/gcc/gcc-tech-004/cymbal_inventory.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_inventory from stdin csv header"
COPY 263861
student@instance-1:~$ gsutil cat gs://cloud-training/gcc/gcc-tech-004/cymbal_stores.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_stores from stdin csv header"
COPY 4654
student@instance-1:~$

7. חישוב הטמעות

אחרי שייבאתם את הנתונים קיבלנו את נתוני המוצרים שלנו לטבלה cymbal_products, מלאי שמציג את מספר המוצרים הזמינים בכל חנות בטבלה cymbal_inventory ואת רשימת החנויות בטבלה cymbal_stores. אנחנו צריכים לחשב את נתוני הווקטורים על סמך תיאורים של המוצרים שלנו, ואנחנו נשתמש בפונקציה embedding לשם כך. באמצעות הפונקציה נשתמש בשילוב של Vertex AI כדי לחשב נתוני וקטורים על סמך תיאורי המוצרים שלנו ולהוסיף אותם לטבלה. מידע נוסף על הטכנולוגיה שבה אתם משתמשים זמין במסמכי התיעוד.

יצירת עמודת הטמעה

מחברים את הנתונים למסד הנתונים באמצעות psql ויוצרים עמודה וירטואלית עם נתוני הווקטור באמצעות פונקציית ההטמעה בטבלה cymbal_products. פונקציית ההטמעה מחזירה נתוני וקטורים מ-Vertex AI על סמך הנתונים שסופקו מהעמודה product_description.

psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db"

בסשן של psql אחרי שמתחברים למסד הנתונים:

ALTER TABLE cymbal_products ADD COLUMN embedding vector GENERATED ALWAYS AS (embedding('text-embedding-004',product_description)) STORED;

הפקודה תיצור את העמודה הווירטואלית ותאכלס אותה בנתוני וקטורים.

הפלט הצפוי של המסוף:

student@instance-1:~$ psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db"
psql (13.11 (Debian 13.11-0+deb11u1), server 14.7)
WARNING: psql major version 13, server major version 14.
         Some psql features might not work.
SSL connection (protocol: TLSv1.3, cipher: TLS_AES_256_GCM_SHA384, bits: 256, compression: off)
Type "help" for help.

quickstart_db=> ALTER TABLE cymbal_products ADD COLUMN embedding vector GENERATED ALWAYS AS (embedding('text-embedding-004',product_description)) STORED;
ALTER TABLE
quickstart_db=> 

8. הפעלה של חיפוש פריטים דומים

עכשיו אנחנו יכולים להריץ את החיפוש שלנו באמצעות חיפוש דמיון, על סמך ערכי וקטורים שמחושבים לתיאורים ולפי ערך הווקטור שאנחנו מקבלים לבקשה שלנו.

אפשר להריץ את שאילתת ה-SQL מאותו ממשק שורת פקודה של psql, או לחלופין מ- AlloyDB Studio. כל פלט מרובה שורות או מורכב עשויים להיראות טוב יותר ב- AlloyDB Studio.

התחברות אל AlloyDB Studio

בפרקים הבאים אפשר לבצע את כל פקודות ה-SQL שמחייבות חיבור למסד הנתונים, ב- AlloyDB Studio. כדי להריץ את הפקודה, צריך לפתוח את ממשק מסוף האינטרנט של אשכול AlloyDB על ידי לחיצה על המכונה הראשית.

ef4bfbcf0ed2ef3a.png

לאחר מכן לוחצים על AlloyDB Studio מימין:

5c155cbcd7d43a1.png

בוחרים את מסד הנתונים Quickstart_db, את הדיווחים של המשתמשים ומזינים את הסיסמה שצוינה כשיצרתם את האשכול. לאחר מכן לוחצים על 'אימות' לחצן.

432613065cac864f.png

הפעולה הזו תפתח את הממשק של AlloyDB Studio. כדי להריץ את הפקודות במסד הנתונים, לוחצים על "עורך 1" משמאל.

b36c28f8165119ca.png

נפתח ממשק שבו אפשר להריץ פקודות SQL

cf43aa20f292797e.png

אם אתם מעדיפים להשתמש ב-psql בשורת הפקודה, פועלים לפי המסלול החלופי ומתחברים למסד הנתונים מסשן ה-VM SSH כפי שמתואר בפרקים הקודמים.

הפעלת חיפוש דומה מ-psql

אם הסשן של מסד הנתונים נותק, צריך להתחבר למסד הנתונים שוב באמצעות psql או AlloyDB Studio.

מתחברים למסד הנתונים:

psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db"

מריצים שאילתה כדי לקבל רשימה של המוצרים הזמינים שהכי קשורים לבקשה של הלקוח. הבקשה שנעביר ל-Vertex AI כדי לקבל את ערך הווקטור, נשמעת כמו "איזה סוג של עצי פירות צומחים כאן בצורה טובה?"

זו השאילתה שאפשר להריץ כדי לבחור את 10 הפריטים הראשונים שהכי מתאימים לבקשה שלנו:

SELECT
        cp.product_name,
        left(cp.product_description,80) as description,
        cp.sale_price,
        cs.zip_code,
        (cp.embedding <=> embedding('text-embedding-004','What kind of fruit trees grow well here?')::vector) as distance
FROM
        cymbal_products cp
JOIN cymbal_inventory ci on
        ci.uniq_id=cp.uniq_id
JOIN cymbal_stores cs on
        cs.store_id=ci.store_id
        AND ci.inventory>0
        AND cs.store_id = 1583
ORDER BY
        distance ASC
LIMIT 10;

וזה הפלט הצפוי:

quickstart_db=> SELECT
        cp.product_name,
        left(cp.product_description,80) as description,
        cp.sale_price,
        cs.zip_code,
        (cp.embedding <=> embedding('text-embedding-004','What kind of fruit trees grow well here?')::vector) as distance
FROM
        cymbal_products cp
JOIN cymbal_inventory ci on
        ci.uniq_id=cp.uniq_id
JOIN cymbal_stores cs on
        cs.store_id=ci.store_id
        AND ci.inventory>0
        AND cs.store_id = 1583
ORDER BY
        distance ASC
LIMIT 10;
    product_name     |                                   description                                    | sale_price | zip_code |      distance       
---------------------+----------------------------------------------------------------------------------+------------+----------+---------------------
 Cherry Tree         | This is a beautiful cherry tree that will produce delicious cherries. It is an d |      75.00 |    93230 |   0.287184013172779
 Toyon               | This is a beautiful toyon tree that can grow to be over 20 feet tall. It is an e |      10.00 |    93230 | 0.30574073611569963
 Secateurs           | These secateurs are perfect for pruning small branches and vines.                |      15.00 |    93230 |  0.3264385326189635
 Trimming Shears     | These trimming shears are perfect for trimming hedges and bushes.                |      20.00 |    93230 | 0.33293036535756393
 Cypress Tree        | This is a beautiful cypress tree that will provide shade and privacy. It is an e |      75.00 |    93230 | 0.33485770716129326
 Madrone             | This is a beautiful madrona tree that can grow to be over 80 feet tall. It is an |      50.00 |    93230 |  0.3354408801293012
 California Redwood  | This is a beautiful redwood tree that can grow to be over 300 feet tall. It is a |    1000.00 |    93230 |  0.3427243109636263
 California Lilac    | This is a beautiful lilac tree that can grow to be over 10 feet tall. It is an d |       5.00 |    93230 |  0.3427628377929176
 California Sycamore | This is a beautiful sycamore tree that can grow to be over 100 feet tall. It is  |     300.00 |    93230 |  0.3430208475356905
 Maple Tree          | This is a beautiful maple tree that will produce colorful leaves in the fall. It |     100.00 |    93230 |  0.3432609589330091
(10 rows)

quickstart_db=> 

9. שיפור התשובה

אתם יכולים לשפר את התשובה לאפליקציית לקוח באמצעות התוצאה של השאילתה ולהכין פלט משמעותי באמצעות תוצאות השאילתה שסופקו כחלק מההנחיה של מודל השפה הגנרטיבית של Vertex AI.

כדי לעשות זאת, אנחנו מתכננים ליצור קובץ JSON עם התוצאות שלנו מהחיפוש הווקטורי, ולהשתמש ב-JSON שנוצר בנוסף להנחיה ליצירת מודל LLM ב-Vertex AI כדי ליצור פלט משמעותי. בשלב הראשון אנחנו יוצרים את ה-JSON, לאחר מכן בודקים אותו ב-Vertex AI Studio ובשלב האחרון משלבים אותו בהצהרת SQL שאפשר להשתמש בה באפליקציה.

יצירת פלט בפורמט JSON

משנים את השאילתה כדי ליצור את הפלט בפורמט JSON ולהחזיר רק שורה אחת שיועבר אל Vertex AI

זאת דוגמה לשאילתה:

WITH trees as (
SELECT
        cp.product_name,
        left(cp.product_description,80) as description,
        cp.sale_price,
        cs.zip_code,
        cp.uniq_id as product_id
FROM
        cymbal_products cp
JOIN cymbal_inventory ci on
        ci.uniq_id=cp.uniq_id
JOIN cymbal_stores cs on
        cs.store_id=ci.store_id
        AND ci.inventory>0
        AND cs.store_id = 1583
ORDER BY
        (cp.embedding <=> embedding('text-embedding-004','What kind of fruit trees grow well here?')::vector) ASC
LIMIT 1)
SELECT json_agg(trees) FROM trees;

זהו ה-JSON הצפוי בפלט:

[{"product_name":"Cherry Tree","description":"This is a beautiful cherry tree that will produce delicious cherries. It is an d","sale_price":75.00,"zip_code":93230,"product_id":"d536e9e823296a2eba198e52dd23e712"}]

הרצת ההנחיה ב-Vertex AI Studio

אנחנו יכולים להשתמש ב-JSON שנוצר כדי לספק אותו כחלק מההנחיה למודל טקסט של בינה מלאכותית גנרטיבית ב-Vertex AI Studio

פותחים את Vertex AI Studio במסוף Cloud.

e514b176aef7945e.png

54712e5ade7121f.png

יכול להיות שתתבקשו להפעיל ממשקי API נוספים, אבל אתם יכולים להתעלם מהבקשה. אנחנו לא צריכים ממשקי API נוספים כדי לסיים את שיעור ה-Lab.

הנה ההנחיה שבה נשתמש:

רוצה לעזור לנו למצוא מוצר שמתאים לצורכי הלקוח?

בהתאם לבקשת הלקוח, טענו רשימה של מוצרים שקשורים מאוד לחיפוש.

הרשימה בפורמט JSON עם רשימת ערכים כמו {"product_name":"name","description":"some description","sale_price":10,"zip_code": 10234, "produt_id": "02056727942aeb714dc9a2313654e1b0"}

זו רשימת המוצרים:

[המקום של קובץ ה-JSON]

הלקוח שאל "איזה עץ גדל הכי טוב כאן?"

צריך לספק מידע על המוצר והמחיר, כולל מידע משלים נוסף. כהנחיה

כך אנחנו מריצים את ההנחיה עם ערכי ה-JSON ומשתמשים במודל gemini-1.5-Flash:

30e5072cd2975685.png

התשובה שקיבלנו מהמודל בדוגמה הזו בהמשך. שימו לב שהתשובה עשויה להיות שונה, בגלל שינויים במודל ובפרמטרים במשך הזמן:

"אני רואה שדרוש לך עץ שמשגשג באזור שלך. לפי המיקוד שלך, 93230, עץ הדובדבן נראה אופציה נהדרת!

הוא מתואר כעץ יפהפה שמייצר דובדבנים טעימים. המוצר מוצע כרגע במחיר של 300 ש"ח.

אין לי פרטים ספציפיים על קצב הגידול שלו באזור שלך, אבל אוכל לומר לך שעצי דובדבן בדרך כלל מעדיפים קרקע ניקוז היטב ושמש מלאה.

כדי להשיג את התוצאות הטובות ביותר, מומלץ להתייעץ עם משתלות או מומחים לגינון שיכולים לתת לך ייעוץ מותאם יותר למיקום הספציפי שלך ולתנאי הקרקע. הם גם יכולים לעזור לכם לבחור את המגוון הטוב ביותר שמתאים לצרכים שלכם, ולהציע טיפים לגבי שתילה וטיפול."

הרצת ההנחיה ב-PSQL

אנחנו יכולים להשתמש בשילוב של AlloyDB AI עם Vertex AI כדי לקבל את אותה התשובה ממודל גנרטיבי באמצעות SQL ישירות במסד הנתונים. אבל כדי להשתמש במודל gemini-1.5-Flash, עלינו לרשום אותו תחילה.

משדרגים את התוסף לגרסה 1.3. מתחברים למסד הנתונים של Quickstart_db מ-pSQL כפי שהוא הוצג בעבר (או משתמשים ב- AlloyDB Studio) ומבצעים את הפעולות הבאות:

ALTER EXTENSION google_ml_integration UPDATE TO '1.3'

לאחר מכן עלינו להגדיר את google_ml_integration.enable_model_support לסימון של מסד הנתונים בתור 'מופעל'. כדי לבצע זאת, אפשר להשתמש בממשק של מסוף האינטרנט AlloyDB או להריץ את הפקודה הבאה ב-gcloud.

PROJECT_ID=$(gcloud config get-value project)
REGION=us-central1
ADBCLUSTER=alloydb-aip-01
gcloud beta alloydb instances update $ADBCLUSTER-pr \
  --database-flags google_ml_integration.enable_model_support=on \
  --region=$REGION \
  --cluster=$ADBCLUSTER \
  --project=$PROJECT_ID \
  --update-mode=FORCE_APPLY

הרצת הפקודה ברקע נמשכת כ-3 עד 5 דקות. לאחר מכן תוכלו לאמת את הדגל החדש בסשן של psql או באמצעות AlloyDB Studio שמתחבר למסד הנתונים Quickstart_db.

show google_ml_integration.enable_model_support;

הפלט הצפוי מהסשן של psql הוא 'מופעל':

postgres=> show google_ml_integration.enable_model_support;
 google_ml_integration.enable_model_support 
--------------------------------------------
 on
(1 row)

לאחר מכן אנחנו צריכים לרשום שני מודלים. המודל הראשון הוא המודל text-embedding-004 שכבר נמצא בשימוש. צריך לרשום אותו כי הפעלנו את היכולות לרישום המודל.

כדי לרשום את המודל שרץ ב-psql או ב- AlloyDB Studio, צריך להוסיף את הקוד הבא:

CALL
  google_ml.create_model(
    model_id => 'text-embedding-004',
    model_provider => 'google',
    model_qualified_name => 'text-embedding-004',
    model_type => 'text_embedding',
    model_auth_type => 'alloydb_service_agent_iam',
    model_in_transform_fn => 'google_ml.vertexai_text_embedding_input_transform',
    model_out_transform_fn => 'google_ml.vertexai_text_embedding_output_transform');

המודל הבא שנצטרך לרשום הוא gemini-1.5-flash-001, שישמש ליצירת הפלט הידידותי למשתמש.

CALL
  google_ml.create_model(
    model_id => 'gemini-1.5-flash-001',
    model_request_url => 'https://$REGION-aiplatform.googleapis.com/v1/projects/$PROJECT_ID/locations/$REGION/publishers/google/models/gemini-1.5-flash-001:streamGenerateContent',
    model_provider => 'google',
    model_auth_type => 'alloydb_service_agent_iam');

תמיד אפשר לאמת את רשימת המודלים הרשומים על ידי בחירת מידע מ-google_ml.model_info_view.

select model_id,model_type from google_ml.model_info_view;

הנה פלט לדוגמה

quickstart_db=> select model_id,model_type from google_ml.model_info_view;
        model_id         |   model_type   
-------------------------+----------------
 textembedding-gecko     | text_embedding
 textembedding-gecko@001 | text_embedding
 text-embedding-004      | text_embedding
 gemini-1.5-flash-001    | generic
(4 rows)

עכשיו אנחנו יכולים להשתמש ב-JSON שנוצר בשאילתת משנה כדי לספק אותו כחלק מההנחיה שנשלחת למודל טקסט של בינה מלאכותית גנרטיבית באמצעות SQL.

בסשן של psql או AlloyDB Studio למסד הנתונים, מריצים את השאילתה

WITH trees AS (
SELECT
        cp.product_name,
        cp.product_description AS description,
        cp.sale_price,
        cs.zip_code,
        cp.uniq_id AS product_id
FROM
        cymbal_products cp
JOIN cymbal_inventory ci ON
        ci.uniq_id = cp.uniq_id
JOIN cymbal_stores cs ON
        cs.store_id = ci.store_id
        AND ci.inventory>0
        AND cs.store_id = 1583
ORDER BY
        (cp.embedding <=> embedding('text-embedding-004',
        'What kind of fruit trees grow well here?')::vector) ASC
LIMIT 1),
prompt AS (
SELECT
        'You are a friendly advisor helping to find a product based on the customer''s needs.
Based on the client request we have loaded a list of products closely related to search.
The list in JSON format with list of values like {"product_name":"name","product_description":"some description","sale_price":10}
Here is the list of products:' || json_agg(trees) || 'The customer asked "What kind of fruit trees grow well here?"
You should give information about the product, price and some supplemental information' AS prompt_text
FROM
        trees),
response AS (
SELECT
        json_array_elements(google_ml.predict_row( model_id =>'gemini-1.5-flash-001',
        request_body => json_build_object('contents',
        json_build_object('role',
        'user',
        'parts',
        json_build_object('text',
        prompt_text)))))->'candidates'->0->'content'->'parts'->0->'text' AS resp
FROM
        prompt)
SELECT
        string_agg(resp::text,
        ' ')
FROM
        response;

וזהו הפלט הצפוי. הפלט עשוי להשתנות בהתאם לגרסת המודל ולפרמטרים של המודל.

--------------------------------------------------------------------------------------------------------
 "I" " see you're interested in fruit trees! Based on your location, I found" " one great option:\n\n**Cherry Tree:** \n\nThis beautiful cherry tree will" " produce delicious cherries. It's a deciduous tree, meaning it loses its leaves in the fall, and can grow up to 15 feet tall. The" " leaves are a vibrant dark green in the summer, turning a beautiful red in the fall. \n\nCherry trees are known for their beauty and ability to provide shade" " and privacy. They prefer a cool, moist climate and sandy soil, making them a good fit for your area. \n\nThe Cherry Tree is currently on sale for $75.00.\n\nWould you like to know more about" " the Cherry Tree, or are you interested in exploring other fruit tree options? \n" ""
(1 row)

10. ניקוי הסביבה

להשמיד את המכונות והאשכולות של AlloyDB בסיום שיעור ה-Lab

מחיקת אשכול AlloyDB וכל המופעים

האשכול מושמד באמצעות כוח אופציונלי שמוחק גם את כל המכונות ששייכות לאשכול.

ב-Cloud Shell, מגדירים את משתני הפרויקט והסביבה אם נותקתם וכל ההגדרות הקודמות אבדו:

gcloud config set project <your project id>
export REGION=us-central1
export ADBCLUSTER=alloydb-aip-01
export PROJECT_ID=$(gcloud config get-value project)

מוחקים את האשכול:

gcloud alloydb clusters delete $ADBCLUSTER --region=$REGION --force

הפלט הצפוי של המסוף:

student@cloudshell:~ (test-project-001-402417)$ gcloud alloydb clusters delete $ADBCLUSTER --region=$REGION --force
All of the cluster data will be lost when the cluster is deleted.

Do you want to continue (Y/n)?  Y

Operation ID: operation-1697820178429-6082890a0b570-4a72f7e4-4c5df36f
Deleting cluster...done.   

מחיקת הגיבויים של AlloyDB

מוחקים את כל הגיבויים של AlloyDB לאשכול:

for i in $(gcloud alloydb backups list --filter="CLUSTER_NAME: projects/$PROJECT_ID/locations/$REGION/clusters/$ADBCLUSTER" --format="value(name)" --sort-by=~createTime) ; do gcloud alloydb backups delete $(basename $i) --region $REGION --quiet; done

הפלט הצפוי של המסוף:

student@cloudshell:~ (test-project-001-402417)$ for i in $(gcloud alloydb backups list --filter="CLUSTER_NAME: projects/$PROJECT_ID/locations/$REGION/clusters/$ADBCLUSTER" --format="value(name)" --sort-by=~createTime) ; do gcloud alloydb backups delete $(basename $i) --region $REGION --quiet; done
Operation ID: operation-1697826266108-60829fb7b5258-7f99dc0b-99f3c35f
Deleting backup...done.                                                                                                                                                                                                                                                            

עכשיו אפשר להשמיד את ה-VM שלנו

מחיקת VM של GCE

ב-Cloud Shell, מריצים את:

export GCEVM=instance-1
export ZONE=us-central1-a
gcloud compute instances delete $GCEVM \
    --zone=$ZONE \
    --quiet

הפלט הצפוי של המסוף:

student@cloudshell:~ (test-project-001-402417)$ export GCEVM=instance-1
export ZONE=us-central1-a
gcloud compute instances delete $GCEVM \
    --zone=$ZONE \
    --quiet
Deleted 

11. מזל טוב

ברכות על השלמת ה-Codelab.

אילו נושאים דיברנו?

  • איך פורסים את אשכול AlloyDB ואת המכונה הראשית
  • איך מתחברים למכונה הווירטואלית AlloyDB של Google Compute Engine
  • איך יוצרים מסד נתונים ומפעילים את AlloyDB AI
  • איך לטעון נתונים למסד הנתונים
  • איך משתמשים במודל ההטמעה של Vertex AI ב- AlloyDB
  • איך להעשיר את התוצאה באמצעות מודל גנרטיבי של Vertex AI

12. סקר

פלט:

איך תשתמשו במדריך הזה?

לקריאה בלבד לקרוא אותו ולבצע את התרגילים