เริ่มต้นใช้งานการค้นหาแบบไฮบริดใน AlloyDB

1. บทนำ

ใน Codelab นี้ คุณจะได้เรียนรู้วิธีทำการค้นหาแบบไฮบริดใน AlloyDB โดยใช้ส่วนขยาย (วิธีการอัปเดตการจัดอันดับ) RUM และดัชนี Scalable Nearest Neighbor (ScaNN) ห้องทดลองนี้เป็นส่วนหนึ่งของคอลเล็กชันห้องทดลองที่มุ่งเน้นฟีเจอร์ AlloyDB AI ดูข้อมูลเพิ่มเติมได้ที่หน้า AlloyDB AI ในเอกสารประกอบ

ข้อกำหนดเบื้องต้น

ความเข้าใจพื้นฐานเกี่ยวกับ Google Cloud Console
ทักษะพื้นฐานในอินเทอร์เฟซบรรทัดคำสั่งและ Google Shell

สิ่งที่คุณจะได้เรียนรู้

วิธีติดตั้งใช้งานคลัสเตอร์และอินสแตนซ์หลักของ AlloyDB
วิธีเชื่อมต่อกับ AlloyDB จาก VM ของ Google Compute Engine
วิธีสร้างฐานข้อมูลและเปิดใช้ AlloyDB AI
วิธีโหลดข้อมูลลงในฐานข้อมูล
วิธีใช้ AlloyDB Studio
สร้างการฝังด้วย Vertex AI
วิธีสร้างดัชนีเวกเตอร์ ScaNN เพื่อเพิ่มประสิทธิภาพการค้นหาเวกเตอร์
วิธีเปิดใช้และใช้ส่วนขยาย RUM สำหรับการค้นหาข้อความแบบเต็ม
ทำการค้นหาแบบผสมโดยการรวมการค้นหาข้อความแบบเต็ม การค้นหาเวกเตอร์ และReciprocal Rank Fusion (RRF)

สิ่งที่คุณต้องมี

บัญชี Google Cloud และโปรเจ็กต์ Google Cloud
เว็บเบราว์เซอร์ เช่น Chrome

2. การตั้งค่าและข้อกำหนด

การตั้งค่าโปรเจ็กต์

ลงชื่อเข้าใช้ คอนโซล Google Cloud หากยังไม่มีบัญชี Gmail หรือ Google Workspace คุณต้องสร้างบัญชี

ใช้บัญชีส่วนตัวแทนบัญชีงานหรือบัญชีโรงเรียน

สร้างโปรเจ็กต์ Google Cloud

ในคอนโซล Google Cloud ในหน้าตัวเลือกโปรเจ็กต์ ให้เลือกหรือสร้างโปรเจ็กต์ Google Cloud
ตรวจสอบว่าได้เปิดใช้การเรียกเก็บเงินสำหรับโปรเจ็กต์ที่อยู่ในระบบคลาวด์แล้ว ดูวิธีตรวจสอบว่าได้เปิดใช้การเรียกเก็บเงินในโปรเจ็กต์แล้วหรือไม่

เปิดใช้การเรียกเก็บเงิน

คุณมี 2 ตัวเลือกในการเปิดใช้การเรียกเก็บเงิน คุณจะใช้บัญชีสำหรับการเรียกเก็บเงินส่วนตัวหรือแลกสิทธิ์เครดิตได้โดยทำตามขั้นตอนต่อไปนี้

ตั้งค่าบัญชีสำหรับการเรียกเก็บเงินส่วนตัว

หากตั้งค่าการเรียกเก็บเงินโดยใช้เครดิต Google Cloud คุณจะข้ามขั้นตอนนี้ได้

หากต้องการตั้งค่าบัญชีสำหรับการเรียกเก็บเงินส่วนตัว ให้ไปที่นี่เพื่อเปิดใช้การเรียกเก็บเงินใน Cloud Console

ข้อควรทราบ

การทำแล็บนี้ควรมีค่าใช้จ่ายน้อยกว่า $3 USD ในทรัพยากรระบบคลาวด์
คุณสามารถทำตามขั้นตอนที่ส่วนท้ายของแล็บนี้เพื่อลบทรัพยากรเพื่อหลีกเลี่ยงการเรียกเก็บเงินเพิ่มเติม
ผู้ใช้ใหม่มีสิทธิ์ใช้ช่วงทดลองใช้ฟรีมูลค่า$300 USD

เริ่มต้น Cloud Shell

แม้ว่าคุณจะใช้งาน Google Cloud จากระยะไกลจากแล็ปท็อปได้ แต่ใน Codelab นี้คุณจะใช้ Google Cloud Shell ซึ่งเป็นสภาพแวดล้อมบรรทัดคำสั่งที่ทำงานในระบบคลาวด์

Cloud Shell คือสภาพแวดล้อมบรรทัดคำสั่งที่ทำงานใน Google Cloud ซึ่งโหลดเครื่องมือที่จำเป็นไว้ล่วงหน้า

คลิกเปิดใช้งาน Cloud Shell ที่ด้านบนของคอนโซล Google Cloud
เมื่อเชื่อมต่อกับ Cloud Shell แล้ว ให้ยืนยันการตรวจสอบสิทธิ์โดยทำดังนี้
```
gcloud auth list
```
ตรวจสอบว่าได้กำหนดค่าโปรเจ็กต์แล้ว
```
gcloud config get project
```
หากไม่ได้ตั้งค่าโปรเจ็กต์ตามที่คาดไว้ ให้ตั้งค่าดังนี้
```
export PROJECT_ID=<YOUR_PROJECT_ID>
gcloud config set project $PROJECT_ID
```

เครื่องเสมือนนี้มาพร้อมเครื่องมือพัฒนาซอฟต์แวร์ทั้งหมดที่คุณต้องการ โดยมีไดเรกทอรีหลักแบบถาวรขนาด 5 GB และทำงานบน Google Cloud ซึ่งช่วยเพิ่มประสิทธิภาพเครือข่ายและการตรวจสอบสิทธิ์ได้อย่างมาก คุณสามารถทำงานทั้งหมดใน Codelab นี้ได้ภายในเบราว์เซอร์ คุณไม่จำเป็นต้องติดตั้งอะไร

3. ก่อนเริ่มต้น

เปิดใช้ API

เอาต์พุต:

หากต้องการใช้ AlloyDB, Compute Engine, บริการระบบเครือข่าย และ Vertex AI คุณต้องเปิดใช้ API ที่เกี่ยวข้องในโปรเจ็กต์ที่อยู่ในระบบคลาวด์ของ Google

การเปิดใช้ API

ใน Cloud Shell ในเทอร์มินัล ให้ตรวจสอบว่าได้ตั้งค่ารหัสโปรเจ็กต์แล้ว

gcloud config set project [YOUR-PROJECT-ID]

ตั้งค่าตัวแปรสภาพแวดล้อม PROJECT_ID:

PROJECT_ID=$(gcloud config get-value project)

เปิดใช้ API ที่จำเป็นทั้งหมด

gcloud services enable alloydb.googleapis.com \
                       compute.googleapis.com \
                       cloudresourcemanager.googleapis.com \
                       servicenetworking.googleapis.com \
                       aiplatform.googleapis.com

ผลลัพธ์ที่คาดหวัง

student@cloudshell:~ (test-project-001-402417)$ gcloud config set project test-project-001-402417
Updated property [core/project].
student@cloudshell:~ (test-project-001-402417)$ PROJECT_ID=$(gcloud config get-value project)
Your active configuration is: [cloudshell-14650]
student@cloudshell:~ (test-project-001-402417)$ 
student@cloudshell:~ (test-project-001-402417)$ gcloud services enable alloydb.googleapis.com \
                       compute.googleapis.com \
                       cloudresourcemanager.googleapis.com \
                       servicenetworking.googleapis.com \
                       aiplatform.googleapis.com
Operation "operations/acat.p2-4470404856-1f44ebd8-894e-4356-bea7-b84165a57442" finished successfully.

ขอแนะนำ API

AlloyDB API (alloydb.googleapis.com) ช่วยให้คุณสร้าง จัดการ และปรับขนาดคลัสเตอร์ AlloyDB สำหรับ PostgreSQL ได้ โดยให้บริการฐานข้อมูลที่เข้ากันได้กับ PostgreSQL ซึ่งมีการจัดการครบวงจร ออกแบบมาสำหรับภาระงานด้านการทำธุรกรรมและการวิเคราะห์ขององค์กรที่ต้องการประสิทธิภาพสูง
Compute Engine API (compute.googleapis.com) ช่วยให้คุณสร้างและจัดการเครื่องเสมือน (VM), Persistent Disk และการตั้งค่าเครือข่ายได้ โดยมีรากฐานหลักของ Infrastructure-as-a-Service (IaaS) ที่จำเป็นต่อการเรียกใช้เวิร์กโหลดและโฮสต์โครงสร้างพื้นฐานสำหรับบริการที่มีการจัดการจำนวนมาก
Cloud Resource Manager API (cloudresourcemanager.googleapis.com) ช่วยให้คุณจัดการข้อมูลเมตาและการกำหนดค่าของโปรเจ็กต์ที่อยู่ในระบบคลาวด์ Google แบบเป็นโปรแกรมได้ ซึ่งช่วยให้คุณจัดระเบียบทรัพยากร จัดการนโยบาย Identity and Access Management (IAM) และตรวจสอบสิทธิ์ในลำดับชั้นของโปรเจ็กต์ได้
Service Networking API (servicenetworking.googleapis.com) ช่วยให้คุณตั้งค่าการเชื่อมต่อส่วนตัวระหว่างเครือข่าย Virtual Private Cloud (VPC) กับบริการที่มีการจัดการของ Google โดยอัตโนมัติได้ โดยเฉพาะอย่างยิ่งจำเป็นต้องสร้างการเข้าถึง IP ส่วนตัวสำหรับบริการต่างๆ เช่น AlloyDB เพื่อให้สื่อสารกับทรัพยากรอื่นๆ ได้อย่างปลอดภัย
Vertex AI API (aiplatform.googleapis.com) ช่วยให้แอปพลิเคชันของคุณสร้าง ทำให้ใช้งานได้ และปรับขนาดโมเดลแมชชีนเลิร์นนิงได้ โดยมีอินเทอร์เฟซแบบรวมสำหรับบริการ AI ทั้งหมดของ Google Cloud รวมถึงสิทธิ์เข้าถึงโมเดล Generative AI (เช่น Gemini) และการฝึกโมเดลที่กำหนดเอง

คุณจะกำหนดค่าภูมิภาคเริ่มต้นเพื่อใช้โมเดลการฝัง Vertex AI หรือไม่ก็ได้ อ่านเพิ่มเติมเกี่ยวกับสถานที่ที่ Vertex AI พร้อมให้บริการ ในตัวอย่างนี้ เราใช้ภูมิภาค us-central1

gcloud config set compute/region us-central1

4. ติดตั้งใช้งาน AlloyDB

ก่อนสร้างคลัสเตอร์ AlloyDB เราต้องมีช่วง IP ส่วนตัวที่พร้อมใช้งานใน VPC เพื่อให้อินสแตนซ์ AlloyDB ในอนาคตใช้ หากเราไม่มี เราจะต้องสร้างขึ้น กำหนดให้ใช้โดยบริการภายในของ Google หลังจากนั้นเราจะสร้างคลัสเตอร์และอินสแตนซ์ได้

สร้างช่วง IP ส่วนตัว

เราต้องกำหนดค่าการกำหนดค่าการเข้าถึงบริการส่วนตัวใน VPC สำหรับ AlloyDB สมมติว่าเรามีเครือข่าย VPC "เริ่มต้น" ในโปรเจ็กต์และจะใช้สำหรับการดำเนินการทั้งหมด

สร้างช่วง IP ส่วนตัว

gcloud compute addresses create psa-range \
    --global \
    --purpose=VPC_PEERING \
    --prefix-length=24 \
    --description="VPC private service access" \
    --network=default

สร้างการเชื่อมต่อส่วนตัวโดยใช้ช่วง IP ที่จัดสรร

gcloud services vpc-peerings connect \
    --service=servicenetworking.googleapis.com \
    --ranges=psa-range \
    --network=default

เอาต์พุตของคอนโซลที่คาดไว้

student@cloudshell:~ (test-project-402417)$ gcloud compute addresses create psa-range \
    --global \
    --purpose=VPC_PEERING \
    --prefix-length=24 \
    --description="VPC private service access" \
    --network=default
Created [https://www.googleapis.com/compute/v1/projects/test-project-402417/global/addresses/psa-range].

student@cloudshell:~ (test-project-402417)$ gcloud services vpc-peerings connect \
    --service=servicenetworking.googleapis.com \
    --ranges=psa-range \
    --network=default
Operation "operations/pssn.p24-4470404856-595e209f-19b7-4669-8a71-cbd45de8ba66" finished successfully.

student@cloudshell:~ (test-project-402417)$

สร้างคลัสเตอร์ AlloyDB

ในส่วนนี้ เราจะสร้างคลัสเตอร์ AlloyDB ในภูมิภาค us-central1

กำหนดรหัสผ่านสำหรับผู้ใช้ postgres คุณกำหนดรหัสผ่านเองหรือใช้ฟังก์ชันแบบสุ่มเพื่อสร้างรหัสผ่านก็ได้

export PGPASSWORD=`openssl rand -hex 12`

เอาต์พุตของคอนโซลที่คาดไว้

student@cloudshell:~ (test-project-402417)$ export PGPASSWORD=`openssl rand -hex 12`

จดรหัสผ่าน PostgreSQL ไว้ใช้ในอนาคต

echo $PGPASSWORD

คุณจะต้องใช้รหัสผ่านดังกล่าวในอนาคตเพื่อเชื่อมต่อกับอินสแตนซ์ในฐานะผู้ใช้ postgres ฉันขอแนะนำให้จดไว้หรือคัดลอกไปวางไว้ที่ใดที่หนึ่งเพื่อใช้ในภายหลัง

เอาต์พุตของคอนโซลที่คาดไว้

student@cloudshell:~ (test-project-402417)$ echo $PGPASSWORD
bbefbfde7601985b0dee5723

สร้างคลัสเตอร์ AlloyDB

กำหนดชื่อภูมิภาคและคลัสเตอร์ AlloyDB เราจะใช้ภูมิภาค us-central1 และ alloydb-hybrid-search เป็นชื่อคลัสเตอร์

export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search

เรียกใช้คำสั่งเพื่อสร้างคลัสเตอร์

gcloud alloydb clusters create $ADBCLUSTER \
    --password=$PGPASSWORD \
    --network=default \
    --region=$REGION

เอาต์พุตของคอนโซลที่คาดไว้

export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search
gcloud alloydb clusters create $ADBCLUSTER \
    --password=$PGPASSWORD \
    --network=default \
    --region=$REGION 
Operation ID: operation-1697655441138-6080235852277-9e7f04f5-2012fce4
Creating cluster...done.

สร้างอินสแตนซ์หลักของ AlloyDB สำหรับคลัสเตอร์ในเซสชัน Cloud Shell เดียวกัน หากการเชื่อมต่อถูกตัด คุณจะต้องกำหนดตัวแปรสภาพแวดล้อมของภูมิภาคและชื่อคลัสเตอร์อีกครั้ง

gcloud alloydb instances create $ADBCLUSTER-pr \
    --instance-type=PRIMARY \
    --cpu-count=2 \
    --region=$REGION \
    --cluster=$ADBCLUSTER

เอาต์พุตของคอนโซลที่คาดไว้

student@cloudshell:~ (alloydb-hybrid-search)$ gcloud alloydb instances create $ADBCLUSTER-pr \
    --instance-type=PRIMARY \
    --cpu-count=2 \
    --region=$REGION \
    --availability-type ZONAL \
    --cluster=$ADBCLUSTER
Operation ID: operation-1697659203545-6080315c6e8ee-391805db-25852721
Creating instance...done.

5. เชื่อมต่อกับ AlloyDB

AlloyDB ได้รับการติดตั้งใช้งานโดยใช้การเชื่อมต่อแบบส่วนตัวเท่านั้น ดังนั้นเราจึงต้องใช้ VM ที่ติดตั้งไคลเอ็นต์ PostgreSQL เพื่อทำงานกับฐานข้อมูล

ติดตั้งใช้งาน GCE VM

สร้าง VM ของ GCE ในภูมิภาคและ VPC เดียวกันกับคลัสเตอร์ AlloyDB

ใน Cloud Shell ให้เรียกใช้คำสั่งต่อไปนี้

export ZONE=us-central1-a
gcloud compute instances create instance-1 \
    --zone=$ZONE \
    --create-disk=auto-delete=yes,boot=yes,image=projects/debian-cloud/global/images/$(gcloud compute images list --filter="family=debian-12 AND family!=debian-12-arm64" --format="value(name)") \
    --scopes=https://www.googleapis.com/auth/cloud-platform

เอาต์พุตของคอนโซลที่คาดไว้

student@cloudshell:~ (alloydb-hybrid-search)$ export ZONE=us-central1-a
student@cloudshell:~ (talloydb-hybrid-search)$ export ZONE=us-central1-a
gcloud compute instances create instance-1 \
    --zone=$ZONE \
    --create-disk=auto-delete=yes,boot=yes,image=projects/debian-cloud/global/images/$(gcloud compute images list --filter="family=debian-12 AND family!=debian-12-arm64" --format="value(name)") \
    --scopes=https://www.googleapis.com/auth/cloud-platform

Created [https://www.googleapis.com/compute/v1/projects/test-project-402417/zones/us-central1-a/instances/instance-1].
NAME: instance-1
ZONE: us-central1-a
MACHINE_TYPE: n1-standard-1
PREEMPTIBLE: 
INTERNAL_IP: 10.128.0.2
EXTERNAL_IP: 34.71.192.233
STATUS: RUNNING

ติดตั้งไคลเอ็นต์ Postgres

ติดตั้งซอฟต์แวร์ไคลเอ็นต์ PostgreSQL ใน VM ที่ติดตั้งใช้งาน

เชื่อมต่อกับ VM โดยใช้คำสั่งต่อไปนี้

gcloud compute ssh instance-1 --zone=us-central1-a

เอาต์พุตของคอนโซลที่คาดไว้

student@cloudshell:~ (alloydb-hybrid-search)$ gcloud compute ssh instance-1 --zone=us-central1-a
Updating project ssh metadata...working..Updated [https://www.googleapis.com/compute/v1/projects/alloydb-hybrid-search].                                                                                                                                                         
Updating project ssh metadata...done.                                                                                                                                                                                                                                              
Waiting for SSH key to propagate.
Warning: Permanently added 'compute.5110295539541121102' (ECDSA) to the list of known hosts.
Linux instance-1.us-central1-a.c.gleb-test-short-001-418811.internal 6.1.0-18-cloud-amd64 #1 SMP PREEMPT_DYNAMIC Debian 6.1.76-1 (2024-02-01) x86_64

The programs included with the Debian GNU/Linux system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.

Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent
permitted by applicable law.
student@instance-1:~$

ติดตั้งคำสั่งเรียกใช้ซอฟต์แวร์ภายใน VM โดยทำดังนี้

sudo apt-get update
sudo apt-get install --yes postgresql-client

เอาต์พุตของคอนโซลที่คาดไว้

student@instance-1:~$ sudo apt-get update
sudo apt-get install --yes postgresql-client
Get:1 https://packages.cloud.google.com/apt google-compute-engine-bullseye-stable InRelease [5146 B]
Get:2 https://packages.cloud.google.com/apt cloud-sdk-bullseye InRelease [6406 B]   
Hit:3 https://deb.debian.org/debian bullseye InRelease  
Get:4 https://deb.debian.org/debian-security bullseye-security InRelease [48.4 kB]
Get:5 https://packages.cloud.google.com/apt google-compute-engine-bullseye-stable/main amd64 Packages [1930 B]
Get:6 https://deb.debian.org/debian bullseye-updates InRelease [44.1 kB]
Get:7 https://deb.debian.org/debian bullseye-backports InRelease [49.0 kB]
...redacted...
update-alternatives: using /usr/share/postgresql/13/man/man1/psql.1.gz to provide /usr/share/man/man1/psql.1.gz (psql.1.gz) in auto mode
Setting up postgresql-client (13+225) ...
Processing triggers for man-db (2.9.4-2) ...
Processing triggers for libc-bin (2.31-13+deb11u7) ...

เชื่อมต่อกับอินสแตนซ์

เชื่อมต่อกับอินสแตนซ์หลักจาก VM โดยใช้ psql

ในแท็บ Cloud Shell เดียวกันกับเซสชัน SSH ที่เปิดไปยัง VM ของอินสแตนซ์-1

ใช้ค่ารหัสผ่าน AlloyDB (PGPASSWORD) ที่จดไว้และรหัสคลัสเตอร์ AlloyDB เพื่อเชื่อมต่อกับ AlloyDB จาก GCE VM โดยทำดังนี้

export PGPASSWORD=<Noted password>

export PROJECT_ID=$(gcloud config get-value project)
export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search
export INSTANCE_IP=$(gcloud alloydb instances describe $ADBCLUSTER-pr --cluster=$ADBCLUSTER --region=$REGION --format="value(ipAddress)")
psql "host=$INSTANCE_IP user=postgres sslmode=require"

เอาต์พุตของคอนโซลที่คาดไว้

student@instance-1:~$ export PGPASSWORD=CQhOi5OygD4ps6ty
student@instance-1:~$ ADBCLUSTER=alloydb-aip-01
student@instance-1:~$ REGION=us-central1
student@instance-1:~$ INSTANCE_IP=$(gcloud alloydb instances describe $ADBCLUSTER-pr --cluster=$ADBCLUSTER --region=$REGION --format="value(ipAddress)")
gleb@instance-1:~$ psql "host=$INSTANCE_IP user=postgres sslmode=require"
psql (15.6 (Debian 15.6-0+deb12u1), server 15.5)
SSL connection (protocol: TLSv1.3, cipher: TLS_AES_256_GCM_SHA384, compression: off)
Type "help" for help.

postgres=>

ปิดเซสชัน psql

exit

6. เตรียมฐานข้อมูล

เราต้องสร้างฐานข้อมูล เปิดใช้การผสานรวม Vertex AI สร้างออบเจ็กต์ฐานข้อมูล และนำเข้าข้อมูล

ให้สิทธิ์ที่จำเป็นแก่ AlloyDB

เพิ่มสิทธิ์ Vertex AI ให้กับตัวแทนบริการของ AlloyDB

เปิดแท็บ Cloud Shell อีกแท็บโดยใช้เครื่องหมาย "+" ที่ด้านบน

ในแท็บ Cloud Shell ใหม่ ให้เรียกใช้คำสั่งต่อไปนี้

PROJECT_ID=$(gcloud config get-value project)
gcloud projects add-iam-policy-binding $PROJECT_ID \
  --member="serviceAccount:service-$(gcloud projects describe $PROJECT_ID --format="value(projectNumber)")@gcp-sa-alloydb.iam.gserviceaccount.com" \
  --role="roles/aiplatform.user"

เอาต์พุตของคอนโซลที่คาดไว้

student@cloudshell:~ (test-project-001-402417)$ PROJECT_ID=$(gcloud config get-value project)
Your active configuration is: [cloudshell-11039]
student@cloudshell:~ (test-project-001-402417)$ gcloud projects add-iam-policy-binding $PROJECT_ID \
  --member="serviceAccount:service-$(gcloud projects describe $PROJECT_ID --format="value(projectNumber)")@gcp-sa-alloydb.iam.gserviceaccount.com" \
  --role="roles/aiplatform.user"
Updated IAM policy for project [test-project-001-402417].
bindings:
- members:
  - serviceAccount:service-4470404856@gcp-sa-alloydb.iam.gserviceaccount.com
  role: roles/aiplatform.user
- members:
...
etag: BwYIEbe_Z3U=
version: 1

ปิดแท็บโดยใช้คำสั่งดำเนินการ "exit" ในแท็บ

exit

สร้างฐานข้อมูล

สร้างฐานข้อมูลชื่อ quickstart

ในเซสชัน GCE VM ให้เรียกใช้คำสั่งต่อไปนี้

สร้างฐานข้อมูล

psql "host=$INSTANCE_IP user=postgres" -c "CREATE DATABASE quickstart_db"

เอาต์พุตของคอนโซลที่คาดไว้

student@instance-1:~$ psql "host=$INSTANCE_IP user=postgres" -c "CREATE DATABASE quickstart_db"
CREATE DATABASE
student@instance-1:~$

เปิดใช้การผสานรวม Vertex AI

เปิดใช้การผสานรวม Vertex AI และส่วนขยาย pgvector ในฐานข้อมูล

ใน GCE VM ให้ดำเนินการดังนี้

psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "CREATE EXTENSION IF NOT EXISTS google_ml_integration CASCADE"
psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "CREATE EXTENSION IF NOT EXISTS vector"

เอาต์พุตของคอนโซลที่คาดไว้

student@instance-1:~$ psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "CREATE EXTENSION IF NOT EXISTS google_ml_integration CASCADE"
psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "CREATE EXTENSION IF NOT EXISTS vector"
CREATE EXTENSION
CREATE EXTENSION
student@instance-1:~$

นำเข้าข้อมูล

ดาวน์โหลดข้อมูลที่เตรียมไว้แล้วนำเข้าไปยังฐานข้อมูลใหม่

ใน GCE VM ให้ดำเนินการดังนี้

gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_demo_schema.sql |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db"
gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_products.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_products from stdin csv header"
gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_inventory.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_inventory from stdin csv header"
gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_stores.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_stores from stdin csv header"

เอาต์พุตของคอนโซลที่คาดไว้

student@instance-1:~$ gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_demo_schema.sql |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db"
SET
SET
SET
SET
SET
 set_config 
------------
 
(1 row)
SET
SET
SET
SET
SET
SET
CREATE TABLE
ALTER TABLE
CREATE TABLE
ALTER TABLE
CREATE TABLE
ALTER TABLE
CREATE TABLE
ALTER TABLE
CREATE SEQUENCE
ALTER TABLE
ALTER SEQUENCE
ALTER TABLE
ALTER TABLE
ALTER TABLE
student@instance-1:~$ gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_products.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_products from stdin csv header"
COPY 941
student@instance-1:~$ gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_inventory.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_inventory from stdin csv header"
COPY 263861
student@instance-1:~$ gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_stores.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_stores from stdin csv header"
COPY 4654
student@instance-1:~$

7. สร้างการฝังเวกเตอร์

หลังจากนำเข้าข้อมูลแล้ว เราจะมีตารางต่อไปนี้ cymbal_products ซึ่งจัดเก็บข้อมูลเกี่ยวกับผลิตภัณฑ์ cymbal_inventory ซึ่งติดตามสต็อกสินค้าในแต่ละร้านค้า และ cymbal_stores ซึ่งเป็นรายการร้านค้า หากต้องการทำการค้นหาเชิงความหมายในผลิตภัณฑ์ของเรา เราต้องสร้างการฝังเวกเตอร์ของคำอธิบายผลิตภัณฑ์ด้วยฟังก์ชัน initialize_embeddings เราจะใช้การผสานรวม Vertex AI เพื่อคำนวณข้อมูลเวกเตอร์ตามรายละเอียดผลิตภัณฑ์ของเราและเพิ่มลงในตาราง ดูข้อมูลเพิ่มเติมเกี่ยวกับเทคโนโลยีที่ใช้ได้ในเอกสารประกอบ

หากต้องการใช้การผสานรวม ให้เชื่อมต่อกับฐานข้อมูลโดยใช้ psql จาก VM โดยใช้ IP ของอินสแตนซ์ AlloyDB และรหัสผ่าน postgres ดังนี้

psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db"

ตรวจสอบเวอร์ชันของส่วนขยาย google_ml_integration

SELECT extversion FROM pg_extension WHERE extname = 'google_ml_integration';

โดยควรเป็นเวอร์ชัน 1.5.2 ขึ้นไป ตัวอย่างเอาต์พุตมีดังนี้

quickstart_db=> SELECT extversion FROM pg_extension WHERE extname = 'google_ml_integration';
 extversion 
------------
 1.5.2
(1 row)

เวอร์ชันเริ่มต้นควรเป็น 1.5.2 ขึ้นไป แต่หากอินสแตนซ์แสดงเวอร์ชันเก่ากว่า คุณอาจต้องอัปเดต ตรวจสอบว่ามีการปิดใช้การบำรุงรักษาสำหรับอินสแตนซ์หรือไม่

เราจะใช้การสร้างการฝังแบบเป็นชุดเพื่อปรับปรุงประสิทธิภาพ คุณอ่านข้อมูลเพิ่มเติมเกี่ยวกับตัวเลือกและเทคนิคการสร้างการฝังต่างๆ ได้ในคู่มือ หากต้องการใช้การฝังแบบเป็นกลุ่ม เราต้องเปิดใช้ goole_ml_integration.enable_faster_embedding_generation

show google_ml_integration.enable_faster_embedding_generation;

หากวางธงในตำแหน่งที่ถูกต้อง ผลลัพธ์ที่คาดไว้จะมีลักษณะดังนี้

quickstart_db=> show google_ml_integration.enable_faster_embedding_generation;                          
 google_ml_integration.enable_faster_embedding_generation 
----------------------------------------------------------
 on
(1 row)

แต่หากแสดงว่า "ปิด" เราจะต้องอัปเดตอินสแตนซ์ คุณทำได้โดยใช้คอนโซลบนเว็บหรือคำสั่ง gcloud ตามที่อธิบายไว้ในเอกสารประกอบ ในที่นี้ ฉันจะแสดงวิธีดำเนินการโดยใช้คำสั่ง gcloud

export PROJECT_ID=$(gcloud config get-value project)
export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search
gcloud beta alloydb instances update $ADBCLUSTER-pr \
   --database-flags google_ml_integration.enable_faster_embedding_generation=on \
   --region=$REGION \
   --cluster=$ADBCLUSTER \
   --project=$PROJECT_ID \
   --update-mode=FORCE_APPLY

อาจใช้เวลาสักครู่ แต่ในที่สุดค่าสถานะควรเปลี่ยนเป็น "เปิด" หลังจากนั้น คุณจะดำเนินการตามขั้นตอนถัดไปได้

psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db"

ในเซสชัน psql ที่เชื่อมต่อกับฐานข้อมูล ให้สร้างคอลัมน์ใหม่เพื่อจัดเก็บการฝังใน cymbal_products

ALTER TABLE cymbal_products ADD COLUMN product_embedding vector(768);

เอาต์พุตของคอนโซลที่คาดไว้

quickstart_db=> ALTER TABLE cymbal_products ADD COLUMN product_embedding vector(768);
ALTER TABLE
quickstart_db=>

สุดท้ายนี้ เรายังต้องการให้การฝังรีเฟรชเมื่อค่าคอลัมน์มีการเปลี่ยนแปลงโดยการรวมอาร์กิวเมนต์ incremental_refresh_mode ไว้ในการเรียกใช้ฟังก์ชัน ซึ่งจะทำให้ฐานข้อมูลของเรามีค่าใช้จ่ายเพิ่มเติม แต่เราก็ยอมรับข้อแลกเปลี่ยนนี้เพื่อให้ระบบซิงค์การฝังกับเนื้อหาโดยอัตโนมัติ หากต้องการอัปเดตการฝังด้วยตนเอง โปรดดูวิธีการในเอกสารประกอบ

เมื่อนำทุกอย่างมารวมกันและสร้างการฝัง เราจะใช้ฟังก์ชัน initialize_embeddings และส่ง batch_size เป็นคำแนะนำเกี่ยวกับกลุ่มที่มีขนาด 50 และตั้งค่า incremental_refresh_mode เป็น transactional

CALL ai.initialize_embeddings(
    model_id => 'text-embedding-005',
    table_name => 'cymbal_products',
    content_column => 'product_description',
    embedding_column => 'product_embedding',
    batch_size => 50,
    incremental_refresh_mode => 'transactional'
);

และตอนนี้หากเราแทรกแถวใหม่ลงในตารางที่มีค่า NULL สำหรับคอลัมน์ product_embedding

INSERT INTO "cymbal_products" ("uniq_id", "crawl_timestamp", "product_url", "product_name", "product_description", "list_price", "sale_price", "brand", "item_number", "gtin", "package_size", "category", "postal_code", "available", "product_embedding") VALUES ('fd604542e04b470f9e6348e640cff794', NOW(), 'https://example.com/new_product', 'New Cymbal Product', 'This is a new cymbal product description.', 199.99, 149.99, 'Example Brand', 'EB123', '1234567890', 'Single', 'Cymbals', '12345', TRUE, NULL);

ตอนนี้เมื่อเราค้นหาแถวที่เพิ่งแทรกไป เราจะเห็นว่าคอลัมน์ product_embedding ได้รับการอัปเดตโดยอัตโนมัติ

SELECT uniq_id, (product_embedding::real[])[1:5] as product_embedding  FROM cymbal_products WHERE uniq_id='fd604542e04b470f9e6348e640cff794';

เอาต์พุตควรมีลักษณะดังนี้

quickstart_db=> SELECT uniq_id,(product_embedding::real[])[1:5] as product_embedding  FROM cymbal_products WHERE uniq_id='fd604542e04b470f9e6348e640cff794';
             uniq_id              |                      product_embedding                       
----------------------------------+---------------------------------------------------------------
 fd604542e04b470f9e6348e640cff794 | {0.015003494,-0.005349732,-0.059790313,-0.0087091,-0.0271452}
(1 row)

Time: 3.295 ms

8. สร้างดัชนีเวกเตอร์

เราจะเพิ่มดัชนี ScaNN เพื่อปรับปรุงประสิทธิภาพการค้นหาเวกเตอร์

สร้างดัชนี ScaNN

หากต้องการสร้างดัชนี SCANN เราต้องเปิดใช้อีก 1 ส่วนขยาย ส่วนขยาย alloydb_scann มีอินเทอร์เฟซสําหรับทํางานกับดัชนีเวกเตอร์ประเภท ANN โดยใช้อัลกอริทึม ScaNN ของ Google

CREATE EXTENSION IF NOT EXISTS alloydb_scann;

ผลลัพธ์ที่คาดไว้

quickstart_db=> CREATE EXTENSION IF NOT EXISTS alloydb_scann;
CREATE EXTENSION
Time: 27.468 ms
quickstart_db=>

คุณสร้างดัชนีได้ในโหมด MANUAL หรือ AUTO โหมด MANUAL จะเปิดใช้โดยค่าเริ่มต้น และคุณสามารถสร้างดัชนีและดูแลรักษาได้เช่นเดียวกับดัชนีอื่นๆ แต่หากเปิดใช้โหมดอัตโนมัติ คุณจะสร้างดัชนีได้โดยไม่ต้องมีการบำรุงรักษาจากฝั่งคุณ อ่านรายละเอียดเกี่ยวกับตัวเลือกทั้งหมดได้ในเอกสารประกอบ ในกรณีของเรา เรามีแถวไม่เพียงพอที่จะสร้างดัชนีในโหมดอัตโนมัติ ดังนั้นเราจะสร้างดัชนีเป็นโหมดแมนนวลและรวมพารามิเตอร์การปรับแต่ง คุณอ่านเกี่ยวกับการปรับพารามิเตอร์ดัชนีได้ในเอกสารประกอบ

เราต้องเปิดใช้scann.enable_preview_features เพื่อให้แก้ไขพารามิเตอร์การปรับแต่งได้ ใน Cloud Shell

export PROJECT_ID=$(gcloud config get-value project)
export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search
gcloud beta alloydb instances update $ADBCLUSTER-pr \
   --database-flags scann.enable_preview_features=on \
   --region=$REGION \
   --cluster=$ADBCLUSTER \
   --project=$PROJECT_ID \
   --update-mode=FORCE_APPLY

อาจใช้เวลาสักครู่ แต่ในที่สุดค่าสถานะควรเปลี่ยนเป็น "เปิด" เมื่อตั้งค่า Flag แล้ว เราจะเปลี่ยนกลับไปที่psqlเซสชันใน VM และสร้างดัชนีด้วยพารามิเตอร์การปรับแต่งได้

CREATE INDEX cymbal_products_embeddings_scann ON cymbal_products
  USING scann (product_embedding cosine)
  WITH (mode='MANUAL', num_leaves=31, max_num_levels = 2);

ผลลัพธ์ที่คาดไว้

quickstart_db=> CREATE INDEX cymbal_products_embeddings_scann ON cymbal_products
  USING scann (product_embedding cosine)
  WITH (num_leaves=31, max_num_levels = 2);
CREATE INDEX
quickstart_db=>

ตรวจสอบการใช้ดัชนี

ตอนนี้เราสามารถเรียกใช้การค้นหาเวกเตอร์ในโหมด EXPLAIN และยืนยันว่ามีการใช้ดัชนีหรือไม่

EXPLAIN (analyze) 
WITH trees as (
SELECT
        cp.product_name,
        left(cp.product_description,80) as description,
        cp.sale_price,
        cs.zip_code,
        cp.uniq_id as product_id
FROM
        cymbal_products cp
JOIN cymbal_inventory ci on
        ci.uniq_id=cp.uniq_id
JOIN cymbal_stores cs on
        cs.store_id=ci.store_id
        AND ci.inventory>0
        AND cs.store_id = 1583
ORDER BY
        (cp.product_embedding <=> embedding('text-embedding-005','What kind of fruit trees grow well here?')::vector) ASC
LIMIT 1)
SELECT json_agg(trees) FROM trees;

ผลลัพธ์ที่คาดหวัง (แก้ไขเพื่อความชัดเจน)

...
Aggregate (cost=16.59..16.60 rows=1 width=32) (actual time=2.875..2.877 rows=1 loops=1)
-> Subquery Scan on trees (cost=8.42..16.59 rows=1 width=142) (actual time=2.860..2.862 rows=1 loops=1)
-> Limit (cost=8.42..16.58 rows=1 width=158) (actual time=2.855..2.856 rows=1 loops=1)
-> Nested Loop (cost=8.42..6489.19 rows=794 width=158) (actual time=2.854..2.855 rows=1 loops=1)
-> Nested Loop (cost=8.13..6466.99 rows=794 width=938) (actual time=2.742..2.743 rows=1 loops=1)
-> Index Scan using cymbal_products_embeddings_scann on cymbal_products cp (cost=7.71..111.99 rows=876 width=934) (actual time=2.724..2.724 rows=1 loops=1)
Order By: (embedding <=> '[0.008864171,0.03693164,-0.024245683,-0.00355923,0.0055611245,0.015985578,...<redacted>...5685,-0.03914233,-0.018452475,0.00826032,-0.07372604]'::vector)
...

จากเอาต์พุต เราจะเห็นได้อย่างชัดเจนว่าคําค้นหาใช้ "Index Scan using cymbal_products_embeddings_scann on cymbal_products"

9. ดัชนีการค้นหาข้อความแบบเต็ม

AlloyDB รองรับประเภทดัชนีทั้งหมดสำหรับการค้นหาข้อความแบบเต็มที่ PostgreSQL เนทีฟรองรับ การเลือกดัชนีขึ้นอยู่กับความสมดุลระหว่างความเร็วในการค้นหา เวลาบิลด์ ความเร็วในการอัปเดต และฟังก์ชันการค้นหาที่เฉพาะเจาะจงที่จำเป็น เช่น การค้นหาแบบวลีหรือการจัดอันดับตามความเกี่ยวข้อง

ในตัวอย่างนี้ เราจะใช้ส่วนขยาย RUM เพื่อให้การดำเนินการค้นหาแบบเต็มข้อความมีประสิทธิภาพมากขึ้น RUM ปรับปรุงดัชนี GIN มาตรฐานโดยจัดเก็บข้อมูลตำแหน่งไว้ในดัชนีโดยตรง ซึ่งช่วยให้คุณค้นหาวลีและจัดอันดับความเกี่ยวข้องได้เร็วขึ้นโดยไม่ต้องเข้าถึงข้อมูลในตาราง

คุณสามารถใช้ AlloyDB Studio หรือใช้psqlไคลเอ็นต์ต่อไปเพื่อเปิดใช้ส่วนขยาย Rum

สร้างดัชนี RUM

CREATE EXTENSION IF NOT EXISTS rum;

หากต้องการค้นหาในรายละเอียดผลิตภัณฑ์ภายในcymbal_products ตาราง เราต้องสร้างคอลัมน์ที่จัดเก็บรายละเอียดผลิตภัณฑ์เป็น tsvector คอลัมน์นี้จะจัดเก็บข้อความที่ประมวลผลแล้วโดยอัตโนมัติและปรับปรุงประสิทธิภาพการค้นหา

ALTER TABLE cymbal_products
ADD COLUMN product_search_vector tsvector
GENERATED ALWAYS AS (to_tsvector('english', product_description)) STORED;

ตอนนี้เราสามารถสร้างดัชนี RUM ใหม่สำหรับคอลัมน์ product_search_vector ได้แล้ว

CREATE INDEX cymbal_products_rum
ON cymbal_products
USING rum (product_search_vector rum_tsvector_ops);

หากต้องการค้นหาตารางโดยใช้ดัชนี ให้เรียกใช้การค้นหาต่อไปนี้ซึ่งจะค้นหาการจับคู่ของ "ต้นเชอร์รี" <=> โอเปอเรเตอร์จะคำนวณคะแนนความเกี่ยวข้องหรือระยะห่างระหว่างเอกสารกับคำค้นหาจากดัชนีโดยตรง

SELECT product_name, product_description
FROM cymbal_products
WHERE product_search_vector @@ to_tsquery('english', 'cherry <-> tree')
ORDER BY product_search_vector <=> to_tsquery('english', 'cherry <-> tree');

10. ทำการค้นหาแบบไฮบริด

ฟังก์ชัน google_vector_utils.hybrid_search() ช่วยให้คุณรวมผลลัพธ์จากการค้นหาหลายประเภท เช่น การค้นหาเวกเตอร์และการค้นหาข้อความแบบเต็ม ฟังก์ชันนี้จะรวมผลการค้นหาที่จัดอันดับจากคอมโพเนนต์การค้นหาแต่ละรายการไว้ในรายการเดียวที่รวมเป็นหนึ่งโดยใช้อัลกอริทึม Reciprocal Rank Fusion (RRF) แนวทางนี้ให้ผลการค้นหาที่เกี่ยวข้องมากกว่าการค้นหาประเภทเดียว

ฟังก์ชัน hybrid_search() จะสร้างและเรียกใช้การค้นหา SQL รายการเดียวแบบไดนามิก ซึ่งจะสร้างนิพจน์ของตารางทั่วไป (CTE) สำหรับคอมโพเนนต์การค้นหาแต่ละรายการที่คุณกำหนด จากนั้นฟังก์ชันจะรวมผลลัพธ์จาก CTE ทั้งหมดและคำนวณคะแนน RRF สุดท้ายสำหรับแต่ละเอกสารเพื่อสร้างรายการที่จัดอันดับแบบรวม

หากต้องการใช้ฟังก์ชันนี้ เราต้องเปิด enable_preview_ai_functions ในอินสแตนซ์หลัก เรียกใช้คำสั่งต่อไปนี้ใน Cloud Shell

export PROJECT_ID=$(gcloud config get-value project)
export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search
gcloud beta alloydb instances update $ADBCLUSTER-pr \
   --database-flags google_ml_integration.enable_preview_ai_functions=on \
   --region=$REGION \
   --cluster=$ADBCLUSTER \
   --project=$PROJECT_ID \
   --update-mode=FORCE_APPLY

คำค้นหาต่อไปนี้รวมคำถามการค้นหาเวกเตอร์ก่อนหน้ากับคำถามการค้นหาข้อความแบบเต็ม นี่คือคำค้นหาแบบไฮบริดที่เรียบง่ายมาก คุณลองใช้คำค้นหาที่ซับซ้อนกว่านี้ได้ เช่น ใช้ "ต้นไม้ที่สูงกว่าบ้าน" ในคอมโพเนนต์การค้นหาเวกเตอร์ และ "แคลิฟอร์เนีย" ในคอมโพเนนต์ FTS

SELECT score, id, p.product_name
FROM ai.hybrid_search(
  search_inputs => ARRAY[
      '{
        "data_type": "vector",
        "table_name": "cymbal_products",
        "key_column": "uniq_id",
        "vec_column": "product_embedding",
        "distance_operator": "public.<=>",
        "limit": 5,
        "query_vector": "ai.embedding(''text-embedding-005'', ''cherry'')::vector"
      }'::JSONB,
      '{
        "data_type": "text",
        "table_name": "cymbal_products",
        "key_column": "uniq_id",
        "text_column": "product_search_vector",
        "limit": 5,
        "ranking_function": "<=>",
        "query_text_input": "tree"
      }'::JSONB
  ]
) JOIN cymbal_products p ON id = p.uniq_id;

ผลลัพธ์ที่คาดหวัง

"score","id","product_name"
"0.00819672631147241","d536e9e823296a2eba198e52dd23e712","Cherry Tree"
"0.015873015873015872","23e41a71d63d8bbc9bdfa1d118cfddc5","Apple Tree"
"0.00819672631147241","dc789a2f87b142e94e6e325689482af9","Oak Tree"
"0.008064521129029258","f5c70d62ccf3118d73863bf3b17edcbe","Cypress Tree"
"0.008064521129029258","b70c44b1a38c0a2329fa583c9109a80f","Peach Tree"

ในผลลัพธ์ คุณจะเห็น id ซึ่งเป็น key_column ที่ระบุ และ score คือค่าสุดท้ายที่ RRF คำนวณ Reciprocal Rank Fusion (RRF) เป็นอัลกอริทึมที่อิงตามการจัดอันดับซึ่งรวมรายการผลการค้นหาที่จัดอันดับหลายรายการไว้ในรายการเดียวโดยการกําหนดคะแนนให้กับเอกสารแต่ละรายการ คะแนนนี้อิงตามอันดับซึ่งกันและกันของ RRF ในรายการทั้งหมดที่ให้ข้อมูล โดยเอกสารที่มีอันดับสูงกว่าจะได้รับคะแนนมากกว่า การใช้ include_json_output => true ในพารามิเตอร์จะแสดงผลdetail_jsonคอลัมน์ที่มีรายละเอียดการคำนวณคะแนนสำหรับแต่ละคอมโพเนนต์

แม้ว่าการค้นหาแบบข้อความเต็มจะเหมาะที่สุดสำหรับการค้นหาคำที่เฉพาะเจาะจงหรือคำที่ตรงกันทั้งหมด แต่การค้นหาเวกเตอร์จะโดดเด่นในการค้นหาคำพ้องความหมายและเจตนาแม้ว่าคำจะไม่ตรงกันก็ตาม การผสานรวม 2 วิธีนี้ทำให้การค้นหาแบบไฮบริดช่วยให้ผู้ใช้ได้รับชุดผลการค้นหาที่แข็งแกร่งซึ่งทั้งถูกต้องตามตัวอักษรและมีความเกี่ยวข้องเชิงความหมาย

11. ล้างสภาพแวดล้อม

ทำลายอินสแตนซ์และคลัสเตอร์ AlloyDB เมื่อคุณทำแล็บเสร็จแล้ว

ลบคลัสเตอร์ AlloyDB และอินสแตนซ์ทั้งหมด

หากคุณเคยใช้ AlloyDB เวอร์ชันทดลองใช้ อย่าลบคลัสเตอร์ทดลองหากคุณวางแผนที่จะทดสอบห้องทดลองและทรัพยากรอื่นๆ โดยใช้คลัสเตอร์ทดลอง คุณจะสร้างคลัสเตอร์ทดลองอื่นในโปรเจ็กต์เดียวกันไม่ได้

คลัสเตอร์จะถูกทำลายด้วยตัวเลือก force ซึ่งจะลบอินสแตนซ์ทั้งหมดที่เป็นของคลัสเตอร์ด้วย

ใน Cloud Shell ให้กำหนดตัวแปรโปรเจ็กต์และตัวแปรสภาพแวดล้อมหากคุณถูกตัดการเชื่อมต่อและสูญเสียการตั้งค่าก่อนหน้านี้ทั้งหมด

gcloud config set project <your project id>

export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search
export PROJECT_ID=$(gcloud config get-value project)

ลบคลัสเตอร์

gcloud alloydb clusters delete $ADBCLUSTER --region=$REGION --force

เอาต์พุตของคอนโซลที่คาดไว้

student@cloudshell:~ (test-project-001-402417)$ gcloud alloydb clusters delete $ADBCLUSTER --region=$REGION --force
All of the cluster data will be lost when the cluster is deleted.

Do you want to continue (Y/n)?  Y

Operation ID: operation-1697820178429-6082890a0b570-4a72f7e4-4c5df36f
Deleting cluster...done.

ลบข้อมูลสำรองของ AlloyDB

ลบข้อมูลสำรอง AlloyDB ทั้งหมดสำหรับคลัสเตอร์

for i in $(gcloud alloydb backups list --filter="CLUSTER_NAME: projects/$PROJECT_ID/locations/$REGION/clusters/$ADBCLUSTER" --format="value(name)" --sort-by=~createTime) ; do gcloud alloydb backups delete $(basename $i) --region $REGION --quiet; done

เอาต์พุตของคอนโซลที่คาดไว้

student@cloudshell:~ (test-project-001-402417)$ for i in $(gcloud alloydb backups list --filter="CLUSTER_NAME: projects/$PROJECT_ID/locations/$REGION/clusters/$ADBCLUSTER" --format="value(name)" --sort-by=~createTime) ; do gcloud alloydb backups delete $(basename $i) --region $REGION --quiet; done
Operation ID: operation-1697826266108-60829fb7b5258-7f99dc0b-99f3c35f
Deleting backup...done.

ตอนนี้เราสามารถทำลาย VM ได้แล้ว

ลบ VM ใน GCE

ใน Cloud Shell ให้เรียกใช้คำสั่งต่อไปนี้

export GCEVM=instance-1
export ZONE=us-central1-a
gcloud compute instances delete $GCEVM \
    --zone=$ZONE \
    --quiet

เอาต์พุตของคอนโซลที่คาดไว้

student@cloudshell:~ (test-project-001-402417)$ export GCEVM=instance-1
export ZONE=us-central1-a
gcloud compute instances delete $GCEVM \
    --zone=$ZONE \
    --quiet
Deleted

12. ขอแสดงความยินดี

ขอแสดงความยินดีที่ทำ Codelab นี้เสร็จสมบูรณ์

สิ่งที่เราได้พูดถึง

วิธีติดตั้งใช้งานคลัสเตอร์และอินสแตนซ์หลักของ AlloyDB
วิธีเชื่อมต่อกับ AlloyDB จาก VM ของ Google Compute Engine
วิธีสร้างฐานข้อมูลและเปิดใช้ AlloyDB AI
วิธีโหลดข้อมูลลงในฐานข้อมูล
วิธีใช้ AlloyDB Studio
สร้างการฝังด้วย Vertex AI
วิธีสร้างดัชนีเวกเตอร์ ScaNN เพื่อเพิ่มประสิทธิภาพการค้นหาเวกเตอร์
วิธีเปิดใช้และใช้ส่วนขยาย RUM สำหรับการค้นหาข้อความแบบเต็ม
ทำการค้นหาแบบไฮบริดโดยการรวมการค้นหาข้อความแบบเต็ม การค้นหาเวกเตอร์ และReciprocal Rank Fusion (RRF)