Bắt đầu sử dụng tính năng Tìm kiếm kết hợp trong AlloyDB

1. Giới thiệu

Trong lớp học lập trình này, bạn sẽ tìm hiểu cách thực hiện tìm kiếm kết hợp trong AlloyDB bằng cách sử dụng tiện ích RUM (Phương thức cập nhật xếp hạng) và chỉ mục Lân cận gần nhất có thể mở rộng (ScaNN). Bài thực hành này là một phần của bộ bài thực hành dành riêng cho các tính năng AI của AlloyDB. Bạn có thể đọc thêm trên trang AlloyDB AI trong tài liệu.

Điều kiện tiên quyết

  • Có kiến thức cơ bản về Google Cloud Console
  • Kỹ năng cơ bản về giao diện dòng lệnh và Google Shell

Kiến thức bạn sẽ học được

  • Cách triển khai cụm AlloyDB và phiên bản chính
  • Cách kết nối với AlloyDB từ máy ảo Google Compute Engine
  • Cách tạo cơ sở dữ liệu và bật AI AlloyDB
  • Cách tải dữ liệu vào cơ sở dữ liệu
  • Cách sử dụng AlloyDB Studio
  • Tạo các vectơ nhúng bằng Vertex AI
  • Cách tạo chỉ mục vectơ ScaNN để tăng cường tìm kiếm vectơ
  • Cách tạo Trình bao bọc dữ liệu bên ngoài (FDW) cho Elasticsearch
  • Thực hiện tìm kiếm kết hợp bằng cách kết hợp tìm kiếm ngữ nghĩa trong AlloyDB với tìm kiếm toàn bộ văn bản trong Elastic.

Bạn cần có

  • Tài khoản Google Cloud và dự án trên Google Cloud
  • Một trình duyệt web như Chrome

2. Thiết lập và yêu cầu

Thiết lập dự án

Đăng nhập vào Google Cloud Console. Nếu chưa có tài khoản Gmail hoặc Google Workspace, bạn phải tạo một tài khoản.

Sử dụng tài khoản cá nhân thay vì tài khoản trường học hoặc tài khoản do nơi làm việc cấp.

Tạo một dự án trên Google Cloud

  1. Trong Google Cloud Console, trên trang chọn dự án, hãy chọn hoặc tạo một dự án trên Google Cloud.
  2. Đảm bảo rằng bạn đã bật tính năng thanh toán cho dự án trên Cloud. Tìm hiểu cách kiểm tra xem tính năng thanh toán có được bật trên một dự án hay không.

Bật tính năng thanh toán

Để bật tính năng thanh toán, bạn có 2 lựa chọn. Bạn có thể sử dụng tài khoản thanh toán cá nhân hoặc đổi tín dụng theo các bước sau.

Thiết lập tài khoản thanh toán cá nhân

Nếu thiết lập thông tin thanh toán bằng tín dụng Google Cloud, bạn có thể bỏ qua bước này.

Để thiết lập tài khoản thanh toán cá nhân, hãy truy cập vào đây để bật tính năng thanh toán trong Cloud Console.

Một số lưu ý:

  • Việc hoàn thành bài tập thực hành này sẽ tốn ít hơn 3 USD cho các tài nguyên trên đám mây.
  • Bạn có thể làm theo các bước ở cuối bài thực hành này để xoá tài nguyên nhằm tránh bị tính thêm phí.
  • Người dùng mới đủ điều kiện dùng thử miễn phí trị giá 300 USD.

Khởi động Cloud Shell

Mặc dù có thể vận hành Google Cloud từ xa trên máy tính xách tay, nhưng trong lớp học lập trình này, bạn sẽ sử dụng Google Cloud Shell, một môi trường dòng lệnh chạy trên Cloud.

Cloud Shell là một môi trường dòng lệnh chạy trong Google Cloud và được tải sẵn các công cụ cần thiết.

  1. Nhấp vào Kích hoạt Cloud Shell ở đầu bảng điều khiển Cloud.
  2. Sau khi kết nối với Cloud Shell, hãy xác minh thông tin xác thực của bạn:
    gcloud auth list
    
  3. Xác nhận rằng dự án của bạn đã được định cấu hình:
    gcloud config get project
    
  4. Nếu dự án của bạn không được thiết lập như mong đợi, hãy thiết lập dự án:
    export PROJECT_ID=<YOUR_PROJECT_ID>
    gcloud config set project $PROJECT_ID
    

Máy ảo này được trang bị tất cả các công cụ phát triển mà bạn cần. Nền tảng này cung cấp một thư mục chính có dung lượng 5 GB và chạy trên Google Cloud, giúp tăng cường đáng kể hiệu suất mạng và hoạt động xác thực. Bạn có thể thực hiện mọi thao tác trong lớp học lập trình này trong trình duyệt. Bạn không cần cài đặt bất cứ thứ gì.

3. Trước khi bắt đầu

Bật API

Kết quả:

Để sử dụng AlloyDB, Compute Engine, Dịch vụ mạngVertex AI, bạn cần bật các API tương ứng trong dự án trên đám mây của Google Cloud.

Bật API

Trong Cloud Shell trên thiết bị đầu cuối, hãy đảm bảo rằng bạn đã thiết lập mã dự án:

gcloud config set project [YOUR-PROJECT-ID]

Đặt biến môi trường PROJECT_ID:

PROJECT_ID=$(gcloud config get-value project)

Bật tất cả các API cần thiết:

gcloud services enable alloydb.googleapis.com \
                       compute.googleapis.com \
                       cloudresourcemanager.googleapis.com \
                       servicenetworking.googleapis.com \
                       aiplatform.googleapis.com \
                       secretmanager.googleapis.com

Kết quả đầu ra dự kiến

student@cloudshell:~ (test-project-001-402417)$ gcloud config set project test-project-001-402417
Updated property [core/project].
student@cloudshell:~ (test-project-001-402417)$ PROJECT_ID=$(gcloud config get-value project)
Your active configuration is: [cloudshell-14650]
student@cloudshell:~ (test-project-001-402417)$ 
student@cloudshell:~ (test-project-001-402417)$ gcloud services enable alloydb.googleapis.com \
                       compute.googleapis.com \
                       cloudresourcemanager.googleapis.com \
                       servicenetworking.googleapis.com \
                       aiplatform.googleapis.com \
                       secretmanager.googleapis.com
Operation "operations/acat.p2-4470404856-1f44ebd8-894e-4356-bea7-b84165a57442" finished successfully.

Giới thiệu về các API

  • API AlloyDB (alloydb.googleapis.com) cho phép bạn tạo, quản lý và mở rộng quy mô các cụm AlloyDB cho PostgreSQL. Đây là một dịch vụ cơ sở dữ liệu tương thích với PostgreSQL, được quản lý hoàn toàn và được thiết kế cho các tải công việc giao dịch và phân tích đòi hỏi khắt khe của doanh nghiệp.
  • Compute Engine API (compute.googleapis.com) cho phép bạn tạo và quản lý máy ảo (VM), đĩa liên tục và chế độ cài đặt mạng. Nền tảng này cung cấp nền tảng Cơ sở hạ tầng dưới dạng dịch vụ (IaaS) cốt lõi cần thiết để chạy các khối lượng công việc và lưu trữ cơ sở hạ tầng cơ bản cho nhiều dịch vụ được quản lý.
  • Cloud Resource Manager API (cloudresourcemanager.googleapis.com) cho phép bạn quản lý siêu dữ liệu và cấu hình của dự án trên Google Cloud theo phương thức lập trình. Việc này giúp bạn sắp xếp tài nguyên, xử lý các chính sách Quản lý danh tính và quyền truy cập (IAM) cũng như xác thực các quyền trong hệ thống phân cấp dự án.
  • Service Networking API (servicenetworking.googleapis.com) cho phép bạn tự động hoá việc thiết lập kết nối riêng tư giữa mạng Virtual Private Cloud (VPC) và các dịch vụ được quản lý của Google. Bạn cần phải thiết lập quyền truy cập bằng IP riêng cho các dịch vụ như AlloyDB để các dịch vụ này có thể giao tiếp một cách an toàn với các tài nguyên khác của bạn.
  • Vertex AI API (aiplatform.googleapis.com) cho phép các ứng dụng của bạn xây dựng, triển khai và mở rộng quy mô các mô hình học máy. Vertex AI cung cấp giao diện hợp nhất cho tất cả các dịch vụ AI của Google Cloud, bao gồm cả quyền truy cập vào các mô hình AI tạo sinh (như Gemini) và hoạt động huấn luyện mô hình tuỳ chỉnh.
  • Secret Manager API (secretmanager.googleapis.com) là một dịch vụ quản lý thông tin xác thực và bí mật, cho phép bạn lưu trữ và quản lý dữ liệu nhạy cảm như khoá API, tên người dùng, mật khẩu, chứng chỉ, v.v.

Bạn có thể định cấu hình khu vực mặc định để sử dụng các mô hình nhúng Vertex AI (nếu muốn). Đọc thêm về các vị trí có Vertex AI. Trong ví dụ này, chúng ta sẽ sử dụng khu vực us-central1.

gcloud config set compute/region us-central1

4. Triển khai AlloyDB

Trước khi tạo một cụm AlloyDB, chúng ta cần có một dải IP riêng tư có sẵn trong VPC để phiên bản AlloyDB trong tương lai sử dụng. Nếu chưa có, chúng ta cần tạo, chỉ định để các dịch vụ nội bộ của Google sử dụng. Sau đó, chúng ta sẽ có thể tạo cụm và phiên bản.

Tạo dải IP riêng tư

Chúng ta cần định cấu hình cấu hình Quyền truy cập vào dịch vụ riêng tư trong VPC cho AlloyDB. Giả định ở đây là chúng ta có mạng VPC "mặc định" trong dự án và mạng này sẽ được dùng cho mọi hành động.

Tạo dải IP riêng tư:

gcloud compute addresses create psa-range \
    --global \
    --purpose=VPC_PEERING \
    --prefix-length=24 \
    --description="VPC private service access" \
    --network=default

Tạo kết nối riêng tư bằng dải IP được phân bổ:

gcloud services vpc-peerings connect \
    --service=servicenetworking.googleapis.com \
    --ranges=psa-range \
    --network=default \
    --export-custom-routes

Kết quả đầu ra dự kiến trên bảng điều khiển:

student@cloudshell:~ (test-project-402417)$ gcloud compute addresses create psa-range \
    --global \
    --purpose=VPC_PEERING \
    --prefix-length=24 \
    --description="VPC private service access" \
    --network=default
Created [https://www.googleapis.com/compute/v1/projects/test-project-402417/global/addresses/psa-range].

student@cloudshell:~ (test-project-402417)$ gcloud services vpc-peerings connect \
    --service=servicenetworking.googleapis.com \
    --ranges=psa-range \
    --network=default
Operation "operations/pssn.p24-4470404856-595e209f-19b7-4669-8a71-cbd45de8ba66" finished successfully.

student@cloudshell:~ (test-project-402417)$

Tạo cụm AlloyDB

Trong phần này, chúng ta sẽ tạo một cụm AlloyDB ở khu vực us-central1.

Xác định mật khẩu cho người dùng postgres. Bạn có thể tự xác định mật khẩu hoặc sử dụng một hàm ngẫu nhiên để tạo mật khẩu

export PGPASSWORD=`openssl rand -hex 12`

Kết quả đầu ra dự kiến trên bảng điều khiển:

student@cloudshell:~ (test-project-402417)$ export PGPASSWORD=`openssl rand -hex 12`

Ghi lại mật khẩu PostgreSQL để sử dụng sau này.

echo $PGPASSWORD

Sau này, bạn sẽ cần mật khẩu đó để kết nối với phiên bản dưới dạng người dùng postgres. Bạn nên sao chép khoá này vào một vị trí an toàn (tức là trình quản lý mật khẩu).

Kết quả đầu ra dự kiến trên bảng điều khiển:

student@cloudshell:~ (test-project-402417)$ echo $PGPASSWORD
<generated password>

Tạo Cụm AlloyDB

Xác định khu vực và tên cụm AlloyDB. Chúng ta sẽ sử dụng khu vực us-central1 và alloydb-hybrid-search làm tên cụm:

export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search

Chạy lệnh để tạo cụm:

gcloud alloydb clusters create $ADBCLUSTER \
    --password=$PGPASSWORD \
    --network=default \
    --region=$REGION

Kết quả đầu ra dự kiến trên bảng điều khiển:

export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search
gcloud alloydb clusters create $ADBCLUSTER \
    --password=$PGPASSWORD \
    --network=default \
    --region=$REGION
Operation ID: operation-1697655441138-6080235852277-9e7f04f5-2012fce4
Creating cluster...done.                                                                                                                                                                                                                                                           

Tạo một phiên bản chính AlloyDB cho cụm của chúng ta trong cùng một phiên cloud shell. Nếu bị ngắt kết nối, bạn sẽ cần xác định lại các biến môi trường của tên vùng và tên cụm.

gcloud alloydb instances create $ADBCLUSTER-pr \
    --instance-type=PRIMARY \
    --cpu-count=2 \
    --region=$REGION \
    --cluster=$ADBCLUSTER

Kết quả đầu ra dự kiến trên bảng điều khiển:

student@cloudshell:~ (alloydb-hybrid-search)$ gcloud alloydb instances create $ADBCLUSTER-pr \
    --instance-type=PRIMARY \
    --cpu-count=2 \
    --region=$REGION \
    --availability-type ZONAL \
    --cluster=$ADBCLUSTER
Operation ID: operation-1697659203545-6080315c6e8ee-391805db-25852721
Creating instance...done.                                                                                                                                                                                                                                                     

5. Kết nối với AlloyDB

AlloyDB được triển khai bằng kết nối chỉ dành riêng tư, vì vậy, chúng ta cần một VM đã cài đặt ứng dụng PostgreSQL để làm việc với cơ sở dữ liệu. Chúng ta cũng sẽ sử dụng VM này để chạy một thực thể Elasticsearch.

Triển khai máy ảo GCE

Tạo một VM GCE trong cùng khu vực và VPC với cụm AlloyDB, đảm bảo rằng đĩa khởi động đủ lớn để chạy đàn hồi. Ở đây, chúng ta chỉ định một ổ đĩa khởi động 20 GB trong cờ --create-disk.

Trong Cloud Shell, hãy thực thi:

export ZONE=us-central1-a
gcloud compute instances create instance-1 \
    --zone=$ZONE \
    --create-disk=auto-delete=yes,boot=yes,size=20,image=projects/debian-cloud/global/images/$(gcloud compute images list --filter="family=debian-12 AND family!=debian-12-arm64" --format="value(name)") \
    --scopes=https://www.googleapis.com/auth/cloud-platform

Kết quả đầu ra dự kiến trên bảng điều khiển:

student@cloudshell:~ (alloydb-hybrid-search)$ export ZONE=us-central1-a
student@cloudshell:~ (talloydb-hybrid-search)$ export ZONE=us-central1-a
gcloud compute instances create instance-1 \
    --zone=$ZONE \
    --create-disk=auto-delete=yes,boot=yes,image=projects/debian-cloud/global/images/$(gcloud compute images list --filter="family=debian-12 AND family!=debian-12-arm64" --format="value(name)") \
    --scopes=https://www.googleapis.com/auth/cloud-platform

Created [https://www.googleapis.com/compute/v1/projects/test-project-402417/zones/us-central1-a/instances/instance-1].
NAME: instance-1
ZONE: us-central1-a
MACHINE_TYPE: n1-standard-1
PREEMPTIBLE:
INTERNAL_IP: 10.128.0.2
EXTERNAL_IP: 34.71.192.233
STATUS: RUNNING

Cài đặt ứng dụng Postgres

Cài đặt phần mềm máy khách PostgreSQL trên máy ảo đã triển khai

Kết nối với máy ảo:

gcloud compute ssh instance-1 --zone=us-central1-a

Kết quả đầu ra dự kiến trên bảng điều khiển:

student@cloudshell:~ (alloydb-hybrid-search)$ gcloud compute ssh instance-1 --zone=us-central1-a
Updating project ssh metadata...working..Updated [https://www.googleapis.com/compute/v1/projects/alloydb-hybrid-search].                                                                                                                                                         
Updating project ssh metadata...done.                                                                                                                                                                                                                                              
Waiting for SSH key to propagate.
Warning: Permanently added 'compute.5110295539541121102' (ECDSA) to the list of known hosts.
Linux instance-1.us-central1-a.c.gleb-test-short-001-418811.internal 6.1.0-18-cloud-amd64 #1 SMP PREEMPT_DYNAMIC Debian 6.1.76-1 (2024-02-01) x86_64

The programs included with the Debian GNU/Linux system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.

Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent
permitted by applicable law.
student@instance-1:~$

Cài đặt lệnh chạy phần mềm bên trong máy ảo:

sudo apt-get update
sudo apt-get install --yes postgresql-client

Kết quả đầu ra dự kiến trên bảng điều khiển:

student@instance-1:~$ sudo apt-get update
sudo apt-get install --yes postgresql-client
Get:1 https://packages.cloud.google.com/apt google-compute-engine-bullseye-stable InRelease [5146 B]
Get:2 https://packages.cloud.google.com/apt cloud-sdk-bullseye InRelease [6406 B]   
Hit:3 https://deb.debian.org/debian bullseye InRelease  
Get:4 https://deb.debian.org/debian-security bullseye-security InRelease [48.4 kB]
Get:5 https://packages.cloud.google.com/apt google-compute-engine-bullseye-stable/main amd64 Packages [1930 B]
Get:6 https://deb.debian.org/debian bullseye-updates InRelease [44.1 kB]
Get:7 https://deb.debian.org/debian bullseye-backports InRelease [49.0 kB]
...redacted...
update-alternatives: using /usr/share/postgresql/13/man/man1/psql.1.gz to provide /usr/share/man/man1/psql.1.gz (psql.1.gz) in auto mode
Setting up postgresql-client (13+225) ...
Processing triggers for man-db (2.9.4-2) ...
Processing triggers for libc-bin (2.31-13+deb11u7) ...

Kết nối với phiên bản

Kết nối với phiên bản chính từ máy ảo bằng psql.

Trong cùng một thẻ Cloud Shell có phiên SSH đã mở đến VM instance-1.

Sử dụng giá trị mật khẩu AlloyDB (PGPASSWORD) đã ghi chú và mã nhận dạng cụm AlloyDB để kết nối với AlloyDB từ máy ảo GCE:

export PGPASSWORD=<Noted password>
export PROJECT_ID=$(gcloud config get-value project)
export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search
export INSTANCE_IP=$(gcloud alloydb instances describe $ADBCLUSTER-pr --cluster=$ADBCLUSTER --region=$REGION --format="value(ipAddress)")
psql "host=$INSTANCE_IP user=postgres sslmode=require"

Kết quả đầu ra dự kiến trên bảng điều khiển:

student@instance-1:~$ export PGPASSWORD=<noted password>
student@instance-1:~$ ADBCLUSTER=alloydb-aip-01
student@instance-1:~$ REGION=us-central1
student@instance-1:~$ INSTANCE_IP=$(gcloud alloydb instances describe $ADBCLUSTER-pr --cluster=$ADBCLUSTER --region=$REGION --format="value(ipAddress)")
gleb@instance-1:~$ psql "host=$INSTANCE_IP user=postgres sslmode=require"
psql (15.6 (Debian 15.6-0+deb12u1), server 15.5)
SSL connection (protocol: TLSv1.3, cipher: TLS_AES_256_GCM_SHA384, compression: off)
Type "help" for help.

postgres=>

Đóng phiên psql:

exit

6. Chuẩn bị cơ sở dữ liệu

Chúng ta cần tạo một cơ sở dữ liệu, bật tính năng tích hợp Vertex AI, tạo các đối tượng cơ sở dữ liệu và nhập dữ liệu.

Cấp các quyền cần thiết cho AlloyDB

Thêm quyền Vertex AI vào tác nhân dịch vụ AlloyDB.

Mở một thẻ Cloud Shell khác bằng cách sử dụng dấu "+" ở trên cùng.

abc505ac4d41f24e.png

Trong thẻ cloud shell mới, hãy thực thi:

PROJECT_ID=$(gcloud config get-value project)
gcloud projects add-iam-policy-binding $PROJECT_ID \
  --member="serviceAccount:service-$(gcloud projects describe $PROJECT_ID --format="value(projectNumber)")@gcp-sa-alloydb.iam.gserviceaccount.com" \
  --role="roles/aiplatform.user"

Kết quả đầu ra dự kiến trên bảng điều khiển:

student@cloudshell:~ (test-project-001-402417)$ PROJECT_ID=$(gcloud config get-value project)
Your active configuration is: [cloudshell-11039]
student@cloudshell:~ (test-project-001-402417)$ gcloud projects add-iam-policy-binding $PROJECT_ID \
  --member="serviceAccount:service-$(gcloud projects describe $PROJECT_ID --format="value(projectNumber)")@gcp-sa-alloydb.iam.gserviceaccount.com" \
  --role="roles/aiplatform.user"
Updated IAM policy for project [test-project-001-402417].
bindings:
- members:
  - serviceAccount:service-4470404856@gcp-sa-alloydb.iam.gserviceaccount.com
  role: roles/aiplatform.user
- members:
...
etag: BwYIEbe_Z3U=
version: 1

Đóng thẻ bằng cách nhấp vào "X" hoặc thực thi lệnh:

exit

Tạo cơ sở dữ liệu

Tạo một cơ sở dữ liệu có tên là quickstart.

Trong phiên máy ảo GCE, hãy thực thi:

Tạo cơ sở dữ liệu:

psql "host=$INSTANCE_IP user=postgres" -c "CREATE DATABASE quickstart_db"

Kết quả đầu ra dự kiến trên bảng điều khiển:

student@instance-1:~$ psql "host=$INSTANCE_IP user=postgres" -c "CREATE DATABASE quickstart_db"
CREATE DATABASE
student@instance-1:~$  

Bật tính năng tích hợp Vertex AI

Bật tính năng tích hợp Vertex AI và các tiện ích pgvector trong cơ sở dữ liệu.

Trong máy ảo GCE, hãy thực thi:

psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "CREATE EXTENSION IF NOT EXISTS google_ml_integration CASCADE"
psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "CREATE EXTENSION IF NOT EXISTS vector"

Kết quả đầu ra dự kiến trên bảng điều khiển:

student@instance-1:~$ psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "CREATE EXTENSION IF NOT EXISTS google_ml_integration CASCADE"
psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "CREATE EXTENSION IF NOT EXISTS vector"
CREATE EXTENSION
CREATE EXTENSION
student@instance-1:~$

Nhập dữ liệu

Tải dữ liệu đã chuẩn bị xuống và nhập vào cơ sở dữ liệu mới.

Trong máy ảo GCE, hãy thực thi:

gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_demo_schema.sql |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db"
gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_products.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_products from stdin csv header"
gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_inventory.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_inventory from stdin csv header"
gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_stores.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_stores from stdin csv header"

Kết quả đầu ra dự kiến trên bảng điều khiển:

student@instance-1:~$ gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_demo_schema.sql |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db"
SET
SET
SET
SET
SET
 set_config 
------------
 
(1 row)
SET
SET
SET
SET
SET
SET
CREATE TABLE
ALTER TABLE
CREATE TABLE
ALTER TABLE
CREATE TABLE
ALTER TABLE
CREATE TABLE
ALTER TABLE
CREATE SEQUENCE
ALTER TABLE
ALTER SEQUENCE
ALTER TABLE
ALTER TABLE
ALTER TABLE
student@instance-1:~$ gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_products.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_products from stdin csv header"
COPY 941
student@instance-1:~$ gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_inventory.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_inventory from stdin csv header"
COPY 263861
student@instance-1:~$ gcloud storage cat gs://cloud-training/gcc/gcc-tech-004/cymbal_stores.csv |psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db" -c "\copy cymbal_stores from stdin csv header"
COPY 4654
student@instance-1:~$

Tiếp theo, hãy đặt các cờ cơ sở dữ liệu cần thiết. Bạn có thể sử dụng bảng điều khiển web và quản lý cờ trong phiên bản chính hoặc sử dụng lệnh gcloud như sau:

export PROJECT_ID=$(gcloud config get-value project)
export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search
gcloud beta alloydb instances update $ADBCLUSTER-pr \
   --database-flags google_ml_integration.enable_faster_embedding_generation=on,scann.enable_preview_features=on,google_ml_integration.enable_preview_ai_functions=on,google_ml_integration.enable_ai_query_engine=on \
   --region=$REGION \
   --cluster=$ADBCLUSTER \
   --project=$PROJECT_ID \
   --update-mode=FORCE_APPLY

Kết quả đầu ra dự kiến trên bảng điều khiển

export PROJECT_ID=$(gcloud config get-value project)
export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search
gcloud beta alloydb instances update $ADBCLUSTER-pr \
   --database-flags google_ml_integration.enable_faster_embedding_generation=on,scann.enable_preview_features=on,google_ml_integration.enable_preview_ai_functions=on,google_ml_integration.enable_ai_query_engine=on \
   --region=$REGION \
   --cluster=$ADBCLUSTER \
   --project=$PROJECT_ID \
   --update-mode=FORCE_APPLY
Your active configuration is: [cloudshell-724]
Operation ID: operation-1775159889986-64e7f9ea9858a-b031e866-4c7c36df

Việc bật cờ cơ sở dữ liệu yêu cầu khởi động lại phiên bản và sẽ mất vài phút. Sau khi hoàn tất, trạng thái của phiên bản AlloyDB sẽ là "Sẵn sàng".

7. Tạo vectơ nhúng

Sau khi nhập dữ liệu, chúng ta có các bảng sau: cymbal_products lưu trữ thông tin về sản phẩm, cymbal_inventory theo dõi kho hàng của từng mặt hàng ở mỗi cửa hàng và cymbal_stores là danh sách các cửa hàng. Để thực hiện tìm kiếm ngữ nghĩa trên các sản phẩm của mình, chúng ta cần tạo các vectơ nhúng cho nội dung mô tả sản phẩm bằng hàm initialize_embeddings. Chúng ta sẽ dùng tính năng tích hợp Vertex AI để tính toán dữ liệu vectơ dựa trên nội dung mô tả sản phẩm và thêm dữ liệu đó vào bảng. Bạn có thể đọc thêm về công nghệ được dùng trong tài liệu.

Để sử dụng tính năng tích hợp này, hãy kết nối với cơ sở dữ liệu bằng AlloyDB Studio hoặc bằng psql từ VM của bạn bằng cách sử dụng IP của thực thể AlloyDB và mật khẩu postgres:

psql "host=$INSTANCE_IP user=postgres dbname=quickstart_db"

Xác minh phiên bản của tiện ích google_ml_integration.

SELECT extversion FROM pg_extension WHERE extname = 'google_ml_integration';

Phiên bản phải từ 1.5.2 trở lên. Sau đây là ví dụ về kết quả:

quickstart_db=> SELECT extversion FROM pg_extension WHERE extname = 'google_ml_integration';
 extversion
------------
 1.5.2
(1 row)

Phiên bản mặc định phải là 1.5.2 trở lên, nhưng nếu phiên bản trên phiên bản của bạn cũ hơn thì có thể bạn cần cập nhật. Kiểm tra xem hoạt động bảo trì có bị vô hiệu hoá cho phiên bản này hay không.

Cài đặt tiện ích vectơ và tạo một cột mới để lưu trữ các mục nhúng trong cymbal_products

CREATE EXTENSION IF NOT EXISTS vector;
ALTER TABLE cymbal_products ADD COLUMN product_embedding vector(768);

Kết quả đầu ra dự kiến trên bảng điều khiển:

quickstart_db=> ALTER TABLE cymbal_products ADD COLUMN product_embedding vector(768);
ALTER TABLE
quickstart_db=>

Chúng tôi sẽ sử dụng tính năng tạo vectơ nhúng hàng loạt để cải thiện hiệu quả. Bạn có thể đọc thêm về các lựa chọn và kỹ thuật tạo vectơ nhúng khác nhau trong hướng dẫn. Trước đây, chúng tôi đã bật cờ goole_ml_integration.enable_faster_embedding_generation để cho phép tạo hàng loạt các mục nhúng.

Cuối cùng, chúng ta cũng muốn các mục nhúng làm mới khi các giá trị cột bị thay đổi bằng cách thêm đối số incremental_refresh_mode vào lệnh gọi hàm. Điều này làm tăng tải cho cơ sở dữ liệu của chúng tôi, nhưng đây là một sự đánh đổi mà chúng tôi thực hiện để tự động đồng bộ hoá các mục nhúng với nội dung. Nếu muốn cập nhật các mục nhúng theo cách thủ công, bạn có thể xem hướng dẫn trong tài liệu.

Giờ đây, khi kết hợp tất cả lại với nhau và tạo các mục nhúng, chúng ta sẽ sử dụng hàm initialize_embeddings và truyền batch_size là 50 làm gợi ý về lô, đồng thời đặt incremental_refresh_mode thành transactional

CALL ai.initialize_embeddings(
    model_id => 'text-embedding-005',
    table_name => 'cymbal_products',
    content_column => 'product_description',
    embedding_column => 'product_embedding',
    batch_size => 50,
    incremental_refresh_mode => 'transactional'
);

Và giờ đây, nếu chúng ta chèn một hàng mới vào bảng có giá trị NULL cho cột product_embedding

INSERT INTO "cymbal_products" ("uniq_id", "crawl_timestamp", "product_url", "product_name", "product_description", "list_price", "sale_price", "brand", "item_number", "gtin", "package_size", "category", "postal_code", "available", "product_embedding") VALUES ('fd604542e04b470f9e6348e640cff794', NOW(), 'https://example.com/new_product', 'New Cymbal Product', 'This is a new cymbal product description.', 199.99, 149.99, 'Example Brand', 'EB123', '1234567890', 'Single', 'Cymbals', '12345', TRUE, NULL);

Giờ đây, khi truy vấn hàng mà chúng ta vừa chèn, chúng ta sẽ thấy cột product_embedding được tự động cập nhật.

SELECT uniq_id, (product_embedding::real[])[1:5] as product_embedding  FROM cymbal_products WHERE uniq_id='fd604542e04b470f9e6348e640cff794';

Kết quả đầu ra sẽ có dạng như sau:

quickstart_db=> SELECT uniq_id,(product_embedding::real[])[1:5] as product_embedding  FROM cymbal_products WHERE uniq_id='fd604542e04b470f9e6348e640cff794';
             uniq_id              |                      product_embedding                       
----------------------------------+---------------------------------------------------------------
 fd604542e04b470f9e6348e640cff794 | {0.015003494,-0.005349732,-0.059790313,-0.0087091,-0.0271452}
(1 row)

Time: 3.295 ms

8. Tạo chỉ mục vectơ

Để cải thiện hiệu suất tìm kiếm vectơ, chúng tôi sẽ thêm một chỉ mục ScaNN.

Tạo chỉ mục ScaNN

Để tạo chỉ mục SCANN, chúng ta cần bật thêm một tiện ích nữa. Tiện ích alloydb_scann cung cấp một giao diện để làm việc với chỉ mục vectơ loại ANN bằng cách sử dụng thuật toán ScaNN của Google.

CREATE EXTENSION IF NOT EXISTS alloydb_scann;

Kết quả đầu ra dự kiến:

quickstart_db=> CREATE EXTENSION IF NOT EXISTS alloydb_scann;
CREATE EXTENSION
Time: 27.468 ms
quickstart_db=>

Bạn có thể tạo chỉ mục ở chế độ THỦ CÔNG hoặc TỰ ĐỘNG. Chế độ THỦ CÔNG được bật theo mặc định và bạn có thể tạo chỉ mục cũng như duy trì chỉ mục đó như bất kỳ chỉ mục nào khác. Nhưng nếu bật chế độ TỰ ĐỘNG, bạn có thể tạo chỉ mục mà không cần bảo trì. Bạn có thể đọc chi tiết về tất cả các lựa chọn trong tài liệu. Trong trường hợp này, chúng ta không có đủ hàng để tạo chỉ mục ở chế độ TỰ ĐỘNG, vì vậy, chúng ta sẽ tạo chỉ mục ở chế độ THỦ CÔNG và thêm các tham số điều chỉnh. Bạn có thể đọc về việc điều chỉnh các tham số chỉ mục trong tài liệu.

CREATE INDEX cymbal_products_embeddings_scann ON cymbal_products
  USING scann (product_embedding cosine)
  WITH (mode='MANUAL', num_leaves=31, max_num_levels = 2);

Kết quả đầu ra dự kiến:

quickstart_db=> CREATE INDEX cymbal_products_embeddings_scann ON cymbal_products
  USING scann (product_embedding cosine)
  WITH (num_leaves=31, max_num_levels = 2);
CREATE INDEX
quickstart_db=>

Kiểm tra việc sử dụng chỉ mục

Giờ đây, chúng ta có thể chạy truy vấn tìm kiếm vectơ ở chế độ EXPLAIN và xác minh xem chỉ mục có đang được sử dụng hay không.

EXPLAIN (analyze)
WITH trees as (
SELECT
        cp.product_name,
        left(cp.product_description,80) as description,
        cp.sale_price,
        cs.zip_code,
        cp.uniq_id as product_id
FROM
        cymbal_products cp
JOIN cymbal_inventory ci on
        ci.uniq_id=cp.uniq_id
JOIN cymbal_stores cs on
        cs.store_id=ci.store_id
        AND ci.inventory>0
        AND cs.store_id = 1583
ORDER BY
        (cp.product_embedding <=> embedding('text-embedding-005','What kind of fruit trees grow well here?')::vector) ASC
LIMIT 1)
SELECT json_agg(trees) FROM trees;

Kết quả đầu ra dự kiến (được chỉnh sửa để cho rõ ràng hơn):

...
Aggregate (cost=16.59..16.60 rows=1 width=32) (actual time=2.875..2.877 rows=1 loops=1)
-> Subquery Scan on trees (cost=8.42..16.59 rows=1 width=142) (actual time=2.860..2.862 rows=1 loops=1)
-> Limit (cost=8.42..16.58 rows=1 width=158) (actual time=2.855..2.856 rows=1 loops=1)
-> Nested Loop (cost=8.42..6489.19 rows=794 width=158) (actual time=2.854..2.855 rows=1 loops=1)
-> Nested Loop (cost=8.13..6466.99 rows=794 width=938) (actual time=2.742..2.743 rows=1 loops=1)
-> Index Scan using cymbal_products_embeddings_scann on cymbal_products cp (cost=7.71..111.99 rows=876 width=934) (actual time=2.724..2.724 rows=1 loops=1)
Order By: (embedding <=> '[0.008864171,0.03693164,-0.024245683,-0.00355923,0.0055611245,0.015985578,...<redacted>...5685,-0.03914233,-0.018452475,0.00826032,-0.07372604]'::vector)
...

Từ đầu ra, chúng ta có thể thấy rõ rằng truy vấn đang sử dụng "Index Scan using cymbal_products_embeddings_scann on cymbal_products".

9. Tạo một phiên bản linh hoạt

Elasticsearch là nhãn hiệu của Elastic NV và không liên kết với Google LLC. Chúng ta sẽ sử dụng Elasticsearch cho phần tìm kiếm toàn văn (FTS) của tính năng tìm kiếm kết hợp. Nếu có một phiên bản Elasticsearch, bạn có thể bỏ qua các bước sau và tạo một khoá API Chỉ đọc cho Cá nhân/Người dùng mà AlloyDB có thể dùng để truy cập vào cụm Elasticsearch của bạn. Nếu không, bạn có thể tạo một phiên bản Elasticsearch trong VM mà bạn đã tạo trước đó.

Kết nối SSH vào VM và cài đặt Docker

sudo apt-get update
sudo apt-get install -y ca-certificates curl gnupg
sudo install -m 0755 -d /etc/apt/keyrings
curl -fsSL https://download.docker.com/linux/debian/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.gpg
sudo chmod a+r /etc/apt/keyrings/docker.gpg

echo \
  "deb [arch="$(dpkg --print-architecture)" signed-by=/etc/apt/keyrings/docker.gpg] https://download.docker.com/linux/debian \
  "$(. /etc/os-release && echo "$VERSION_CODENAME")" stable" | \
  sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
sudo apt-get update
sudo apt-get install -y docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

Giờ đây, bạn có thể sửa đổi lệnh docker mà người dùng sẽ chạy

sudo usermod -aG docker $USER
newgrp docker

Trong thiết bị đầu cuối của máy ảo, hãy thực thi lệnh sau để tạo vùng chứa linh hoạt:

curl -fsSL https://elastic.co/start-local | sh

Kết quả đầu ra dự kiến (đã chỉnh sửa)

🎉 Congrats, Elasticsearch and Kibana are installed and running in Docker!

🌐 Open your browser at http://localhost:5601

   Username: elastic
   Password: [password_value]

🔌 Elasticsearch API endpoint: http://localhost:9200
🔑 API key: [API Key]

Learn more at https://github.com/elastic/start-local

Sao chép đầu ra và dán đầu ra vào tệp sau

nano elastic-last-run.txt

Nhấn tổ hợp phím Ctrl + O, Enter, Ctrl + X để lưu và thoát.

Theo mặc định, vùng chứa Docker sẽ lắng nghe trên http://localhost:9200 và có thể gặp sự cố khi nhận yêu cầu bên ngoài từ AlloyDB. Chúng ta phải định cấu hình docker-compose.yml để nghe trên 9200:9200

Sau khi chạy tập lệnh, một thư mục elastic-start-local mới sẽ được tạo. Chuyển đến thư mục này rồi chỉnh sửa dockerfile

cd elastic-start-local/
nano docker-compose.yml

Ở gần phía trên cùng, bạn sẽ thấy

  elasticsearch:
    image: docker.elastic.co/elasticsearch/elasticsearch:${ES_LOCAL_VERSION}
    container_name: ${ES_LOCAL_CONTAINER_NAME}
    volumes:
      - dev-elasticsearch:/usr/share/elasticsearch/data
    ports:
      - localhost:9200

Sửa đổi trường ports thành

    ports:
      - 9200:9200

Lưu và thoát bằng cách nhấn tổ hợp phím Ctrl + O, Enter, Ctrl + X. Bây giờ, hãy khởi động lại ngăn xếp

docker compose up -d

Bây giờ, chúng ta sẽ điền nội dung mô tả và tên sản phẩm vào phiên bản Elastic. Sao chép tệp CSV sản phẩm từ bộ nhớ đám mây vào máy ảo.

gcloud storage cp gs://cloud-training/gcc/gcc-tech-004/cymbal_products.csv .

Kết quả đầu ra dự kiến

gcloud storage cp gs://cloud-training/gcc/gcc-tech-004/cymbal_products.csv .
Copying gs://cloud-training/gcc/gcc-tech-004/cymbal_products.csv to file://./cymbal_products.csv
  Completed files 1/1 | 1.4MiB/1.4MiB                                                                       

Average throughput: 147.9MiB/s

Bây giờ, hãy tạo một tập lệnh Python để trích xuất tệp CSV và định dạng dữ liệu thành NDJSON để tải lên hàng loạt

nano convert.py

Dán nội dung sau vào tệp

import csv
import json

# Configuration
input_file = 'cymbal_products.csv'
output_file = 'products.json'
index_name = 'elasticindexdemo'

def convert():
    try:
        with open(input_file, mode='r', encoding='utf-8') as f_in, \
             open(output_file, mode='w', encoding='utf-8') as f_out:
            
            reader = csv.DictReader(f_in)
            
            count = 0
            for row in reader:
                metadata = {
                    "index": {
                        "_index": index_name,
                        "_id": row['uniq_id'].strip()
                    }
                }
                
                # 2. Data/Source line
                document = {
                    "uniq_id": row['uniq_id'].strip(),
                    "product_name": row['product_name'].strip(),
                    "product_description": row['product_description'].strip()
                }
                
                # Write to file
                f_out.write(json.dumps(metadata) + '\n')
                f_out.write(json.dumps(document) + '\n')
                count += 1
                
            print(f"Success: Processed {count} products.")
            print(f"Output saved to: {output_file}")

    except Exception as e:
        print(f"An error occurred: {e}")

if __name__ == "__main__":
    convert()

Lưu tệp và kích hoạt tệp đó

python3 convert.py

Kết quả đầu ra dự kiến

~$ python3 convert.py
Success: Processed 941 products.
Output saved to: products.json

Đối với quá trình tải hàng loạt dữ liệu, chúng ta phải lấy khoá API từ tệp chạy trước đó và dùng khoá này để uỷ quyền vào phiên bản. Sau đó, tệp JSON đã tạo trước đó sẽ được truyền vào. Đối với các trường hợp sản xuất, tốt nhất là bạn nên xác định chỉ mục và các loại dữ liệu trong Elasticsearch. Vì tập dữ liệu trong lớp học lập trình này có kích thước nhỏ, nên chúng ta sẽ để Elasticsearch xử lý dữ liệu. Trước tiên, hãy lấy khoá API từ tệp rồi lưu vào một biến.

AUTH_HDR=$(grep "API key" elastic-last-run.txt | sed -e "s/^.*API key:[[:space:]]*/ApiKey /g")

Sử dụng biến mà chúng ta đã lưu, hãy chạy lệnh curl sau đây để tải dữ liệu lên từ JSON.

curl -s -X POST "localhost:9200/elasticindexdemo/_bulk?pretty" \
  -H "Content-Type: application/x-ndjson" \
  -H "Authorization: $AUTH_HDR" \
  --data-binary "@products.json"

Kết quả đầu ra dự kiến

~$ curl -s -X POST "localhost:9200/elasticindexdemo/_bulk?pretty" \
  -H "Content-Type: application/x-ndjson" \
  -H "Authorization: $AUTH_HDR" \
  --data-binary "@products.json"
{
  "errors" : false,
  "took" : 1003,
  "items" : [
    {
      "index" : {
        "_index" : "elasticindexdemo",
        "_id" : "a73d5f754f225ecb9fdc64232a57bc37",
        "_version" : 1,
        "result" : "created",
        "_shards" : {
          "total" : 2,
          "successful" : 1,
          "failed" : 0
        },
        "_seq_no" : 0,
        "_primary_term" : 1,
        "status" : 201
      }
    },
...]
}
Done

Cuối cùng, chúng ta cần lấy khoá API cho phiên bản Elasticsearch để có thể lưu khoá đó cho AlloyDB sử dụng. Chạy lệnh sau và sao chép giá trị khoá API

cat elastic-last-run.txt

Với khoá API, chúng ta cần tạo một khoá bí mật trong trình quản lý khoá bí mật. Trong cloudshell, hãy chạy lệnh sau bằng khoá API của bạn

echo -n "[YOUR_API_KEY_VALUE]" | \
gcloud secrets create elasticsearch \
    --replication-policy="automatic" \
    --data-file=-

10. Tạo trình bao bọc dữ liệu bên ngoài trong AlloyDB

Thời lượng: 20:00

Để truy vấn dữ liệu được lưu trữ trong Elasticsearch từ AlloyDB, chúng ta phải tạo một Trình bao bọc dữ liệu bên ngoài (FDW) cho Elastic và một bảng bên ngoài. Trước đây, bạn đã lưu khoá API Elastic trong trình quản lý bí mật. Để AlloyDB truy cập vào bí mật này, hãy cấp cho tài khoản dịch vụ quyền cần thiết.

Trong Cloud Shell, hãy cấp cho tài khoản dịch vụ quyền truy cập vào khoá bí mật elasticsearch

gcloud secrets add-iam-policy-binding elasticsearch \
    --member="serviceAccount:service-$(gcloud projects describe $(gcloud config get-value project) --format='value(projectNumber)')@gcp-sa-alloydb.iam.gserviceaccount.com" \
    --role="roles/secretmanager.secretAccessor"

Kết quả đầu ra dự kiến

gcloud secrets add-iam-policy-binding elasticsearch \
    --member="serviceAccount:service-$(gcloud projects describe $(gcloud config get-value project) --format='value(projectNumber)')@gcp-sa-alloydb.iam.gserviceaccount.com" \
    --role="roles/secretmanager.secretAccessor"
Updated IAM policy for secret [elasticsearch].
bindings:
- members:
  - serviceAccount:service-257907437930@gcp-sa-alloydb.iam.gserviceaccount.com
  role: roles/secretmanager.secretAccessor
etag: BwZOghJiP5U=
version: 1

Chuyển đến cụm AlloyDB và mở AlloyDB Studio (bạn cũng có thể dùng psql để kết nối từ VM). Đăng nhập vào quickstart_db với tư cách là người dùng postgres.

Bật tiện ích FDW

CREATE EXTENSION external_search_fdw;

Kết quả đầu ra dự kiến

Statement executed successfully

Để truy cập vào Elasticsearch, hãy tạo một máy chủ dữ liệu bên ngoài. Bạn có thể tìm thấy địa chỉ IP nội bộ của máy ảo trong Compute Engine > VM Instances (Phiên bản máy ảo). Đối với đường dẫn bí mật, hãy chuyển đến Secret Manager rồi chọn bí mật của bạn, đường dẫn sẽ ở trên cùng. Hãy nhớ thêm /versions/latest để lấy phiên bản mới nhất của khoá bí mật.

CREATE SERVER elastic_demo_server
FOREIGN DATA WRAPPER external_search_fdw
OPTIONS(
    server 'http://[VM INTERNAL IP ADDRESS]:9200',
    search_provider 'elastic',
    auth_method 'ApiKey',
    secret_path '[SECRET PATH]/versions/latest'
);

Tiếp theo, hãy xác định bảng bên ngoài. Sau siêu dữ liệu, hãy cung cấp định nghĩa giản đồ trường Elasticsearch để khớp với dữ liệu đã tải trước đó. Trong bảng từ xa, hãy chỉ định tên của chỉ mục Elastic.

CREATE FOREIGN TABLE elasticindexdemo (
    metadata external_search_fdw_schema.OpaqueMetadata,
    uniq_id TEXT,
    product_name TEXT,
    product_description TEXT
)
SERVER elastic_demo_server
OPTIONS(
    remote_table_name 'elasticindexdemo'
);

Tạo một mối liên kết người dùng cho máy chủ

CREATE USER MAPPING FOR CURRENT_USER SERVER elastic_demo_server;

Giờ đây, bạn có thể kiểm thử bảng bên ngoài

SELECT uniq_id, product_name
FROM elasticindexdemo
ORDER BY metadata <@> 'product_description:lamp' DESC
limit 10;

Kết quả đầu ra dự kiến

"uniq_id","product_name"
"59c05332f09426c23d8d005528e3c12e","CVL Mini Vintage Metal Lamp Shade: Black Metal with Punched Pattern"
"c24dd78c0d570105256e1bf1cb2fea9d","Better Homes & Gardens Tapered Drum Shade, White Box Pleat"
"7ba20db2bcfab28f88fc714d73af1eb8","4 Pack E27 Wireless Remote Control Light Lamp Bulb Holder Cap Socket Switch 30m"
"0fad1469ea9dfa80b35cfe5266b8bfe7","Star Projector Lamp, 360 Degree Star Night Light Romantic Room Rotating Cosmos Star Projuctor With USB Cable, Light Lamp Starry Moon Sky Night Projector Kid Bedroom Lamp"
"70b37e483ef3678078236d36954525ce","Lucille 10.5\""h Duck Egg Blue Empire Stitched Lamp Shade 7x10x8"
"b7a4b9151598f4cae7707cbedabe3c1b","10x12x8\"" SLIP UNO FITTER Hardback Shallow Drum Lamp Shade Textured Slate"
"5962cf47b88186eed76d14f6376882df","E27 To E14 Lampshade Lamp Light Shades Socket Reducing Ring Adapter Washer"
"7c54fdebfe0b1dd3f649741b8928a95b","iMounTEK LED Projector Lamp Kids Night Light Star Moon Projection Night Lamp 360\u00b0 Rotation Timer for Children Bedroom"
"4531201095c2653530747e215fcc1435","Home Concept Inc 11 Classics Brass Empire Lamp Shade"
"350527adb4299a015bcce74dee97805e","6 Colors LED Star Projector Lamp 360 Degree Romantic Rotating Night Cosmos Star Sky Moon Projector Kids Sleep Night Light For Children Gift Bedroom Decor"

11. Sử dụng tính năng Tìm kiếm kết hợp

Thời lượng: 15:00

Giờ đây, khi mọi thứ đã được thiết lập, chúng ta có thể sử dụng hàm ai.hybrid_search() để kết hợp tìm kiếm vectơ và tìm kiếm toàn văn. Bạn có thể đọc thêm về tính năng tìm kiếm kết hợp trong tài liệu. Khi sử dụng tính năng tìm kiếm kết hợp, theo mặc định, kết quả truy vấn sẽ sử dụng thuật toán Reciprocal Rank Fusion (Hợp nhất thứ hạng tương hỗ) để sắp xếp thứ hạng kết quả từ nhiều truy vấn. Trước tiên, hãy thử tìm kiếm bằng vectơ và tìm kiếm kết hợp một cách độc lập để phân tích sự khác biệt giữa chúng.

Truy vấn sau đây thực hiện tìm kiếm vectơ để tìm các sản phẩm tương tự như quả anh đào. Mảng này cung cấp danh sách các cụm từ tìm kiếm cần thực hiện. Trong trường hợp này, chúng ta chỉ sử dụng tính năng tìm kiếm vectơ nhưng sau này, chúng ta sẽ cung cấp cả vectơ và FTS.

SELECT id, score, cymbal_products.product_name, cymbal_products.product_description
FROM ai.hybrid_search(
  ARRAY[
      '{
        "data_type": "vector",
        "table_name": "cymbal_products",
        "key_column": "uniq_id",
        "vec_column": "product_embedding",
        "distance_operator": "public.<=>",
        "limit": 3,
        "query_vector": "ai.embedding(''text-embedding-005'', ''cherry'')::vector"
      }'::JSONB
  ]
) JOIN cymbal_products ON id = cymbal_products.uniq_id;

Trong kết quả, cây anh đào là kết quả đầu tiên, nhưng hãy lưu ý rằng hai kết quả tiếp theo cũng là cây ăn quả. Điều này là do khi sử dụng tính năng tìm kiếm vectơ trong cột product_description, chúng tôi sẽ tìm thấy các kết quả khớp ngữ nghĩa với điều kiện tìm kiếm của mình.

"id","score","product_name","product_description"
"d536e9e823296a2eba198e52dd23e712","0.01639344262295082","Cherry Tree","This is a beautiful cherry tree that will produce delicious cherries. It is an deciduous tree that grows to be about 15 feet tall. The leaves are dark green in the summer and turn a beautiful red in the fall. Cherry trees are known for their beauty and their ability to provide shade and privacy. Cherry trees prefer a cool, moist climate and sandy soil. They are best suited for USDA zones 4-9."
"b70c44b1a38c0a2329fa583c9109a80f","0.016129032258064516","Peach Tree","This is a beautiful peach tree that will produce delicious peaches. It is an evergreen tree that grows to be about 20 feet tall. The leaves are dark green in the summer and turn a beautiful yellow in the fall. Peach trees are known for their beauty and their ability to provide shade and privacy. Peach trees prefer a cool, moist climate and sandy soil. They are best suited for USDA zones 2-9."
"23e41a71d63d8bbc9bdfa1d118cfddc5","0.015873015873015872","Apple Tree","This is a beautiful apple tree that will produce delicious apples. It is a deciduous tree that grows to be about 30 feet tall. The leaves are dark green in the summer and turn a beautiful red, orange, and yellow in the fall. Apple trees are known for their strength and durability. They are also a popular choice for shade trees. Apple trees prefer a cool, moist climate and loamy soil. They are best suited for USDA zones 4-8."

Để thực hiện tìm kiếm toàn văn, hãy chạy truy vấn sau

SELECT id, score, cymbal_products.product_name, cymbal_products.product_description
FROM ai.hybrid_search(
  ARRAY[
      '{
        "limit": 3,
        "data_type": "external_search_fdw",
        "table_name": "elasticindexdemo",
        "key_column": "uniq_id",
        "query_text_input": "product_description:(cherry)"
      }'::JSONB
  ]
) JOIN cymbal_products ON id = cymbal_products.uniq_id;

Lưu ý trong kết quả, vì tính năng tìm kiếm toàn văn sử dụng tính năng khớp chính xác, nên kết quả sẽ trả về mọi nội dung có chứa từ "cherry" trong phần mô tả sản phẩm.

"id","score","product_name","product_description"
"d536e9e823296a2eba198e52dd23e712","0.01639344262295082","Cherry Tree","This is a beautiful cherry tree that will produce delicious cherries. It is an deciduous tree that grows to be about 15 feet tall. The leaves are dark green in the summer and turn a beautiful red in the fall. Cherry trees are known for their beauty and their ability to provide shade and privacy. Cherry trees prefer a cool, moist climate and sandy soil. They are best suited for USDA zones 4-9."
"390cf08feac229e7b752709fd1f943b3","0.016129032258064516","Woven Round Placemat, Set of Twelve, Grass","...These placemats are great for special occasions and holidays, but are also perfect to accessorize your everyday place settings.|Measurements. 15-inch round diameter is the perfect size for most table sizes and shapes.|Pop Colors. Choose from 7 pop woven color placemats including: Black, Cherry, Grass, Taupe, Navy, Sun and Graphite."
"2c9aa7ac98c30abf78dd9c62a68a34e6","0.015873015873015872","48 Scented Wax Melts Wax Cubes: Jelly Belly Jelly Beans Candy Bulk Soy Wax Melts For Candle Warmer, Wax Warmers, Wax Melt Warmers In 8 Pack Set","...From These Flavors: Lemon Drop, Mixed Berry Smoothie, Sizzling Cinnamon, Crushed Pineapple, Juicy Pear, Cotton Candy, Toasted Marshmallow, French Vanilla, Watermelon, Red Apple, Very Cherry, Buttered Popcorn..."

Giờ đây, bạn có thể kết hợp cả tìm kiếm ngữ nghĩa và FTS để nhận được kết quả có ý nghĩa hơn. Giả sử chúng ta muốn tìm một cái cây có thể cao hơn một ngôi nhà và chúng ta muốn cây đó đến từ California. Chúng tôi chia truy vấn để tận dụng ý định ngữ nghĩa so với việc so khớp theo nghĩa đen. Tính năng tìm kiếm vectơ xử lý phần mô tả: "cây có thể cao hơn một ngôi nhà" vì tính năng này hiểu được khái niệm về chiều cao và quy mô mà không cần từ khoá chính xác. Trong khi đó, tính năng tìm kiếm toàn văn bản sẽ xử lý "California" dưới dạng một bộ lọc nghiêm ngặt để đảm bảo chúng ta nhận được kết quả khớp chính xác về địa lý thay vì chỉ là một kết quả tương tự về mặt khái niệm.

SELECT id, score, cymbal_products.product_name, cymbal_products.product_description
FROM ai.hybrid_search(
  ARRAY[
    '{
        "data_type": "vector",
        "table_name": "cymbal_products",
        "key_column": "uniq_id",
        "vec_column": "product_embedding",
        "distance_operator": "public.<=>",
        "limit": 3,
        "query_vector": "ai.embedding(''text-embedding-005'', ''tree that can grow taller than a house'')::vector"
      }'::JSONB,
      '{
        "limit": 3,
        "data_type": "external_search_fdw",
        "table_name": "elasticindexdemo",
        "key_column": "uniq_id",
        "query_text_input": "product_description:(California)"
      }'::JSONB
  ]
) JOIN cymbal_products ON id = cymbal_products.uniq_id;

Kết quả dự kiến:

"id","score","product_name","product_description"
"a589fd36a8a20fd9472d2403d6ed692a","0.00819672631147241","California Redwood","This is a beautiful redwood tree that can grow to be over 300 feet tall. It is an evergreen tree that grows in the coastal forests of California. Redwoods are known for their beauty and their strength. They are best suited for USDA zones 7-10."
"ef9432802da24041594c2cf368dfb4d2","0.008064521129029258","Madrone","This is a beautiful madrona tree that can grow to be over 80 feet tall. It is an evergreen tree that grows in the coastal forests of California. Madronas are known for their beauty and their bark. They are best suited for USDA zones 7-10."
"1360d8642bc218e4ea28e9c32b2e1721","0.007936512936504936","California Sycamore","This is a beautiful sycamore tree that can grow to be over 100 feet tall. It is an deciduous tree that grows in the valleys and foothills of California. California sycamores are known for their beauty and their shade. They are best suited for USDA zones 7-10."

12. Dọn dẹp môi trường

Huỷ các thực thể và cụm AlloyDB khi bạn hoàn thành bài thực hành.

Xoá cụm AlloyDB và tất cả các phiên bản

Nếu bạn đã dùng phiên bản dùng thử của AlloyDB. Đừng xoá cụm dùng thử nếu bạn có kế hoạch kiểm thử các phòng thí nghiệm và tài nguyên khác bằng cụm dùng thử. Bạn sẽ không thể tạo một cụm thử nghiệm khác trong cùng một dự án.

Cụm bị huỷ bằng lựa chọn force, thao tác này cũng sẽ xoá tất cả các phiên bản thuộc cụm.

Trong Cloud Shell, hãy xác định các biến dự án và môi trường nếu bạn đã bị ngắt kết nối và mất tất cả các chế độ cài đặt trước đó:

gcloud config set project <your project id>
export REGION=us-central1
export ADBCLUSTER=alloydb-hybrid-search
export PROJECT_ID=$(gcloud config get-value project)

Xoá cụm:

gcloud alloydb clusters delete $ADBCLUSTER --region=$REGION --force

Kết quả đầu ra dự kiến trên bảng điều khiển:

student@cloudshell:~ (test-project-001-402417)$ gcloud alloydb clusters delete $ADBCLUSTER --region=$REGION --force
All of the cluster data will be lost when the cluster is deleted.

Do you want to continue (Y/n)?  Y

Operation ID: operation-1697820178429-6082890a0b570-4a72f7e4-4c5df36f
Deleting cluster...done.   

Xoá bản sao lưu AlloyDB

Xoá tất cả bản sao lưu AlloyDB cho cụm:

for i in $(gcloud alloydb backups list --filter="CLUSTER_NAME: projects/$PROJECT_ID/locations/$REGION/clusters/$ADBCLUSTER" --format="value(name)" --sort-by=~createTime) ; do gcloud alloydb backups delete $(basename $i) --region $REGION --quiet; done

Kết quả đầu ra dự kiến trên bảng điều khiển:

student@cloudshell:~ (test-project-001-402417)$ for i in $(gcloud alloydb backups list --filter="CLUSTER_NAME: projects/$PROJECT_ID/locations/$REGION/clusters/$ADBCLUSTER" --format="value(name)" --sort-by=~createTime) ; do gcloud alloydb backups delete $(basename $i) --region $REGION --quiet; done
Operation ID: operation-1697826266108-60829fb7b5258-7f99dc0b-99f3c35f
Deleting backup...done.                                                                                                                                                                                                                                                            

Giờ đây, chúng ta có thể hủy bỏ máy ảo

Xoá máy ảo GCE

Trong Cloud Shell, hãy thực thi:

export GCEVM=instance-1
export ZONE=us-central1-a
gcloud compute instances delete $GCEVM \
    --zone=$ZONE \
    --quiet

Kết quả đầu ra dự kiến trên bảng điều khiển:

student@cloudshell:~ (test-project-001-402417)$ export GCEVM=instance-1
export ZONE=us-central1-a
gcloud compute instances delete $GCEVM \
    --zone=$ZONE \
    --quiet
Deleted

13. Xin chúc mừng

Chúc mừng bạn đã hoàn thành lớp học lập trình này!

Nội dung đã đề cập

  • Cách triển khai cụm AlloyDB và phiên bản chính
  • Cách kết nối với AlloyDB từ máy ảo Google Compute Engine
  • Cách tạo cơ sở dữ liệu và bật AI AlloyDB
  • Cách tải dữ liệu vào cơ sở dữ liệu
  • Cách sử dụng AlloyDB Studio
  • Tạo các vectơ nhúng bằng Vertex AI
  • Cách tạo chỉ mục vectơ ScaNN để tăng cường tìm kiếm vectơ
  • Cách tạo Trình bao bọc dữ liệu bên ngoài (FDW) cho Elasticsearch
  • Thực hiện tìm kiếm kết hợp bằng cách kết hợp tìm kiếm ngữ nghĩa trong AlloyDB với tìm kiếm toàn bộ văn bản trong Elastic.

Các bước tiếp theo

Bạn có thể khám phá thêm các lớp học lập trình về AlloyDB trên trang web chính thức của lớp học lập trình.