Trang này được dịch bởi Cloud Translation API.

Bắt đầu sử dụng Spanner Data Boost và BigQuery

1. Giới thiệu

Trong lớp học lập trình này, bạn sẽ tìm hiểu cách sử dụng Spanner Data Boost để truy vấn dữ liệu Spanner từ BigQuery bằng các truy vấn liên kết zero-ETL mà không ảnh hưởng đến cơ sở dữ liệu Spanner.

Spanner Data Boost là một dịch vụ không máy chủ, được quản lý toàn diện, cung cấp các tài nguyên điện toán độc lập cho khối lượng công việc được hỗ trợ của Spanner. Tính năng Cải tiến dữ liệu cho phép bạn thực thi các truy vấn phân tích và hoạt động xuất dữ liệu mà gần như không gây ảnh hưởng đến tải công việc hiện có trên phiên bản Spanner đã được cấp phép bằng cách sử dụng mô hình sử dụng theo yêu cầu không máy chủ.

Khi được kết hợp với các kết nối bên ngoài của BigQuery, tính năng Cải tiến dữ liệu cho phép bạn dễ dàng truy vấn dữ liệu từ Spanner vào nền tảng phân tích dữ liệu mà không cần di chuyển dữ liệu ETL phức tạp.

Điều kiện tiên quyết

Hiểu biết cơ bản về Google Cloud, Console
Kỹ năng cơ bản về giao diện dòng lệnh và shell của Google

Kiến thức bạn sẽ học được

Cách triển khai một thực thể Spanner
Cách tải dữ liệu để tạo cơ sở dữ liệu Spanner
Cách truy cập vào dữ liệu Spanner từ BigQuery mà không cần tính năng Tăng cường dữ liệu
Cách truy cập vào dữ liệu Spanner từ BigQuery bằng tính năng Data Boost

Bạn cần có

Một tài khoản Google Cloud và một dự án trên Google Cloud
Một trình duyệt web như Chrome

2. Thiết lập và yêu cầu

Thiết lập môi trường theo tiến độ riêng

Đăng nhập vào Google Cloud Console rồi tạo dự án mới hoặc sử dụng lại dự án hiện có. Nếu chưa có tài khoản Gmail hoặc Google Workspace, bạn phải tạo một tài khoản.

5e3ff691252acf41.png.

Tên dự án là tên hiển thị của những người tham gia dự án này. Đây là một chuỗi ký tự không được API của Google sử dụng. Bạn luôn có thể cập nhật ứng dụng.
Mã dự án là duy nhất trong tất cả các dự án Google Cloud và không thể thay đổi (không thể thay đổi sau khi đã đặt). Cloud Console sẽ tự động tạo một chuỗi duy nhất; thường bạn không quan tâm đến sản phẩm đó là gì. Trong hầu hết các lớp học lập trình, bạn sẽ cần tham khảo Mã dự án của mình (thường được xác định là PROJECT_ID). Nếu không thích mã đã tạo, bạn có thể tạo một mã nhận dạng ngẫu nhiên khác. Ngoài ra, bạn có thể thử cách riêng của mình để xem có thể sử dụng hay không. Bạn không thể thay đổi mã này sau bước này và mã vẫn giữ nguyên trong thời gian dự án.
Đối với thông tin của bạn, có giá trị thứ ba, Project Number (Số dự án), mà một số API sử dụng. Tìm hiểu thêm về cả ba giá trị này trong tài liệu này.

Tiếp theo, bạn sẽ phải bật tính năng thanh toán trong Cloud Console để sử dụng API/tài nguyên trên đám mây. Việc chạy qua lớp học lập trình này sẽ không tốn nhiều chi phí. Để tắt các tài nguyên nhằm tránh phát sinh việc thanh toán ngoài hướng dẫn này, bạn có thể xoá các tài nguyên bạn đã tạo hoặc xoá dự án. Người dùng mới của Google Cloud đủ điều kiện tham gia chương trình Dùng thử miễn phí 300 USD.

Khởi động Cloud Shell

Mặc dù bạn có thể vận hành Google Cloud từ xa trên máy tính xách tay, nhưng trong lớp học lập trình này, bạn sẽ sử dụng Google Cloud Shell, một môi trường dòng lệnh chạy trong Đám mây.

Trong Google Cloud Console, hãy nhấp vào biểu tượng Cloud Shell ở thanh công cụ trên cùng bên phải:

55efc1aaa7a4d3ad.pngS

Sẽ chỉ mất một chút thời gian để cấp phép và kết nối với môi trường. Sau khi hoàn tất, bạn sẽ thấy như sau:

7ffe5cbb04455448.pngS

Máy ảo này chứa tất cả các công cụ phát triển mà bạn cần. Phiên bản này cung cấp thư mục gốc có dung lượng ổn định 5 GB và chạy trên Google Cloud, giúp nâng cao đáng kể hiệu suất và khả năng xác thực của mạng. Bạn có thể thực hiện mọi công việc trong lớp học lập trình này trong trình duyệt. Bạn không cần cài đặt gì cả.

3. Tạo một thực thể và cơ sở dữ liệu Spanner

Bật Spanner API

Bên trong Cloud Shell, hãy đảm bảo bạn đã thiết lập mã dự án:

gcloud config set project [YOUR-PROJECT-ID]
PROJECT_ID=$(gcloud config get-value project)

Định cấu hình khu vực mặc định của bạn thành us-central1. Vui lòng thay đổi chế độ cài đặt này thành một khu vực khác được cấu hình theo khu vực của Spanner hỗ trợ.

gcloud config set compute/region us-central1

Bật Spanner API:

gcloud services enable spanner.googleapis.com

Tạo thực thể Spanner

Ở bước này, chúng ta đã thiết lập thực thể Spanner cho lớp học lập trình. Để thực hiện việc này, hãy mở Cloud Shell và chạy lệnh sau:

export SPANNER_INSTANCE_ID=codelab-demo
export SPANNER_REGION=regional-us-central1
gcloud spanner instances create $SPANNER_INSTANCE_ID \
--config=$SPANNER_REGION \
--description="Spanner Codelab instance" \
--nodes=1

Kết quả của lệnh:

$ gcloud spanner instances create $SPANNER_INSTANCE_ID \
--config=$SPANNER_REGION \
--description="Spanner Codelab instance" \
--nodes=1
Creating instance...done.

Tạo cơ sở dữ liệu

Khi thực thể của bạn đang chạy, bạn có thể tạo cơ sở dữ liệu. Spanner cho phép nhiều cơ sở dữ liệu trên một thực thể.

Cơ sở dữ liệu là nơi bạn xác định giản đồ của mình. Bạn cũng có thể kiểm soát ai có quyền truy cập vào cơ sở dữ liệu, thiết lập mã hoá tuỳ chỉnh, định cấu hình trình tối ưu hoá và đặt khoảng thời gian lưu giữ.

Để tạo cơ sở dữ liệu, hãy sử dụng lại công cụ dòng lệnh gcloud:

export SPANNER_DATABASE=codelab-db
gcloud spanner databases create $SPANNER_DATABASE \
 --instance=$SPANNER_INSTANCE_ID

Kết quả của lệnh:

$ gcloud spanner databases create $SPANNER_DATABASE \
 --instance=$SPANNER_INSTANCE_ID
Creating database...done.

4. Tải dữ liệu

Trước khi có thể sử dụng tính năng Cải tiến dữ liệu, bạn cần có một số dữ liệu trong cơ sở dữ liệu. Để thực hiện việc này, bạn sẽ tạo một bộ chứa Cloud Storage, tải dữ liệu nhập avro lên bộ chứa đó và bắt đầu công việc nhập Dataflow để tải dữ liệu Avro vào Spanner.