Lớp học lập trình về khám phá dữ liệu và điều hướng giao diện người dùng BigQuery

1. Giới thiệu

BigQuery là kho dữ liệu không máy chủ, có khả năng mở rộng cao và tiết kiệm chi phí. Bạn chỉ cần di chuyển dữ liệu của mình vào BigQuery, còn chúng tôi sẽ xử lý phần công việc khó khăn để bạn có thể tập trung vào công việc thực sự quan trọng là điều hành doanh nghiệp. Bạn có thể kiểm soát quyền truy cập vào cả dự án và dữ liệu tuỳ theo nhu cầu kinh doanh, chẳng hạn như cho phép người khác xem hoặc truy vấn dữ liệu của bạn.

Trong phòng thí nghiệm này, bạn sẽ khám phá các khả năng phân tích của BigQuery. Bạn sẽ tìm hiểu cách nhập tập dữ liệu từ bộ chứa Google Cloud Storage và nắm bắt giao diện người dùng BigQuery bằng cách sử dụng tập dữ liệu của Ngân hàng bán lẻ. Ngoài ra, phòng thí nghiệm này sẽ hướng dẫn bạn cách khám phá các tính năng chính trong BigQuery giúp việc phân tích hằng ngày trở nên dễ dàng hơn rất nhiều, chẳng hạn như xuất kết quả truy vấn trong bảng tính, xem và chạy truy vấn từ nhật ký truy vấn, xem hiệu suất truy vấn và tạo chế độ xem theo bảng để các nhóm và phòng ban khác sử dụng.

Kiến thức bạn sẽ học được

Trong phòng thí nghiệm này, bạn sẽ tìm hiểu cách thực hiện các thao tác sau:

  • Đang tải dữ liệu mới vào BigQuery
  • Làm quen với giao diện người dùng BigQuery
  • Các truy vấn đang chạy trong BigQuery
  • Xem hiệu suất truy vấn
  • Tạo chế độ xem trong BigQuery
  • Chia sẻ tập dữ liệu một cách an toàn với người khác

2. Giới thiệu: Tìm hiểu về giao diện người dùng BigQuery

Trong phần này, bạn sẽ tìm hiểu cách thao tác trên giao diện người dùng BigQuery, xem các tập dữ liệu có sẵn và chạy một truy vấn đơn giản.

Đang tải giao diện người dùng BQ

  1. Nhập "BigQuery" nằm ở đầu Bảng điều khiển Google Cloud Platform.
  2. Chọn BigQuery trong danh sách lựa chọn. Hãy nhớ chọn lựa chọn có biểu trưng BigQuery, kính lúp.

Xem tập dữ liệu và các truy vấn đang chạy

ee95ce13969ee1ad.png

  1. Trong ngăn bên trái trong mục Tài nguyên, hãy nhấp vào dự án BigQuery của bạn.
  2. Nhấp vào bq_demo để xem các bảng trong tập dữ liệu đó
  3. Trong hộp nhập vào hộp tìm kiếm, hãy nhập "thẻ" để xem danh sách các bảng và tập dữ liệu có chứa "thẻ" trong tên của họ.
  4. Chọn "card_transactions" bảng trong danh sách kết quả tìm kiếm

beb6ff6ca2930125.png

  1. Nhấp vào thẻ Chi tiết trong ngăn card_transactions để xem siêu dữ liệu của bảng này.
  2. Nhấp vào thẻ Xem trước để xem trước bảng

[Điểm thảo luận cạnh tranh]: Khi được tích hợp với Danh mục dữ liệu của Google, bạn có thể quản lý siêu dữ liệu BigQuery cùng với các nguồn dữ liệu khác, chẳng hạn như hồ dữ liệu hoặc nguồn dữ liệu vận hành. Đây là một ví dụ cho thấy Google Cloud không chỉ là một kho dữ liệu quan hệ, mà còn là cả một Nền tảng dữ liệu phân tích.

  1. Nhấp vào biểu tượng kính lúp để truy vấn "card_transactions" bảng. Văn bản được tạo tự động sẽ điền sẵn vào trình chỉnh sửa truy vấn BigQuery.
  2. Nhập mã bên dưới để cho chúng tôi thấy những người bán khác biệt với bảng Card_Transactions
SELECT distinct (merchant) FROM bq_demo.card_transactions LIMIT 1000
  1. Nhấp vào nút Run (Chạy) để chạy truy vấn.

35113542e7ec6fa6.pngs

3. Tạo tập dữ liệu và chia sẻ chế độ xem

Việc chia sẻ dữ liệu và quản trị là rất quan trọng. Bạn có thể thực hiện việc này một cách trực quan trong giao diện người dùng BQ. Trong phần này, bạn sẽ tìm hiểu cách tạo tập dữ liệu mới, điền chế độ xem vào tập dữ liệu, rồi chia sẻ tập dữ liệu đó.

Xem nhật ký truy vấn

  1. Nhấp vào "Lịch sử truy vấn" trong ngăn bên trái của Bảng điều khiển GCP
  2. Nhấp vào nút làm mới trong ngăn Nhật ký truy vấn
  3. Hãy nhấp vào hình ảnh/mũi tên tải xuống ở ngoài cùng bên phải của truy vấn để xem kết quả của truy vấn.

6e3232ed96f647b8.pngS

Tạo tập dữ liệu mới

  1. Chọn [tên dự án của bạn] trong ngăn tài nguyên của giao diện người dùng BigQuery.
  2. Chọn "Tạo tập dữ liệu mới" qua ngăn thông tin dự án
  3. Đối với mã tập dữ liệu:

bq_demo_shared

  1. Để tất cả các trường khác làm mặc định
  2. Nhấp vào "Tạo tập dữ liệu"

b433eba38f55124f.png dd774aca416e7fbc.png

Tạo khung hiển thị

[Điểm thảo luận cạnh tranh]: BigQuery hoàn toàn tuân thủ ANSI SQL, hỗ trợ cả kiểu kết hợp nhiều bảng từ đơn giản đến phức tạp cũng như các chức năng phân tích đa dạng. Chúng tôi đã liên tục phát hành dịch vụ hỗ trợ nâng cao cho các hàm và loại dữ liệu SQL phổ biến được dùng trong các kho dữ liệu truyền thống để giúp quá trình di chuyển diễn ra suôn sẻ.

  1. Chọn "Soạn truy vấn mới" ở đầu ngăn Trình chỉnh sửa truy vấn.
  2. Chèn mã sau vào trình chỉnh sửa truy vấn
WITH revenue_by_month AS (
SELECT
    card.type AS card_type,
    FORMAT_DATE('%Y-%m', trans_date) as revenue_date,
    SUM(amount) as revenue
FROM bq_demo.card_transactions
JOIN bq_demo.card ON card_transactions.cc_number = card.card_number
WHERE trans_date  DATE_ADD(CURRENT_DATE, INTERVAL -1 YEAR)
GROUP BY card_type, revenue_date
)
SELECT
    card_type,
    revenue_date,
    revenue as monthly_rev,
    revenue -  LAG(revenue) OVER (ORDER BY card_type, revenue_date ASC) as rev_change
FROM revenue_by_month
ORDER BY card_type, revenue_date ASC;
  1. Nhấp vào "Lưu chế độ xem"
  2. Chọn dự án hiện tại của bạn cho mục Project Name (Tên dự án)
  3. Chọn Tập dữ liệu mới tạo:

bq_demo_shared

  1. Đối với tên bảng:

rev_change_by_card_type

  1. Nhấp vào Lưu.

4b111056b544c27d.png.

Chia sẻ thành phần hiển thị và tập dữ liệu

  1. Chọn tệp "bq_demo_shared" tập dữ liệu từ ngăn tài nguyên bên trái trong giao diện người dùng BigQuery.
  2. Nhấp vào "Chia sẻ tập dữ liệu" từ Trong ngăn thông tin về tập dữ liệu
  3. Nhập địa chỉ email
  4. Chọn "Người xem dữ liệu BigQuery" từ trình đơn thả xuống Vai trò
  5. Nhấp vào "Thêm"
  6. Nhấp vào Xong

1c04b6b5ebc191dc.png.

Khám phá dữ liệu trong Trang tính

[Điểm thảo luận cạnh tranh]: Một lợi ích khác của BigQuery so với các đối thủ cạnh tranh là Công cụ BI. Công cụ BI có thể được dùng để khiến các truy vấn tóm tắt loại BI trả về trong chưa đầy một giây thông qua công cụ lưu vào bộ nhớ đệm trong bộ nhớ. Tính năng này hiện được Google Data Studio hỗ trợ nhưng sẽ sớm có sẵn để tăng tốc tất cả truy vấn trong BigQuery.

Ví dụ:

Snowflake sử dụng các công cụ Kinh doanh thông minh của bên thứ ba để cung cấp trang tổng quan và hình ảnh dữ liệu trực quan, còn GCP cung cấp nhiều công cụ Kinh doanh thông minh tích hợp, trong đó có Trang tính liên kết, Data Studio và Looker.

  1. Chọn "Rev_change_by_card_type" trên ngăn tài nguyên bên trái trong giao diện người dùng BigQuery.
  2. Nhấp vào kính lúp để truy vấn chế độ xem 255be22b0eaf339.pngs
  3. Loại:

CHỌN *

TỪ bq_demo_shared.Rev_change_by_card_type

  1. Nhấp vào Chạy
  2. Nhấp vào nút "Xuất" Biểu tượng trên Ngăn kết quả
  3. Chọn "Khám phá dữ liệu bằng Trang tính"

9617b522025fd337.pngS

  1. Nhấp vào "Bắt đầu phân tích"
  2. Chọn "Bảng tổng hợp"
  3. Chọn "Trang tính mới"
  4. Nhấp vào "Tạo"
  5. Thêm "revenue_date" trong phần Hàng của Trình chỉnh sửa bảng tổng hợp nằm ở bên phải cửa sổ Trang tính
  6. Thêm "card_type" trong phần Cột của Trình chỉnh sửa bảng tổng hợp
  7. Thêm "monthly_Rev" trong phần Cột của Trình chỉnh sửa bảng tổng hợp
  8. Nhấp vào Áp dụng

48e67c2e04965796.pngS

  1. Chuyển đến phần trên cùng trong giao diện người dùng của Trang tính rồi chọn Chèn biểu đồ

4. Thiết lập: Tích hợp dữ liệu

Trong phần này, bạn sẽ tìm hiểu cách tạo bảng mới và thực hiện THAM GIA trên một trong nhiều tập dữ liệu công khai của Google Cloud.

[Ý kiến cạnh tranh]:

BigQuery đã hỗ trợ các tập dữ liệu dùng chung trong nhiều năm. Khách hàng thuộc mọi dự án đều có thể truy vấn cả tập dữ liệu công khai và tập dữ liệu trong những dự án khác đã được chia sẻ với họ.

BigQuery có thể hỗ trợ các hồ dữ liệu trong GCS thông qua việc sử dụng các bảng bên ngoài. Ngoài tính năng tải hàng loạt, BigQuery hỗ trợ khả năng truyền trực tuyến dữ liệu vào cơ sở dữ liệu với tốc độ lên đến hàng trăm MB/giây. Snowflake không hỗ trợ tính năng truyền trực tuyến dữ liệu.

Nhập dữ liệu vào bảng mới

  1. Trong ngăn tài nguyên, hãy chọn tập dữ liệu bq_demo
  2. Trong ngăn thông tin về tập dữ liệu, hãy chọn "Tạo bảng"
  3. Chọn Google Cloud Storage cho Source
  4. Trong hộp văn bản đường dẫn tệp:

gs://retail-banking-looker/district

  1. Chọn CSV cho định dạng tệp
  2. Nhập "quận" cho Tên bảng
  3. Chọn hộp đánh dấu cho tính năng Tự động phát hiện giản đồ
  4. Nhấp vào Tạo bảng

Truy vấn tập dữ liệu công khai

  1. Trong trình chỉnh sửa truy vấn, hãy nhập truy vấn sau:
SELECT
    CAST(geo_id as STRING) AS zip_code,
    total_pop,
    median_age,
    households,
    income_per_capita,
    housing_units,
    vacant_housing_units_for_sale,
    ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
    ROUND(SAFE_DIVIDE(bachelors_degree_or_higher_25_64, pop_25_64),4) AS rate_bachelors_degree_or_higher_25_64
  FROM
    `bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`;
  1. Nhấp vào Chạy
  2. Xem kết quả

dff40709db70d75.png

  1. Bây giờ, chúng ta sẽ kết hợp dữ liệu công khai này với một truy vấn khác. Nhập mã SQL sau vào Trình chỉnh sửa truy vấn:
WITH customer_counts AS (
    select regexp_extract(address, "[0-9][0-9][0-9][0-9][0-9]") as zip_code, 
    count(*) as num_clients
    FROM bq_demo.client
    GROUP BY zip_code
    )
SELECT 
    CAST(geo_id as STRING) AS zip_code,
    total_pop,
    median_age,
    households,
    income_per_capita,
    ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
    num_clients
FROM
    `bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`
JOIN customer_counts on zip_code = geo_id
ORDER BY num_clients DESC
  1. Nhấp vào Chạy
  2. Xem kết quả

b853ad571e7a3038.png

5. Quản lý hạn mức

Xử lý khoảng trống và chiến dịch đặt trước

BQ cung cấp nhiều mô hình định giá để đáp ứng nhu cầu của bạn. Hầu hết các khách hàng lớn chủ yếu sử dụng mức giá cố định để dự đoán mức giá dựa trên dung lượng đặt trước. Để vượt quá dung lượng cơ sở đó, BQ cung cấp các vị trí linh hoạt cho phép bạn tăng thêm dung lượng một cách nhanh chóng và sau đó tự động thu nhỏ lại mà không ảnh hưởng đến các truy vấn đang chạy. BQ cũng có mô hình quét byte cho phép bạn chỉ trả tiền cho các truy vấn mà bạn chạy.

[Lưu ý cạnh tranh: Một số đối thủ cạnh tranh chỉ hoạt động trên mô hình dung lượng cố định, tức là khách hàng phải phân bổ một kho hàng ảo cho từng khối lượng công việc trong tổ chức của mình. Ngoài mô hình chi phí thấp cho mỗi truy vấn giúp bạn dễ dàng bắt đầu sử dụng BigQuery, chúng tôi còn hỗ trợ mô hình định giá hạn mức theo mức giá cố định, trong đó dung lượng rảnh có thể được chia sẻ giữa một tập hợp khối lượng công việc.]

  1. Chuyển đến thẻ đặt chỗ.

964f4ab78d35d067.pngS

  1. Nhấp vào "Mua vị trí"

c8cb5ee61bbea814.png

  1. Chọn "Linh hoạt" làm thời lượng.
  2. Chọn 500 vị trí.
  3. Xác nhận mua hàng.

d615f5908dffc1ee.png

  1. Nhấp vào Xem cam kết vùng quảng cáo.
  2. Nhấp vào "Tạo Đặt trước"
  3. "Bản minh hoạ" người dùng làm tên đặt chỗ
  4. Chọn Hoa Kỳ làm vị trí
  5. Nhập 500 cho vị trí (tất cả đều có sẵn)
  6. Nhấp vào Bài tập
  7. Chọn dự án hiện tại cho dự án của tổ chức
  8. Chọn "bản minh hoạ" cho mã đặt chỗ
  9. Nhấp vào Tạo".