ข้อมูลดิบจนถึงการพยากรณ์ในไม่กี่วินาทีด้วย AI Agent

1. บทนำ

ในโค้ดแล็บนี้ คุณจะสวมบทบาทเป็นนักวิทยาศาสตร์ข้อมูลของบริษัท Froyo สมมติที่กำลังจะเปิดตัวรสชาติใหม่ของผลิตภัณฑ์ "Midnight Swirl" เพื่อให้การเปิดตัวทั่วโลกประสบความสำเร็จ ธุรกิจต้องตอบคำถามสำคัญเกี่ยวกับส่วนผสม ความต้องการของตลาด และผลตอบแทนจากการลงทุน (ROI) เวิร์กโฟลว์แบบครบวงจรนี้แสดงให้เห็นว่าแคตตาล็อกความรู้ของ Google Cloud (เดิมชื่อ Dataplex) และ Lakehouse สำหรับ Apache Iceberg (เดิมชื่อ BigLake) ช่วยลดช่องว่างระหว่างข้อมูลที่ไม่มีโครงสร้าง "มืด" และส่งมอบ Business Intelligence ที่นำไปใช้ได้จริงโดยใช้ Gemini ใน IDE (VS Code) ผ่านเลเยอร์การกำกับดูแลแบบรวม

เวิร์กโฟลว์การคาดการณ์ข้อมูลดิบ

สิ่งที่คุณต้องดำเนินการ

การค้นพบที่ไม่มีโครงสร้าง: Knowledge Catalog DataScan จะทำการ Crawl สูตรอาหารในรูปแบบ PDF ที่จัดเก็บไว้ใน Cloud Storage สร้างตารางออบเจ็กต์ใน BigQuery สำหรับ PDF ที่สแกน ระบบจะ "อ่าน" ไฟล์ PDF โดยใช้การอนุมานเชิงความหมายของ Vertex AI เพื่อดึงข้อมูลที่มีโครงสร้างสำหรับผลิตภัณฑ์ สารก่อภูมิแพ้ ส่วนผสม และแอตทริบิวต์ที่เกี่ยวข้อง จากนั้นจะสร้างสคีมาสำหรับข้อมูลที่จัดเก็บไว้ใน PDF อย่างชาญฉลาด
ข้อมูลเมตาแบบรวม: ระบบจะจัดเก็บข้อมูลที่แยกจากไฟล์ PDF ลงใน BigQuery โดยตรงเป็นตารางแบบกว้างดั้งเดิม และสร้างมุมมองเพื่อช่วยในการค้นหาทั่วไป ระบบจะจัดเก็บชุดข้อมูลอินพุตอิสระที่มีข้อมูลการขายในอดีตไว้ในตาราง Apache Iceberg บน Google Cloud Storage ระบบจะรวมตาราง Iceberg นี้กับข้อมูลที่แยกออกมาใน BigQuery ในขั้นตอนถัดไป
การวิเคราะห์ข้ามเครื่องมือ: การใช้ Managed Service สำหรับ Apache Spark (เดิมชื่อ Dataproc) กับแคตตาล็อก REST ของ Iceberg จะช่วยให้คุณรวมข้อมูลเมตา PDF ใหม่นี้และข้อมูลเชิงความหมายที่มีโครงสร้างที่อนุมาน (จากตารางและมุมมอง BigQuery) กับข้อมูลการขายที่มีโครงสร้างซึ่งจัดเก็บไว้ในตาราง Apache Iceberg ใน Google Cloud Storage ได้ ซึ่งควบคุมโดยเทมเพลตเซสชันแบบอินเทอร์แอกทีฟของ Apache Spark ที่มีการจัดการซึ่งใช้เป็นเคอร์เนล Jupyter Notebook เพื่อให้มั่นใจว่าการตั้งค่าความปลอดภัยและการตั้งค่าการคำนวณสำหรับงาน Spark จะสอดคล้องกัน
ข้อมูลเชิงลึกเชิงความหมาย: การรวมข้อมูลผลิตภัณฑ์ที่อนุมานกับข้อมูลลูกค้าและการขาย (ใน BigQuery) ช่วยให้การสาธิตสามารถดึงข้อมูลเชิงลึก เช่น การระบุข้อมูลสารก่อภูมิแพ้และการคาดการณ์รายได้
การกำกับดูแลแบบอัตโนมัติ: วงจรทั้งหมดตั้งแต่การสแกนการค้นพบไปจนถึงการดำเนินการ Spark จะได้รับการประสานงานผ่านเทมเพลต คำสั่ง กฎ และการทำงานอัตโนมัติที่ขับเคลื่อนด้วยเอเจนต์ที่พร้อมใช้งาน Gemini ซึ่งพิสูจน์ให้เห็นว่า AI สามารถจัดการโครงสร้างพื้นฐานที่ขับเคลื่อนการวิเคราะห์ได้

สิ่งที่คุณต้องมี

การทำ Codelab นี้อาจมีค่าใช้จ่าย ซึ่งคาดว่าจะไม่เกิน $5 สำหรับการใช้งานทั่วไป หากต้องการดูการประมาณค่าใช้จ่ายโดยละเอียดตามการใช้งานที่คาดการณ์ไว้หรือราคาปัจจุบัน ให้ใช้เครื่องคำนวณราคาของ Google Cloud

ตรวจสอบว่าคุณมีข้อกำหนดเบื้องต้นต่อไปนี้เพื่อทำ Codelab ให้เสร็จสมบูรณ์

เว็บเบราว์เซอร์ Chrome
บัญชี Gmail ส่วนตัวหากคุณใช้เครดิตทดลองที่ระบุไว้ในส่วน "ก่อนที่จะเริ่ม"
ดาวน์โหลดและติดตั้ง Visual Studio (VS) Code

2. ก่อนเริ่มต้น

สร้างโปรเจ็กต์ Google Cloud

ในคอนโซล Google Cloud ในหน้าตัวเลือกโปรเจ็กต์ ให้เลือกหรือสร้างโปรเจ็กต์ Google Cloud
ตรวจสอบว่าได้เปิดใช้การเรียกเก็บเงินสำหรับโปรเจ็กต์ที่อยู่ในระบบคลาวด์แล้ว ดูวิธีตรวจสอบว่าได้เปิดใช้การเรียกเก็บเงินในโปรเจ็กต์แล้วหรือไม่

เริ่มต้น Cloud Shell

Cloud Shell คือสภาพแวดล้อมบรรทัดคำสั่งที่ทำงานใน Google Cloud ซึ่งโหลดเครื่องมือที่จำเป็นไว้ล่วงหน้า

คลิกเปิดใช้งาน Cloud Shell ที่ด้านบนของคอนโซล Google Cloud
เมื่อเชื่อมต่อกับ Cloud Shell แล้ว ให้ยืนยันการตรวจสอบสิทธิ์โดยทำดังนี้
```
gcloud auth list
```
ตรวจสอบว่าได้กำหนดค่าโปรเจ็กต์แล้ว
```
gcloud config get project
```
หากไม่ได้ตั้งค่าโปรเจ็กต์ตามที่คาดไว้ ให้ตั้งค่าดังนี้
```
export PROJECT_ID=<YOUR_PROJECT_ID>
gcloud config set project $PROJECT_ID
```

เปิดใช้ API ที่จำเป็น

เรียกใช้คำสั่งนี้เพื่อเปิดใช้ API ที่จำเป็นทั้งหมด

  gcloud services enable \
    dataplex.googleapis.com \
    datacatalog.googleapis.com \
    discoveryengine.googleapis.com \
    bigqueryconnection.googleapis.com \
    bigquery.googleapis.com \
    biglake.googleapis.com \
    dataproc.googleapis.com \
    metastore.googleapis.com \
    dataform.googleapis.com \
    notebooks.googleapis.com \
    aiplatform.googleapis.com \
    cloudresourcemanager.googleapis.com \
    serviceusage.googleapis.com \
    secretmanager.googleapis.com \
    storage.googleapis.com

ดาวน์โหลดชิ้นงาน Codelab

ที่เก็บนี้มีไฟล์ Parquet, สูตร, ซัพพลายเออร์, copilot-instructions.md, template.yaml และ quickstart.py สำหรับใช้กับ Codelab นี้ โปรดตรวจสอบว่าคุณได้ดาวน์โหลดไฟล์เหล่านี้แล้ว

หากต้องการดาวน์โหลดไฟล์ ให้ทำดังนี้

เรียกใช้คำสั่งต่อไปนี้ใน Cloud Shell

git clone --depth 1 --filter=blob:none --sparse https://github.com/GoogleCloudPlatform/next-26-keynotes.git

ไปที่โฟลเดอร์ที่สร้างขึ้นใหม่โดยทำดังนี้
```
cd next-26-keynotes
```

ดึงโฟลเดอร์ data-cloud-demo

git sparse-checkout set genkey/data-cloud-demo

หลังจากชำระเงินเสร็จแล้ว ให้ไปที่โฟลเดอร์ data-cloud-demo แล้วแตกไฟล์ ZIP เพื่อเข้าถึงชิ้นงานของ Codelab

3. ตั้งค่า Lakehouse สำหรับข้อมูลลูกค้า Froyo

ในส่วนนี้ คุณจะได้สร้างแคตตาล็อกใน Lakehouse เพื่อใช้ที่เก็บข้อมูลเมตาของ Lakehouse สำหรับเวิร์กโฟลว์ โดยจะสร้างความสามารถในการทำงานร่วมกันระหว่างเครื่องมือค้นหาของคุณด้วยการเสนอแหล่งข้อมูลที่เชื่อถือได้เพียงแหล่งเดียว (SSOT) สำหรับข้อมูล Iceberg ทั้งหมด ซึ่งช่วยให้เครื่องมือค้นหา เช่น Apache Spark สามารถค้นหา อ่านข้อมูลเมตา และจัดการตาราง Iceberg ได้อย่างสอดคล้องกัน

บทบาทที่จำเป็น

ตรวจสอบว่าคุณมีบทบาท Identity and Access Management (IAM) ต่อไปนี้

roles/biglake.viewer
roles/bigquery.user
roles/bigquery.dataEditor
roles/biglake.editor
roles/biglake.metadataViewer
roles/bigquery.connectionUser
roles/storage.objectUser
roles/storage.objectViewer
roles/storage.objectCreator
roles/storage.admin

ดูข้อมูลเพิ่มเติมเกี่ยวกับการให้บทบาท IAM ได้ที่ให้บทบาท IAM

สร้างแคตตาล็อก Lakehouse ด้วยที่เก็บข้อมูล

สร้างแคตตาล็อก Lakehouse เพื่อจัดการข้อมูลเมตาสำหรับตาราง Iceberg คุณเชื่อมต่อกับแคตตาล็อกนี้ในงาน Spark เพื่อสร้างและค้นหาตาราง Iceberg

ในคอนโซล Google Cloud ให้ไปที่ Lakehouse
คลิกสร้างแคตตาล็อก หน้าสร้างแคตตาล็อกจะเปิดขึ้น
สำหรับประเภทแคตตาล็อก ให้เลือกแคตตาล็อก Iceberg Rest
สำหรับเลือกตัวเลือก Bucket แคตตาล็อก Lakehouse ให้เลือกแคตตาล็อก Bucket เดียว
สำหรับBucket ของ Cloud Storage ในแคตตาล็อกเริ่มต้น ให้คลิกเรียกดู แล้วคลิกสร้าง Bucket ใหม่
ในหน้าสร้าง Bucket ให้ทำดังนี้
ในส่วนเริ่มต้นใช้งาน ให้ป้อนชื่อที่ไม่ซ้ำกันทั่วโลกซึ่งเป็นไปตามข้อกำหนดของชื่อที่เก็บข้อมูล
ในส่วนเลือกที่จัดเก็บข้อมูล ให้เลือกภูมิภาคสำหรับประเภทสถานที่ตั้ง แล้วป้อนภูมิภาค ตัวอย่างเช่น us-west1
ในส่วนเลือกวิธีควบคุมการเข้าถึงออบเจ็กต์ ให้ยกเลิกการเลือกช่องทำเครื่องหมายบังคับใช้การป้องกันการเข้าถึงแบบสาธารณะใน Bucket นี้
ซึ่งช่วยให้คุณจำลองสถานการณ์ในโลกแห่งความเป็นจริงได้ เช่น การโฮสต์เนื้อหาเว็บสาธารณะหรือที่เก็บข้อมูลที่แชร์ หากไม่มีการเปลี่ยนแปลงนี้ Bucket จะบังคับใช้นโยบาย "ส่วนตัวเท่านั้น" อย่างเข้มงวด การพยายามเข้าถึงชิ้นงานจะส่งผลให้เกิดข้อผิดพลาด 403 ที่ถูกปฏิเสธ แม้ว่าคุณจะให้สิทธิ์สาธารณะแก่ไฟล์ได้สำเร็จก็ตาม
คลิกต่อไป > สร้าง > เลือก > ต่อไป
สำหรับ Authentication method ให้เลือก Credential vending mode
คลิกสร้าง ระบบจะสร้างแคตตาล็อกและเปิดหน้ารายละเอียดแคตตาล็อก
ในส่วนวิธีการตรวจสอบสิทธิ์ ให้คลิกตั้งค่าสิทธิ์ของที่เก็บข้อมูล
ในกล่องโต้ตอบ ให้คลิกยืนยัน ซึ่งจะเป็นการยืนยันว่าบัญชีบริการของแคตตาล็อกมีบทบาท Storage Object User ในที่เก็บข้อมูล
จากหน้ารายละเอียดแคตตาล็อก ให้คัดลอกเส้นทาง URI ของแคตตาล็อก REST ใช้เส้นทางนี้ในระหว่างงาน "เรียกใช้ Spark job"

อัปโหลดไฟล์ Parquet ไปยัง Bucket

หากต้องการอัปโหลดไฟล์ Parquet ไปยังรูทของที่เก็บข้อมูล ให้ทำดังนี้

ในคอนโซล Google Cloud ให้ไปที่หน้าที่เก็บข้อมูล Cloud Storage
คลิกชื่อที่เก็บข้อมูลในรายการที่เก็บข้อมูล เช่น acai_demo
ในแท็บออบเจ็กต์ของ Bucket ให้คลิกอัปโหลด > อัปโหลดไฟล์
เลือกไฟล์จากโฟลเดอร์ Parquet ที่คุณโคลนไว้ในส่วนก่อนที่จะเริ่มของ Codelab นี้
คลิกเปิด

4. ตั้งค่าเครือข่าย VPC

สร้างเครือข่าย Virtual Private Cloud (VPC) และซับเน็ตที่อนุญาตให้ทรัพยากรสื่อสารกับ Google APIs ได้โดยไม่ต้องออกไปยังอินเทอร์เน็ตสาธารณะ รวมถึงไฟร์วอลล์ที่อนุญาตให้การเข้าชมภายในไหลเวียนได้อย่างอิสระระหว่างโหนดการประมวลผลข้อมูล

ในคอนโซล Google Cloud ให้ไปที่หน้าเครือข่าย VPC
คลิกสร้างเครือข่าย VPC
ป้อนชื่อเครือข่าย เช่น acai-network
หากต้องการกำหนดค่าหน่วยการส่งข้อมูลสูงสุด (MTU) ของเครือข่าย ให้เลือกช่องทำเครื่องหมายตั้งค่า MTU โดยอัตโนมัติ
เลือกอัตโนมัติสำหรับโหมดการสร้างซับเน็ต
ในส่วนกฎไฟร์วอลล์ ให้เลือกช่องทำเครื่องหมายทั้งหมดสำหรับกฎไฟร์วอลล์ IPv4
คลิกสร้าง

เปิดใช้การเข้าถึง Google แบบส่วนตัว

โหนด Dataproc แบบไม่มีเซิร์ฟเวอร์ไม่มีที่อยู่ IP สาธารณะ หากต้องการสื่อสารกับแคตตาล็อก Lakehouse และ Cloud Storage ซับเน็ตต้องเปิดใช้การเข้าถึง Google แบบส่วนตัว

ในคอนโซล Google Cloud ให้ไปที่หน้าเครือข่าย VPC
คลิกชื่อเครือข่ายที่มีเครือข่ายย่อยที่คุณต้องเปิดใช้การเข้าถึง Google แบบส่วนตัว เช่น us-west1
คลิกชื่อของเครือข่ายย่อย หน้ารายละเอียดซับเน็ตจะปรากฏขึ้น
คลิกแก้ไข
เลือกเปิดในส่วนการเข้าถึง Google แบบส่วนตัว
คลิกบันทึก

5. สร้างและเรียกใช้งาน Spark

หากต้องการสร้างและค้นหาตาราง Iceberg ให้อัปโหลดงาน PySpark พร้อมคำสั่ง Spark SQL ที่จำเป็น จากนั้นเรียกใช้งานด้วย Managed Service for Spark

อัปโหลด quickstart.py ไปยัง Bucket ของ Cloud Storage

หลังจากโคลนชิ้นงานของ Codelab แล้ว ให้อัปเดตสคริปต์ quickstart.py ด้วยรายละเอียดโปรเจ็กต์ของคุณ แล้วอัปโหลดไปยัง Bucket ของ Cloud Storage

เปิดquickstart.pyสคริปต์ในเครื่องมือแก้ไขข้อความ
แทนที่ตัวยึดตำแหน่ง BUCKET_NAME ในสคริปต์ด้วยชื่อ Bucket ของ Cloud Storage แล้วบันทึก
ในคอนโซล Google Cloud ให้ไปที่ที่เก็บข้อมูล Cloud Storage
คลิกชื่อที่เก็บข้อมูล เช่น acai_demo
ในแท็บออบเจ็กต์ ให้คลิกอัปโหลด > อัปโหลดไฟล์
ในโปรแกรมเรียกดูไฟล์ ให้เลือกไฟล์ quickstart.py ที่อัปเดต แล้วคลิกเปิด

เรียกใช้งาน Spark

หลังจากอัปโหลดquickstart.pyสคริปต์แล้ว ให้ดำเนินการเป็นงานแบบกลุ่มของ Managed Service สำหรับ Spark

หากต้องการกำหนดค่าตัวแปร ให้เรียกใช้คำสั่งต่อไปนี้ใน Cloud Shell
```
# Configuration Variables
export PROJECT_ID="<PROJECT_ID>"
export REGION="<REGION>"
export BUCKET_NAME="<BUCKET_NAME>"
export SUBNET="<SUBNET>"
export LAKEHOUSE_CATALOG_ID="<LAKEHOUSE_CATALOG_ID>"
export CATALOG_URI_ID="<CATALOG_URI_ID>"
```
แทนที่ค่าต่อไปนี้
- LAKEHOUSE_CATALOG_ID: ชื่อของทรัพยากรแคตตาล็อก Lakehouse ที่มีไฟล์แอปพลิเคชัน PySpark เช่น acai_demo
- PROJECT_ID: รหัสโปรเจ็กต์ Google Cloud
- REGION: ภูมิภาคที่จะเรียกใช้ภาระงานแบบกลุ่มของ Managed Service for Spark เช่น us-west1
- BUCKET_NAME: ชื่อ Bucket ของ Cloud Storage เช่น acai_demo
- SUBNET: ชื่อซับเน็ต VPC เช่น acai-network
- CATALOG_URI_ID: รหัส URI ของแคตตาล็อก Lakehouse ที่คุณคัดลอกเมื่อสร้างแคตตาล็อก Lakehouse ด้วย Bucket เช่น https://biglake.googleapis.com/iceberg/v1/restcatalog

ใน Cloud Shell ให้เรียกใช้ชื่องานแบบกลุ่มของ Managed Service for Spark ต่อไปนี้โดยใช้สคริปต์ quickstart.py

  gcloud dataproc batches submit pyspark gs://${BUCKET_NAME}/quickstart.py \
     --project=${PROJECT_ID} \
     --region=${REGION} \
     --subnet=${SUBNET} \
     --version=2.2 \
     --properties="\
  spark.sql.defaultCatalog=${LAKEHOUSE_CATALOG_ID},\
  spark.sql.catalog.${LAKEHOUSE_CATALOG_ID}=org.apache.iceberg.spark.SparkCatalog,\
  spark.sql.catalog.${LAKEHOUSE_CATALOG_ID}.type=rest,\
  spark.sql.catalog.${LAKEHOUSE_CATALOG_ID}.uri=${CATALOG_URI_ID},\
  spark.sql.catalog.${LAKEHOUSE_CATALOG_ID}.warehouse=gs://${BUCKET_NAME},\
  spark.sql.catalog.${LAKEHOUSE_CATALOG_ID}.io-impl=org.apache.iceberg.gcp.gcs.GCSFileIO,\
  spark.sql.catalog.${LAKEHOUSE_CATALOG_ID}.header.x-goog-user-project=${PROJECT_ID},\
  spark.sql.catalog.${LAKEHOUSE_CATALOG_ID}.rest.auth.type=org.apache.iceberg.gcp.auth.GoogleAuthManager,\
  spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions,\
  spark.sql.catalog.${LAKEHOUSE_CATALOG_ID}.rest-metrics-reporting-enabled=false,\
  spark.sql.catalog.${LAKEHOUSE_CATALOG_ID}.header.X-Iceberg-Access-Delegation=vended-credentials,\
  spark.sql.catalog.${LAKEHOUSE_CATALOG_ID}.gcs.oauth2.refresh-credentials-endpoint=https://oauth2.googleapis.com/token"

คุณดูสถานะของงาน Spark ที่กำลังทำงานได้ที่ชุด Dataproc เมื่องานเสร็จสมบูรณ์ ระบบจะแสดงเอาต์พุตที่คล้ายกับตัวอย่างต่อไปนี้

 All tables registered successfully!
 Batch [126fa2226a904d2e944c8eecbe0b1840] finished.
 metadata:
   '@type': type.googleapis.com/google.cloud.dataproc.v1.BatchOperationMetadata
   batch: projects/PROJECT_ID/locations/REGION/batches/126fa2226a904d2e944c8eecbe0b1840
   batchUuid: 3bff88ca-64d6-4c16-b9ad-2a47ae93ebff
   createTime: '2026-04-09T13:17:26.222727Z'
   description: Batch
   labels:
     goog-dataproc-batch-id: 126fa2226a904d2e944c8eecbe0b1840
     goog-dataproc-batch-uuid: 3bff88ca-64d6-4c16-b9ad-2a47ae93ebff
     goog-dataproc-drz-resource-uuid: batch-3bff88ca-64d6-4c16-b9ad-2a47ae93ebff
     goog-dataproc-location: REGION
   operationType: BATCH
 name: projects/PROJECT_ID/regions/REGION/operations/47bc59e8-5082-3af9-89a0-22289aa5f4b9

6. สืบค้นตารางจาก BigQuery

การเรียกใช้งาน Spark Batch Job ได้สำเร็จหมายความว่าคุณได้ใช้ Managed Service สำหรับ Spark Serverless เป็นเครื่องมือประมวลผลแบบกระจายเพื่อลงทะเบียนหลายตาราง โดยแต่ละตารางจะอยู่ในไฟล์ Parquet ภายใน Lakehouse Metastore การลงทะเบียนนี้ช่วยให้ Google Cloud สามารถถือว่าไฟล์ดิบใน Cloud Storage เป็นตารางที่มีโครงสร้างและมีประสิทธิภาพสูง

ขั้นตอนต่อไปนี้จะแนะนําให้คุณยืนยันว่ามีการซิงค์ข้อมูลเมตาอย่างถูกต้อง เพื่อให้มั่นใจว่าข้อมูลของคุณจะไม่เพียงจัดเก็บอย่างปลอดภัย แต่ยังค้นหาและค้นหาผ่านอินเทอร์เฟซ BigQuery ได้อย่างเต็มที่

ในคอนโซล Google Cloud ให้ไปที่ BigQuery
ป้อนคำสั่งต่อไปนี้ในตัวแก้ไขคำค้นหา โดยคำค้นหาจะใช้ไวยากรณ์ project.namespace.dataset.table
```
SELECT * FROM `<PROJECT_ID>.<NAMESPACE>.<ICEBERG_DATASET>.<ICEBERG_TABLE>`
```
เช่น SELECT * FROM PROJECT_ID.acai_demo.acai_dataset.order_items.
แทนที่ข้อมูลต่อไปนี้
- PROJECT_ID: รหัสโปรเจ็กต์ Google Cloud
- NAMESPACE: เนมสเปซที่สร้างในขั้นตอนก่อนหน้าเป็นผลมาจากงาน Spark ซึ่งคุณจะดูได้ในหน้าเครื่องมือสำรวจออบเจ็กต์ BigQuery เช่น acai_demo
- ICEBERG_DATASET: ชื่อชุดข้อมูลภายในแคตตาล็อก Iceberg เช่น acai_dataset
- ICEBERG_TABLE: ชื่อตารางภายในชุดข้อมูล Iceberg เช่น order_items
คลิกเรียกใช้ ผลการค้นหาจะแสดงข้อมูลที่คุณแทรกด้วยงาน Spark

7. ตั้งค่าไฟล์ข้อมูลสินค้าที่ไม่มีโครงสร้าง

ในส่วนนี้ คุณจะสร้างโครงสร้างองค์กรภายใน BigQuery เพื่อจัดเก็บข้อมูลสูตรและซัพพลายเออร์ของ Froyo โดยเฉพาะรายละเอียดสินค้า Froyo นอกจากนี้ยังสร้างการเชื่อมต่อทรัพยากรระบบคลาวด์ ซึ่งทำหน้าที่เป็น "บริดจ์" ที่ปลอดภัยเพื่อให้ BigQuery อ่านไฟล์จากแหล่งที่มาภายนอก เช่น Cloud Storage ได้

สร้าง Bucket และอัปโหลดไฟล์รายละเอียด Froyo

สร้างและอัปโหลดไฟล์ซัพพลายเออร์และสูตรอาหารไปยังBucket ใน Cloud Storage

ในคอนโซล Google Cloud ให้ไปที่หน้าที่เก็บข้อมูล Cloud Storage
คลิกสร้าง
ในหน้าสร้าง Bucket ให้ป้อนข้อมูล Bucket หลังจากทำตามแต่ละขั้นตอนต่อไปนี้ ให้คลิกต่อไปเพื่อไปยังขั้นตอนถัดไป
ป้อนชื่อที่เก็บข้อมูลในส่วนเริ่มต้นใช้งาน เช่น acai_pdfs
ในส่วนเลือกตำแหน่งที่จะจัดเก็บข้อมูล ให้เลือกภูมิภาค แล้วป้อนภูมิภาค เช่น us-west1
ในส่วนเลือกวิธีควบคุมการเข้าถึงออบเจ็กต์ ให้ยกเลิกการเลือกช่องทำเครื่องหมายบังคับใช้การป้องกันการเข้าถึงแบบสาธารณะใน Bucket นี้
คลิกสร้าง
ในรายการ Bucket ให้คลิก Bucket ที่คุณสร้างขึ้น เช่น acai_pdfs
ในแท็บออบเจ็กต์ของที่เก็บข้อมูล ให้คลิกอัปโหลด > อัปโหลดโฟลเดอร์
เลือกrecipesโฟลเดอร์ที่คุณแตกไฟล์ในส่วนก่อนที่จะเริ่มของ Codelab นี้
คลิกอัปโหลด
ทำซ้ำขั้นตอนการอัปโหลดสำหรับโฟลเดอร์ suppliers

สร้างการเชื่อมต่อ

สร้างการเชื่อมต่อทรัพยากรระบบคลาวด์ ซึ่งจะสร้างบัญชีบริการที่ไม่ซ้ำกันซึ่งทำหน้าที่เป็น "บัตรประจำตัว" ของ BigQuery เพื่อเข้าถึงไฟล์ภายนอก

ไปที่หน้า BigQuery
คลิกExplorer ในแผงด้านซ้าย หากไม่เห็นแผงด้านซ้าย ให้คลิกขยายแผงด้านซ้ายเพื่อเปิดแผง
ในบานหน้าต่าง Explorer ให้ขยายชื่อโปรเจ็กต์ แล้วคลิกการเชื่อมต่อ
ในหน้าการเชื่อมต่อ ให้คลิกสร้างการเชื่อมต่อ
สำหรับประเภทการเชื่อมต่อ ให้เลือก Vertex AI โมเดลระยะไกล ฟังก์ชันระยะไกล BigLake และ Spanner (ทรัพยากรระบบคลาวด์)
ป้อนชื่อรหัสการเชื่อมต่อในช่องรหัสการเชื่อมต่อ เช่น acai_pdf_connection อย่าลืมจดรหัสดังกล่าวไว้เนื่องจากคุณจะต้องใช้เมื่อตั้งค่าการสแกนข้อมูลในภายหลังใน Codelab นี้
ตั้งค่าประเภทสถานที่ตั้งเป็นภูมิภาค แล้วเลือกภูมิภาค เช่น us-west1 การเชื่อมต่อควรอยู่ร่วมกับทรัพยากรอื่นๆ เช่น ชุดข้อมูล
คลิกสร้างการเชื่อมต่อ
คลิกไปที่การเชื่อมต่อ
ในแผงข้อมูลการเชื่อมต่อ ให้คัดลอกรหัสบัญชีบริการเพื่อใช้ในขั้นตอนถัดไป บัญชีบริการมีลักษณะคล้ายกับ bqcx-175930350285-qn3a@gcp-sa-bigquery-condel.iam.gserviceaccount.com

จัดการสิทธิ์เข้าถึงบัญชีบริการ

ให้สิทธิ์เข้าถึงบัญชีบริการเพื่อให้ Lakehouse อ่าน PDF ได้

ไปที่หน้า IAM และผู้ดูแลระบบ
คลิกให้สิทธิ์เข้าถึง กล่องโต้ตอบเพิ่มผู้รับสิทธิ์จะเปิดขึ้น
ในช่องผู้ใช้หลักรายใหม่ ให้ป้อนรหัสบัญชีบริการที่คัดลอกไว้ก่อนหน้านี้
ในช่องเลือกบทบาท ให้เพิ่มบทบาทต่อไปนี้
- roles/storage.objectUser
- roles/storage.objectViewer
- roles/bigquery.user
- roles/bigquery.dataEditor
- roles/aiplatform.user
- roles/storage.admin
- roles/dataproc.serviceAgent
คลิกบันทึก

ดูข้อมูลเพิ่มเติมเกี่ยวกับบทบาท IAM ใน BigQuery ได้ที่บทบาทและสิทธิ์ที่กำหนดไว้ล่วงหน้า

8. จัดการสิทธิ์สำหรับงาน DataScan

สร้างบัญชีบริการ (ข้อมูลประจำตัว) ที่เฉพาะเจาะจงสำหรับ Spark และ Dataform จากนั้นให้สิทธิ์แก่บัญชีเหล่านั้นพร้อมกับตัวแทนบริการอัตโนมัติของ Google ซึ่งเป็นสิทธิ์ที่จำเป็นในการอ่านที่เก็บข้อมูล เรียกใช้งาน BigQuery และใช้ Vertex AI เพื่อการค้นพบ

สิทธิ์เข้าถึง IAM สำหรับ Spark และ Dataform

ในคอนโซล Google Cloud ให้ไปที่หน้าสร้างบัญชีบริการ
หากไม่ได้เลือก ให้เลือกโปรเจ็กต์ Google Cloud
คลิกสร้างบัญชีบริการ
ป้อนชื่อบัญชีบริการ เช่น sa-spark-stg1 คอนโซล Google Cloud จะสร้างรหัสบัญชีบริการตามชื่อนี้ แก้ไขรหัสหากจำเป็น คุณจะเปลี่ยนรหัสในภายหลังไม่ได้
หากต้องการตั้งค่าการควบคุมการเข้าถึง ให้คลิกสร้างและดำเนินการต่อ แล้วทำตามขั้นตอนถัดไป
เลือกบทบาท IAM ต่อไปนี้เพื่อมอบให้กับบัญชีบริการในโปรเจ็กต์
- roles/dataproc.worker
- roles/storage.objectUser
- roles/bigquery.dataEditor
- roles/bigquery.jobUser
- roles/aiplatform.user
- roles/dataplex.discoveryPublishingServiceAgent
เมื่อเพิ่มบทบาทเสร็จแล้ว ให้คลิกต่อไป
คลิกเสร็จสิ้นเพื่อสร้างบัญชีบริการให้เสร็จสมบูรณ์

สิทธิ์การเชื่อมต่อ BigQuery สำหรับการเข้าถึงแคตตาล็อกความรู้

ในคอนโซล Google Cloud ให้ไปที่หน้าที่เก็บข้อมูล Cloud Storage
ในรายการ Bucket ให้คลิกชื่อ Bucket ที่คุณสร้างขึ้นสำหรับ Froyo เช่น acai_pdfs
ในแท็บสิทธิ์ ให้คลิกให้สิทธิ์เข้าถึง กล่องโต้ตอบ "เพิ่มหลักการ" จะปรากฏขึ้น
ในช่องผู้ใช้หลักรายใหม่ ให้ป้อนรหัสบัญชีบริการ BigQuery บัญชีบริการมีลักษณะคล้ายกับ bqcx-175930350285-qn3a@gcp-sa-bigquery-condel.iam.gserviceaccount.com
เลือกบทบาทต่อไปนี้จากเมนูแบบเลื่อนลงเลือกบทบาท
- roles/storage.objectUser
- roles/dataplex.serviceAgent
- roles/dataplex.securityAdmin
- roles/aiplatform.serviceAgent
- roles/dataplex.discoveryPublishingServiceAgent
คลิกบันทึก

9. ตั้งค่า Knowledge Catalog

สร้างแคตตาล็อกความรู้เพื่อรวมข้อมูลที่เกี่ยวข้องกับ Froyo และทำให้การค้นหาไฟล์ที่ไม่มีโครงสร้าง (เช่น สูตรอาหารและซัพพลายเออร์ในรูปแบบ PDF) เป็นแบบอัตโนมัติ

สร้าง DataScan ผ่าน `curl`

ในส่วนนี้ คุณจะสร้างการสแกนสำหรับ Bucket ของ Cloud Storage (เช่น acai_pdfs) โดยการเพิ่ม datascan_ID และชี้ไปยังชุดข้อมูล BigQuery หลังจากนั้นแคตตาล็อกความรู้จะสร้างรายการสำหรับไฟล์ PDF ใน BigQuery โดยอัตโนมัติ

หากต้องการสแกน PDF (ซัพพลายเออร์และสูตรอาหาร) ให้เรียกใช้คำสั่งต่อไปนี้

# 1. Set your variables
PROJECT_ID="<PROJECT_ID>"
REGION="<REGION>"
ENV_SUFFIX="stg1"
DATASCAN_ID="froyo-profile-${ENV_SUFFIX}"
BUCKET_NAME="<BUCKET_NAME>"

# 2. Set this to the Name of the connection you created in Step 7
CONNECTION_ID="<CONNECTION_ID_NAME>"

# 3. Define the API Endpoint
DATAPLEX_API="dataplex.googleapis.com/v1/projects/${PROJECT_ID}/locations/${REGION}"

# 4. Create the DataScan via CURL
echo "Creating Dataplex DataScan: ${DATASCAN_ID}..."

curl -X POST "https://$DATAPLEX_API/dataScans?dataScanId=${DATASCAN_ID}" \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{
"data": {
   "resource": "//storage.googleapis.com/projects/'"${PROJECT_ID}"'/buckets/'"${BUCKET_NAME}"'"
   },
"executionSpec": {
   "trigger": {
      "on_demand": {}
   }
},
"dataDiscoverySpec": {
   "bigqueryPublishingConfig": {
      "tableType": "BIGLAKE",
      "connection": "projects/'"${PROJECT_ID}"'/locations/'"${REGION}"'/connections/'"${CONNECTION_ID}"'"
   },
   "storageConfig": {
      "unstructuredDataOptions": {
      "entity_inference_enabled": true
      }
   }
   }
}'

คำสั่ง curl จะแสดงผลการสแกนข้อมูลแคตตาล็อกความรู้ ซึ่งคล้ายกับรูปภาพต่อไปนี้

เรียกใช้งาน

เรียกใช้คำสั่งต่อไปนี้

  gcloud dataplex datascans run $DATASCAN_ID --location=$REGION

อธิบายงาน

หากต้องการอธิบายงาน ให้เรียกใช้คำสั่งต่อไปนี้

  gcloud dataplex datascans describe $DATASCAN_ID --location=$REGION

ลบงาน Datascan

หากการสแกนทำงานนานกว่า 10 นาที หรือหากสถานะของงานยังคงเป็นรอดำเนินการเป็นเวลานานโดยไม่เปลี่ยนเป็นกำลังทำงาน อาจเป็นเพราะทรัพยากรในภูมิภาคไม่พร้อมใช้งานชั่วคราว หากเกิดกรณีนี้ คุณสามารถเรียกใช้คำสั่งต่อไปนี้เพื่อลบงาน แล้วลองสร้างและเรียกใช้อีกครั้ง บางครั้งการเรียกใช้ครั้งแรกอาจล้มเหลวอย่างรวดเร็วพร้อมข้อผิดพลาด เช่น unable to acquire necessary resources

   gcloud dataplex datascans delete $DATASCAN_ID --location=$REGION

ดูสถานะของงาน

หากต้องการตรวจสอบสถานะของงาน ให้ทำดังนี้

ในคอนโซล Google Cloud ให้ไปที่หน้าการดูแลจัดการข้อมูลเมตา
ในแท็บการค้นพบ Cloud Storage ให้คลิกชื่อการสแกนการค้นพบ
ในหน้ารายละเอียดการสแกน คุณจะดูสถานะของงานได้
เวลาในการเรียกใช้ชิ้นงานจะแตกต่างกันไปตามความพร้อมใช้งานของทรัพยากร แต่บางครั้งอาจใช้เวลาถึง 20 นาทีจึงจะเสร็จสมบูรณ์ อาจมีโอกาสที่งาน Datascan จะล้มเหลวเป็นครั้งคราว ในกรณีนี้ ให้เรียกใช้งานอีกครั้งหลังจากผ่านไป 2-3 นาที
เมื่อการดำเนินการเสร็จสิ้น ให้ตรวจสอบว่ามีชุดข้อมูลที่เผยแพร่ (เช่น acai_pdfs_discovered_003) ที่คุณสร้างขึ้นโดยใช้คำสั่ง curl หรือไม่

ดูตารางออบเจ็กต์

หากต้องการดูตารางออบเจ็กต์ที่สร้างขึ้นหลังจากงานการค้นพบ ให้ทำดังนี้

ในคอนโซล Google Cloud ให้ไปที่ BigQuery
คลิกชุดข้อมูล แล้วเลือกชุดข้อมูลที่เผยแพร่ซึ่งสร้างไว้ในขั้นตอนก่อนหน้า เช่น acai_pdfs_discovered_003
หากต้องการดูตารางออบเจ็กต์ ให้คลิกรหัสตาราง เช่น acai_pdfs
ตารางออบเจ็กต์ที่ได้จะมีลักษณะดังรูปภาพต่อไปนี้

10. การแยกความหมาย

คุณจะอนุมานและแยกตารางที่มีโครงสร้าง ออบเจ็กต์ฐานข้อมูลอื่นๆ และความสัมพันธ์สำหรับตารางออบเจ็กต์ที่ไม่มีโครงสร้างนี้ที่คุณสร้างขึ้นในขั้นตอนก่อนหน้า โดยคุณจะต้องใช้ฟีเจอร์ข้อมูลเชิงลึกของแคตตาล็อกความรู้เพื่อสร้างคำสั่ง SQL สำหรับดึง Structured Data จากตารางที่ไม่มีโครงสร้าง

ในคอนโซล Google Cloud ให้ไปที่หน้าการค้นหาแคตตาล็อกความรู้
ค้นหาตารางชุดข้อมูลที่ต้องการดูข้อมูลเชิงลึก เช่น acai_pdfs_discovered_003
หมายเหตุ: จะมีผลลัพธ์ 2 รายการสำหรับชื่อ acai_pdfs_discovered_003 ซึ่งเป็นผลมาจากการอ้างอิงชุดข้อมูลและตาราง หากต้องการดำเนินการตามขั้นตอนถัดไป โปรดเลือกรายการที่ระบุเป็น "ตาราง" ดูข้อมูลเกี่ยวกับการกรองและการปรับแต่งขั้นสูงได้ที่ค้นหาแหล่งข้อมูลในแคตตาล็อกความรู้
ในผลการค้นหา ให้คลิกตารางเพื่อเปิดหน้าข้อมูล
คลิกแท็บข้อมูลเชิงลึก หากแท็บว่างเปล่า แสดงว่าระบบยังไม่ได้สร้างข้อมูลเชิงลึกสำหรับตารางนี้ การสร้างข้อมูลเชิงลึกอาจใช้เวลา 15-25 นาที
เมื่อเห็นข้อมูลเชิงลึกแล้ว ให้คลิกดึงข้อมูล > ดึงข้อมูลด้วย SQL
ในหน้าดึงข้อมูลด้วย SQL ให้ป้อนชุดข้อมูลสำหรับปลายทาง เช่น acai_pdfs_discovered_003
คลิกแยก ซึ่งจะเปิดเครื่องมือแก้ไข BigQuery พร้อมกับการค้นหาที่โหลดไว้
สำคัญ: ขั้นตอนนี้จะส่งผลให้มีชุดคำสั่ง SQL ที่สร้างออบเจ็กต์ฐานข้อมูลเป็นผลมาจากขั้นตอนการอนุมานเชิงความหมาย ซึ่ง LLM เป็นผู้สร้าง อย่าลืมตรวจสอบสคริปต์เพื่อให้แน่ใจว่าสคริปต์ถูกต้องสำหรับปริมาณงานการผลิต
คลิกเรียกใช้ ขั้นตอนนี้จะสร้างชุดคำสั่งและอาจใช้เวลาสักครู่ในการเรียกใช้ให้เสร็จสมบูรณ์
เมื่อการค้นหาเสร็จสมบูรณ์ คุณจะเห็นผลลัพธ์ต่อไปนี้
ไปที่ BigQuery แล้วคลิกชุดข้อมูล (เช่น acai_pdfs_discovered_003) ระบบจะสร้างออบเจ็กต์ฐานข้อมูลที่มีโครงสร้างชุดใหม่ในชุดข้อมูลที่คุณเลือกในขั้นตอนที่ 6

สร้างข้อมูลเชิงลึกสำหรับออบเจ็กต์ใน BigQuery

หากต้องการสร้างข้อมูลเชิงลึกสำหรับชุดข้อมูล BigQuery คุณต้องเข้าถึงชุดข้อมูลใน BigQuery โดยใช้ BigQuery Studio

ในคอนโซล Google Cloud ให้ไปที่ BigQuery Studio
ในแผง Explorer ให้เลือกโปรเจ็กต์ แล้วไปที่ชุดข้อมูลที่ต้องการสร้างข้อมูลเชิงลึก
คลิกแท็บข้อมูลเชิงลึก
หากเห็นปุ่มเปิดใช้ API ให้คลิกเพื่อเปิดใช้ Gemini สำหรับ Google Cloud ซึ่งจะเปิดหน้าต่างเปิดใช้ฟีเจอร์หลัก
1. ในส่วน API ฟีเจอร์หลัก ให้คลิกเปิดใช้สำหรับ Gemini สำหรับ Google Cloud API และ BigQuery Unified API จากนั้นคลิกถัดไป
2. ในส่วนสิทธิ์ (ไม่บังคับ) ให้มอบบทบาท IAM แก่ผู้ใช้หลักหากจำเป็น แล้วคลิกถัดไป
หากต้องการสร้างข้อมูลเชิงลึกและเผยแพร่ไปยังแคตตาล็อกความรู้ ให้คลิกสร้างและเผยแพร่
เมื่อเผยแพร่แล้ว คุณจะดูข้อมูลเชิงลึกในแท็บได้

11. ตั้งค่า IDE สำหรับการวิเคราะห์ข้อมูลแบบเอเจนต์

ส่วนขยายชุดเครื่องมือ Data Agent ของ Google Cloud สำหรับ Visual Studio Code เป็นส่วนขยาย IDE สำหรับนักวิทยาศาสตร์ข้อมูลและวิศวกรข้อมูล ซึ่งช่วยให้คุณเชื่อมต่อและทำงานกับทรัพยากรและข้อมูล Google Data Cloud ได้โดยตรงจาก IDE ดูข้อมูลเพิ่มเติมได้ที่ภาพรวมของส่วนขยาย Data Agent Kit สำหรับ VS Code

ส่วนขยาย Data Agent Kit สำหรับ VS Code มีประโยชน์เมื่อคุณต้องการทำสิ่งต่อไปนี้

สร้าง ทดสอบ ตรวจสอบ และทำให้ใช้งานได้ไปป์ไลน์ข้อมูลที่พร้อมใช้งานจริง เช่น Spark ETL หรือ BigQuery ETL ได้โดยตรงจาก VS Code
สํารวจข้อมูล สร้างไปป์ไลน์การฝึก ระบุโมเดล ML ที่ดีที่สุด และทำให้ใช้งานได้โมเดลไปยังปลายทางการผลิตโดยใช้ความช่วยเหลือจาก AI
เชื่อมต่อกับแหล่งข้อมูลที่เชื่อถือได้ สร้างโมเดลข้อมูลที่มีประสิทธิภาพสูง และเผยแพร่แดชบอร์ดแบบอินเทอร์แอกทีฟสำหรับผู้มีส่วนเกี่ยวข้องทางธุรกิจ

ติดตั้งส่วนขยาย Data Agent Kit สำหรับ VS Code

เปิด VS Code
ติดตั้ง Google Cloud CLI ดูข้อมูลเพิ่มเติมได้ที่ติดตั้ง Google Cloud CLI
ติดตั้งส่วนขยาย Data Agent Kit สำหรับ VS Code
ทําตามกระบวนการเริ่มต้นใช้งานส่วนขยายให้เสร็จสมบูรณ์ ซึ่งคุณจะต้องทําสิ่งต่อไปนี้
- ลงชื่อเข้าใช้ส่วนขยาย
- ติดตั้งทักษะ เซิร์ฟเวอร์ MCP
โหลดซ้ำหรือรีสตาร์ทหน้าต่างเมื่อคุณเริ่มต้นใช้งานเสร็จแล้ว ดูข้อมูลเพิ่มเติมได้ที่ตั้งค่าและกำหนดค่าส่วนขยาย Data Agent Kit สำหรับ VS Code
หลังจาก IDE โหลดซ้ำแล้ว ให้คลิกไอคอน Google Data Cloud ในแผงการนำทาง ไปที่การตั้งค่า และตรวจสอบว่าคุณได้ตั้งค่ารหัสโปรเจ็กต์และภูมิภาค (us-west1) อย่างถูกต้องในการตั้งค่าทั่วไป

ตั้งค่าพื้นที่ทำงานใน VS Code

เปิด VS Code แล้วเลือกไฟล์ > เปิดโฟลเดอร์ > โฟลเดอร์ใหม่
สร้างโฟลเดอร์ใหม่ชื่อ acai_test แล้วคลิกเปิด ตอนนี้ VS Code จะถือว่าโฟลเดอร์ที่คุณเปิดเป็นพื้นที่ทำงาน
ในกล่องโต้ตอบความน่าเชื่อถือของ Workspace ให้เลือกใช่ ฉันเชื่อถือผู้เขียนเพื่อเปิดใช้ฟีเจอร์ทั้งหมดในพื้นที่ทำงาน
สร้างโฟลเดอร์ .github ในพื้นที่ทำงาน acai_test

สร้างไฟล์ใหม่ copilot-instructions.md ในโฟลเดอร์ .github แล้วป้อนกฎต่อไปนี้

## 1. Project Context
- **Project ID**: <PROJECT_ID>
- **Domain**: This project is centralized around "Froyo", a brand of frozen yogurt offering multiple flavors.
- **Documentation**: Raw PDF documents detailing flavors and ingredients are stored in Google Cloud Storage at `gs://<BUCKET_NAME>`.

## 2. Execution & Data Processing Rules
- **CRITICAL RULE - Structured Specs**: The semantic and structured information extracted from the PDFs is available in a BigQuery dataset named `<BQ_DATASET_NAME>` (referred to as the Knowledge Catalog).
- **CRITICAL RULE - Customer Data**: Existing Froyo customer data resides in BigQuery in the dataset `<DATASET_ID>`. When you are referencing a dataset, ensure you are using it with the project ID (`<PROJECT_ID>`) and namespace prefix `<NAMESPACE_NAME>`. For example, to query order table in this dataset you should use `<PROJECT_ID>.<NAMESPACE>.<DATASET_ID>.orders`.
- **CRITICAL RULE - Data Joins between BigQuery dataset and Iceberg dataset**: ANY task requiring a join or integration between the BigQuery datasets `<DATASET_ID>` of the PDF data and the `<DATASET_ID>` of the customer data MUST be executed using **Spark Notebooks**.
- **CRITICAL RULE - Notebook Kernel**: Every Spark notebook utilized MUST exclusively be configured to run on the Serverless Session template `iceberg-federation-template` as its kernel.
- **CRITICAL RULE - Data Science**: ANY data science, machine learning, or advanced analytical task MUST be performed strictly within **Spark Notebooks** using the aforementioned setup.

สร้างไฟล์ใหม่ขึ้นมาอีกไฟล์template.yamlในพื้นที่ทำงาน acai_test แล้วป้อนข้อมูลต่อไปนี้ในไฟล์

labels:
 client: "vscode"
jupyterSession:
 displayName: "iceberg-federation-template"
 kernel: "PYTHON"
environmentConfig:
 executionConfig:
   serviceAccount: "sa-spark-dev1@<PROJECT_ID>.iam.gserviceaccount.com"
   subnetworkUri: "projects/<PROJECT_ID>/regions/<REGION>/subnetworks/<SUBNET_NAME>"
runtimeConfig:
 version: "2.3"
 properties:
 # This enables the secure proxy URL you were looking for
   dataproc.tier: "premium"
   spark.dataproc.engine: "lightningEngine"
   spark.dataproc.lightningEngine.runtime: "native"
   spark.memory.offHeap.enabled: "true"
   spark.memory.offHeap.size: "1g"
   spark.executor.memory: "4g"
   "dataproc.component.gateway.enabled": "true"
   "dataproc.jupyter.listen.all.interfaces": "true"
   "spark.sql.extensions": "org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions"
   "spark.sql.defaultCatalog": "<CATALOG_NAME>"
   "spark.sql.catalog.<CATALOG_NAME>": "org.apache.iceberg.spark.SparkCatalog"
   "spark.sql.catalog.<CATALOG_NAME>.type": "rest"
   "spark.sql.catalog.<CATALOG_NAME>.uri": "<CATALOG_URI_ID>"
   "spark.sql.catalog.<CATALOG_NAME>.warehouse": "bl://projects/<PROJECT_ID>/catalogs/<CATALOG_NAME>"
   "spark.sql.catalog.<CATALOG_NAME>.rest.auth.type": "org.apache.iceberg.gcp.auth.GoogleAuthManager"

ใน VS Code ให้คลิกเทอร์มินัล แล้วเรียกใช้คำสั่งต่อไปนี้เพื่อนำเข้าไฟล์ template.yaml เป็นเทมเพลตเซสชัน เอเจนต์จะใช้เทมเพลตนี้ในภายหลังเพื่อสร้างเซสชัน Spark
```
gcloud beta dataproc session-templates import iceberg-federation-template \
    --source=template.yaml \
    --location=<REGION>
```
แทนที่ REGION ด้วยภูมิภาคของคุณ

12. ทำการวิเคราะห์ข้อมูลแบบเอเจนต์

ในตัวแก้ไขโค้ด VS Code ให้คลิกสลับแชท
สำหรับกำหนดค่าตัวแทนที่กำหนดเอง ให้เลือกตัวแทน
ในแผงโมเดลการค้นหา ให้คลิกจัดการโมเดลภาษา
ในหน้าโมเดลภาษา ให้คลิกเพิ่มโมเดล
เลือก Google จากรายการ แล้วกด Enter เพื่อยืนยันข้อมูลที่ป้อน
หากต้องการป้อนคีย์ API สำหรับ Google Gemini ให้ทำดังนี้
1. ไปที่เว็บไซต์ Google AI Studio
2. ลงชื่อเข้าใช้ด้วยบัญชี Google
3. คลิกรับคีย์ API ในแถบด้านข้าง
4. คลิก Create API key สร้างหน้าคีย์ใหม่จะเปิดขึ้น
5. เลือกนำเข้าโปรเจ็กต์จากรายการเลือกโปรเจ็กต์ที่อยู่ในระบบคลาวด์
6. ป้อนชื่อโปรเจ็กต์ที่มีอยู่
7. คลิกสร้างคีย์แล้วคัดลอกคีย์ API คีย์นี้ให้สิทธิ์เข้าถึงทรัพยากร Gemini API ของบัญชี ดูข้อมูลเพิ่มเติมได้ที่การใช้คีย์ Gemini API
วางคีย์ API ที่สร้างไว้ในแถบค้นหา แล้วคลิกEnter
หากโมเดล Gemini ไม่ปรากฏ ให้เลิกซ่อนตามที่แสดงในรูปภาพต่อไปนี้
เลือกตัวอย่าง Gemini 3.1 Pro จากรายการโมเดล Google Gemini แล้วปิดหน้าต่างโมเดลภาษา
ในหน้าต่างแชท ให้ป้อนคำถามต่อไปนี้
```
   Search ingredients for Midnight papaya
```
หลังจากโต้ตอบแล้ว คุณควรเห็นผลลัพธ์ต่อไปนี้
หมายเหตุ: หากพบข้อผิดพลาดในการตรวจสอบสิทธิ์เมื่อทำการวิเคราะห์ข้อมูลแบบ Agent เช่น หาก Agent ตรวจสอบสิทธิ์กับ BigQuery ไม่สำเร็จ คุณอาจต้องอัปเดตการตั้งค่าผู้ใช้ VS Code เพื่อระบุรหัสโปรเจ็กต์สำหรับการเรียกเก็บเงินและโควต้า API
ในหน้าต่างแชท ให้ป้อนคำถามอื่น
```
   Search allergen information for Midnight papaya
```
หลังจากโต้ตอบและทำตามขั้นตอนบางอย่าง คุณจะเห็นตัวแทนตอบกลับด้วยชื่อสารก่อภูมิแพ้ Soy ดังที่เห็นในรูปภาพต่อไปนี้
ในหน้าต่างแชท ให้ป้อนคำถามอื่น
```
   Build a pipeline to join products with our 'Global Loyalty' Iceberg tables in acai customer, sales data to identify popular products
```
สำคัญ: ตอนนี้เอเจนต์จะเริ่มทำงานเพื่อให้บรรลุเป้าหมาย โดยจะสร้างไฟล์ .ipynb ในพื้นที่ทำงานและโฟลเดอร์เดียวกับไฟล์ template.yaml และคุณต้องเลือกเคอร์เนลสำหรับไฟล์ดังกล่าว
หากต้องการเลือกเคอร์เนล ให้เปิดไฟล์ .ipynb แล้วคลิกเลือกเคอร์เนล > เคอร์เนล Spark ระยะไกล > Iceberg-federation-template ใน Spark แบบ Serverless
สำคัญ: คุณสร้าง Iceberg-federation-template เมื่อตั้งค่าพื้นที่ทำงานของ VS Code เลือกเทมเพลตนี้เป็นเคอร์เนลเพื่อให้ Agent เรียกใช้ Notebook สำหรับการค้นหาต่อไป อนุญาตให้เอเจนต์เรียกใช้ Notebook โดยอิสระ หรือกระตุ้นให้เอเจนต์ดำเนินการหากไม่เริ่มทำงานด้วยตัวเอง
หลังจากโต้ตอบและทำตามขั้นตอนบางอย่าง คุณจะเห็นว่าเอเจนต์ตอบกลับพร้อมขั้นตอนทั้งหมดใน Notebook ที่ดำเนินการสำเร็จ รวมถึงผลลัพธ์สุดท้ายที่สร้างขึ้นที่ส่วนท้ายของ Notebook ดังที่เห็นในรูปภาพต่อไปนี้

13. ล้างข้อมูล

โปรดลบทรัพยากรที่คุณสร้างใน Lab นี้เพื่อหลีกเลี่ยงการเรียกเก็บเงิน

หากต้องการลบ DataScan ของแคตตาล็อกความรู้ ให้เรียกใช้คำสั่งต่อไปนี้

  DATASCAN_ID="<DATASCAN_ID>"
  echo "Deleting Dataplex DataScan: ${DATASCAN_ID}"
  gcloud dataplex datascans delete "${DATASCAN_ID}" --location="${REGION}" --quiet

หากต้องการลบที่เก็บข้อมูล Cloud Storage และเนื้อหาทั้งหมด ให้เรียกใช้คำสั่งต่อไปนี้
```
  echo "Deleting Cloud Storage buckets: <BUCKET_NAME1> and <BUCKET_NAME2>"
  gsutil -m rm -r gs://<BUCKET_NAME1>
  gsutil -m rm -r gs://<BUCKET_NAME2>
```

หากต้องการลบการเชื่อมต่อ BigQuery ให้เรียกใช้คำสั่งต่อไปนี้

  CONNECTION_ID="<CONNECTION_NAME>"
  echo "Deleting BigQuery Connection: ${CONNECTION_ID}"
  bq rm --connection "${PROJECT_ID}.${REGION}.${CONNECTION_ID}"

หากต้องการลบแคตตาล็อก Lakehouse ให้เรียกใช้คำสั่งต่อไปนี้

  CATALOG_ID="<CATALOG_NAME>"
  echo "Deleting Lakehouse Catalog: ${CATALOG_ID}"
  gcloud biglake catalogs delete "${CATALOG_ID}" --project="${PROJECT_ID}" --location="${REGION}" --quiet

หากต้องการลบชุดข้อมูลที่มีตาราง PDF ที่ค้นพบ ให้เรียกใช้คำสั่งต่อไปนี้
```
  DATASET_NAME="<DATASET_NAME>"
  echo "Deleting BigQuery Dataset: ${DATASET_NAME}"
  bq rm -r -f "${PROJECT_ID}:${DATASET_NAME}"
```

หากต้องการลบบัญชีบริการที่กำหนดเอง ให้เรียกใช้คำสั่งต่อไปนี้

  SERVICE_ACCOUNT="<SERVICE_ACCOUNT>"
  echo "Deleting Service Account: ${SERVICE_ACCOUNT}"
  gcloud iam service-accounts delete "${SERVICE_ACCOUNT}"@"${PROJECT_ID}".iam.gserviceaccount.com --quiet

หากต้องการลบเครือข่าย VPC ให้เรียกใช้คำสั่งต่อไปนี้

  VPC_NETWORK="<VPC_NETWORK>"
  echo "Deleting VPC Network: ${VPC_NETWORK}"
  gcloud compute networks delete "${VPC_NETWORK}" --quiet

หากต้องการลบทั้งโปรเจ็กต์ Google Cloud ให้เรียกใช้คำสั่งต่อไปนี้
```
  gcloud projects delete "${PROJECT_ID}"
```

14. ขอแสดงความยินดี

ยินดีด้วย คุณจัดระเบียบภูมิทัศน์ข้อมูลของไฟล์ PDF และ Parquet ที่แยกเป็นไซโลในตาราง BigQuery และรวมไว้ในระบบนิเวศเดียวที่ค้นหาและเข้าร่วมได้เรียบร้อยแล้ว คุณได้สร้าง Data Lakehouse ที่ทันสมัยซึ่งจัดการรูปแบบ PDF และ Big Data อย่างชาญฉลาดเช่นเดียวกับการจัดการแถวในฐานข้อมูล และคุณทำทั้งหมดนี้ได้จากเอเจนต์ของคุณในประสบการณ์การสนทนากับ Gemini

เอกสารอ้างอิง

หากต้องการเจาะลึกเทคโนโลยีหลักที่ใช้ใน Codelab นี้ โปรดไปที่เอกสารประกอบอย่างเป็นทางการของ Google Cloud

หากต้องการสำรวจ BigQuery ซึ่งเป็นคอมโพเนนต์หลักของ Data Cloud โปรดดูเอกสารประกอบ BigQuery
ดูข้อมูลเพิ่มเติมเกี่ยวกับ IAM ได้ที่เอกสารประกอบของ IAM
ดูข้อมูลเกี่ยวกับ Lakehouse ได้ที่Lakehouse คืออะไร