การแบ่งพาร์ติชันและการคลัสเตอร์ใน BigQuery

1. บทนำ

BigQuery คือคลังข้อมูลการวิเคราะห์ต้นทุนต่ำสำหรับบริษัทซึ่งมีความจุระดับเพทาไบต์และมีจัดการอย่างเต็มรูปแบบ BigQuery เป็นแบบ Serverless คุณไม่จำเป็นต้องตั้งค่าและจัดการคลัสเตอร์

ชุดข้อมูล BigQuery อยู่ในโปรเจ็กต์ GCP และมีตารางอย่างน้อย 1 ตาราง คุณค้นหาชุดข้อมูลเหล่านี้ด้วย SQL ได้

ใน Codelab นี้ คุณจะใช้ UI ทางเว็บของ BigQuery ในคอนโซล GCP เพื่อทำความเข้าใจการแบ่งพาร์ติชันและการจัดคลัสเตอร์ใน BigQuery การแบ่งพาร์ติชันและคลัสเตอร์ตารางของ BigQuery ช่วยจัดโครงสร้างข้อมูลให้ตรงกับรูปแบบการเข้าถึงข้อมูลทั่วไป การแบ่งพาร์ติชันและคลัสเตอร์คือกุญแจสำคัญในการเพิ่มประสิทธิภาพ BigQuery ให้สูงสุดและใช้ต้นทุนสูงสุดเมื่อทำการค้นหาในช่วงข้อมูลที่เฉพาะเจาะจง วิธีนี้ส่งผลให้การสแกนข้อมูลต่อการค้นหาน้อยลง และระบบจะพิจารณาการตัดทอนก่อนเวลาเริ่มต้นการค้นหา

ดูข้อมูลเพิ่มเติมเกี่ยวกับ BigQuery ได้ในเอกสารประกอบของ BigQuery

สิ่งที่คุณจะได้เรียนรู้

  • วิธีสร้างและค้นหาตารางที่มีการแบ่งพาร์ติชันและตารางที่จัดกลุ่ม
  • เปรียบเทียบประสิทธิภาพการค้นหากับตารางที่แบ่งพาร์ติชันและตารางที่จัดกลุ่ม

สิ่งที่คุณต้องมี

คุณต้องมีสิ่งต่อไปนี้เพื่อให้ห้องทดลองนี้เสร็จสมบูรณ์

  • Google Chrome เวอร์ชันล่าสุด
  • บัญชีสำหรับการเรียกเก็บเงินของ Google Cloud Platform

2. การตั้งค่า

หากต้องการทำงานกับ BigQuery คุณต้องสร้างโปรเจ็กต์ GCP หรือเลือกโปรเจ็กต์ที่มีอยู่

สร้างโครงการ

หากต้องการสร้างโปรเจ็กต์ใหม่ ให้ทำตามขั้นตอนต่อไปนี้

  1. หากยังไม่มีบัญชี Google (Gmail หรือ Google Apps) ให้สร้างบัญชี
  2. ลงชื่อเข้าใช้คอนโซล Google Cloud Platform ( console.cloud.google.com) และสร้างโปรเจ็กต์ใหม่
  3. หากคุณไม่มีโปรเจ็กต์ ให้คลิกปุ่มสร้างโปรเจ็กต์

870a3cbd6541ee86.png

หรือสร้างโปรเจ็กต์ใหม่จากเมนูการเลือกโปรเจ็กต์ ดังนี้

f6dff3437a20cf2.png

  1. กรอกชื่อโปรเจ็กต์และเลือกสร้าง โปรดทราบว่ารหัสโปรเจ็กต์คือชื่อที่ไม่ซ้ำกันในโปรเจ็กต์ Google Cloud ทั้งหมด

1884405a64ce5765.png

3. การทำงานกับชุดข้อมูลสาธารณะ

BigQuery ช่วยให้คุณทำงานกับชุดข้อมูลสาธารณะได้ ซึ่งรวมถึง BBC News, GitHub repos, Stack Overflow และชุดข้อมูล National Oceanic and Atmospheric Administration (NOAA) ของสหรัฐอเมริกา คุณไม่จำเป็นต้องโหลดชุดข้อมูลเหล่านี้ลงใน BigQuery คุณเพียงแค่ต้องเปิดชุดข้อมูลเพื่อเรียกดูและค้นหาใน BigQuery ใน Codelab นี้ คุณจะได้ใช้งานชุดข้อมูลสาธารณะ Stack Overflow

เรียกดูชุดข้อมูล Stack Overflow

ชุดข้อมูล Stack Overflow มีข้อมูลเกี่ยวกับโพสต์ แท็ก ป้าย ความคิดเห็น ผู้ใช้ และอื่นๆ หากต้องการเรียกดูชุดข้อมูล Stack Overflow ในเว็บ UI ของ BigQuery ให้ทำตามขั้นตอนต่อไปนี้

  1. เปิดชุดข้อมูล Stack Overflow UI เว็บของ BigQuery จะเปิดขึ้นในคอนโซล GCP และแสดงข้อมูลเกี่ยวกับชุดข้อมูล Stackoverflow
  2. ในแผงการนำทาง ให้เลือก bigquery-public-data เมนูจะขยายเพื่อแสดงรายการชุดข้อมูลสาธารณะ ชุดข้อมูลแต่ละรายการประกอบด้วยตารางอย่างน้อย 1 ตาราง
  3. เลื่อนลงแล้วเลือก stackoverflow เมนูจะขยายเพื่อแสดงตารางในชุดข้อมูล Stack Overflow
  4. เลือกป้ายเพื่อดูสคีมาของตารางป้าย จดชื่อช่องในตารางไว้
  5. เหนือชื่อช่อง ให้คลิกแสดงตัวอย่างเพื่อดูข้อมูลตัวอย่างสำหรับตารางป้าย

โปรดดูข้อมูลเพิ่มเติมเกี่ยวกับชุดข้อมูลสาธารณะทั้งหมดที่มีอยู่ใน BigQuery ได้ที่ชุดข้อมูลสาธารณะของ Google BigQuery

ค้นหาชุดข้อมูล Stackoverflow

การเรียกดูชุดข้อมูลเป็นวิธีที่ดีในการทำความเข้าใจข้อมูลที่คุณกำลังทำงานด้วย แต่การค้นหาชุดข้อมูลนั้นเป็นส่วนที่ BigQuery โดดเด่นมาก ส่วนนี้จะสอนวิธีเรียกใช้การค้นหา BigQuery คุณยังไม่จำเป็นต้องทราบ SQL ในตอนนี้ คุณสามารถคัดลอกและวางการค้นหาได้ที่ด้านล่าง

หากต้องการเรียกใช้การค้นหา ให้ทำตามขั้นตอนต่อไปนี้

  1. เลือกเขียนคำค้นหาใหม่ที่บริเวณด้านขวาบนของคอนโซล GCP
  2. ในช่องข้อความตัวแก้ไขคำค้นหา ให้คัดลอกและวางการค้นหา SQL ต่อไปนี้ BigQuery จะตรวจสอบคำค้นหา จากนั้น UI ของเว็บจะแสดงเครื่องหมายถูกสีเขียวใต้พื้นที่ข้อความเพื่อระบุว่าไวยากรณ์ถูกต้อง
SELECT
  EXTRACT(YEAR FROM creation_date) AS creation_year,
  COUNT(*) AS total_posts
FROM `bigquery-public-data.stackoverflow.posts_questions`
GROUP BY creation_year
ORDER BY total_posts DESC
LIMIT 10
  1. เลือกเรียกใช้ การค้นหาจะแสดงจำนวนโพสต์หรือคำถามที่ Stack Overflow โพสต์ทุกปี

4. การสร้างตารางใหม่

ในส่วนก่อนหน้า คุณได้ค้นหาชุดข้อมูลสาธารณะที่ BigQuery ทําให้พร้อมใช้งาน ในส่วนนี้ คุณจะได้สร้างตารางใหม่ใน BigQuery จากตารางที่มีอยู่ คุณจะสร้างตารางใหม่ด้วยข้อมูลที่สุ่มตัวอย่างจากตารางชุดข้อมูลสาธารณะของ Stack Overflow posts_questions แล้วค้นหาตาราง

สร้างชุดข้อมูลใหม่

หากต้องการสร้างและโหลดข้อมูลตารางลงใน BigQuery ให้สร้างชุดข้อมูล BigQuery เพื่อเก็บข้อมูลโดยทำตามขั้นตอนต่อไปนี้

  1. ในแผงการนำทางของคอนโซล GCP ให้เลือกชื่อโปรเจ็กต์ที่สร้างเป็นส่วนหนึ่งของการตั้งค่า
  2. เลือกสร้างชุดข้อมูลที่ด้านขวาในแผงรายละเอียด

acc6378c49622323.png

  1. ในกล่องโต้ตอบสร้างชุดข้อมูล สำหรับรหัสชุดข้อมูล ให้พิมพ์ stackoverflow คงการตั้งค่าเริ่มต้นอื่นๆ ทั้งหมดไว้ตามเดิม แล้วคลิกตกลง

7a2dfd8bcb8f259a.png

สร้างตารางใหม่ด้วยโพสต์ StackOverflow ปี 2018

ตอนนี้คุณสร้างชุดข้อมูล BigQuery แล้ว คุณสามารถสร้างตารางใหม่ใน BigQuery ได้ หากต้องการสร้างตารางด้วยข้อมูลจากตารางที่มีอยู่ คุณจะต้องค้นหาชุดข้อมูลโพสต์ Stack Overflow ปี 2018 และเขียนผลลัพธ์ลงในตารางใหม่โดยทำตามขั้นตอนต่อไปนี้

  1. เลือกเขียนคำค้นหาใหม่ที่บริเวณด้านขวาบนของคอนโซล GCP

9ca55f544e8da8bd.png

  1. ในพื้นที่ข้อความตัวแก้ไขคำค้นหา ให้คัดลอกและวางการค้นหา SQL ต่อไปนี้เพื่อสร้างตารางใหม่ซึ่งเป็นคำสั่ง DDL
CREATE OR REPLACE TABLE `stackoverflow.questions_2018` AS
SELECT id, title, accepted_answer_id, creation_date, answer_count , comment_count , favorite_count, view_count, tags
FROM `bigquery-public-data.stackoverflow.posts_questions`
WHERE creation_date BETWEEN '2018-01-01' AND '2019-01-01';
  1. เลือกเรียกใช้ การค้นหาจะสร้างตารางใหม่ questions_2018 ในชุดชุดข้อมูล stackoverflow ในโปรเจ็กต์ ซึ่งมีข้อมูลที่ได้จากการเรียกใช้การค้นหาในชุดข้อมูล BigQuery Stack Overflow bigquery-public-data.stackoverflow.posts_questions

ค้นหาตารางใหม่ด้วยโพสต์ Stack Overflow ปี 2018

ตอนนี้คุณสร้างตาราง BigQuery แล้ว ลองเรียกใช้การค้นหาเพื่อแสดงโพสต์ของ Stack Overflow ที่มีคำถามและชื่อ รวมถึงสถิติอื่นๆ เช่น จำนวนคำตอบ ความคิดเห็น การดู และรายการโปรด ทำตามขั้นตอนต่อไปนี้ให้เสร็จ

  1. เลือกเขียนคำค้นหาใหม่ที่บริเวณด้านขวาบนของคอนโซล GCP
  2. ในช่องข้อความตัวแก้ไขคำค้นหา ให้คัดลอกและวางการค้นหา SQL ต่อไปนี้
SELECT id, title, accepted_answer_id, creation_date, answer_count , comment_count , favorite_count, view_count 
FROM  `stackoverflow.questions_2018` 
WHERE creation_date BETWEEN '2018-01-01' AND '2018-02-01'
AND tags = 'android';
  1. เลือกเรียกใช้ คำค้นหาแสดงผลคำถามใน Stack Overflow ที่สร้างขึ้นในเดือนมกราคม 2018 ที่ติดแท็ก android พร้อมด้วยคำถามและสถิติอื่นๆ
  2. โดยค่าเริ่มต้น BigQuery จะแคชผลการค้นหาไว้ เรียกใช้การค้นหาเดียวกัน แล้วคุณจะเห็นว่า BigQuery ใช้เวลาแสดงผลลัพธ์น้อยลงเนื่องจากจะแสดงผลลัพธ์จากแคช
  3. เรียกใช้การค้นหาเดียวกันอีกครั้ง แต่ครั้งนี้ปิดใช้การแคช BigQuery อยู่ เราจะปิดใช้แคชสำหรับส่วนที่เหลือของ Lab เพื่อให้เปรียบเทียบประสิทธิภาพกับตารางที่แบ่งพาร์ติชันและตารางคลัสเตอร์ได้อย่างเท่าเทียม ซึ่งจะเรียกใช้ในส่วนถัดไป คลิกเพิ่มเติมในเครื่องมือแก้ไขการค้นหา แล้วเลือกการตั้งค่าการค้นหา การตั้งค่าคำค้นหา
  4. ภายใต้ค่ากำหนดของแคช ให้ยกเลิกการเลือกใช้ผลลัพธ์ที่แคช ตัวเลือกผลการค้นหาที่แคชไว้
  5. ในผลการค้นหา คุณควรเห็นเวลาที่ใช้ในการดำเนินการค้นหาและปริมาณข้อมูลที่ประมวลผลแล้วจึงจะได้รับผลลัพธ์

f197b022b4276338.png

5. การสร้างและค้นหาตารางที่แบ่งพาร์ติชันแล้ว

ในส่วนก่อนหน้า คุณได้สร้างตารางใหม่ใน BigQuery ที่มีข้อมูลจากตาราง posts_questions โดยใช้ชุดข้อมูลสาธารณะของ Stack Overflow เราค้นหาชุดข้อมูลนี้โดยปิดใช้การแคชและสังเกตเห็นประสิทธิภาพของคำค้นหา ในส่วนนี้ คุณจะสร้างตารางที่แบ่งพาร์ติชันใหม่จากตาราง posts_questions ของชุดข้อมูลสาธารณะของ Stack Overflow เดียวกันและสังเกตประสิทธิภาพการค้นหา

ตารางที่แบ่งพาร์ติชันแล้วคือตารางพิเศษที่แบ่งออกเป็นกลุ่มต่างๆ เรียกว่าพาร์ติชัน ซึ่งช่วยให้จัดการและค้นหาข้อมูลของคุณได้ง่ายขึ้น โดยทั่วไป คุณจะแบ่งตารางขนาดใหญ่ออกเป็นพาร์ติชันเล็กๆ หลายพาร์ติชันได้โดยใช้เวลาในการนำเข้าข้อมูล หรือคอลัมน์ TIMESTAMP/DATE หรือคอลัมน์ INTEGER เราจะสร้างตารางที่แบ่งพาร์ติชัน DATE

ดูข้อมูลเพิ่มเติมเกี่ยวกับตารางที่แบ่งพาร์ติชันแล้วที่นี่

สร้างตารางที่แบ่งพาร์ติชันใหม่ด้วยโพสต์ StackOverflow ปี 2018

หากต้องการสร้างตารางที่แบ่งพาร์ติชันด้วยข้อมูลจากตารางหรือการค้นหาที่มีอยู่ คุณจะต้องค้นหาชุดข้อมูลโพสต์ Stackoverflow ปี 2018 และเขียนผลลัพธ์ลงในตารางใหม่ ให้ทําตามขั้นตอนต่อไปนี้

b9d0ca4df0881f58.png

  1. เลือกเขียนคำค้นหาใหม่ที่บริเวณด้านขวาบนของคอนโซล GCP

9ca55f544e8da8bd.png

  1. ในพื้นที่ข้อความตัวแก้ไขคำค้นหา ให้คัดลอกและวางการค้นหา SQL ต่อไปนี้เพื่อสร้างตารางใหม่ซึ่งเป็นคำสั่ง DDL
CREATE OR REPLACE TABLE `stackoverflow.questions_2018_partitioned` 
PARTITION BY DATE(creation_date) AS
SELECT id, title, accepted_answer_id, creation_date, answer_count , comment_count , favorite_count, view_count, tags
FROM `bigquery-public-data.stackoverflow.posts_questions`
WHERE creation_date BETWEEN '2018-01-01' AND '2019-01-01';
  1. เลือกเรียกใช้ การค้นหาจะสร้างตารางใหม่ questions_2018_partitioned ในชุดชุดข้อมูล stackoverflow ในโปรเจ็กต์ ซึ่งมีข้อมูลที่ได้จากการเรียกใช้การค้นหาในชุดข้อมูล BigQuery Stack Overflow bigquery-public-data.stackoverflow.posts_questions

ค้นหาตารางที่แบ่งพาร์ติชันแล้วด้วยโพสต์ Stack Overflow ปี 2018

ตอนนี้คุณได้สร้างตารางที่แบ่งพาร์ติชันแล้วของ BigQuery แล้ว ลองเรียกใช้การค้นหาเดียวกันกับตารางที่แบ่งพาร์ติชันกัน โดยจะแสดงโพสต์ Stack Overflow ที่มีคำถามและชื่อ รวมถึงสถิติอื่นๆ อีก 2-3 รายการ เช่น จำนวนคำตอบ ความคิดเห็น การดู และรายการโปรด ทำตามขั้นตอนต่อไปนี้ให้เสร็จ

  1. เลือกเขียนคำค้นหาใหม่ที่บริเวณด้านขวาบนของคอนโซล GCP
  2. ในช่องข้อความตัวแก้ไขคำค้นหา ให้คัดลอกและวางการค้นหา SQL ต่อไปนี้
SELECT id, title, accepted_answer_id, creation_date, answer_count , comment_count , favorite_count, view_count 
FROM  `stackoverflow.questions_2018_partitioned` 
WHERE creation_date BETWEEN '2018-01-01' AND '2018-02-01'
AND tags = 'android';
  1. เลือกเรียกใช้โดยปิดใช้การแคช BigQuery (ตรวจสอบส่วนก่อนหน้าเพื่อปิดใช้แคช BigQuery) คำค้นหาแสดงผลคำถามใน Stack Overflow ที่สร้างขึ้นในเดือนมกราคม 2018 ที่ติดแท็ก android พร้อมด้วยคำถามและสถิติอื่นๆ
  2. ในผลการค้นหา คุณควรเห็นเวลาที่ใช้ในการดำเนินการค้นหาและปริมาณข้อมูลที่ประมวลผลแล้วจึงจะได้รับผลลัพธ์

ef01144374069823.png

คุณควรจะเห็นว่าประสิทธิภาพของการค้นหาด้วยตารางที่แบ่งพาร์ติชันแล้วดีกว่าตารางที่ไม่ได้แบ่งพาร์ติชัน เนื่องจาก BigQuery จะตัดทอนพาร์ติชัน เช่น สแกนเฉพาะพาร์ติชันที่จําเป็นซึ่งประมวลผลข้อมูลน้อยกว่าและทำงานได้เร็วขึ้น ซึ่งจะช่วยเพิ่มประสิทธิภาพให้กับต้นทุนในการค้นหาและประสิทธิภาพการค้นหา

6. การสร้างและค้นหาตารางแบบกลุ่ม

ในส่วนก่อนหน้า คุณได้สร้างตารางที่แบ่งพาร์ติชันใน BigQuery โดยใช้ข้อมูลจากตาราง posts_questions ในชุดข้อมูลสาธารณะของ Stack Overflow เราค้นหาตารางนี้โดยปิดใช้การแคชและสังเกตประสิทธิภาพการค้นหากับทั้งตารางที่ไม่ได้แบ่งพาร์ติชันและตารางที่แบ่งพาร์ติชันแล้ว ในส่วนนี้ คุณจะสร้างตารางที่คลัสเตอร์ใหม่จากตาราง posts_questions ของชุดข้อมูลสาธารณะของ Stack Overflow เดียวกันและสังเกตประสิทธิภาพการค้นหา

เมื่อมีการรวมตารางใน BigQuery ระบบจะจัดระเบียบข้อมูลตารางโดยอัตโนมัติตามเนื้อหาของคอลัมน์อย่างน้อย 1 คอลัมน์ในสคีมาของตาราง คอลัมน์ที่คุณระบุจะใช้เพื่อเรียงลำดับข้อมูลที่เกี่ยวข้อง เมื่อเขียนข้อมูลลงในตารางคลัสเตอร์ BigQuery จะจัดเรียงข้อมูลโดยใช้ค่าในคอลัมน์คลัสเตอร์ ค่าเหล่านี้ใช้เพื่อจัดระเบียบข้อมูลลงในหลายบล็อกในพื้นที่เก็บข้อมูล BigQuery ลำดับของคอลัมน์ที่จัดกลุ่มไว้จะเป็นตัวกำหนดลำดับการจัดเรียงข้อมูล เมื่อมีการเพิ่มข้อมูลใหม่ลงในตารางหรือพาร์ติชันที่เฉพาะเจาะจง BigQuery จะจัดคลัสเตอร์ใหม่โดยอัตโนมัติในเบื้องหลังเพื่อกู้คืนพร็อพเพอร์ตี้การจัดเรียงของตารางหรือพาร์ติชัน

ดูข้อมูลเพิ่มเติมเกี่ยวกับการทำงานกับตารางที่จัดกลุ่มได้ที่นี่

สร้างตารางที่จัดกลุ่มใหม่ด้วยโพสต์ Stack Overflow ปี 2018

ในส่วนนี้ คุณจะสร้างตารางใหม่ที่แบ่งพาร์ติชันใน creation_date และจัดกลุ่มในคอลัมน์ tags ตามรูปแบบการเข้าถึงการค้นหา หากต้องการสร้างตารางแบบกลุ่มที่มีข้อมูลจากตารางหรือคำค้นหาที่มีอยู่ คุณจะต้องค้นหาตารางโพสต์สแต็กโอเวอร์โฟลว์ปี 2018 และเขียนผลลัพธ์ลงในตารางใหม่โดยทำตามขั้นตอนต่อไปนี้

e7d9acc0dc3b9d79.png

  1. เลือกเขียนคำค้นหาใหม่ที่บริเวณด้านขวาบนของคอนโซล GCP

9ca55f544e8da8bd.png

  1. ในพื้นที่ข้อความตัวแก้ไขคำค้นหา ให้คัดลอกและวางการค้นหา SQL ต่อไปนี้เพื่อสร้างตารางใหม่ซึ่งเป็นคำสั่ง DDL
#standardSQL
CREATE OR REPLACE TABLE `stackoverflow.questions_2018_clustered`
PARTITION BY
  DATE(creation_date)
CLUSTER BY
  tags AS
SELECT
  id, title, accepted_answer_id, creation_date, answer_count , comment_count , favorite_count, view_count, tags
FROM
  `bigquery-public-data.stackoverflow.posts_questions`
WHERE
  creation_date BETWEEN '2018-01-01' AND '2019-01-01';
  1. เลือก Run การค้นหาจะสร้างตารางใหม่ questions_2018_clustered ในชุดชุดข้อมูล stackoverflow ในโปรเจ็กต์ ซึ่งมีข้อมูลที่ได้จากการเรียกใช้การค้นหาในตาราง BigQuery Stack Overflowbigquery-public-data.stackoverflow.posts_questions ตารางใหม่จะแบ่งพาร์ติชันใน create_date และจัดกลุ่มไว้ในคอลัมน์แท็ก

ค้นหาตารางแบบกลุ่มที่มีโพสต์ Stack Overflow ปี 2018

ตอนนี้คุณได้สร้างตารางที่จัดกลุ่มของ BigQuery แล้ว เรามาเรียกใช้การค้นหาเดียวกันอีกครั้งกันอีกรอบในตารางที่แบ่งพาร์ติชันและที่จัดกลุ่มแล้ว เพื่อแสดงโพสต์ใน Stack Overflow ที่มีคำถามและชื่อพร้อมกับสถิติอื่นๆ อีกเล็กน้อย เช่น จำนวนคำตอบ ความคิดเห็น การดู และรายการโปรด ทำตามขั้นตอนต่อไปนี้ให้เสร็จ

  1. เลือกเขียนคำค้นหาใหม่ที่บริเวณด้านขวาบนของคอนโซล GCP
  2. ในช่องข้อความตัวแก้ไขคำค้นหา ให้คัดลอกและวางการค้นหา SQL ต่อไปนี้
SELECT id, title, accepted_answer_id, creation_date, answer_count , comment_count , favorite_count, view_count 
FROM  `stackoverflow.questions_2018_clustered` 
WHERE creation_date BETWEEN '2018-01-01' AND '2018-02-01'
AND tags = 'android';
  1. เลือกเรียกใช้โดยปิดใช้การแคช BigQuery (ตรวจสอบส่วนก่อนหน้าเพื่อปิดใช้แคช BigQuery) คำค้นหาแสดงผลคำถามใน Stack Overflow ที่สร้างขึ้นในเดือนมกราคม 2018 ที่ติดแท็ก android พร้อมด้วยคำถามและสถิติอื่นๆ
  2. ในผลการค้นหา คุณควรเห็นเวลาที่ใช้ในการดำเนินการค้นหาและปริมาณข้อมูลที่ประมวลผลแล้วจึงจะได้รับผลลัพธ์

85e3c30d6fb3d547.png

การค้นหาจะสแกนข้อมูลน้อยกว่าตารางที่แบ่งพาร์ติชันหรือตารางที่ไม่ได้แบ่งพาร์ติชันด้วยตารางที่แบ่งพาร์ติชันแล้วและตารางที่จัดกลุ่ม วิธีจัดระเบียบข้อมูลโดยการแบ่งพาร์ติชันและคลัสเตอร์จะช่วยลดปริมาณข้อมูลที่ผู้ปฏิบัติงานสล็อตสแกน ซึ่งจะช่วยปรับปรุงประสิทธิภาพการค้นหาและเพิ่มประสิทธิภาพให้กับค่าใช้จ่าย

7. กำลังล้างข้อมูล

คุณควรลบชุดข้อมูลและลบโปรเจ็กต์ที่สร้างขึ้นสำหรับ Codelab นี้ ยกเว้นกรณีที่คุณวางแผนที่จะทำงานกับชุดข้อมูลสแต็กรูปแบบใหม่

ลบชุดข้อมูล BigQuery

หากต้องการลบชุดข้อมูล BigQuery ให้ทำตามขั้นตอนต่อไปนี้

  1. เลือกชุดข้อมูล stackoverflow จากแผงการนำทางด้านซ้ายใน BigQuery
  2. เลือกลบชุดข้อมูลในแผงรายละเอียด 67b0f5cb740cb2ec.png
  3. ในกล่องโต้ตอบลบชุดข้อมูล ให้ป้อน stackoverflow แล้วเลือกลบเพื่อยืนยันว่าคุณต้องการลบชุดข้อมูล

ลบโปรเจ็กต์

หากต้องการลบโปรเจ็กต์ GCP ที่คุณสร้างขึ้นสำหรับ Codelab นี้ ให้ทำตามขั้นตอนต่อไปนี้

  1. ในเมนูการนําทาง GCP ให้เลือก IAM และ Admin
  2. ในแผงการนำทาง ให้เลือกการตั้งค่า
  3. ในแผงรายละเอียด ให้ตรวจสอบว่าโปรเจ็กต์ปัจจุบันเป็นโปรเจ็กต์ที่คุณสร้างสำหรับ Codelab นี้ แล้วเลือกปิดการทำงาน
  4. ในกล่องโต้ตอบปิดโปรเจ็กต์ ให้ป้อนรหัสโปรเจ็กต์ (ไม่ใช่ชื่อโปรเจ็กต์) สำหรับโปรเจ็กต์ แล้วเลือกปิดเครื่องเพื่อยืนยัน

ยินดีด้วย ตอนนี้คุณได้เรียนรู้

  • วิธีใช้ UI เว็บของ BigQuery เพื่อสร้างตารางใหม่จากตารางที่มีอยู่
  • วิธีสร้างและค้นหาตารางที่มีการแบ่งพาร์ติชันและตารางที่จัดกลุ่ม
  • การแบ่งพาร์ติชันและคลัสเตอร์ช่วยเพิ่มประสิทธิภาพการค้นหาและต้นทุนได้อย่างไร

โปรดทราบว่าคุณไม่จำเป็นต้องตั้งค่าหรือจัดการคลัสเตอร์เพื่อทำงานกับชุดข้อมูล