1. บทนำ
BigQuery คือคลังข้อมูลสำหรับองค์กรที่มีการจัดการอย่างเต็มรูปแบบ มีความจุระดับเพตะไบต์ และมีต้นทุนต่ำสำหรับการวิเคราะห์ BigQuery เป็นแบบ Serverless คุณไม่จำเป็นต้องตั้งค่าและจัดการคลัสเตอร์
ชุดข้อมูล BigQuery อยู่ในโปรเจ็กต์ GCP และมีตารางอย่างน้อย 1 รายการ คุณค้นหาชุดข้อมูลเหล่านี้ได้ด้วย SQL
ในโค้ดแล็บนี้ คุณจะได้ใช้ UI ทางเว็บของ BigQuery ในคอนโซล GCP เพื่อทำความเข้าใจการแบ่งพาร์ติชันและการจัดกลุ่มใน BigQuery การแบ่งพาร์ติชันและการจัดกลุ่มตารางของ BigQuery ช่วยจัดโครงสร้างข้อมูลให้ตรงกับรูปแบบการเข้าถึงข้อมูลทั่วไป การแบ่งพาร์ติชันและการจัดกลุ่มเป็นกุญแจสำคัญในการเพิ่มประสิทธิภาพและต้นทุนของ BigQuery อย่างเต็มที่เมื่อค้นหาในช่วงข้อมูลที่เฉพาะเจาะจง ซึ่งส่งผลให้สแกนข้อมูลต่อการค้นหาน้อยลง และระบบจะกำหนดการตัดออกก่อนเวลาเริ่มต้นการค้นหา
ดูข้อมูลเพิ่มเติมเกี่ยวกับ BigQuery ได้ที่เอกสารประกอบเกี่ยวกับ BigQuery
สิ่งที่คุณจะได้เรียนรู้
- วิธีสร้างและค้นหาตารางที่แบ่งพาร์ติชันและจัดคลัสเตอร์
- เปรียบเทียบประสิทธิภาพการค้นหากับตารางที่แบ่งพาร์ติชันและจัดกลุ่ม
สิ่งที่คุณต้องมี
คุณต้องมีสิ่งต่อไปนี้จึงจะทำแล็บนี้ให้เสร็จสมบูรณ์ได้
- Google Chrome เวอร์ชันล่าสุด
- บัญชีสำหรับการเรียกเก็บเงินของ Google Cloud Platform
2. การเริ่มตั้งค่า
หากต้องการใช้ BigQuery คุณต้องสร้างโปรเจ็กต์ GCP หรือเลือกโปรเจ็กต์ที่มีอยู่
สร้างโครงการ
หากต้องการสร้างโปรเจ็กต์ใหม่ ให้ทำตามขั้นตอนต่อไปนี้
- หากยังไม่มีบัญชี Google (Gmail หรือ Google Apps) ให้สร้างบัญชี
- ลงชื่อเข้าใช้คอนโซล Google Cloud Platform ( console.cloud.google.com) แล้วสร้างโปรเจ็กต์ใหม่
- หากไม่มีโปรเจ็กต์ ให้คลิกปุ่มสร้างโปรเจ็กต์

หรือสร้างโปรเจ็กต์ใหม่จากเมนูการเลือกโปรเจ็กต์โดยทำดังนี้

- ป้อนชื่อโปรเจ็กต์แล้วเลือกสร้าง โปรดทราบว่ารหัสโปรเจ็กต์คือชื่อที่ไม่ซ้ำกันในโปรเจ็กต์ Google Cloud ทั้งหมด

3. การทำงานกับชุดข้อมูลสาธารณะ
BigQuery ช่วยให้คุณทำงานกับชุดข้อมูลสาธารณะได้ ซึ่งรวมถึงชุดข้อมูลของ BBC News, ที่เก็บ GitHub, Stack Overflow และ National Oceanic and Atmospheric Administration (NOAA) ของสหรัฐอเมริกา คุณไม่จำเป็นต้องโหลดชุดข้อมูลเหล่านี้ลงใน BigQuery คุณเพียงแค่ต้องเปิดชุดข้อมูลเพื่อเรียกดูและค้นหาใน BigQuery ในโค้ดแล็บนี้ คุณจะได้ทำงานกับชุดข้อมูลสาธารณะของ Stack Overflow
เรียกดูชุดข้อมูล Stack Overflow
ชุดข้อมูล Stack Overflow มีข้อมูลเกี่ยวกับโพสต์ แท็ก ป้าย ความคิดเห็น ผู้ใช้ และอื่นๆ หากต้องการเรียกดูชุดข้อมูล Stack Overflow ในเว็บ UI ของ BigQuery ให้ทำตามขั้นตอนต่อไปนี้
- เปิดชุดข้อมูล Stack Overflow เว็บ UI ของ BigQuery จะเปิดขึ้นในคอนโซล GCP และแสดงข้อมูลเกี่ยวกับชุดข้อมูล Stackoverflow
- ในแผงการนำทาง ให้เลือก bigquery-public-data เมนูจะขยายเพื่อแสดงรายการชุดข้อมูลสาธารณะ ชุดข้อมูลแต่ละชุดประกอบด้วยตารางอย่างน้อย 1 ตาราง
- เลื่อนลงแล้วเลือก stackoverflow เมนูจะขยายเพื่อแสดงรายการตารางในชุดข้อมูล Stack Overflow
- เลือกป้ายเพื่อดูสคีมาของตารางป้าย จดชื่อฟิลด์ในตาราง
- คลิกดูตัวอย่างเหนือชื่อฟิลด์เพื่อดูข้อมูลตัวอย่างสำหรับตารางป้าย
ดูข้อมูลเพิ่มเติมเกี่ยวกับชุดข้อมูลสาธารณะทั้งหมดที่มีใน BigQuery ได้ที่ชุดข้อมูลสาธารณะของ Google BigQuery
ค้นหาชุดข้อมูล Stackoverflow
การเรียกดูชุดข้อมูลเป็นวิธีที่ดีในการทำความเข้าใจข้อมูลที่คุณกำลังทำงานด้วย แต่การค้นหาชุดข้อมูลคือสิ่งที่ BigQuery ทำได้ดีที่สุด ส่วนนี้จะสอนวิธีเรียกใช้คำค้นหา BigQuery คุณไม่จำเป็นต้องทราบ SQL ในตอนนี้ คุณคัดลอกและวางคำค้นหาด้านล่างได้
หากต้องการเรียกใช้การค้นหา ให้ทำตามขั้นตอนต่อไปนี้
- ที่บริเวณด้านขวาบนของคอนโซล GCP ให้เลือกเขียนคำค้นหาใหม่
- ในพื้นที่ข้อความตัวแก้ไขคำค้นหา ให้คัดลอกและวางคำค้นหา SQL ต่อไปนี้ BigQuery จะตรวจสอบคำค้นหาและเว็บ UI จะแสดงเครื่องหมายถูกสีเขียวใต้พื้นที่ข้อความเพื่อระบุว่าไวยากรณ์ถูกต้อง
SELECT EXTRACT(YEAR FROM creation_date) AS creation_year, COUNT(*) AS total_posts FROM `bigquery-public-data.stackoverflow.posts_questions` GROUP BY creation_year ORDER BY total_posts DESC LIMIT 10
- เลือกเรียกใช้ คําค้นหาจะแสดงจํานวนโพสต์หรือคําถามใน Stack Overflow ที่โพสต์ในแต่ละปี
4. การสร้างตารางใหม่
ในส่วนก่อนหน้า คุณได้ค้นหาชุดข้อมูลสาธารณะที่ BigQuery จัดเตรียมไว้ให้ ในส่วนนี้ คุณจะสร้างตารางใหม่ใน BigQuery จากตารางที่มีอยู่ คุณจะสร้างตารางใหม่ที่มีข้อมูลที่สุ่มตัวอย่างจากตารางชุดข้อมูลสาธารณะของ Stack Overflow posts_questions จากนั้นจึงค้นหาตาราง
สร้างชุดข้อมูลใหม่
หากต้องการสร้างและโหลดข้อมูลตารางลงใน BigQuery ให้สร้างชุดข้อมูล BigQuery เพื่อจัดเก็บข้อมูลก่อนโดยทำตามขั้นตอนต่อไปนี้
- ในแผงการนำทางของคอนโซล GCP ให้เลือกชื่อโปรเจ็กต์ที่สร้างขึ้นเป็นส่วนหนึ่งของการตั้งค่า
- ทางด้านขวาในแผงรายละเอียด ให้เลือกสร้างชุดข้อมูล

- ในกล่องโต้ตอบสร้างชุดข้อมูล ให้พิมพ์
stackoverflowสำหรับรหัสชุดข้อมูล ปล่อยให้การตั้งค่าเริ่มต้นอื่นๆ ทั้งหมดคงเดิม แล้วคลิกตกลง

สร้างตารางใหม่ด้วยโพสต์ StackOverflow ปี 2018
ตอนนี้คุณได้สร้างชุดข้อมูล BigQuery แล้ว คุณสามารถสร้างตารางใหม่ใน BigQuery ได้ หากต้องการสร้างตารางที่มีข้อมูลจากตารางที่มีอยู่ คุณจะต้องค้นหาชุดข้อมูลโพสต์ Stack Overflow ปี 2018 และเขียนผลลัพธ์ลงในตารางใหม่โดยทำตามขั้นตอนต่อไปนี้
- ที่บริเวณด้านขวาบนของคอนโซล GCP ให้เลือกเขียนคำค้นหาใหม่

- ในพื้นที่ข้อความเครื่องมือแก้ไขคําค้นหา ให้คัดลอกและวางคําค้นหา SQL ต่อไปนี้เพื่อสร้างตารางใหม่ ซึ่งเป็นคำสั่ง DDL
CREATE OR REPLACE TABLE `stackoverflow.questions_2018` AS SELECT id, title, accepted_answer_id, creation_date, answer_count , comment_count , favorite_count, view_count, tags FROM `bigquery-public-data.stackoverflow.posts_questions` WHERE creation_date BETWEEN '2018-01-01' AND '2019-01-01';
- เลือกเรียกใช้ การค้นหาจะสร้างตารางใหม่
questions_2018ในชุดข้อมูลstackoverflowในโปรเจ็กต์ของคุณ โดยมีข้อมูลที่ได้จากการเรียกใช้การค้นหาในชุดข้อมูล BigQuery Stack Overflowbigquery-public-data.stackoverflow.posts_questions
ค้นหาตารางใหม่ด้วยโพสต์ Stack Overflow ปี 2018
ตอนนี้คุณได้สร้างตาราง BigQuery แล้ว มาเรียกใช้การค้นหาเพื่อแสดงโพสต์ใน Stack Overflow พร้อมคำถามและชื่อ รวมถึงสถิติอื่นๆ เช่น จำนวนคำตอบ ความคิดเห็น ยอดดู และรายการโปรดกัน ทำตามขั้นตอนต่อไปนี้ให้ครบถ้วน
- ที่บริเวณด้านขวาบนของคอนโซล GCP ให้เลือกเขียนคำค้นหาใหม่
- ในพื้นที่ข้อความตัวแก้ไขคำค้นหา ให้คัดลอกและวางคำค้นหา SQL ต่อไปนี้
SELECT id, title, accepted_answer_id, creation_date, answer_count , comment_count , favorite_count, view_count FROM `stackoverflow.questions_2018` WHERE creation_date BETWEEN '2018-01-01' AND '2018-02-01' AND tags = 'android';
- เลือกเรียกใช้ คําค้นหาจะแสดงคําถามใน Stack Overflow ที่สร้างขึ้นในเดือนมกราคม 2018 ซึ่งติดแท็กเป็น
androidพร้อมกับคําถามและสถิติอื่นๆ อีก 2-3 รายการ - โดยค่าเริ่มต้น BigQuery จะแคชผลลัพธ์การค้นหา เรียกใช้การค้นหาเดียวกัน แล้วคุณจะเห็นว่า BigQuery ใช้เวลาน้อยกว่ามากในการแสดงผลลัพธ์เนื่องจากแสดงผลลัพธ์จากแคช
- เรียกใช้การค้นหาเดียวกันอีกครั้ง แต่ครั้งนี้ให้ปิดใช้การแคช BigQuery เราจะปิดใช้แคชสำหรับส่วนที่เหลือของ Lab เพื่อให้การเปรียบเทียบประสิทธิภาพกับตารางที่แบ่งพาร์ติชันและคลัสเตอร์ซึ่งจะทำงานในส่วนถัดไปเป็นไปอย่างยุติธรรม ในตัวแก้ไขคำค้นหา ให้คลิกเพิ่มเติม แล้วเลือกการตั้งค่าคำค้นหา

- ในส่วนค่ากำหนดแคช ให้ยกเลิกการเลือกใช้ผลการค้นหาที่แคชไว้

- ในผลการค้นหา คุณควรเห็นเวลาที่ใช้ในการค้นหาจนเสร็จสมบูรณ์และปริมาณข้อมูลที่ประมวลผลเพื่อให้ได้ผลลัพธ์

5. การสร้างและค้นหาตารางที่แบ่งพาร์ติชัน
ในส่วนก่อนหน้า คุณได้สร้างตารางใหม่ใน BigQuery โดยใช้ข้อมูลจากตาราง posts_questions โดยใช้ชุดข้อมูลสาธารณะของ Stack Overflow เราค้นหาชุดข้อมูลนี้โดยปิดใช้แคชและสังเกตประสิทธิภาพการค้นหา ในส่วนนี้ คุณจะสร้างตารางที่แบ่งพาร์ติชันใหม่จากตาราง posts_questions ของชุดข้อมูลสาธารณะ Stack Overflow เดียวกัน และสังเกตประสิทธิภาพการค้นหา
ตารางที่แบ่งพาร์ติชันคือตารางพิเศษที่แบ่งออกเป็นกลุ่มที่เรียกว่าพาร์ติชัน ซึ่งช่วยให้จัดการและค้นหาข้อมูลได้ง่ายขึ้น โดยปกติแล้ว คุณจะแยกตารางขนาดใหญ่ออกเป็นพาร์ติชันขนาดเล็กหลายรายการได้โดยใช้เวลาในการส่งผ่านข้อมูล คอลัมน์ TIMESTAMP/DATE หรือคอลัมน์ INTEGER เราจะสร้างตารางที่แบ่งพาร์ติชันตามวันที่
ดูข้อมูลเพิ่มเติมเกี่ยวกับตารางที่แบ่งพาร์ติชันแล้วได้ที่นี่
สร้างตารางที่แบ่งพาร์ติชันใหม่ด้วยโพสต์ StackOverflow ปี 2018
หากต้องการสร้างตารางที่แบ่งพาร์ติชันด้วยข้อมูลจากตารางหรือการค้นหาที่มีอยู่ คุณจะต้องค้นหาชุดข้อมูลโพสต์ Stackoverflow ปี 2018 และเขียนผลลัพธ์ลงในตารางใหม่ โดยทำตามขั้นตอนต่อไปนี้

- ที่บริเวณด้านขวาบนของคอนโซล GCP ให้เลือกเขียนคำค้นหาใหม่

- ในพื้นที่ข้อความเครื่องมือแก้ไขคําค้นหา ให้คัดลอกและวางคําค้นหา SQL ต่อไปนี้เพื่อสร้างตารางใหม่ ซึ่งเป็นคำสั่ง DDL
CREATE OR REPLACE TABLE `stackoverflow.questions_2018_partitioned` PARTITION BY DATE(creation_date) AS SELECT id, title, accepted_answer_id, creation_date, answer_count , comment_count , favorite_count, view_count, tags FROM `bigquery-public-data.stackoverflow.posts_questions` WHERE creation_date BETWEEN '2018-01-01' AND '2019-01-01';
- เลือกเรียกใช้ การค้นหาจะสร้างตารางใหม่
questions_2018_partitionedในชุดข้อมูลstackoverflowในโปรเจ็กต์ของคุณ โดยมีข้อมูลที่ได้จากการเรียกใช้การค้นหาในชุดข้อมูล BigQuery Stack Overflowbigquery-public-data.stackoverflow.posts_questions
ค้นหาตารางที่แบ่งพาร์ติชันด้วยโพสต์ Stack Overflow ปี 2018
ตอนนี้คุณได้สร้างตารางที่แบ่งพาร์ติชันของ BigQuery แล้ว มาเรียกใช้คำค้นหาเดียวกันในตารางที่แบ่งพาร์ติชันกัน เพื่อแสดงโพสต์ใน Stack Overflow ที่มีคำถามและชื่อ พร้อมด้วยสถิติอื่นๆ เช่น จำนวนคำตอบ ความคิดเห็น ยอดดู และรายการโปรด ทำตามขั้นตอนต่อไปนี้ให้ครบถ้วน
- ที่บริเวณด้านขวาบนของคอนโซล GCP ให้เลือกเขียนคำค้นหาใหม่
- ในพื้นที่ข้อความตัวแก้ไขคำค้นหา ให้คัดลอกและวางคำค้นหา SQL ต่อไปนี้
SELECT id, title, accepted_answer_id, creation_date, answer_count , comment_count , favorite_count, view_count FROM `stackoverflow.questions_2018_partitioned` WHERE creation_date BETWEEN '2018-01-01' AND '2018-02-01' AND tags = 'android';
- เลือกเรียกใช้โดยปิดใช้การแคช BigQuery (ดูส่วนก่อนหน้าเพื่อปิดใช้แคช BigQuery) คําค้นหาจะแสดงคําถามใน Stack Overflow ที่สร้างขึ้นในเดือนมกราคม 2018 ซึ่งติดแท็กเป็น
androidพร้อมกับคําถามและสถิติอื่นๆ อีก 2-3 รายการ - ในผลการค้นหา คุณควรเห็นเวลาที่ใช้ในการค้นหาจนเสร็จสมบูรณ์และปริมาณข้อมูลที่ประมวลผลเพื่อให้ได้ผลลัพธ์

คุณจะเห็นว่าประสิทธิภาพของการค้นหาที่มีตารางที่แบ่งพาร์ติชันดีกว่าตารางที่ไม่ได้แบ่งพาร์ติชัน เนื่องจาก BigQuery จะตัดพาร์ติชันออก กล่าวคือ สแกนเฉพาะพาร์ติชันที่จำเป็น ประมวลผลข้อมูลน้อยลง และทำงานได้เร็วขึ้น ซึ่งจะช่วยเพิ่มประสิทธิภาพค่าใช้จ่ายในการค้นหาและประสิทธิภาพการค้นหา
6. การสร้างและการค้นหาตารางแบบคลัสเตอร์
ในส่วนก่อนหน้า คุณได้สร้างตารางที่แบ่งพาร์ติชันใน BigQuery โดยใช้ข้อมูลจากตาราง posts_questions ในชุดข้อมูลสาธารณะของ Stack Overflow เราค้นหาตารางนี้โดยปิดใช้แคช และสังเกตประสิทธิภาพการค้นหาทั้งในตารางที่ไม่ได้แบ่งพาร์ติชันและตารางที่แบ่งพาร์ติชัน ในส่วนนี้ คุณจะสร้างตารางแบบคลัสเตอร์ใหม่จากตาราง posts_questions ของชุดข้อมูลสาธารณะ Stack Overflow เดียวกัน และสังเกตประสิทธิภาพการค้นหา
เมื่อจัดกลุ่มตารางใน BigQuery ระบบจะจัดระเบียบข้อมูลตารางโดยอัตโนมัติตามเนื้อหาของคอลัมน์อย่างน้อย 1 คอลัมน์ในสคีมาของตาราง ระบบจะใช้คอลัมน์ที่คุณระบุเพื่อจัดกลุ่มข้อมูลที่เกี่ยวข้อง เมื่อเขียนข้อมูลลงในตารางที่จัดกลุ่ม BigQuery จะจัดเรียงข้อมูลโดยใช้ค่าในคอลัมน์การจัดกลุ่ม ระบบจะใช้ค่าเหล่านี้เพื่อจัดระเบียบข้อมูลเป็นหลายบล็อกในพื้นที่เก็บข้อมูล BigQuery ลำดับของคอลัมน์ที่จัดกลุ่มเป็นตัวกำหนดลำดับการจัดเรียงข้อมูล เมื่อมีการเพิ่มข้อมูลใหม่ลงในตารางหรือพาร์ติชันที่เฉพาะเจาะจง BigQuery จะทำการจัดกลุ่มใหม่โดยอัตโนมัติในเบื้องหลังเพื่อคืนค่าพร็อพเพอร์ตี้การจัดเรียงของตารางหรือพาร์ติชัน
ดูข้อมูลเพิ่มเติมเกี่ยวกับการทำงานกับตารางที่จัดกลุ่มได้ที่นี่
สร้างตารางแบบคลัสเตอร์ใหม่ด้วยโพสต์ Stack Overflow ปี 2018
ในส่วนนี้ คุณจะสร้างตารางใหม่ที่แบ่งพาร์ติชันใน creation_date และจัดกลุ่มในคอลัมน์ tags ตามรูปแบบการเข้าถึงการค้นหา หากต้องการสร้างตารางแบบคลัสเตอร์ที่มีข้อมูลจากตารางหรือการค้นหาที่มีอยู่ คุณจะต้องค้นหาตารางโพสต์ Stack Overflow ปี 2018 และเขียนผลลัพธ์ลงในตารางใหม่โดยทำตามขั้นตอนต่อไปนี้

- ที่บริเวณด้านขวาบนของคอนโซล GCP ให้เลือกเขียนคำค้นหาใหม่

- ในพื้นที่ข้อความเครื่องมือแก้ไขคําค้นหา ให้คัดลอกและวางคําค้นหา SQL ต่อไปนี้เพื่อสร้างตารางใหม่ ซึ่งเป็นคำสั่ง DDL
#standardSQL CREATE OR REPLACE TABLE `stackoverflow.questions_2018_clustered` PARTITION BY DATE(creation_date) CLUSTER BY tags AS SELECT id, title, accepted_answer_id, creation_date, answer_count , comment_count , favorite_count, view_count, tags FROM `bigquery-public-data.stackoverflow.posts_questions` WHERE creation_date BETWEEN '2018-01-01' AND '2019-01-01';
- เลือกเรียกใช้ การค้นหาจะสร้างตารางใหม่
questions_2018_clusteredในชุดข้อมูลstackoverflowในโปรเจ็กต์ของคุณ โดยมีข้อมูลที่ได้จากการเรียกใช้การค้นหาในตาราง Stack Overflow ของ BigQuerybigquery-public-data.stackoverflow.posts_questionsระบบจะแบ่งตารางใหม่ตาม creation_date และจัดกลุ่มตามคอลัมน์แท็ก
ค้นหาตารางแบบคลัสเตอร์ด้วยโพสต์ Stack Overflow ปี 2018
ตอนนี้คุณได้สร้างตารางที่จัดกลุ่ม BigQuery แล้ว ลองเรียกใช้คำค้นหาเดียวกันอีกครั้ง คราวนี้ให้เรียกใช้ในตารางที่แบ่งพาร์ติชันและจัดกลุ่มเพื่อแสดงโพสต์ Stack Overflow ที่มีคำถามและชื่อ พร้อมด้วยสถิติอื่นๆ อีก 2-3 รายการ เช่น จำนวนคำตอบ ความคิดเห็น ยอดดู และรายการโปรด ทำตามขั้นตอนต่อไปนี้ให้ครบถ้วน
- ที่บริเวณด้านขวาบนของคอนโซล GCP ให้เลือกเขียนคำค้นหาใหม่
- ในพื้นที่ข้อความตัวแก้ไขคำค้นหา ให้คัดลอกและวางคำค้นหา SQL ต่อไปนี้
SELECT id, title, accepted_answer_id, creation_date, answer_count , comment_count , favorite_count, view_count FROM `stackoverflow.questions_2018_clustered` WHERE creation_date BETWEEN '2018-01-01' AND '2018-02-01' AND tags = 'android';
- เลือกเรียกใช้โดยปิดใช้การแคช BigQuery (ดูส่วนก่อนหน้าเพื่อปิดใช้แคช BigQuery) คําค้นหาจะแสดงคําถามใน Stack Overflow ที่สร้างขึ้นในเดือนมกราคม 2018 ซึ่งติดแท็กเป็น
androidพร้อมกับคําถามและสถิติอื่นๆ อีก 2-3 รายการ - ในผลการค้นหา คุณควรเห็นเวลาที่ใช้ในการค้นหาจนเสร็จสมบูรณ์และปริมาณข้อมูลที่ประมวลผลเพื่อให้ได้ผลลัพธ์

เมื่อใช้ตารางที่แบ่งพาร์ติชันและจัดกลุ่มแล้ว การค้นหาจะสแกนข้อมูลน้อยกว่าตารางที่แบ่งพาร์ติชันหรือตารางที่ไม่ได้แบ่งพาร์ติชัน การจัดระเบียบข้อมูลด้วยการแบ่งพาร์ติชันและการจัดกลุ่มจะช่วยลดปริมาณข้อมูลที่สแกนโดยเครื่องมือสล็อต ซึ่งจะช่วยปรับปรุงประสิทธิภาพการค้นหาและเพิ่มประสิทธิภาพค่าใช้จ่าย
7. การล้างข้อมูล
คุณควรลบชุดข้อมูล Stack Overflow และลบโปรเจ็กต์ที่สร้างขึ้นสำหรับ Codelab นี้ เว้นแต่คุณวางแผนที่จะใช้ชุดข้อมูล Stack Overflow ต่อไป
ลบชุดข้อมูล BigQuery
หากต้องการลบชุดข้อมูล BigQuery ให้ทำตามขั้นตอนต่อไปนี้
- เลือกชุดข้อมูล stackoverflow จากแผงการนำทางด้านซ้ายใน BigQuery
- ในแผงรายละเอียด ให้เลือกลบชุดข้อมูล

- ในกล่องโต้ตอบลบชุดข้อมูล ให้ป้อน stackoverflow แล้วเลือกลบเพื่อยืนยันว่าต้องการลบชุดข้อมูล
ลบโปรเจ็กต์
หากต้องการลบโปรเจ็กต์ GCP ที่คุณสร้างขึ้นสำหรับโค้ดแล็บนี้ ให้ทำตามขั้นตอนต่อไปนี้
- ในเมนูการนำทางของ GCP ให้เลือก IAM และผู้ดูแลระบบ
- ในแผงการนำทาง ให้เลือกการตั้งค่า
- ในแผงรายละเอียด ให้ยืนยันว่าโปรเจ็กต์ปัจจุบันคือโปรเจ็กต์ที่คุณสร้างขึ้นสำหรับ Codelab นี้ แล้วเลือกปิด
- ในกล่องโต้ตอบปิดโปรเจ็กต์ ให้ป้อนรหัสโปรเจ็กต์ (ไม่ใช่ชื่อโปรเจ็กต์) สำหรับโปรเจ็กต์ของคุณ แล้วเลือกปิดเพื่อยืนยัน
ยินดีด้วย ตอนนี้คุณได้เรียนรู้
- วิธีใช้ UI ทางเว็บของ BigQuery เพื่อสร้างตารางใหม่จากตารางที่มีอยู่
- วิธีสร้างและค้นหาตารางที่แบ่งพาร์ติชันและจัดคลัสเตอร์
- การแบ่งพาร์ติชันและการจัดกลุ่มช่วยเพิ่มประสิทธิภาพและลดต้นทุนของคิวรีได้อย่างไร
โปรดทราบว่าคุณไม่จำเป็นต้องตั้งค่าหรือจัดการคลัสเตอร์เพื่อทำงานกับชุดข้อมูล