เกี่ยวกับ Codelab นี้
1 บทนำ
องค์ประกอบหลักของ Apache Spark คือ Spark ML ซึ่งเป็นไลบรารีสำหรับการสร้างโมเดลแมชชีนเลิร์นนิงและไปป์ไลน์ที่สร้างต่อยอดจากเครื่องมือ Apache Spark จากเว็บไซต์ จะมีเครื่องมือต่างๆ เช่น
- อัลกอริทึม ML: อัลกอริทึมการเรียนรู้ทั่วไป เช่น การแยกประเภท การถดถอย การจัดกลุ่ม และการกรองแบบทำงานร่วมกัน
- คุณสมบัติ: การแยกฟีเจอร์ การแปลง การลดมิติข้อมูล และการเลือก
- ไปป์ไลน์: เครื่องมือสำหรับการสร้าง ประเมินผล และปรับแต่งไปป์ไลน์ ML
- ความต่อเนื่อง: การบันทึกและโหลดอัลกอริทึม โมเดล และไปป์ไลน์
- ยูทิลิตี: พีชคณิตเชิงเส้น สถิติ การจัดการข้อมูล ฯลฯ
ใน Codelab นี้ คุณจะได้เรียนรู้วิธีการสร้างโมเดล Spark ML โดยใช้สมุดบันทึก
2 เปิดใช้ API
สำหรับ Codelab นี้ คุณต้องเปิดใช้ API ต่อไปนี้
คลิกลิงก์นี้เพื่อเปิดใช้ API เหล่านี้ในโปรเจ็กต์ของคุณ เมื่อได้รับข้อความแจ้ง ให้ยืนยันว่าจะเปิดใช้ API ในโปรเจ็กต์ที่ถูกต้อง
3 สร้างและเชื่อมต่อกับอินสแตนซ์ Vertex AI Workbench
ในส่วนนี้ คุณจะได้สร้างอินสแตนซ์ Vertex AI Workbench จากนั้นคุณจะเชื่อมต่อ โคลนที่เก็บ GitHub และเรียกใช้สมุดบันทึกได้
หากต้องการสร้างอินสแตนซ์ Vertex AI Workbench ให้ทำตามวิธีการหรือทำตามด้านล่าง
- ไปที่หน้าคอนโซลสมุดบันทึกที่มีการจัดการ
- คลิกสมุดบันทึกใหม่
- ระบุชื่อและเลือกภูมิภาค เช่น us-central1 (ไอโอวา) ซึ่งควรตรงกับภูมิภาคที่เลือกไว้ก่อนหน้านี้ใน Codelab แต่ไม่ได้บังคับ
- เลือกผู้ใช้รายเดียวเท่านั้นในส่วนสิทธิ์
- เปิดเมนูแบบเลื่อนลงการตั้งค่าขั้นสูง
- ในส่วนความปลอดภัย ให้เลือกเปิดใช้ nbconvert และเปิดใช้เทอร์มินัล
- คลิกสร้าง
ระบบจะจัดสรรอินสแตนซ์ภายในเวลาประมาณ 5 นาที คุณจะเห็นเครื่องหมายถูกสีเขียวข้างชื่อสมุดบันทึกเมื่ออินสแตนซ์พร้อมใช้งาน
เมื่ออินสแตนซ์พร้อมแล้ว ให้คลิกเปิด JUPYTERLAB ตรวจสอบสิทธิ์เมื่อได้รับแจ้งให้ทำและเปิดใช้สิทธิ์ทั้งหมด
4 สร้างโมเดลด้วย Spark ML จากสมุดบันทึก
หลังจากโหลดอินสแตนซ์ JupyterLab คุณจะอยู่ในแท็บ Launcher ในแท็บนี้ ในส่วนอื่นๆ ให้คลิกเทอร์มินัลเพื่อเปิดเทอร์มินัลใหม่
จากนั้นโคลนที่เก็บ Vertex AI Samples ในเทอร์มินัล
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
ในแท็บ File Browser ให้ไปที่ vertex-ai-samples/notebooks/teacher/workbench/spark เปิดสมุดบันทึก spark_ml.ipynb โดยดับเบิลคลิก เมื่อระบบแจ้งให้เลือกเคอร์เนล ให้เลือก Python (ภายใน)
ทำตามขั้นตอนต่างๆ ของสมุดบันทึกโดยเรียกใช้แต่ละเซลล์ขณะที่คุณทำงาน ทำตามวิธีการในเซลล์
5 ล้างทรัพยากร
ทำตามขั้นตอนต่อไปนี้เพื่อหลีกเลี่ยงไม่ให้เกิดการเรียกเก็บเงินที่ไม่จำเป็นในบัญชี GCP หลังจากทำ Codelab เสร็จสิ้น
- ลบอินสแตนซ์ Workbench จากคอนโซล ให้เลือกช่องข้างอินสแตนซ์ แล้วคลิกลบ
หากสร้างโปรเจ็กต์สำหรับ Codelab นี้โดยเฉพาะ คุณจะเลือกลบโปรเจ็กต์ได้ด้วย โดยทำดังนี้
- ในคอนโซล GCP ให้ไปที่หน้าโปรเจ็กต์
- ในรายการโปรเจ็กต์ ให้เลือกโปรเจ็กต์ที่ต้องการลบ แล้วคลิกลบ
- พิมพ์รหัสโปรเจ็กต์ในช่อง แล้วคลิกปิดเพื่อลบโปรเจ็กต์