สร้างโมเดล Spark ML ด้วย Google Dataproc

1. บทนำ

องค์ประกอบหลักของ Apache Spark คือ Spark ML ซึ่งเป็นไลบรารีสำหรับการสร้างโมเดลแมชชีนเลิร์นนิงและไปป์ไลน์ที่สร้างต่อยอดจากเครื่องมือ Apache Spark จากเว็บไซต์ จะมีเครื่องมือต่างๆ เช่น

  • อัลกอริทึม ML: อัลกอริทึมการเรียนรู้ทั่วไป เช่น การแยกประเภท การถดถอย การจัดกลุ่ม และการกรองแบบทำงานร่วมกัน
  • คุณสมบัติ: การแยกฟีเจอร์ การแปลง การลดมิติข้อมูล และการเลือก
  • ไปป์ไลน์: เครื่องมือสำหรับการสร้าง ประเมินผล และปรับแต่งไปป์ไลน์ ML
  • ความต่อเนื่อง: การบันทึกและโหลดอัลกอริทึม โมเดล และไปป์ไลน์
  • ยูทิลิตี: พีชคณิตเชิงเส้น สถิติ การจัดการข้อมูล ฯลฯ

ใน Codelab นี้ คุณจะได้เรียนรู้วิธีการสร้างโมเดล Spark ML โดยใช้สมุดบันทึก

2. เปิดใช้ API

สำหรับ Codelab นี้ คุณต้องเปิดใช้ API ต่อไปนี้

คลิกลิงก์นี้เพื่อเปิดใช้ API เหล่านี้ในโปรเจ็กต์ของคุณ เมื่อได้รับข้อความแจ้ง ให้ยืนยันว่าจะเปิดใช้ API ในโปรเจ็กต์ที่ถูกต้อง

3. สร้างและเชื่อมต่อกับอินสแตนซ์ Vertex AI Workbench

ในส่วนนี้ คุณจะได้สร้างอินสแตนซ์ Vertex AI Workbench จากนั้นคุณจะเชื่อมต่อ โคลนที่เก็บ GitHub และเรียกใช้สมุดบันทึกได้

หากต้องการสร้างอินสแตนซ์ Vertex AI Workbench ให้ทำตามวิธีการหรือทำตามด้านล่าง

  1. ไปที่หน้าคอนโซลสมุดบันทึกที่มีการจัดการ
  2. คลิกสมุดบันทึกใหม่
  3. ระบุชื่อและเลือกภูมิภาค เช่น us-central1 (ไอโอวา) ซึ่งควรตรงกับภูมิภาคที่เลือกไว้ก่อนหน้านี้ใน Codelab แต่ไม่ได้บังคับ
  4. เลือกผู้ใช้รายเดียวเท่านั้นในส่วนสิทธิ์
  5. เปิดเมนูแบบเลื่อนลงการตั้งค่าขั้นสูง
  6. ในส่วนความปลอดภัย ให้เลือกเปิดใช้ nbconvert และเปิดใช้เทอร์มินัล
  7. คลิกสร้าง

ระบบจะจัดสรรอินสแตนซ์ภายในเวลาประมาณ 5 นาที คุณจะเห็นเครื่องหมายถูกสีเขียวข้างชื่อสมุดบันทึกเมื่ออินสแตนซ์พร้อมใช้งาน

เมื่ออินสแตนซ์พร้อมแล้ว ให้คลิกเปิด JUPYTERLAB ตรวจสอบสิทธิ์เมื่อได้รับแจ้งให้ทำและเปิดใช้สิทธิ์ทั้งหมด

4. สร้างโมเดลด้วย Spark ML จากสมุดบันทึก

หลังจากโหลดอินสแตนซ์ JupyterLab คุณจะอยู่ในแท็บ Launcher ในแท็บนี้ ในส่วนอื่นๆ ให้คลิกเทอร์มินัลเพื่อเปิดเทอร์มินัลใหม่

จากนั้นโคลนที่เก็บ Vertex AI Samples ในเทอร์มินัล

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

ในแท็บ File Browser ให้ไปที่ vertex-ai-samples/notebooks/teacher/workbench/spark เปิดสมุดบันทึก spark_ml.ipynb โดยดับเบิลคลิก เมื่อระบบแจ้งให้เลือกเคอร์เนล ให้เลือก Python (ภายใน)

ทำตามขั้นตอนต่างๆ ของสมุดบันทึกโดยเรียกใช้แต่ละเซลล์ขณะที่คุณทำงาน ทำตามวิธีการในเซลล์

5. ล้างทรัพยากร

ทำตามขั้นตอนต่อไปนี้เพื่อหลีกเลี่ยงไม่ให้เกิดการเรียกเก็บเงินที่ไม่จำเป็นในบัญชี GCP หลังจากทำ Codelab เสร็จสิ้น

  1. ลบอินสแตนซ์ Workbench จากคอนโซล ให้เลือกช่องข้างอินสแตนซ์ แล้วคลิกลบ

หากสร้างโปรเจ็กต์สำหรับ Codelab นี้โดยเฉพาะ คุณจะเลือกลบโปรเจ็กต์ได้ด้วย โดยทำดังนี้

  1. ในคอนโซล GCP ให้ไปที่หน้าโปรเจ็กต์
  2. ในรายการโปรเจ็กต์ ให้เลือกโปรเจ็กต์ที่ต้องการลบ แล้วคลิกลบ
  3. พิมพ์รหัสโปรเจ็กต์ในช่อง แล้วคลิกปิดเพื่อลบโปรเจ็กต์