สร้างโมเดล Spark ML ด้วย Google Dataproc

สร้างโมเดล Spark ML ด้วย Google Dataproc

เกี่ยวกับ Codelab นี้

subjectอัปเดตล่าสุดเมื่อ ต.ค. 12, 2022
account_circleเขียนโดย Brad Miro

1 บทนำ

องค์ประกอบหลักของ Apache Spark คือ Spark ML ซึ่งเป็นไลบรารีสำหรับการสร้างโมเดลแมชชีนเลิร์นนิงและไปป์ไลน์ที่สร้างต่อยอดจากเครื่องมือ Apache Spark จากเว็บไซต์ จะมีเครื่องมือต่างๆ เช่น

  • อัลกอริทึม ML: อัลกอริทึมการเรียนรู้ทั่วไป เช่น การแยกประเภท การถดถอย การจัดกลุ่ม และการกรองแบบทำงานร่วมกัน
  • คุณสมบัติ: การแยกฟีเจอร์ การแปลง การลดมิติข้อมูล และการเลือก
  • ไปป์ไลน์: เครื่องมือสำหรับการสร้าง ประเมินผล และปรับแต่งไปป์ไลน์ ML
  • ความต่อเนื่อง: การบันทึกและโหลดอัลกอริทึม โมเดล และไปป์ไลน์
  • ยูทิลิตี: พีชคณิตเชิงเส้น สถิติ การจัดการข้อมูล ฯลฯ

ใน Codelab นี้ คุณจะได้เรียนรู้วิธีการสร้างโมเดล Spark ML โดยใช้สมุดบันทึก

2 เปิดใช้ API

สำหรับ Codelab นี้ คุณต้องเปิดใช้ API ต่อไปนี้

คลิกลิงก์นี้เพื่อเปิดใช้ API เหล่านี้ในโปรเจ็กต์ของคุณ เมื่อได้รับข้อความแจ้ง ให้ยืนยันว่าจะเปิดใช้ API ในโปรเจ็กต์ที่ถูกต้อง

3 สร้างและเชื่อมต่อกับอินสแตนซ์ Vertex AI Workbench

ในส่วนนี้ คุณจะได้สร้างอินสแตนซ์ Vertex AI Workbench จากนั้นคุณจะเชื่อมต่อ โคลนที่เก็บ GitHub และเรียกใช้สมุดบันทึกได้

หากต้องการสร้างอินสแตนซ์ Vertex AI Workbench ให้ทำตามวิธีการหรือทำตามด้านล่าง

  1. ไปที่หน้าคอนโซลสมุดบันทึกที่มีการจัดการ
  2. คลิกสมุดบันทึกใหม่
  3. ระบุชื่อและเลือกภูมิภาค เช่น us-central1 (ไอโอวา) ซึ่งควรตรงกับภูมิภาคที่เลือกไว้ก่อนหน้านี้ใน Codelab แต่ไม่ได้บังคับ
  4. เลือกผู้ใช้รายเดียวเท่านั้นในส่วนสิทธิ์
  5. เปิดเมนูแบบเลื่อนลงการตั้งค่าขั้นสูง
  6. ในส่วนความปลอดภัย ให้เลือกเปิดใช้ nbconvert และเปิดใช้เทอร์มินัล
  7. คลิกสร้าง

ระบบจะจัดสรรอินสแตนซ์ภายในเวลาประมาณ 5 นาที คุณจะเห็นเครื่องหมายถูกสีเขียวข้างชื่อสมุดบันทึกเมื่ออินสแตนซ์พร้อมใช้งาน

เมื่ออินสแตนซ์พร้อมแล้ว ให้คลิกเปิด JUPYTERLAB ตรวจสอบสิทธิ์เมื่อได้รับแจ้งให้ทำและเปิดใช้สิทธิ์ทั้งหมด

4 สร้างโมเดลด้วย Spark ML จากสมุดบันทึก

หลังจากโหลดอินสแตนซ์ JupyterLab คุณจะอยู่ในแท็บ Launcher ในแท็บนี้ ในส่วนอื่นๆ ให้คลิกเทอร์มินัลเพื่อเปิดเทอร์มินัลใหม่

จากนั้นโคลนที่เก็บ Vertex AI Samples ในเทอร์มินัล

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

ในแท็บ File Browser ให้ไปที่ vertex-ai-samples/notebooks/teacher/workbench/spark เปิดสมุดบันทึก spark_ml.ipynb โดยดับเบิลคลิก เมื่อระบบแจ้งให้เลือกเคอร์เนล ให้เลือก Python (ภายใน)

ทำตามขั้นตอนต่างๆ ของสมุดบันทึกโดยเรียกใช้แต่ละเซลล์ขณะที่คุณทำงาน ทำตามวิธีการในเซลล์

5 ล้างทรัพยากร

ทำตามขั้นตอนต่อไปนี้เพื่อหลีกเลี่ยงไม่ให้เกิดการเรียกเก็บเงินที่ไม่จำเป็นในบัญชี GCP หลังจากทำ Codelab เสร็จสิ้น

  1. ลบอินสแตนซ์ Workbench จากคอนโซล ให้เลือกช่องข้างอินสแตนซ์ แล้วคลิกลบ

หากสร้างโปรเจ็กต์สำหรับ Codelab นี้โดยเฉพาะ คุณจะเลือกลบโปรเจ็กต์ได้ด้วย โดยทำดังนี้

  1. ในคอนโซล GCP ให้ไปที่หน้าโปรเจ็กต์
  2. ในรายการโปรเจ็กต์ ให้เลือกโปรเจ็กต์ที่ต้องการลบ แล้วคลิกลบ
  3. พิมพ์รหัสโปรเจ็กต์ในช่อง แล้วคลิกปิดเพื่อลบโปรเจ็กต์