สร้างโมเดล Spark ML ด้วย Managed Service สำหรับ Apache Spark

1. บทนำ

หนึ่งในคอมโพเนนต์หลักของ Apache Spark คือ Spark ML ซึ่งเป็นไลบรารีสำหรับสร้างโมเดลและไปป์ไลน์แมชชีนเลิร์นนิงที่สร้างขึ้นบนเครื่องมือ Apache Spark จากเว็บไซต์ คุณจะเห็นเครื่องมือต่างๆ เช่น

  • อัลกอริทึม ML: อัลกอริทึมการเรียนรู้ทั่วไป เช่น การจัดประเภท การถดถอย การจัดกลุ่ม และการกรองร่วมกัน
  • การสร้างฟีเจอร์: การแยกฟีเจอร์ การแปลง การลดมิติ และการเลือก
  • ไปป์ไลน์: เครื่องมือสำหรับสร้าง ประเมิน และปรับแต่งไปป์ไลน์ ML
  • ความคงทน: การบันทึกและการโหลดอัลกอริทึม โมเดล และไปป์ไลน์
  • ยูทิลิตี: พีชคณิตเชิงเส้น สถิติ การจัดการข้อมูล ฯลฯ

ใน Codelab นี้ คุณจะได้เรียนรู้วิธีสร้างโมเดล Spark ML โดยใช้ Notebook

2. เปิดใช้ API

คุณต้องเปิดใช้ API ต่อไปนี้สำหรับ Codelab นี้

คลิกลิงก์นี้เพื่อเปิดใช้ API เหล่านี้ในโปรเจ็กต์ เมื่อได้รับข้อความแจ้ง ให้ยืนยันว่าระบบจะเปิดใช้ API ในโปรเจ็กต์ที่ถูกต้อง

3. สร้างและเชื่อมต่อกับอินสแตนซ์ Workbench ของ Agent Engine ของ Gemini Enterprise

ในส่วนนี้ คุณจะสร้างอินสแตนซ์ Workbench ของ Agent Engine ของ Gemini Enterprise จากนั้นคุณจะเชื่อมต่อกับอินสแตนซ์ดังกล่าว โคลนที่เก็บ GitHub และเรียกใช้ Notebook ได้

หากต้องการสร้างอินสแตนซ์ Workbench ของเครื่องมือ Agent ของ Gemini Enterprise คุณสามารถทำตามวิธีการหรือทำตามขั้นตอนด้านล่าง

  1. ไปที่หน้าคอนโซลของ Notebook ที่มีการจัดการ
  2. คลิก NOTEBOOK ใหม่
  3. ระบุชื่อและเลือกภูมิภาค เช่น us-central1 (ไอโอวา) ซึ่งควรตรงกับภูมิภาคที่เลือกไว้ก่อนหน้านี้ใน Codelab แต่ไม่บังคับ
  4. ในส่วนสิทธิ์ ให้เลือกผู้ใช้คนเดียวเท่านั้น
  5. เปิดเมนูแบบเลื่อนลงการตั้งค่าขั้นสูง
  6. ในส่วนความปลอดภัย ให้เลือกเปิดใช้ nbconvert และเปิดใช้เทอร์มินัล
  7. คลิกสร้าง

ระบบควรจัดสรรอินสแตนซ์ภายในเวลาประมาณ 5 นาที คุณจะเห็นเครื่องหมายถูกสีเขียวข้างชื่อ Notebook เมื่ออินสแตนซ์พร้อมใช้งาน

เมื่ออินสแตนซ์พร้อมแล้ว ให้คลิกเปิด JUPYTERLAB ตรวจสอบสิทธิ์เมื่อได้รับแจ้งและเปิดใช้สิทธิ์ทั้งหมด

4. สร้างโมเดลด้วย Spark ML จาก Notebook

หลังจากโหลดอินสแตนซ์ JupyterLab แล้ว คุณจะอยู่ในแท็บ Launcher ในแท็บนี้ ให้คลิก Terminal ในส่วนอื่นๆ เพื่อเปิด Terminal ใหม่

ในเทอร์มินัล ให้โคลนที่เก็บ Gemini Enterprise Agent Engine Samples

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

ในแท็บโปรแกรมสำรวจไฟล์ ให้ไปที่ vertex-ai-samples/notebooks/official/workbench/spark เปิด Notebook spark_ml.ipynb โดยดับเบิลคลิกที่ไฟล์ เมื่อได้รับแจ้งให้เลือกเคอร์เนล ให้เลือก Python (ในเครื่อง)

ทำตามขั้นตอนของ Notebook โดยการเรียกใช้แต่ละเซลล์ไปเรื่อยๆ และทำตามวิธีการในเซลล์

5. ล้างข้อมูลทรัพยากร

โปรดดำเนินการดังนี้เพื่อหลีกเลี่ยงการเรียกเก็บเงินที่ไม่จำเป็นกับบัญชี GCP หลังจากทำ Codelab นี้เสร็จแล้ว

  1. ลบอินสแตนซ์ Workbench จากคอนโซล ให้เลือกช่องข้างอินสแตนซ์ แล้วคลิกลบ

หากสร้างโปรเจ็กต์สำหรับ Codelab นี้โดยเฉพาะ คุณจะลบโปรเจ็กต์ได้ด้วย (ไม่บังคับ) โดยทำดังนี้

  1. ในคอนโซล GCP ให้ไปที่หน้าโปรเจ็กต์
  2. ในรายการโปรเจ็กต์ ให้เลือกโปรเจ็กต์ที่ต้องการลบ แล้วคลิกลบ
  3. พิมพ์รหัสโปรเจ็กต์ในช่อง แล้วคลิกปิดเพื่อลบโปรเจ็กต์