1. บทนำ
หนึ่งในคอมโพเนนต์หลักของ Apache Spark คือ Spark ML ซึ่งเป็นไลบรารีสำหรับสร้างโมเดลและไปป์ไลน์แมชชีนเลิร์นนิงที่สร้างขึ้นบนเครื่องมือ Apache Spark จากเว็บไซต์ คุณจะเห็นเครื่องมือต่างๆ เช่น
- อัลกอริทึม ML: อัลกอริทึมการเรียนรู้ทั่วไป เช่น การจัดประเภท การถดถอย การจัดกลุ่ม และการกรองร่วมกัน
- การสร้างฟีเจอร์: การแยกฟีเจอร์ การเปลี่ยนรูปแบบ การลดมิติ และการเลือก
- ไปป์ไลน์: เครื่องมือสำหรับสร้าง ประเมิน และปรับแต่งไปป์ไลน์ ML
- ความคงทน: การบันทึกและการโหลดอัลกอริทึม โมเดล และไปป์ไลน์
- ยูทิลิตี: พีชคณิตเชิงเส้น สถิติ การจัดการข้อมูล ฯลฯ
ในโค้ดแล็บนี้ คุณจะได้เรียนรู้วิธีสร้างโมเดล Spark ML โดยใช้ Notebook
2. เปิดใช้ API
คุณต้องเปิดใช้ API ต่อไปนี้สำหรับ Codelab นี้
คลิกลิงก์นี้เพื่อเปิดใช้ API เหล่านี้ในโปรเจ็กต์ เมื่อได้รับข้อความแจ้ง ให้ยืนยันว่าระบบจะเปิดใช้ API ในโปรเจ็กต์ที่ถูกต้อง
3. สร้างและเชื่อมต่อกับอินสแตนซ์ Vertex AI Workbench
ในส่วนนี้ คุณจะได้สร้างอินสแตนซ์ Vertex AI Workbench จากนั้นคุณจะเชื่อมต่อกับอินสแตนซ์ โคลนที่เก็บ Github และเรียกใช้ Notebook
หากต้องการสร้างอินสแตนซ์ Vertex AI Workbench คุณสามารถทำตามวิธีการหรือทำตามขั้นตอนด้านล่าง
- ไปที่หน้าคอนโซลของ Notebook ที่มีการจัดการ
- คลิก NOTEBOOK ใหม่
- ระบุชื่อและเลือกภูมิภาค เช่น us-central1 (ไอโอวา) ซึ่งควรตรงกับภูมิภาคที่เลือกไว้ก่อนหน้านี้ในโค้ดแล็บ แม้ว่าจะไม่บังคับก็ตาม
- ในส่วนสิทธิ์ ให้เลือกผู้ใช้คนเดียวเท่านั้น
- เปิดเมนูแบบเลื่อนลงการตั้งค่าขั้นสูง
- ในส่วนความปลอดภัย ให้เลือกเปิดใช้ nbconvert และเปิดใช้เทอร์มินัล
- คลิกสร้าง
ระบบควรจัดสรรอินสแตนซ์ภายในประมาณ 5 นาที คุณจะเห็นเครื่องหมายถูกสีเขียวข้างชื่อ Notebook เมื่ออินสแตนซ์พร้อมใช้งาน
เมื่ออินสแตนซ์พร้อมแล้ว ให้คลิกเปิด JUPYTERLAB ตรวจสอบสิทธิ์เมื่อได้รับแจ้งและเปิดใช้สิทธิ์ทั้งหมด
4. สร้างโมเดลด้วย Spark ML จาก Notebook
หลังจากอินสแตนซ์ JupyterLab โหลดแล้ว คุณจะอยู่ในแท็บ Launcher ในแท็บนี้ ภายใต้อื่นๆ ให้คลิกเทอร์มินัลเพื่อเปิดเทอร์มินัลใหม่
ในเทอร์มินัล ให้โคลนที่เก็บ Vertex AI Samples
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
ในแท็บโปรแกรมสำรวจไฟล์ ให้ไปที่ vertex-ai-samples/notebooks/official/workbench/spark เปิด Notebook spark_ml.ipynb โดยดับเบิลคลิกที่ไฟล์ เมื่อได้รับแจ้งให้เลือกเคอร์เนล ให้เลือก Python (local)
ทำตามขั้นตอนของ Notebook โดยการเรียกใช้แต่ละเซลล์ไปเรื่อยๆ และทำตามวิธีการในเซลล์
5. ล้างข้อมูลทรัพยากร
โปรดดำเนินการดังนี้เพื่อหลีกเลี่ยงการเรียกเก็บเงินที่ไม่จำเป็นกับบัญชี GCP หลังจากทำ Codelab นี้เสร็จแล้ว
- ลบอินสแตนซ์ Workbench จากคอนโซล ให้เลือกช่องข้างอินสแตนซ์ แล้วคลิกลบ
หากสร้างโปรเจ็กต์เพื่อใช้กับ Codelab นี้โดยเฉพาะ คุณจะลบโปรเจ็กต์ได้ด้วย (ไม่บังคับ) โดยทำดังนี้
- ในคอนโซล GCP ให้ไปที่หน้าโปรเจ็กต์
- ในรายการโปรเจ็กต์ ให้เลือกโปรเจ็กต์ที่ต้องการลบ แล้วคลิกลบ
- พิมพ์รหัสโปรเจ็กต์ในช่อง แล้วคลิกปิดเพื่อลบโปรเจ็กต์