Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Managed Service for Apache Spark की मदद से, Spark ML मॉडल बनाना

1. परिचय

Apache Spark के मुख्य कॉम्पोनेंट में से एक Spark ML है. यह मशीन लर्निंग मॉडल और पाइपलाइन बनाने के लिए एक लाइब्रेरी है. इसे Apache Spark इंजन के आधार पर बनाया गया है. वेबसाइट पर, इस तरह के टूल मौजूद होते हैं:

मशीन लर्निंग एल्गोरिदम: सामान्य लर्निंग एल्गोरिदम, जैसे कि क्लासिफ़िकेशन, रिग्रेशन, क्लस्टरिंग, और कोलैबोरेटिव फ़िल्टरिंग
फ़ीचर बनाना: फ़ीचर निकालना, बदलना, डाइमेंशन कम करना, और चुनना
पाइपलाइन: एमएल पाइपलाइन बनाने, उनका आकलन करने, और उन्हें बेहतर बनाने के लिए टूल
परसिस्टेंस: एल्गोरिदम, मॉडल, और पाइपलाइन सेव करना और लोड करना
उपयोगिताएं: लीनियर अलजेब्रा, आंकड़े, डेटा हैंडलिंग वगैरह.

इस कोडलैब में, नोटबुक का इस्तेमाल करके Spark ML मॉडल बनाने का तरीका बताया गया है.

2. एपीआई चालू करें

इस कोडलैब के लिए, आपको इन एपीआई को चालू करना होगा:

अपने प्रोजेक्ट में इन एपीआई को चालू करने के लिए, इस लिंक पर क्लिक करें. जब कहा जाए, तब पुष्टि करें कि एपीआई सही प्रोजेक्ट में चालू किए जाएंगे.

3. Gemini Enterprise Agent Engine Workbench इंस्टेंस बनाना और उससे कनेक्ट करना

इस सेक्शन में, आपको Gemini Enterprise के एजेंट इंजन वर्कबेंच का एक इंस्टेंस बनाना होगा. इसके बाद, आपको इससे कनेक्ट करना होगा. साथ ही, GitHub रिपॉज़िटरी को क्लोन करके नोटबुक को चलाना होगा.

Gemini Enterprise Agent Engine Workbench का इंस्टेंस बनाने के लिए, निर्देशों का पालन करें या यहां दिया गया तरीका अपनाएं.

मैनेज किए जा रहे नोटबुक कंसोल पेज पर जाएं.
नई नोटबुक पर क्लिक करें.
कोई नाम डालें और क्षेत्र चुनें. जैसे, us-central1 (आयोवा). यह उस क्षेत्र से मेल खाना चाहिए जिसे आपने कोडलैब में पहले चुना था. हालांकि, ऐसा करना ज़रूरी नहीं है.
अनुमति में जाकर, सिर्फ़ एक उपयोगकर्ता के लिए चुनें.
ऐडवांस सेटिंग ड्रॉपडाउन खोलें.
सुरक्षा में जाकर, nbconvert चालू करें और टर्मिनल चालू करें को चुनें.
बनाएं पर क्लिक करें.

इंस्टेंस को चालू होने में करीब पांच मिनट लगेंगे. जब इंस्टेंस तैयार हो जाएगा, तब आपको नोटबुक के नाम के बगल में हरे रंग का सही का निशान दिखेगा.

जब इंस्टेंस तैयार हो जाए, तो JupyterLab खोलें पर क्लिक करें. जब पुष्टि करने के लिए कहा जाए, तब पुष्टि करें और सभी अनुमतियां चालू करें.

4. नोटबुक से Spark ML की मदद से मॉडल बनाना

JupyterLab इंस्टेंस लोड होने के बाद, आपको लॉन्चर टैब दिखेगा. इस टैब में, अन्य में जाकर, टर्मिनल पर क्लिक करें. इससे एक नया टर्मिनल खुल जाएगा.

टर्मिनल में, Gemini Enterprise Agent Engine Samples रिपॉज़िटरी को क्लोन करें.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

फ़ाइल ब्राउज़र टैब में, vertex-ai-samples/notebooks/official/workbench/spark पर जाएं. spark_ml.ipynb नोटबुक को खोलने के लिए, उस पर दो बार क्लिक करें. जब आपसे कर्नल चुनने के लिए कहा जाए, तब Python (local) चुनें.

नोटबुक के हर चरण को पूरा करें. इसके लिए, हर सेल को एक-एक करके एक्ज़ीक्यूट करें. साथ ही, सेल में दिए गए निर्देशों का पालन करें.

5. संसाधन मिटाना

इस कोडलैब को पूरा करने के बाद, अपने GCP खाते पर बेवजह शुल्क लगने से बचने के लिए:

अपने Workbench इंस्टेंस को मिटाएं. कंसोल में जाकर, अपने इंस्टेंस के बगल में मौजूद बॉक्स को चुनें. इसके बाद, मिटाएं पर क्लिक करें.

अगर आपने यह प्रोजेक्ट सिर्फ़ इस कोडलैब के लिए बनाया है, तो आपके पास इसे मिटाने का विकल्प भी है:

GCP Console में, प्रोजेक्ट पेज पर जाएं.
प्रोजेक्ट की सूची में, वह प्रोजेक्ट चुनें जिसे आपको मिटाना है. इसके बाद, मिटाएं पर क्लिक करें.
बॉक्स में प्रोजेक्ट आईडी टाइप करें. इसके बाद, प्रोजेक्ट मिटाने के लिए बंद करें पर क्लिक करें.

चेतावनी: किसी प्रोजेक्ट को मिटाने पर ये असर होते हैं:

प्रोजेक्ट में मौजूद हर चीज़ मिट जाती है. अगर आपने इस ट्यूटोरियल के लिए किसी मौजूदा प्रोजेक्ट का इस्तेमाल किया है, तो उसे मिटाने पर, प्रोजेक्ट में किया गया आपका अन्य काम भी मिट जाएगा.
कस्टम प्रोजेक्ट आईडी मिट जाते हैं. ऐसा हो सकता है कि आपने यह प्रोजेक्ट बनाते समय, कोई कस्टम प्रोजेक्ट आईडी बनाया हो और आपको उसका इस्तेमाल आने वाले समय में करना हो. प्रोजेक्ट आईडी का इस्तेमाल करने वाले यूआरएल को बनाए रखने के लिए, जैसे कि appspot.com यूआरएल, पूरे प्रोजेक्ट को मिटाने के बजाय प्रोजेक्ट में मौजूद चुने गए संसाधनों को मिटाएं.