1. ভূমিকা
গুগল ক্লাউড ডেটাফ্লো
শেষ আপডেট: 2020-মে-26
Dataflow কি?
ডেটাফ্লো হল বিভিন্ন ধরনের ডেটা প্রসেসিং প্যাটার্ন চালানোর জন্য একটি পরিচালিত পরিষেবা। এই সাইটের ডকুমেন্টেশন আপনাকে দেখায় যে কীভাবে আপনার ব্যাচ এবং স্ট্রিমিং ডেটা প্রসেসিং পাইপলাইনগুলি ডেটাফ্লো ব্যবহার করে, পরিষেবা বৈশিষ্ট্যগুলি ব্যবহার করার নির্দেশাবলী সহ।
Apache Beam SDK হল একটি ওপেন সোর্স প্রোগ্রামিং মডেল যা আপনাকে ব্যাচ এবং স্ট্রিমিং উভয় পাইপলাইন বিকাশ করতে সক্ষম করে। আপনি একটি Apache Beam প্রোগ্রাম দিয়ে আপনার পাইপলাইন তৈরি করুন এবং তারপরে সেগুলিকে Dataflow পরিষেবাতে চালান। Apache Beam ডকুমেন্টেশন Apache Beam প্রোগ্রামিং মডেল, SDKs এবং অন্যান্য রানারদের জন্য গভীরভাবে ধারণাগত তথ্য এবং রেফারেন্স উপাদান সরবরাহ করে।
গতির সাথে ডেটা বিশ্লেষণ স্ট্রিমিং
ডেটাফ্লো কম ডেটা লেটেন্সি সহ দ্রুত, সরলীকৃত স্ট্রিমিং ডেটা পাইপলাইন বিকাশ সক্ষম করে।
ক্রিয়াকলাপ এবং পরিচালনা সহজতর করুন
দলগুলিকে সার্ভার ক্লাস্টারগুলি পরিচালনার পরিবর্তে প্রোগ্রামিং-এ ফোকাস করার অনুমতি দিন কারণ ডেটাফ্লো-এর সার্ভারহীন পদ্ধতি ডেটা ইঞ্জিনিয়ারিং কাজের চাপ থেকে অপারেশনাল ওভারহেড সরিয়ে দেয়৷
মালিকানার মোট খরচ কমান
রিসোর্স অটোস্কেলিং খরচ-অপ্টিমাইজ করা ব্যাচ প্রসেসিং ক্ষমতার সাথে যুক্ত মানে ডেটাফ্লো অতিরিক্ত খরচ ছাড়াই আপনার মৌসুমী এবং স্পাইকি কাজের চাপ পরিচালনা করার জন্য কার্যত সীমাহীন ক্ষমতা প্রদান করে।
মূল বৈশিষ্ট্য
স্বয়ংক্রিয় রিসোর্স ম্যানেজমেন্ট এবং ডাইনামিক ওয়ার্ক রিব্যালেন্সিং
ডেটাফ্লো স্বয়ংক্রিয়ভাবে প্রসেসিং রিসোর্সগুলির প্রভিশনিং এবং ম্যানেজমেন্টকে লেটেন্সি কমাতে এবং সর্বোচ্চ ব্যবহার করতে সাহায্য করে যাতে আপনাকে ইনস্ট্যান্স স্পিন আপ করতে বা হাত দিয়ে সংরক্ষণ করতে না হয়। ওয়ার্ক পার্টিশনিংও স্বয়ংক্রিয় এবং গতিশীলভাবে পিছিয়ে থাকা কাজের ভারসাম্য বজায় রাখার জন্য অপ্টিমাইজ করা হয়েছে। "হট কী" তাড়া করার বা আপনার ইনপুট ডেটা প্রিপ্রসেস করার দরকার নেই।
অনুভূমিক অটোস্কেলিং
সর্বোত্তম থ্রুপুট ফলাফলের জন্য কর্মী সংস্থানগুলির অনুভূমিক অটোস্কেলিংয়ের ফলে সামগ্রিক মূল্য-থেকে-পারফরম্যান্স আরও ভাল হয়।
ব্যাচ প্রক্রিয়াকরণের জন্য নমনীয় সম্পদ সময় নির্ধারণের মূল্য
কাজের সময় নির্ধারণের সময় নমনীয়তার সাথে প্রক্রিয়াকরণের জন্য, যেমন রাতারাতি চাকরি, নমনীয় রিসোর্স শিডিউলিং (ফ্লেক্সআরএস) ব্যাচ প্রক্রিয়াকরণের জন্য কম দামের প্রস্তাব দেয়। এই নমনীয় কাজগুলি একটি গ্যারান্টি সহ একটি সারিতে স্থাপন করা হয় যে সেগুলি ছয় ঘন্টার উইন্ডোর মধ্যে কার্যকর করার জন্য পুনরুদ্ধার করা হবে।
এর অংশ হিসেবে আপনি কি চালাবেন
এই কোডল্যাবে, আপনি Dataflow SQL UI এর মাধ্যমে একটি SQL স্টেটমেন্ট জমা দিয়ে Dataflow SQL ব্যবহার শুরু করতে যাচ্ছেন। তারপরে আপনি ডেটাফ্লো মনিটরিং UI ব্যবহার করে চলমান পাইপলাইনটি অন্বেষণ করবেন।
আপনি কি শিখবেন
- ডেটাফ্লো এসকিউএল ইউআই-তে ডেটাফ্লো কাজ হিসাবে কীভাবে এসকিউএল স্টেটমেন্ট জমা দিতে হয়।
- ডেটাফ্লো পাইপলাইনে কীভাবে নেভিগেট করবেন।
- এসকিউএল স্টেটমেন্ট দ্বারা তৈরি ডেটাফ্লো গ্রাফটি অন্বেষণ করুন।
- গ্রাফ দ্বারা প্রদত্ত পর্যবেক্ষণ তথ্য অন্বেষণ করুন.
আপনি কি প্রয়োজন হবে
- বিলিং সক্ষম সহ একটি Google ক্লাউড প্ল্যাটফর্ম প্রকল্প৷
- Google ক্লাউড ডেটাফ্লো এবং Google ক্লাউড পাবসাব সক্ষম।
2. সেট আপ করা হচ্ছে
নিশ্চিত করুন যে আপনি Dataflow API এবং Cloud Pub/Sub API সক্ষম করেছেন। আপনি API এর এবং পরিষেবা পৃষ্ঠায় চেক করে এটি যাচাই করতে পারেন।
3. Dataflow SQL UI অ্যাক্সেস করা
Dataflow SQL UI হল Dataflow SQL কাজ তৈরি করার জন্য একটি BigQuery ওয়েব UI সেটিং। আপনি BigQuery ওয়েব UI থেকে Dataflow SQL UI অ্যাক্সেস করতে পারেন।
- BigQuery ওয়েব UI-এ যান।
- ক্লাউড ডেটাফ্লো ইঞ্জিনে স্যুইচ করুন।
- আরও ড্রপ-ডাউন মেনুতে ক্লিক করুন এবং ক্যোয়ারী সেটিংস নির্বাচন করুন।
- ক্যোয়ারী সেটিংস মেনুতে, ডেটাফ্লো ইঞ্জিন নির্বাচন করুন।
- ডেটাফ্লো এবং ডেটা ক্যাটালগ এপিআই সক্ষম না থাকলে প্রদর্শিত প্রম্পটে, API সক্ষম করুন ক্লিক করুন।
- Save এ ক্লিক করুন।
এছাড়াও আপনি Dataflow মনিটরিং ইন্টারফেস থেকে Dataflow SQL UI অ্যাক্সেস করতে পারেন।
- ডেটাফ্লো মনিটরিং ইন্টারফেসে যান।
- এসকিউএল থেকে কাজ তৈরি করুন ক্লিক করুন।
4. একটি SQL কোয়েরি সহ একটি ডেটাফ্লো কাজ চালানো
ডেটাফ্লো এসকিউএল কোয়েরি লেখা
Dataflow SQL ক্যোয়ারী Dataflow SQL ক্যোয়ারী সিনট্যাক্স ব্যবহার করে। Dataflow SQL ক্যোয়ারী সিনট্যাক্স BigQuery স্ট্যান্ডার্ড SQL এর অনুরূপ। আপনি ডাটাফ্লো এসকিউএল স্ট্রিমিং এক্সটেনশনগুলি ব্যবহার করতে পারেন পাব/সাবের মতো ডেটাফ্লো উত্সগুলি ক্রমাগত আপডেট করা থেকে ডেটা একত্রিত করতে। উদাহরণস্বরূপ, নিম্নলিখিত ক্যোয়ারীটি প্রতি মিনিটে ট্যাক্সি রাইডের একটি পাব/সাব স্ট্রীমের যাত্রীদের গণনা করে:
SELECT
TUMBLE_START('INTERVAL 1 MINUTE') as period_start,
SUM(passenger_count) AS pickup_count
FROM pubsub.topic.`pubsub-public-data`.`taxirides-realtime`
WHERE
ride_status = "pickup"
GROUP BY
TUMBLE(event_timestamp, 'INTERVAL 1 MINUTE')
Dataflow SQL কোয়েরি চালানো হচ্ছে
যখন আপনি একটি Dataflow SQL ক্যোয়ারী চালান, Dataflow ক্যোয়ারীটিকে Apache Beam পাইপলাইনে পরিণত করে এবং পাইপলাইনটি চালায়।
আপনি ক্লাউড কনসোল বা gcloud কমান্ড-লাইন টুল ব্যবহার করে একটি Dataflow SQL ক্যোয়ারী চালাতে পারেন।
একটি Dataflow SQL কোয়েরি চালানোর জন্য, Dataflow SQL UI ব্যবহার করুন।
- Dataflow SQL UI এ যান।
- ক্যোয়ারী এডিটরে উপরের ডেটাফ্লো এসকিউএল কোয়েরিটি লিখুন।
- কাজের বিকল্পগুলির একটি প্যানেল খুলতে ক্লাউড ডেটাফ্লো কাজ তৈরি করুন ক্লিক করুন।
- (ঐচ্ছিক) ঐচ্ছিক প্যারামিটার দেখান ক্লিক করুন এবং তালিকাটি ব্রাউজ করুন।
- প্যানেলের গন্তব্য বিভাগে, আউটপুট প্রকার হিসাবে BigQuery নির্বাচন করুন।
- একটি ডেটাসেট আইডি নির্বাচন করুন এবং একটি টেবিল নাম তৈরি করুন "যাত্রীদের_প্রতি_মিনিট"
- তৈরি করুন ক্লিক করুন।
তথ্য অনুসন্ধান এবং Dataflow SQL ক্যোয়ারী ফলাফল লেখা সম্পর্কে আরও তথ্যের জন্য, Dataflow SQL ব্যবহার করুন দেখুন।
5. ডেটাফ্লো মনিটরিং UI-তে কাজ অন্বেষণ করা
আপনি যখন ডেটাফ্লো পরিচালিত পরিষেবা ব্যবহার করে আপনার পাইপলাইনটি চালান, তখন আপনি ডেটাফ্লো-এর ওয়েব-ভিত্তিক পর্যবেক্ষণ ব্যবহারকারী ইন্টারফেস ব্যবহার করে সেই কাজটি এবং অন্য যেকোনও দেখতে পারেন। মনিটরিং ইন্টারফেস আপনাকে আপনার ডেটাফ্লো কাজগুলি দেখতে এবং ইন্টারঅ্যাক্ট করতে দেয়।
আপনি Google ক্লাউড কনসোল ব্যবহার করে ডেটাফ্লো মনিটরিং ইন্টারফেস অ্যাক্সেস করতে পারেন। মনিটরিং ইন্টারফেস আপনাকে দেখাতে পারে:
- বর্তমানে চলমান সমস্ত ডেটাফ্লো কাজের তালিকা এবং পূর্বে গত 30 দিনের মধ্যে চালানো চাকরিগুলির একটি তালিকা৷
- প্রতিটি পাইপলাইনের একটি গ্রাফিক্যাল উপস্থাপনা।
- আপনার কাজের স্থিতি, সম্পাদন এবং SDK সংস্করণ সম্পর্কে বিশদ বিবরণ।
- কম্পিউট ইঞ্জিন এবং ক্লাউড স্টোরেজের মতো আপনার পাইপলাইন চালানো Google ক্লাউড পরিষেবাগুলি সম্পর্কে তথ্যের লিঙ্ক৷
- চাকরির সময় যে কোনো ত্রুটি বা সতর্কতা।
আপনি Dataflow মনিটরিং ইন্টারফেসের মধ্যে কাজের নিরীক্ষণ চার্ট দেখতে পারেন। এই চার্টগুলি একটি পাইপলাইন কাজের সময়কাল ধরে মেট্রিক্স প্রদর্শন করে এবং নিম্নলিখিত তথ্য অন্তর্ভুক্ত করে:
- কোন ধাপে পাইপলাইন ল্যাগ হতে পারে তা শনাক্ত করতে সাহায্য করার জন্য ধাপ-স্তরের দৃশ্যমানতা।
- পরিসংখ্যানগত তথ্য যা অস্বাভাবিক আচরণ করতে পারে।
- I/O মেট্রিক্স যা আপনার উৎস এবং সিঙ্কে বাধা শনাক্ত করতে সাহায্য করতে পারে।
ডেটাফ্লো মনিটরিং ইন্টারফেস অ্যাক্সেস করা
ডেটাফ্লো মনিটরিং ইন্টারফেস অ্যাক্সেস করতে, এই পদক্ষেপগুলি অনুসরণ করুন:
- ক্লাউড কনসোলে যান:
- আপনার Google ক্লাউড প্রকল্প নির্বাচন করুন.
- উপরের বাম কোণে মেনুতে ক্লিক করুন।
- বিগ ডেটা বিভাগে নেভিগেট করুন এবং ডেটাফ্লোতে ক্লিক করুন।
ডেটাফ্লো কাজের একটি তালিকা তাদের স্থিতি সহ প্রদর্শিত হয়।
ক্লাউড কনসোলে চলমান, ব্যর্থ এবং সফল অবস্থায় কাজ সহ ডেটাফ্লো কাজের একটি তালিকা।
একটি চাকরির নিম্নলিখিত স্থিতি থাকতে পারে:
- — : পর্যবেক্ষণ UI এখনও ডেটাফ্লো পরিষেবা থেকে একটি স্থিতি পায়নি৷
- চলমান : কাজটি বর্তমানে চলছে।
- শুরু হয়নি : কাজ তৈরি করা হয়েছে, কিন্তু সিস্টেম চালু করার আগে প্রস্তুত করতে কিছু সময় প্রয়োজন।
- সারিবদ্ধ : একটি ফ্লেক্সআরএস কাজ সারিবদ্ধ।
- বাতিল হচ্ছে ...: চাকরি বাতিল হচ্ছে ।
- বাতিল : ব্যবহারকারীর দ্বারা বাতিল করা চাকরি।
- ড্রেনিং ...: কাজটি নিষ্কাশন করা হচ্ছে ।
- নিষ্কাশন : ব্যবহারকারী কাজ নিষ্কাশন.
- আপডেট হচ্ছে ...: চাকরি আপডেট করা হচ্ছে ।
- আপডেট করা হয়েছে : ব্যবহারকারী চাকরি আপডেট করেছেন।
- সফল : কাজটি সফলভাবে শেষ হয়েছে।
- ব্যর্থ : কাজ সম্পূর্ণ করতে ব্যর্থ হয়েছে.
কাজের শিরোনামের অংশ হিসাবে "dfsql" সহ চাকরিটি সন্ধান করুন এবং এর নামের উপর ক্লিক করুন।
কাজের বিবরণ পৃষ্ঠা, যা নিম্নলিখিতগুলি ধারণ করে:
- কাজের গ্রাফ: আপনার পাইপলাইনের ভিজ্যুয়াল উপস্থাপনা
- কাজের মেট্রিক্স: আপনার চাকরির বাস্তবায়ন সম্পর্কে মেট্রিক্স
- কাজের তথ্য প্যানেল: আপনার পাইপলাইন সম্পর্কে বর্ণনামূলক তথ্য
- কাজের লগ: কাজের স্তরে ডেটাফ্লো পরিষেবা দ্বারা তৈরি লগগুলি
- কর্মী লগ: কর্মী স্তরে ডেটাফ্লো পরিষেবা দ্বারা তৈরি লগগুলি৷
- কাজের ত্রুটি রিপোর্টিং: চার্ট দেখায় যেখানে নির্বাচিত টাইমলাইনে ত্রুটি ঘটেছে এবং সমস্ত লগ করা ত্রুটির গণনা
- সময় নির্বাচক: টুল যা আপনাকে আপনার মেট্রিক্সের সময়কাল সামঞ্জস্য করতে দেয়
কাজের বিবরণ পৃষ্ঠার মধ্যে, আপনি চাকরির গ্রাফ এবং চাকরির মেট্রিক্স ট্যাবের সাহায্যে আপনার চাকরির দৃশ্য পরিবর্তন করতে পারেন।
- জব মেট্রিক্স ট্যাবে ক্লিক করুন এবং চার্টগুলি অন্বেষণ করুন৷
6. আপনার Dataflow SQL কাজ বন্ধ করা
Dataflow SQL কাজ বন্ধ করতে, Cancel কমান্ডটি ব্যবহার করুন। ড্রেনের সাথে ডেটাফ্লো এসকিউএল কাজ বন্ধ করা সমর্থিত নয়।