BigQuery kod laboratuvarındaki yapay zeka ajanslarıyla verileri hazırlama

1. Giriş

Kodlama uzmanı olmanıza gerek kalmadan verilerinizi analize daha hızlı ve verimli bir şekilde hazırlayabilmeyi hayal edin. BigQuery Veri Hazırlama ile bu artık mümkün. Bu güçlü özellik, veri beslemeyi, dönüştürmeyi ve temizlemeyi basitleştirerek veri hazırlığını kuruluşunuzdaki tüm veri uzmanlarının kullanımına sunar.

Ürün verilerinizin sunduğu fırsatlardan yararlanmaya hazır mısınız?

Ön koşullar

  • Google Cloud Console hakkında temel düzeyde bilgi
  • SQL hakkında temel düzeyde bilgi

Neler öğreneceksiniz?

  • Moda ve güzellik sektöründen gerçekçi bir örnek kullanarak BigQuery veri hazırlama özelliğinin ham verilerinizi nasıl temizleyip uygulanabilir iş zekasına dönüştürebileceğini öğrenin.
  • Temizlenmiş verileriniz için veri hazırlığını çalıştırma ve planlama

Gerekenler

  • Google Cloud hesabı ve Google Cloud projesi
  • Chrome gibi bir web tarayıcısı

2. Temel kurulum ve şartlar

Kendine ait tempoda ortam oluşturma

  1. Google Cloud Console'da oturum açın ve yeni bir proje oluşturun veya mevcut bir projeyi yeniden kullanın. Gmail veya Google Workspace hesabınız yoksa hesap oluşturmanız gerekir.

fbef9caa1602edd0.png

a99b7ace416376c4.png

5e3ff691252acf41.png

  • Proje adı, bu projenin katılımcılarının görünen adıdır. Google API'leri tarafından kullanılmayan bir karakter dizesidir. Dilediğiniz zaman güncelleyebilirsiniz.
  • Proje kimliği, tüm Google Cloud projelerinde benzersizdir ve değiştirilemez (ayarlandıktan sonra değiştirilemez). Cloud Console, benzersiz bir dize otomatik olarak oluşturur. Bu dizenin ne olduğu genellikle önemli değildir. Çoğu kod laboratuvarında proje kimliğinize (genellikle PROJECT_ID olarak tanımlanır) referans vermeniz gerekir. Oluşturulan kimliği beğenmezseniz rastgele başka bir kimlik oluşturabilirsiniz. Alternatif olarak, kendi anahtarınızı deneyerek kullanılabilir olup olmadığını görebilirsiniz. Bu adımdan sonra değiştirilemez ve proje boyunca geçerli kalır.
  • Bazı API'lerin kullandığı üçüncü bir değer (Proje Numarası) olduğunu belirtmek isteriz. Bu değerlerin üçü hakkında daha fazla bilgiyi dokümanlar bölümünde bulabilirsiniz.
  1. Ardından, Cloud kaynaklarını/API'lerini kullanmak için Cloud Console'da faturalandırmayı etkinleştirmeniz gerekir. Bu codelab'i çalıştırmak çok pahalı değildir. Bu eğitimden sonra faturalandırılmamak için kaynakları kapatmak istiyorsanız oluşturduğunuz kaynakları veya projeyi silebilirsiniz. Yeni Google Cloud kullanıcıları 300 ABD doları değerinde ücretsiz deneme programına uygundur.

3. Başlamadan önce

API'yi etkinleştirme

Gemini'yi BigQuery'de kullanmak için Google Cloud API için Gemini'yi etkinleştirmeniz gerekir. Bu adımı genellikle serviceusage.services.enable IAM iznine sahip bir hizmet yöneticisi veya proje sahibi gerçekleştirir.

  1. Google Cloud için Gemini API'yi etkinleştirmek üzere Google Cloud Marketplace'teki Google Cloud için Gemini sayfasına gidin. Google Cloud için Gemini'ye gitme
  2. Proje seçicide bir proje seçin.
  3. Etkinleştir'i tıklayın. Sayfa güncellenir ve Etkin durumunu gösterir. BigQuery'deki Gemini, gerekli IAM izinlerine sahip tüm kullanıcılar tarafından seçili Google Cloud projesinde kullanılabilir.

Veri hazırlıklarını geliştirmek için rolleri ve izinleri ayarlama

  1. IAM ve Yönetici bölümünde IAM'ı seçin.

4477412d79f29e0b.png

  1. Kullanıcınızı seçin ve "Baş kullanıcıyı düzenle" için kalem simgesini tıklayın.

5eb558e04ad12362.png

BigQuery Veri Hazırlama'yı kullanmak için aşağıdaki rollere ve izinlere sahip olmanız gerekir:

4. BigQuery Analytics Hub'da "bq data preparation demo" listelemesini bulma ve listeye abone olma

Bu eğitimde bq data preparation demo veri kümesini kullanacağız. BigQuery Analytics Hub'da, verilerini okuyacağımız bağlı bir veri kümesidir.

Veri hazırlama işlemi hiçbir zaman kaynağa geri yazmaz. Yazılacak bir hedef tablo tanımlamanızı isteriz. Bu alıştırmada kullanacağımız tabloda,maliyetleri en aza indirmek için yalnızca 1.000 satır vardır ancak veri hazırlama işlemi BigQuery'de çalışır ve ölçeklendirilir.

Bağlı veri kümesini bulup abone olmak için aşağıdaki adımları uygulayın:

  1. Analytics Hub'a erişin: Google Cloud Console'da BigQuery'ye gidin.
  2. BigQuery gezinme menüsünde "Yönetim" bölümünde "Analytics Hub"ı seçin.

6ddfac4dd863ca7b.png

  1. Giriş için arama yapın: Analytics Hub kullanıcı arayüzünde Girişleri Ara'yı tıklayın."
  2. Arama çubuğuna bq data preparation demo yazıp Enter tuşuna basın.

7e0cb82b80174cdc.png

  1. Girişlere abone olma: Arama sonuçlarından bq data preparation demo girişini seçin.
  2. Giriş ayrıntıları sayfasında Abone ol düğmesini tıklayın.
  3. Onay iletişim kutularını inceleyin ve gerekirse projeyi/veri kümesini güncelleyin. Varsayılan değerler doğru olmalıdır.

2ef0ac1e3557f2f9.png

  1. BigQuery'de veri kümesine erişme: Başarılı bir şekilde abone olduktan sonra, girişteki veri kümeleri BigQuery projenize bağlanır.

BigQuery Studio'ya dönün.

5. Verileri keşfetme ve veri hazırlama işlemini başlatma

  1. Veri kümesini ve tabloyu bulun: Gezgin panelinde projenizi seçin ve ardından bq data preparation demo listesine eklenen veri kümesini bulun. stg_product tablosunu seçin.
  2. Veri Hazırlama'da aç: Tablo adının yanındaki üç dikey noktayı tıklayın ve Open in Data Preparation simgesini seçin.

Bu işlem, tabloyu Veri Hazırlama arayüzünde açar ve verilerinizi dönüştürmeye başlamanıza olanak tanır.

76ace3d4b5cfc2d0.png

Aşağıdaki veri önizlemesinde görebileceğiniz gibi, çözmemiz gereken bazı veri sorunları var. Bunlar arasında şunlar yer alıyor:

  • Fiyat sütunu hem tutarı hem de para birimini içerdiğinden analizi zorlaştırır.
  • Ürün sütununda ürün adı ve kategorisi (dikey çizgi sembolü | ile ayrılmış) birlikte yer alır.

f4d93aa59a56447a.png

Gemini, verilerinizi hemen analiz eder ve çeşitli dönüşümler önerir. Bu örnekte birkaç öneri görüyoruz. Sonraki adımlarda ihtiyacımız olanları uygulayacağız.

fd4d14e4fa3c31c1.png

6. Fiyat sütununu işleme

Fiyat sütunuyla ilgilenelim. Gördüğümüz gibi, hem para birimini hem de tutarı içerir. Amacımız, bunları iki ayrı sütuna (Para Birimi ve Tutar) ayırmaktır.

Gemini, Fiyat sütunu için birkaç öneri belirledi.

  1. Aşağıdakine benzer bir öneri bulun:

Açıklama: "Bu ifade, belirtilen alandaki "USD" ön ekini kaldırır"

REGEXP_REPLACE(Price,` `r'^USD\s',` `r'')
  1. Önizlemeyi seçin

c9327cfbd32247d6.png

  1. Uygula'yı seçin.

Ardından Fiyat sütununun veri türünü STRING'den NUMERIC'e dönüştürelim.

  1. Aşağıdakine benzer bir öneri bulun:

Açıklama: "Fiyat sütununu dize türünden float64 türüne dönüştürür"

SAFE_CAST(Price AS float64)
  1. Uygula'yı seçin.

Adım listenizde artık uygulanmış üç adım görebilirsiniz.

d3359af47dce0c15.png

7. Ürün sütununu işleme

Ürün sütunu, hem ürün adını hem de kategoriyi bir boru (|) ile ayrılmış şekilde içerir.

Doğal dili tekrar kullanabiliriz ancak önce Gemini'nin güçlü özelliklerinden bir diğerine göz atalım.

Ürün adını temizleme

  1. Ürün girişinin | karakteri dahil kategori bölümünü seçip silin.

5171d598a8cb3a75.png

Gemini bu kalıbı akıllıca tanır ve sütunun tamamına uygulanacak bir dönüşüm önerir.

  1. "Düzenle"yi seçin.

b36cac918b4f30e9.png

Gemini'nin önerisi tam olarak doğru: "|" karakterinden sonra gelen her şey kaldırılarak ürün adı etkili bir şekilde izole edilir.

Ancak bu sefer orijinal verilerimizin üzerine yazmak istemiyoruz.

  1. Hedef sütun açılır listesinde "Yeni sütun oluştur"u seçin.
  2. Adı ProductName olarak ayarlayın.

bda19e0e5e536ccd.png

  1. Her şeyin yolunda olduğundan emin olmak için değişiklikleri önizleyin.
  2. Dönüşümü uygulayın.

Ürün kategorisini ayıklayın

Doğal dil kullanarak Gemini'ye Ürün sütunundaki dikey çizgiden (|) sonraki kelimeyi ayıklaması talimatını vereceğiz. Ayıklanan bu değerin üzerine Ürün adlı mevcut sütunda yazılır.

  1. Yeni bir dönüşüm adımı eklemek için Add Step simgesini tıklayın.

77944047e698494c.png

  1. Açılır menüden Transformation simgesini seçin.
  2. Doğal dil istemi alanına "Ürün sütununda boru işaretinden (|) sonraki kelimeyi ayıklayın." yazın ve SQL'i oluşturmak için Return tuşuna basın.

82efc2447a3210bd.png

  1. Hedef sütununu "Ürün" olarak bırakın.
  2. Uygula'yı tıklayın.

Dönüşüm aşağıdaki sonuçları verir.

d741c66d9e0e8e00.png

8. Verileri zenginleştirmek için birleştirme

Verilerinizi genellikle diğer kaynaklardan alınan bilgilerle zenginleştirmek istersiniz. Örneğimizde, ürün verileri ile üçüncü taraf tablosundaki genişletilmiş ürün özelliklerini (stg_extended_product) birleştireceğiz. Bu tabloda marka ve lansman tarihi gibi ayrıntılar yer alır.

  1. Add Step simgesini tıklayın.
  2. Join adlı yolu seç
  3. stg_extended_product tablosuna gidin.

dca14451c3fbc7f0.png

BigQuery'deki Gemini, ürün kimliği birleştirme anahtarını bizim için otomatik olarak seçti ve anahtar adı aynı olduğundan sol ve sağ tarafları niteliklendirdi.

Not: Açıklama alanında "productid'ye göre birleştir" ifadesinin yer aldığından emin olun. Ek birleştirme anahtarları içeriyorsa açıklama alanının üzerine "productid'ye göre birleştirme" yazın ve birleştirme ifadesini aşağıdaki koşulla L yeniden oluşturmak için açıklama alanındaki oluştur düğmesini seçin.

productid

= R.

productid. 4d6dbfea28772f34.png

  1. Dilerseniz sonuçları önizlemek için Önizle'yi seçin.
  2. Apply simgesini tıklayın.

Genişletilmiş özellikleri temizleme

Birleştirme işlemi başarılı olsa da genişletilmiş özellikler verileri biraz temizlenmelidir. LaunchDate sütununda tutarsız tarih biçimleri, Brand sütununda ise eksik değerler var.

LaunchDate sütununu ele alarak başlayacağız.

f9b570d7c2d3a98d.png

Dönüşüm oluşturmadan önce Gemini'nin önerilerini kontrol edin.

  1. LaunchDate sütun adını tıklayın. Aşağıdaki resimdekine benzer bazı öneriler görürsünüz.

62b6e6027a46ba75.png

  1. Aşağıdaki SQL'yi içeren bir öneri görürseniz öneriyi Uygula ve sonraki adımları atlayın.
COALESCE(SAFE.PARSE_DATE('%Y-%m-%d',
LaunchDate),SAFE.PARSE_DATE('%Y/%m/%d', LaunchDate))
  1. Yukarıdaki SQL ile eşleşen bir öneri görmüyorsanız Add Step simgesini tıklayın.
  2. Transformation simgesini seçin.
  3. SQL alanına şunları girin:
COALESCE(SAFE.PARSE_DATE('%Y-%m-%d',
LaunchDate),SAFE.PARSE_DATE('%Y/%m/%d', LaunchDate))
  1. Target Columns öğesini LaunchDate olarak ayarlayın.
  2. Apply simgesini tıklayın.

LaunchDate sütununda artık tutarlı bir tarih biçimi kullanılıyor.

ccf34aa05754a834.png

9. Hedef tablo ekleme

Veri kümemiz artık temiz ve veri ambarzımızdaki bir boyut tablosuna yüklenmeye hazır.

  1. ADD STEP simgesini tıklayın.
  2. Destination simgesini seçin.
  3. Gerekli parametreleri doldurun: Veri kümesi: bq_data_preparation_demo Tablo: DimProduct
  4. Save simgesini tıklayın.

79fdc3666a3a21b9.png

Artık "Veriler" ve "Şema" sekmeleriyle çalışıyoruz. BigQuery Veri Hazırlama, bunlara ek olarak ardışık düzeninizdeki dönüşüm adımlarının sırasını görsel olarak gösteren bir "Grafi" görünümü sunar.

95e64d8152228f7b.png

10. Bonus A: Üretici sütununu işleme ve hata tablosu oluşturma

Ayrıca Manufacturer sütununda boş değerler tespit ettik. Bu kayıtlar için bir veri kalitesi kontrolü uygulamak ve daha ayrıntılı inceleme için bunları bir hata tablosuna taşımak istiyoruz.

Hata tablosu oluşturma

  1. stg_product data preparation başlığının yanındaki More düğmesini tıklayın.
  2. Setting bölümünün altında Error Table simgesini seçin.
  3. Enable error table kutusunu işaretleyin, ayarları aşağıdaki gibi yapılandırın:
  • Veri kümesi: bq_data_preparation_demo seçin
  • Tablo: err_dataprep yazın
  • Define duration for keeping errors bölümünde 30 days (default)'i seçin.
  1. Save simgesini tıklayın.

adb5722f05c1b205.png

Üretici sütununda doğrulama ayarlama

  1. Üretici sütununu seçin.
  2. Gemini büyük olasılıkla alakalı bir dönüşüm tespit etmiş olacaktır. Yalnızca Üretici alanının boş olmadığı satırları koruyan öneriyi bulun. Aşağıdakine benzer bir SQL içerir:
Manufacturer IS NOT NULL

2.İncelemek için bu önerideki "Düzenle" düğmesini tıklayın.

4749b551a03d8193.png

  1. "Doğrulanamayan satırlar hata tablosuna yönlendirilir" seçeneğini işaretleyin (işaretli değilse)
  2. Apply simgesini tıklayın.

"Uygulanan adımlar" düğmesini tıklayarak istediğiniz zaman uyguladığınız dönüşümleri inceleyebilir, değiştirebilir veya silebilirsiniz.

15df6caacbdd6a69.png

Gereksiz ProductID_1 sütununu temizleme

Birleştirilmiş tablomuzdaki ProductID sütununu kopyalayan ProductID_1 sütunu artık silinebilir.

  1. Schema sekmesine gidin
  2. ProductID_1 sütununun yanındaki 3 noktayı tıklayın.
  3. Drop simgesini tıklayın.

Artık veri hazırlama işini çalıştırmaya ve veri akışımızın tamamını doğrulamaya hazırız. Sonuçlardan memnun kaldıktan sonra işi otomatik olarak çalışacak şekilde planlayabiliriz.

  1. Veri hazırlama görünümünden ayrılmadan önce hazırlıklarınızı kaydedin. stg_product data preparation başlığının yanında bir Save düğmesi görürsünüz. Kaydetmek için düğmeyi tıklayın.

11. Ortamı temizleme

  • stg_product data preparation dosyasını silin.
  • bq data preparation demo veri kümesini silme

12. Tebrikler

Codelab'i tamamladığınız için tebrikler.

Ele aldığımız konular

  • Veri hazırlama işlemini ayarlama
  • Tabloları açma ve veri hazırlama bölümünde gezinme
  • Sayısal ve birim tanımlayıcı verileri içeren sütunları bölme
  • Tarih biçimlerini standartlaştırma
  • Veri hazırlama işlemlerini çalıştırma