Bu sayfa, Cloud Translation API ile çevrilmiştir.

Cloud Data Fusion - Toplu kullanım kullanarak CSV verilerini BigQuery'ye aktarma

1. Giriş

Son Güncelleme Tarihi: 28.02.2020

Bu codelab'de, CSV biçimlendirilmiş sağlık hizmetleri verilerini BigQuery'ye toplu olarak aktarmak için kullanılacak bir veri kullanımı kalıbı gösterilmiştir. Bu laboratuvarda Cloud Data fusion Batch Data ardışık düzenini kullanacağız. Sağlık alanında gerçekçi test verileri oluşturuldu ve sizin için Google Cloud Storage paketinde (gs://hcls_testing_data_fhir_10_patients/csv/) kullanıma sunuldu.

Bu kod laboratuvarında şunları öğreneceksiniz:

Cloud Data Fusion kullanarak CSV verilerini (toplu yükleme) GCS'den BigQuery'ye aktarma.
Sağlık verilerini toplu olarak yüklemek, dönüştürmek ve maskelemek için Cloud Data Fusion'da görsel olarak bir veri entegrasyonu ardışık düzeni derleme.

Bu codelab'i çalıştırmak için nelere ihtiyacınız var?

Bir GCP projesine erişiminiz olmalıdır.
GCP projesi için size Sahip rolü atanmalıdır.
Başlık da dahil olmak üzere CSV biçiminde sağlık hizmetleri verileri.

GCP Projeniz yoksa yeni bir GCP projesi oluşturmak için bu adımları uygulayın.

CSV biçimindeki sağlık hizmetleri verileri, gs://hcls_testing_data_fhir_10_patients/csv/ konumunda bulunan GCS paketine önceden yüklenmiştir. Her kaynak CSV dosyasının kendine özgü şema yapısı vardır. Örneğin, Patients.csv, Providers.csv'den farklı bir şemaya sahiptir. Önceden yüklenmiş şema dosyaları gs://hcls_testing_data_fhir_10_patients/csv_schemas adresinde bulunabilir.

Yeni bir veri kümesine ihtiyacınız olursa dilediğiniz zaman SyntheaTM'yi kullanarak veri kümesi oluşturabilirsiniz. Ardından, Giriş verilerini kopyala adımında paketten kopyalamak yerine dosyayı GCS'ye yükleyin.

2. GCP Proje Kurulumu

Ortamınız için kabuk değişkenlerini başlatın.

PROJECT_ID'yi bulmak için Projeleri tanımlama bölümüne bakın.

<!-- CODELAB: Initialize shell variables ->
<!-- Your current GCP Project ID ->
export PROJECT_ID=<PROJECT_ID>
<!-- A new GCS Bucket in your current Project  - INPUT ->
export BUCKET_NAME=<BUCKET_NAME>
<!-- A new BQ Dataset ID - OUTPUT ->
export DATASET_ID=<DATASET_ID>

gsutil aracını kullanarak giriş verilerini ve hata günlüklerini depolamak için GCS paketi oluşturun.

gsutil mb -l us gs://$BUCKET_NAME

Sentetik veri kümesine erişim elde edin.

Cloud Console'a giriş yapmak için kullandığınız e-posta adresinden hcls-solutions-external+subscribe@google.com adresine katılma isteğinde bulunan bir e-posta gönderin.
İşlemi nasıl onaylayacağınıza ilişkin talimatları içeren bir e-posta alacaksınız. .
Gruba katılmak için e-postayı yanıtlama seçeneğini kullanın. Düğmeyi TIKLAMAYIN.
Onay e-postasını aldıktan sonra, codelab'de bir sonraki adıma geçebilirsiniz.

Giriş verilerini kopyala.

gsutil -m cp -r gs://hcls_testing_data_fhir_10_patients/csv gs://$BUCKET_NAME

BigQuery veri kümesi oluşturun.

bq mk --location=us --dataset $PROJECT_ID:$DATASET_ID

3. Cloud Data Fusion Ortamı Kurulumu

Cloud Data Fusion API'sini etkinleştirmek ve gerekli izinleri vermek için şu adımları uygulayın:

API'leri etkinleştirin.

GCP Console API Kitaplığı'na gidin.
Proje listesinden projenizi seçin.
API Kitaplığı'nda, etkinleştirmek istediğiniz API'yi seçin. API'yi bulma konusunda yardıma ihtiyacınız olursa arama alanını ve/veya filtreleri kullanın.
API sayfasında ETKİNLEŞTİR'i tıklayın.

Cloud Data Fusion örneği oluşturun.

GCP Console'da proje kimliğinizi seçin.
Soldaki menüden Data Fusion'ı seçin, ardından sayfanın ortasındaki ÖRNEK OLUŞTUR düğmesini (1. oluşturma) veya üst menüde ÖRNEK OLUŞTUR düğmesini (ek oluşturma) tıklayın.

Örnek adını girin. Kurumsal'ı seçin.

OLUŞTUR düğmesini tıklayın.

Örnek izinlerini ayarlayın.

Örnek oluşturduktan sonra, projenizdeki örnek izinleriyle ilişkili hizmet hesabına izin vermek için aşağıdaki adımları uygulayın:

Örnek adını tıklayarak örnek ayrıntıları sayfasına gidin.

Hizmet hesabını kopyalayın.

Projenizin IAM sayfasına gidin.
IAM izinleri sayfasında hizmet hesabını yeni bir üye olarak ekleyip Cloud Data Fusion API Hizmet Aracısı rolünü vereceğiz. Ekle düğmesini tıklayın ve "hizmet hesabı"nı yapıştırın. Yeni üyeler alanına girin ve Service Management -> Cloud Data Fusion API Sunucu Aracısı rolü.
Kaydet'i tıklayın.

Bu adımlar tamamlandıktan sonra, Cloud Data Fusion örnekleri sayfasında Örneği Görüntüle bağlantısını veya bir örneğin ayrıntılar sayfasında Cloud Data Fusion'ı kullanmaya başlayabilirsiniz.

Güvenlik duvarı kuralını ayarlayın.

GCP Console'a gidin -> VPC Ağı -> default-allow-ssh kuralının mevcut olup olmadığını kontrol eden güvenlik duvarı kuralları.

Değilse tüm giriş SSH trafiğine varsayılan ağa izin veren bir güvenlik duvarı kuralı ekleyin.

Komut satırını kullanarak:

gcloud beta compute --project={PROJECT_ID} firewall-rules create default-allow-ssh --direction=INGRESS --priority=1000 --network=default --action=ALLOW --rules=tcp:22 --source-ranges=0.0.0.0/0 --enable-logging

Kullanıcı arayüzünü kullanma: Create Firewall Rule (Güvenlik Duvarı Kuralı Oluştur) seçeneğini tıklayın ve bilgileri girin:

4. Dönüşüm için şema oluşturma

Artık GCP'de Cloud Fusion ortamı olduğuna göre bir şema oluşturalım. CSV verilerini dönüştürmek için bu şemaya ihtiyacımız vardır.

Cloud Data Fusion penceresinde, İşlem sütunundaki Örneği Görüntüle bağlantısını tıklayın. Başka bir sayfaya yönlendirileceksiniz. Cloud Data Fusion örneğini açmak için sağlanan url'yi tıklayın. "Turu Başlat"ı tıklama seçiminiz veya "Hayır, teşekkürler" düğmesini seçin.
"Hamburger"i genişletin menüsünde, Ardışık düzen -> öğesini seçin. Stüdyo

Soldaki Eklenti paletinde yer alan Transform (Dönüşüm) bölümünde, Veri Ardışık Düzenleri kullanıcı arayüzünde görünecek Wrangler düğümünü çift tıklayın.

Fare imlecini Wrangler düğümünün üzerine getirin ve Properties'i (Özellikler) tıklayın. Wrangle düğmesini tıklayın ve ardından istenen şemayı oluşturmak için tüm veri alanlarını içeren bir .csv kaynak dosyası (ör. hastalar.csv) seçin.
Her bir sütun adının (ör. gövde) yanındaki aşağı oku (Sütun Dönüşümleri)'i tıklayın.
İlk içe aktarma işleminde varsayılan olarak veri dosyanızda yalnızca bir sütun olduğu varsayılır. CSV olarak ayrıştırmak için Ayrıştır → CSV'yi, ardından sınırlayıcıyı seçin ve "İlk satırı başlık olarak ayarla"yı işaretleyin. kutusunu işaretleyin. Uygula düğmesini tıklayın.
Gövde alanının yanındaki aşağı oku tıklayın ve Gövde alanını kaldırmak için Sütunu Sil'i seçin. Ayrıca, sütunları kaldırma, bazı sütunların veri türünü değiştirme (varsayılan "dize" türü), sütunları bölme, sütun adlarını ayarlama gibi diğer dönüşümleri de deneyebilirsiniz.

"Sütunlar" ve "Dönüşüm adımları" sekmeleri çıkış şemasını ve Wrangler'ın tarifini gösterir. Sağ üst köşedeki Uygula'yı tıklayın. Doğrula düğmesini tıklayın. Yeşil "Hata bulunamadı" başarı anlamına gelir.

Wrangler Özellikleri'nde, istediğiniz şemayı gelecekte İçe aktarma işlemi için gerekirse yerel depolama alanınıza aktarmak üzere İşlemler açılır listesini tıklayın.
Wrangler Recipe'yi daha sonra kullanmak için kaydedin.

parse-as-csv :body ',' true
drop body

Wrangler Özellikleri penceresini kapatmak için X düğmesini tıklayın.

5. Ardışık düzen için düğümler derleme

Bu bölümde ardışık düzen bileşenlerini oluşturacağız.

Veri Ardışık Düzenleri kullanıcı arayüzünün sol üst kısmında, ardışık düzen türü olarak Veri Ardışık Düzeni - Toplu seçeneğinin seçilmiş olduğunu göreceksiniz.

Sol panelde, ardışık düzen için bir düğüm veya düğüm seçebileceğiniz Filtre, Kaynak, Dönüşüm, Analiz, Havuz, Koşullar ve Eylemler, Hata İşleyiciler ve Uyarılar gibi farklı bölümler vardır.

Kaynak düğüm

Kaynak düğümü seçin.
Soldaki Eklenti paletinde yer alan Kaynak bölümünün altında, Veri Ardışık Düzenleri kullanıcı arayüzünde görünen Google Cloud Storage düğümünü çift tıklayın.
Fare imlecini GCS kaynak düğümünün üzerine getirin ve Properties'i (Özellikler) tıklayın.

Zorunlu alanları doldurun. Şu alanları ayarlayın:

Etiket = {herhangi bir metin}
Referans adı = {herhangi bir metin}
Proje kimliği = otomatik algıla
Yol = Mevcut projenizdeki paketin GCS URL'si. Örneğin, gs://$BUCKET_NAME/csv/
Biçim = metin
Yol Alanı = dosya adı
Yalnızca Yol Dosya Adı = true
Dosyaları Yinelemeli Olarak Okuma = true

"filename" alanını ekleyin GCS Çıkış Şeması'nı eklemek için + düğmesini tıklayın.
Ayrıntılı açıklama için Belgeler'i tıklayın. Doğrula düğmesini tıklayın. Yeşil "Hata bulunamadı" başarı anlamına gelir.
GCS Özellikleri'ni kapatmak için X düğmesini tıklayın.

Düğümü dönüştürme

Dönüştürme düğümünü seçin.
Soldaki Eklenti paletinde yer alan Dönüşüm bölümünde, Veri Ardışık Düzenleri kullanıcı arayüzünde görünen Wrangler düğümünü çift tıklayın. GCS kaynak düğümünü Wrangler dönüşüm düğümüne bağlayın.
Fare imlecini Wrangler düğümünün üzerine getirin ve Properties'i (Özellikler) tıklayın.
İşlemler açılır menüsünü tıklayın ve kayıtlı bir şemayı (örneğin: gs://hcls_testing_data_fhir_10_patients/csv_schemas/ şema (Patients).json) içe aktarmak için İçe aktar'ı seçin ve önceki bölümde bulunan kayıtlı tarifi yapıştırın.
İsterseniz Dönüşüm için şema oluşturma bölümündeki Wrangler düğümünü de yeniden kullanabilirsiniz.
Zorunlu alanları doldurun. Şu alanları ayarlayın:

Etiket = {herhangi bir metin}
Girdi alanı adı = {*}
Her giriş dosyasını (örneğin, hastalar.csv, sağlayıcılar.csv, alerjiler.csv, vb.) Kaynak düğümden ayırt etmek için Precondition = {filename != "patients.csv"}.

Kayıtlarda daha fazla dönüşüme yol açan, kullanıcı tarafından sağlanan JavaScript'i yürütmek için bir JavaScript düğümü ekleyin. Bu codelab'de, her kayıt güncellemesi için zaman damgası almak üzere JavaScript düğümünü kullanacağız. Wrangler dönüşüm düğümünü JavaScript dönüşüm düğümüne bağlayın. JavaScript Özellikler'i açın ve aşağıdaki işlevi ekleyin:

function transform(input, emitter, context) {
  input.TIMESTAMP = (new Date()).getTime()*1000;
  emitter.emit(input);
}

Mevcut değilse + işaretini tıklayarak TIMESTAMP adlı alanı Çıkış Şeması'na ekleyin. Veri türü olarak zaman damgasını seçin.

Ayrıntılı açıklama için Belgeler'i tıklayın. Tüm giriş bilgilerini doğrulamak için Doğrula düğmesini tıklayın. Yeşil "Hata bulunamadı" başarı anlamına gelir.
Transform Properties (Dönüştürme Özellikleri) penceresini kapatmak için X düğmesini tıklayın.

Veri maskeleme ve kimlik gizleme

Sütundaki aşağı oku tıklayıp gereksinimlerinize göre (ör. SSN sütunu) verileri maskele bölümünde maskeleme kuralları uygulayarak veri sütunlarını tek tek seçebilirsiniz.

Wrangler düğümünün Recipe penceresinde daha fazla Direktif ekleyebilirsiniz. Örneğin, karma yönergesini, kimlik gizleme amacıyla aşağıdaki söz dizimiyle karma oluşturma algoritmasıyla birlikte kullanarak:

hash <column> <algorithm> <encode>

<column>: name of the column
<algorithm>: Hashing algorithm (i.e. MD5, SHA-1, etc.)
<encode>: default is true (hashed digest is encoded as hex with left-padding zeros). To disable hex encoding, set <encode> to false.

Havuz düğümü

Havuz düğümünü seçin.
Soldaki Eklenti paletinde yer alan Havuz bölümünde, Veri Ardışık Düzeni kullanıcı arayüzünde gösterilecek BigQuery düğümünü çift tıklayın.
BigQuery havuz düğümünün üzerine gelin ve Özellikler'i tıklayın.

Zorunlu alanları doldurun. Şu alanları ayarlayın:

Etiket = {herhangi bir metin}
Referans adı = {herhangi bir metin}
Proje kimliği = otomatik algıla
Veri kümesi = Geçerli projede kullanılan BigQuery veri kümesi (ör. DATASET_ID)
Tablo = {table name}

Ayrıntılı açıklama için Belgeler'i tıklayın. Tüm giriş bilgilerini doğrulamak için Doğrula düğmesini tıklayın. Yeşil "Hata bulunamadı" başarı anlamına gelir.

BigQuery Özellikleri'ni kapatmak için X düğmesini tıklayın.

6. Toplu veri ardışık düzeni derleme

Bir ardışık düzendeki tüm düğümleri bağlama

Bağlantı okunu sürükleyin > çift tıklayın ve hedef düğümün sol kenarına bırakın.
Bir ardışık düzenin, aynı GCS Kaynak düğümünden giriş dosyaları alan birden fazla dalı olabilir.

Ardışık düzene bir ad verin.

Bu kadar basit. İlk Batch veri ardışık düzeninizi oluşturdunuz ve ardışık düzeni dağıtıp çalıştırabilirsiniz.

Ardışık düzen uyarılarını e-postayla gönderin (isteğe bağlı)

Ardışık Düzen Uyarısı SendEmail özelliğini kullanmak için yapılandırma, bir posta sunucusunun sanal makine örneğinden posta gönderecek şekilde ayarlanmasını gerektirir. Daha fazla bilgi için aşağıdaki referans bağlantısını inceleyin:

Örnekten e-posta gönderme | Compute Engine Belgeleri

Bu codelab'de aşağıdaki adımları uygulayarak Mailgun üzerinden bir posta geçiş hizmeti ayarladık:

Sending email with Mailgun | Compute Engine Belgeleri'ni inceleyin. Ek değişiklikleri aşağıda bulabilirsiniz.
Tüm alıcıları ekle e-posta adreslerini Mailgun'ın yetkililer listesine göndermelidir. Bu listeyi sol paneldeki Mailgun>Sending>Overview (Genel Bakış) seçeneğinde bulabilirsiniz.

Alıcılar "Kabul Ediyorum"u tıkladığında support@mailgun.net adresinden gönderilen e-posta adresine bir ileti gönderilirse e-posta adresleri, ardışık düzen uyarı e-postalarını alma yetkisi listesine kaydedilir.

"Başlamadan önce" adımlarının 3. adımı bölümü - aşağıdaki gibi bir Güvenlik Duvarı kuralı oluşturun:

"Configure Mailgun'ı Postfix ile posta geçişi olarak yapılandırma" bölümünün 3. adımı. Talimatlarda belirtildiği gibi Yalnızca Yerel yerine İnternet Sitesi veya Akıllı ana makine ile internet'i seçin.

"Configure Mailgun'ı Postfix ile posta geçişi olarak yapılandırma" bölümünün 4. adımı. mynetworks ağının sonuna 10.128.0.0 /9 eklemek için vi/etc/postfix/main.cf ifadesini düzenleyin.

Varsayılan smtp'yi (25) 587 numaralı bağlantı noktası olarak değiştirmek için vi /etc/postfix/master.cf ifadesini düzenleyin.

Data Fusion Studio'nun sağ üst köşesindeki Yapılandır'ı tıklayın. Ardışık düzen uyarısı'nı ve ardından Uyarılar penceresini açmak için + düğmesini tıklayın. SendEmail'i (E-posta Gönder) seçin.

E-posta yapılandırma formunu doldurun. Her bir uyarı türü için Koşulu Çalıştır açılır listesinden tamamlanma, başarılı veya başarısız seçeneklerinden birini belirleyin. Include Workflow Token (İş Akışı Jetonunu Dahil Et) = false ise yalnızca İleti alanındaki bilgiler gönderilir. Include Workflow Token (İş Akışı Jetonunu Dahil Et) = true (doğru) değerine ayarlanırsa Mesaj alanından ve İş Akışı Jetonu'ndan alınan ayrıntılı bilgiler gönderilir. Protokol için küçük harf kullanmanız gerekir. Herhangi bir "sahte" değeri kullanın Gönderen için şirket e-posta adresinizden farklı bir e-posta adresi.

7. Ardışık Düzeni Yapılandırma, Dağıtma, Çalıştırma/Planlama

Data Fusion Studio'nun sağ üst köşesindeki Yapılandır'ı tıklayın. Engine Config için Spark'ı seçin. Yapılandır penceresinde Kaydet'i tıklayın.

Verileri önizlemek için Önizle'yi** tıklayın. Ardından, önceki pencereye geri dönmek için **Önizle**'yi tekrar tıklayın. Ardışık düzeni önizleme modunda da **Çalıştırabilirsiniz**.

Günlükleri görüntülemek için Günlükler'i tıklayın.
Tüm değişiklikleri kaydetmek için Kaydet'i tıklayın.
Yeni ardışık düzen oluştururken kaydedilen ardışık düzen yapılandırmasını içe aktarmak için Import'u (İçe aktar) tıklayın.
Bir ardışık düzen yapılandırmasını dışa aktarmak için Dışa Aktar'ı tıklayın.
Ardışık düzeni dağıtmak için Deploy'u (Dağıt) tıklayın.
Dağıtımdan sonra Run'ı (Çalıştır) tıklayın ve ardışık düzenin çalışmasını bekleyin.

İşlemler düğmesinin altından Kopyala'yı seçerek ardışık düzeni kopyalayabilirsiniz.
İşlemler düğmesinin altında Dışa Aktar'ı seçerek Ardışık Düzen Yapılandırmasını Dışa Aktarabilirsiniz.
İsterseniz ardışık düzen tetikleyicilerini ayarlamak için Studio penceresinin sol veya sağ kenarındaki Gelen tetikleyiciler'i ya da Giden tetikleyiciler'i tıklayın.
Ardışık düzeni verileri düzenli aralıklarla çalışacak ve yükleyecek şekilde planlamak için Planla'yı tıklayın.

Özet, Çalıştırma geçmişi, kayıtlar, hata günlükleri ve uyarıların grafiklerini gösterir.

8. Doğrulama

Doğrulama ardışık düzeni başarıyla yürütüldü.

BigQuery veri kümesinde tüm tabloların bulunup bulunmadığını doğrulayın.

bq ls $PROJECT_ID:$DATASET_ID

     tableId       Type    Labels   Time Partitioning
----------------- ------- -------- -------------------
 Allergies         TABLE
 Careplans         TABLE
 Conditions        TABLE
 Encounters        TABLE
 Imaging_Studies   TABLE
 Immunizations     TABLE
 Medications       TABLE
 Observations      TABLE
 Organizations     TABLE
 Patients          TABLE
 Procedures        TABLE
 Providers         TABLE

Uyarı e-postaları alabilir (yapılandırılmışsa).

Sonuçları görüntüleme

Ardışık düzen çalıştırıldıktan sonra sonuçları görüntülemek için:

Tabloyu BigQuery kullanıcı arayüzünde sorgulayın. BIGQUERY Kullanıcı Arayüzüne GİT
Aşağıdaki sorguyu kendi proje adınız, veri kümeniz ve tablonuza güncelleyin.

9. Temizleme

Bu eğiticide kullanılan kaynaklar için Google Cloud Platform hesabınızın ücretlendirilmesini önlemek amacıyla:

Eğiticiyi bitirdikten sonra, GCP'de oluşturduğunuz kaynakları temizleyebilirsiniz. Böylece bunlar kotanızı kaplamaz ve gelecekte bunlar için faturalandırılmazsınız. Aşağıdaki bölümlerde bu kaynakların nasıl silineceği veya devre dışı bırakılacağı açıklanmaktadır.

BigQuery veri kümesini silme

Bu eğitim kapsamında oluşturduğunuz BigQuery veri kümesini silmek için bu talimatları uygulayın.

GCS Paketini Silme

Bu eğiticinin bir parçası olarak oluşturduğunuz GCS paketini silmek için bu talimatları uygulayın.

Cloud Data Fusion örneğini silme

Cloud Data Fusion örneğinizi silmek için bu talimatları uygulayın.

Projeyi silme

Faturalandırmayı ortadan kaldırmanın en kolay yolu, eğitim için oluşturduğunuz projeyi silmektir.

Projeyi silmek için:

GCP Console'da Projeler sayfasına gidin. PROJELER SAYFASINA GİDİN
Proje listesinde, silmek istediğiniz projeyi seçin ve Sil'i tıklayın.
İletişim kutusuna proje kimliğini yazın ve projeyi silmek için Kapat'ı tıklayın.

10. Tebrikler

Tebrikler, Cloud Data Fusion'ı kullanarak sağlık verilerini BigQuery'ye aktarmak için kod laboratuvarını başarıyla tamamladınız.

CSV verilerini Google Cloud Storage'dan BigQuery'ye aktardınız.

Sağlık hizmeti verilerini toplu olarak yüklemek, dönüştürmek ve maskelemek için veri entegrasyonu ardışık düzenini görsel olarak derlediniz.

Artık Google Cloud Platform'da BigQuery ile Sağlık Hizmetleri Veri Analizi yolculuğunuza başlamak için gereken temel adımları biliyorsunuz.