Python과 함께 BigQuery 사용

1. 개요

BigQuery는 Google의 완전 관리형인 페타바이트 규모의 저비용 분석 데이터 웨어하우스입니다. BigQuery는 NoOps입니다. 관리할 인프라가 없고 데이터베이스 관리자도 필요 없습니다. 따라서 데이터 분석에 집중하여 의미 있는 정보를 찾고, 익숙한 SQL을 사용하고, 사용한 만큼만 지불하는 모델의 이점을 활용할 수 있습니다.

이 Codelab에서는 Python용 Google Cloud 클라이언트 라이브러리를 사용하여 Python으로 BigQuery 공개 데이터 세트를 쿼리합니다.

학습할 내용

  • Cloud Shell을 사용하는 방법
  • BigQuery API 사용 설정 방법
  • API 요청을 인증하는 방법
  • Python 클라이언트 라이브러리를 설치하는 방법
  • 셰익스피어 작품 쿼리 방법
  • GitHub 데이터 세트를 쿼리하는 방법
  • 캐싱 및 통계 표시 조정 방법

필요한 항목

  • Google Cloud 프로젝트
  • 브라우저(Chrome 또는 Firefox 등)
  • Python 사용에 관한 지식

설문조사

이 튜토리얼을 어떻게 사용하실 계획인가요?

읽기만 할 계획입니다 읽은 다음 연습 활동을 완료할 계획입니다

귀하의 Python 사용 경험이 어떤지 평가해 주세요.

초급 중급 고급

귀하의 Google Cloud 서비스 사용 경험을 평가해 주세요.

<ph type="x-smartling-placeholder"></ph> 초보자 중급 숙련도

2. 설정 및 요건

자습형 환경 설정

  1. Google Cloud Console에 로그인하여 새 프로젝트를 만들거나 기존 프로젝트를 재사용합니다. 아직 Gmail이나 Google Workspace 계정이 없는 경우 계정을 만들어야 합니다.

b35bf95b8bf3d5d8.png

a99b7ace416376c4.png

bd84a6d3004737c5.png

  • 프로젝트 이름은 이 프로젝트 참가자의 표시 이름입니다. 이는 Google API에서 사용하지 않는 문자열이며 언제든지 업데이트할 수 있습니다.
  • 프로젝트 ID는 모든 Google Cloud 프로젝트에서 고유해야 하며, 변경할 수 없습니다(설정된 후에는 변경할 수 없음). Cloud Console은 고유한 문자열을 자동으로 생성합니다. 일반적으로 신경 쓰지 않아도 됩니다. 대부분의 Codelab에서는 프로젝트 ID를 참조해야 하며(일반적으로 PROJECT_ID로 식별됨), 마음에 들지 않는 경우 임의로 다시 생성하거나 직접 지정해서 사용할 수 있는지 확인하세요. 프로젝트가 생성되면 프로젝트 ID가 '고정'됩니다.
  • 세 번째 값은 일부 API에서 사용하는 프로젝트 번호입니다. 이 세 가지 값에 대한 자세한 내용은 문서를 참조하세요.
  1. 다음으로 Cloud 리소스/API를 사용하려면 Cloud Console에서 결제를 사용 설정해야 합니다. 이 Codelab 실행에는 많은 비용이 들지 않습니다. 이 튜토리얼을 마친 후 비용이 결제되지 않도록 리소스를 종료하려면 Codelab의 끝에 있는 '삭제' 안내를 따르세요. Google Cloud 새 사용자에게는 미화 $300 상당의 무료 체험판 프로그램에 참여할 수 있는 자격이 부여됩니다.

Cloud Shell 시작

Google Cloud를 노트북에서 원격으로 실행할 수 있지만, 이 Codelab에서는 Cloud에서 실행되는 명령줄 환경인 Google Cloud Shell을 사용합니다.

Cloud Shell 활성화

  1. Cloud Console에서 Cloud Shell 활성화853e55310c205094.png를 클릭합니다.

55efc1aaa7a4d3ad.png

이전에 Cloud Shell을 시작한 적이 없는 경우 기능을 설명하는 중간 화면 (스크롤해야 볼 수 있는 부분)이 표시됩니다. 이 경우 계속을 클릭합니다 (다시 표시되지 않음). 이 일회성 화면은 다음과 같습니다.

92662c6a846a5c.png

Cloud Shell을 프로비저닝하고 연결하는 데 몇 분 정도만 걸립니다.

9f0e51b578fecce5.png

가상 머신에는 필요한 개발 도구가 모두 들어 있습니다. 영구적인 5GB 홈 디렉터리를 제공하고 Google Cloud에서 실행되므로 네트워크 성능과 인증이 크게 개선됩니다. 이 Codelab에서 대부분의 작업은 브라우저나 Chromebook만 사용하여 수행할 수 있습니다.

Cloud Shell에 연결되면 인증이 완료되었고 프로젝트가 해당 프로젝트 ID로 이미 설정된 것을 볼 수 있습니다.

  1. Cloud Shell에서 다음 명령어를 실행하여 인증되었는지 확인합니다.
gcloud auth list

명령어 결과

 Credentialed Accounts
ACTIVE  ACCOUNT
*       <my_account>@<my_domain.com>

To set the active account, run:
    $ gcloud config set account `ACCOUNT`
  1. Cloud Shell에서 다음 명령어를 실행하여 gcloud 명령어가 프로젝트를 알고 있는지 확인합니다.
gcloud config list project

명령어 결과

[core]
project = <PROJECT_ID>

또는 다음 명령어로 설정할 수 있습니다.

gcloud config set project <PROJECT_ID>

명령어 결과

Updated property [core/project].

3. API 사용 설정

BigQuery API는 모든 Google Cloud 프로젝트에서 기본적으로 사용 설정되어야 합니다. Cloud Shell에서 다음 명령어를 사용하여 이를 확인할 수 있습니다. BigQuery 목록에 있어야 합니다.

gcloud services list

다음과 같이 BigQuery가 나열됩니다.

NAME                              TITLE
bigquery.googleapis.com           BigQuery API

...

BigQuery API가 사용 설정되지 않은 경우 Cloud Shell에서 다음 명령어를 사용하여 사용 설정할 수 있습니다.

gcloud services enable bigquery.googleapis.com

4. API 요청 인증

BigQuery API에 요청하려면 서비스 계정을 사용해야 합니다. 서비스 계정은 프로젝트에 속하며 Google Cloud Python 클라이언트 라이브러리에서 BigQuery API 요청을 만드는 데 사용됩니다. 다른 사용자 계정과 마찬가지로 서비스 계정은 이메일 주소로 표현됩니다. 이 섹션에서는 Cloud SDK를 사용하여 서비스 계정을 만든 후 서비스 계정으로 인증하는 데 필요한 사용자 인증 정보를 만듭니다.

먼저 PROJECT_ID 환경 변수를 설정합니다.

export PROJECT_ID=$(gcloud config get-value core/project)

다음으로 다음을 사용하여 BigQuery API에 액세스할 새 서비스 계정을 만듭니다.

gcloud iam service-accounts create my-bigquery-sa \
  --display-name "my bigquery service account"

다음으로 Python 코드가 새 서비스 계정으로 로그인하는 데 사용할 사용자 인증 정보를 만듭니다. 이러한 사용자 인증 정보를 만들고 다음 명령어를 사용하여 ~/key.json이라는 JSON 파일로 저장합니다.

gcloud iam service-accounts keys create ~/key.json \
  --iam-account my-bigquery-sa@${PROJECT_ID}.iam.gserviceaccount.com

마지막으로 다음 단계에서 다루는 BigQuery Python 클라이언트 라이브러리에서 사용하는 GOOGLE_APPLICATION_CREDENTIALS 환경 변수를 설정하여 사용자 인증 정보를 찾습니다. 다음과 같이 앞에서 만든 사용자 인증 정보 JSON 파일의 전체 경로로 환경 변수를 설정해야 합니다.

export GOOGLE_APPLICATION_CREDENTIALS=~/key.json

BigQuery API 인증에 대해 자세히 알아보세요.

5. 액세스 제어 설정

BigQuery는 Identity and Access Management (IAM)를 사용하여 리소스에 대한 액세스를 관리합니다. BigQuery에는 이전 단계에서 만든 서비스 계정에 할당할 수 있는 사전 정의된 여러 역할 (user, dataOwner, dataViewer 등)이 있습니다. 액세스 제어에 대한 자세한 내용은 BigQuery 문서에서 확인할 수 있습니다.

공개 데이터 세트를 쿼리하려면 서비스 계정에 최소한 roles/bigquery.user 역할이 있는지 확인해야 합니다. Cloud Shell에서 다음 명령어를 실행하여 서비스 계정에 사용자 역할을 할당합니다.

gcloud projects add-iam-policy-binding ${PROJECT_ID} \
  --member "serviceAccount:my-bigquery-sa@${PROJECT_ID}.iam.gserviceaccount.com" \
  --role "roles/bigquery.user"

다음 명령어를 실행하여 서비스 계정에 사용자 역할이 있는지 확인할 수 있습니다.

gcloud projects get-iam-policy $PROJECT_ID

아래와 같이 표시됩니다.

bindings:
- members:
  - serviceAccount:my-bigquery-sa@<PROJECT_ID>.iam.gserviceaccount.com
  role: roles/bigquery.user
...

6. 클라이언트 라이브러리 설치

BigQuery Python 클라이언트 라이브러리를 설치합니다.

pip3 install --user --upgrade google-cloud-bigquery

이제 BigQuery API로 코딩할 준비가 되었습니다.

7. 셰익스피어 작품 쿼리

공개 데이터 세트는 BigQuery에 저장되고 일반 대중이 사용할 수 있는 모든 데이터 세트입니다. 이 외에도 쿼리할 수 있는 공개 데이터 세트가 많이 있습니다. 일부 데이터 세트는 Google에서 호스팅하지만 대부분은 서드 파티에서 호스팅합니다. 자세한 내용은 공개 데이터 세트 페이지를 참조하세요.

BigQuery는 공개 데이터 세트 외에도 사용자가 쿼리할 수 있는 제한된 수의 샘플 테이블을 제공합니다. 이러한 테이블은 bigquery-public-data:samples 데이터 세트에 포함되어 있습니다. samples 데이터 세트의 shakespeare 테이블에는 셰익스피어 작품의 단어 색인이 포함되어 있습니다. 각 코퍼스에서 각 단어가 나타나는 횟수를 제공합니다.

이 단계에서는 shakespeare 테이블을 쿼리합니다.

먼저 Cloud Shell에서 Translation API 샘플을 실행하는 데 사용할 간단한 Python 애플리케이션을 만듭니다.

mkdir bigquery-demo
cd bigquery-demo
touch app.py

Cloud Shell의 오른쪽 상단에서 코드 편집기를 엽니다.

b648141af44811a3.png

bigquery-demo 폴더 내의 app.py 파일로 이동하여 코드를 다음으로 바꿉니다.

from google.cloud import bigquery

client = bigquery.Client()

query = """
    SELECT corpus AS title, COUNT(word) AS unique_words
    FROM `bigquery-public-data.samples.shakespeare`
    GROUP BY title
    ORDER BY unique_words
    DESC LIMIT 10
"""
results = client.query(query)

for row in results:
    title = row['title']
    unique_words = row['unique_words']
    print(f'{title:<20} | {unique_words}')

1~2분 정도 시간을 내어 코드를 살펴보고 테이블이 어떻게 쿼리되는지 확인합니다.

Cloud Shell로 돌아가서 앱을 실행합니다.

python3 app.py

단어와 일치하는 항목 목록이 표시됩니다.

hamlet               | 5318
kinghenryv           | 5104
cymbeline            | 4875
troilusandcressida   | 4795
kinglear             | 4784
kingrichardiii       | 4713
2kinghenryvi         | 4683
coriolanus           | 4653
2kinghenryiv         | 4605
antonyandcleopatra   | 4582

8. GitHub 데이터 세트 쿼리

BigQuery에 더 익숙해지기 위해 이제 GitHub 공개 데이터 세트를 대상으로 쿼리를 실행해 보겠습니다. GitHub에서 가장 일반적인 커밋 메시지를 확인할 수 있습니다. 또한 BigQuery의 웹 콘솔을 사용하여 임시 쿼리를 미리 보고 실행합니다.

데이터가 어떻게 표시되는지 확인하려면 BigQuery 웹 UI에서 GitHub 데이터 세트를 엽니다.

github_repos 테이블 열기

미리보기 버튼을 클릭하여 데이터가 어떻게 표시되는지 확인합니다.

d3f0dc7400fbe678.png

bigquery_demo 폴더 내의 app.py 파일로 이동하여 코드를 다음으로 바꿉니다.

from google.cloud import bigquery

client = bigquery.Client()

query = """
    SELECT subject AS subject, COUNT(*) AS num_duplicates
    FROM bigquery-public-data.github_repos.commits
    GROUP BY subject
    ORDER BY num_duplicates
    DESC LIMIT 10
"""
results = client.query(query)

for row in results:
    subject = row['subject']
    num_duplicates = row['num_duplicates']
    print(f'{subject:<20} | {num_duplicates:>9,}')

1~2분 정도 시간을 내어 코드를 살펴보고 가장 일반적인 커밋 메시지를 위해 테이블이 어떻게 쿼리되는지 확인하세요.

Cloud Shell로 돌아가서 앱을 실행합니다.

python3 app.py

커밋 메시지와 해당 메시지 목록이 표시됩니다.

Update README.md     | 1,685,515
Initial commit       | 1,577,543
update               |   211,017
                     |   155,280
Create README.md     |   153,711
Add files via upload |   152,354
initial commit       |   145,224
first commit         |   110,314
Update index.html    |    91,893
Update README        |    88,862

9. 캐싱 및 통계

BigQuery는 쿼리 결과를 캐시합니다. 따라서 후속 쿼리에 소요되는 시간이 줄어듭니다. 쿼리 옵션을 사용하여 캐싱을 사용 중지할 수 있습니다. 또한 BigQuery는 생성 시간, 종료 시간, 총 처리 바이트와 같은 쿼리 통계도 추적합니다.

이 단계에서는 캐싱을 사용 중지하고 쿼리에 대한 통계도 표시합니다.

bigquery_demo 폴더 내의 app.py 파일로 이동하여 코드를 다음으로 바꿉니다.

from google.cloud import bigquery

client = bigquery.Client()

query = """
    SELECT subject AS subject, COUNT(*) AS num_duplicates
    FROM bigquery-public-data.github_repos.commits
    GROUP BY subject
    ORDER BY num_duplicates
    DESC LIMIT 10
"""
job_config = bigquery.job.QueryJobConfig(use_query_cache=False)
results = client.query(query, job_config=job_config)

for row in results:
    subject = row['subject']
    num_duplicates = row['num_duplicates']
    print(f'{subject:<20} | {num_duplicates:>9,}')

print('-'*60)
print(f'Created: {results.created}')
print(f'Ended:   {results.ended}')
print(f'Bytes:   {results.total_bytes_processed:,}')

코드에 관해 알아야 할 몇 가지 사항 첫째, QueryJobConfig를 도입하고 use_query_cache를 false로 설정하여 캐싱을 사용 중지합니다. 둘째, 작업 객체에서 쿼리에 대한 통계에 액세스했습니다.

Cloud Shell로 돌아가서 앱을 실행합니다.

python3 app.py

이전과 마찬가지로 커밋 메시지와 그 발생의 목록이 표시됩니다. 또한 마지막에는 쿼리에 대한 몇 가지 통계도 표시됩니다.

Update README.md     | 1,685,515
Initial commit       | 1,577,543
update               |   211,017
                     |   155,280
Create README.md     |   153,711
Add files via upload |   152,354
initial commit       |   145,224
first commit         |   110,314
Update index.html    |    91,893
Update README        |    88,862
------------------------------------------------------------
Created: 2020-04-03 13:30:08.801000+00:00
Ended:   2020-04-03 13:30:15.334000+00:00
Bytes:   2,868,251,894

10. BigQuery에 데이터 로드

자체 데이터를 쿼리하려면 데이터를 BigQuery에 로드해야 합니다. BigQuery는 Cloud Storage, 기타 Google 서비스, 기타 읽을 수 있는 소스를 비롯한 다양한 소스에서 데이터 로드를 지원합니다. 스트리밍 삽입을 사용하여 데이터를 스트리밍할 수도 있습니다. 자세한 내용은 BigQuery에 데이터 로드 페이지를 참조하세요.

이 단계에서는 Cloud Storage에 저장된 JSON 파일을 BigQuery 테이블에 로드합니다. JSON 파일은 gs://cloud-samples-data/bigquery/us-states/us-states.json에 있습니다.

JSON 파일의 콘텐츠가 궁금한 경우 gsutil 명령줄 도구를 사용하여 Cloud Shell에서 다운로드할 수 있습니다.

gsutil cp gs://cloud-samples-data/bigquery/us-states/us-states.json .

미국 주 목록이 포함되어 있으며 각 주는 별도의 행에 JSON 문서임을 알 수 있습니다.

head us-states.json
{"name": "Alabama", "post_abbr": "AL"}
{"name": "Alaska", "post_abbr":  "AK"}
...

이 JSON 파일을 BigQuery로 로드하려면 bigquery_demo 폴더 내의 app.py 파일로 이동하여 코드를 다음으로 바꿉니다.

from google.cloud import bigquery

client = bigquery.Client()

gcs_uri = 'gs://cloud-samples-data/bigquery/us-states/us-states.json'

dataset = client.create_dataset('us_states_dataset')
table = dataset.table('us_states_table')

job_config = bigquery.job.LoadJobConfig()
job_config.schema = [
    bigquery.SchemaField('name', 'STRING'),
    bigquery.SchemaField('post_abbr', 'STRING'),
]
job_config.source_format = bigquery.SourceFormat.NEWLINE_DELIMITED_JSON

load_job = client.load_table_from_uri(gcs_uri, table, job_config=job_config)

print('JSON file loaded to BigQuery')

2분 동안 코드가 어떻게 JSON 파일을 로드하고 데이터 세트 아래에 스키마가 있는 테이블을 만드는지 살펴보세요.

Cloud Shell로 돌아가서 앱을 실행합니다.

python3 app.py

BigQuery에 데이터 세트와 테이블이 생성됩니다.

데이터 세트가 생성되었는지 확인하려면 BigQuery 콘솔로 이동합니다. 새 데이터 세트와 테이블이 표시됩니다. 표의 미리보기 탭으로 전환하여 데이터를 확인하세요.

8c7d2621820a5ac4.png

11. 축하합니다.

Python과 함께 BigQuery를 사용하는 방법을 알아봤습니다.

정리

이 튜토리얼에서 사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 다음 안내를 따르세요.

  • Cloud 콘솔에서 리소스 관리 페이지로 이동합니다.
  • 프로젝트 목록에서 해당 프로젝트를 선택한 후 삭제를 클릭합니다.
  • 대화상자에서 프로젝트 ID를 입력한 후 종료를 클릭하여 프로젝트를 삭제합니다.

자세히 알아보기

라이선스

이 작업물은 Creative Commons Attribution 2.0 일반 라이선스에 따라 사용이 허가되었습니다.