Gemini 및 Nano Banana를 사용한 시각적 객체 감지 및 편집

1. 개요

이 실습에서는 다음 작업을 살펴봅니다.

  • 1️⃣ Gemini로 이미지 내 시각적 객체 감지
  • 2️⃣ Nano Banana로 시각적 객체 추출 및 복원
  • 3️⃣ Nano Banana로 복원된 객체 편집 및 변환

다음은 달성할 수 있는 몇 가지 예입니다.

1f2cadc1fd825c64.png

학습할 내용

  • Gemini의 공간 이해를 사용하여 개방형 어휘 객체 감지를 실행하는 방법
  • 자연어 프롬프트를 사용하여 경계 상자, 캡션, 동적 라벨을 추출하는 방법
  • 구부러지거나 오래된 시각적 객체를 복원, 정리, 똑바로 만드는 방법
  • 이미지 편집을 위한 명령형 및 설명형 프롬프트 작성 방법
  • 시각적 요소를 창의적으로 색상화하고 완전히 새로운 스타일로 변환하는 방법
  • 시각적 요소를 사실적인 실사 영화 스틸로 '시네마틱'하게 만드는 방법

필요한 항목

  • 노트북 (Colab 또는 기타 Jupyter 환경)에서 Python을 실행하는 데 익숙해야 합니다.
  • 결제가 사용 설정된 Google Cloud 프로젝트 (Vertex AI) 또는 Gemini API 키 (Google AI Studio)

ℹ️ 처음부터 끝까지 실습을 실행하는 데 드는 총비용은 2달러 미만입니다 (생성된 1K 이미지 45개, 각 이미지의 토큰 1,290개).

ed255bd97afbedca.png fc7e616a26c8fa40.png c0b9ecec49c859f2.png fc7e616a26c8fa40.png 8f240cd033d2cc65.png

시작해 볼까요?

2. 시작하기 전에

Gemini API를 사용하는 방법에는 두 가지 주요 옵션이 있습니다.

  1. Google Cloud 프로젝트를 사용하는 Vertex AI를 통해
  2. Gemini API 키를 사용하여 Google AI Studio를 통해

🛠️ 옵션 1 - Vertex AI를 통한 Gemini API

요건:

  • Google Cloud 프로젝트
  • 이 프로젝트에 Vertex AI API가 사용 설정되어 있어야 합니다.

🛠️ 옵션 2 - Google AI Studio를 통한 Gemini API

요구사항:

  • Gemini API 키

Google AI Studio에서 Gemini API 키를 가져오는 방법을 자세히 알아보세요.

3. 노트북 실행

노트북을 열 때 사용할 도구를 선택합니다.

🧰 도구 A - Colab에서 노트북 열기

🧰 도구 B - Colab Enterprise 또는 Vertex AI Workbench에서 노트북 열기

💡 Colab Enterprise 또는 Vertex AI Workbench 인스턴스로 구성된 Google Cloud 프로젝트가 이미 있는 경우 이 방법을 사용하는 것이 좋습니다.

🧰 도구 C - GitHub에서 노트북을 가져와 자체 환경에서 실행

⚠️ GitHub에서 노트북을 가져오거나 저장소를 클론하여 자체 Jupyter 환경에서 실행해야 합니다.

🗺️ 노트북 목차

더 쉽게 탐색하려면 목차를 펼쳐서 사용하세요. 예:

de85f5dcc0fe059e.png

🏁 노트북 실행하기

준비가 완료되었습니다. 이제 노트북을 따라 실행할 수 있습니다. 즐거운 시간 보내세요.

4. 축하합니다.

e3299284f68f56f4.png

축하합니다. Codelab을 완료했습니다.

자세히 알아보기