Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini 및 Nano Banana를 사용한 시각적 객체 감지 및 편집

1. 개요

이 실습에서는 다음 작업을 살펴봅니다.

1️⃣ Gemini로 이미지 내에서 시각적 객체 감지
2️⃣ Nano Banana로 시각적 객체 추출 및 복원
3️⃣ Nano Banana로 복원된 객체 수정 및 변환

다음은 달성할 수 있는 몇 가지 예입니다.

학습할 내용

Gemini의 공간 이해를 사용하여 개방형 어휘 객체 감지를 수행하는 방법
자연어 프롬프트를 사용하여 경계 상자, 캡션, 동적 라벨을 추출하는 방법
구부러지거나 빈티지한 시각적 객체를 복원, 정리, 똑바로 만드는 방법
이미지 수정을 위한 명령형 및 설명형 프롬프트를 작성하는 방법
시각적 요소를 창의적으로 색상화하고 완전히 새로운 스타일로 변환하는 방법
시각적 요소를 실사 영화의 스틸 사진으로 '영화화'하는 방법

필요한 항목

노트북에서 Python 실행에 익숙함 (Colab 또는 기타 Jupyter 환경)
결제가 사용 설정된 Google Cloud 프로젝트 또는 Gemini API 키

ℹ️ 실습을 처음부터 끝까지 실행하는 데 드는 총비용은 2달러 미만입니다 (각각 1,290개의 토큰으로 구성된 1K 이미지 45개 생성).

시작해 보겠습니다.

2. 시작하기 전에

Gemini API를 사용하려면 두 가지 기본 옵션이 있습니다.

Google Cloud 프로젝트가 있는 Agent Platform (이전 명칭: Vertex AI)을 통해
Gemini API 키가 있는 Google AI Studio 를 통해

🛠️ 옵션 1 - Agent Platform을 통한 Gemini API

요건:

Google Cloud 프로젝트
이 프로젝트에 Agent Platform API를 사용 설정해야 합니다.

🛠️ 옵션 2 - Google AI Studio를 통한 Gemini API

요구사항:

Gemini API 키

Google AI Studio에서 Gemini API 키를 가져오는 방법에 대해 자세히 알아보세요.

3. 노트북 실행

노트북을 열려면 원하는 도구를 선택하세요.

🧰 도구 A - Colab에서 노트북 열기

🧰 도구 B - Colab Enterprise 또는 Workbench에서 노트북 열기

💡 Colab Enterprise 또는 Workbench 인스턴스로 구성된 Google Cloud 프로젝트가 이미 있는 경우 이 도구를 사용하는 것이 좋습니다.

🧰 도구 C - GitHub에서 노트북을 가져와 자체 환경에서 실행

⚠️ GitHub에서 노트북을 가져오거나 저장소를 클론하고 자체 Jupyter 환경에서 실행해야 합니다.

🗺️ 노트북 목차

더 쉽게 탐색하려면 목차를 펼치고 사용하세요. 예:

🏁 노트북 실행

준비가 끝났습니다. 이제 노트북을 따라 실행할 수 있습니다. 즐거운 시간 보내세요.

4. 축하합니다.

축하합니다. Codelab을 완료했습니다.

자세히 알아보기

Gemini Nano Banana로 일관성 있는 이미지 생성 Codelab을 완료합니다.
더 많은 실제 예시는 Nano Banana 레시피 노트북을 확인하세요.
Agent Platform 프롬프트 갤러리에서 추가 사용 사례를 살펴보세요.
Agent Platform 출시 노트를 통해 최신 소식을 확인하세요.

달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.