1. 개요
이 Codelab에서는 Neo4j, Vertex AI, Gemini를 조합하여 지능형 영화 추천 챗봇을 빌드합니다. 챗봇은 영화, 배우, 감독, 제작자, 장르 등을 나타내는 기반으로 Neo4j 지식 그래프를 사용합니다. 검색 환경을 개선하기 위해 Vertex AI의 text-embedding-004
모델을 사용하여 영화 줄거리 개요에서 벡터 임베딩을 생성합니다.
마지막으로 Gemini를 통합하여 사용자가 '인터스텔라가 좋았는데 뭘 봐야 하나요?'와 같은 자연어 질문을 하고 의미적 유사성과 그래프 기반 컨텍스트를 기반으로 맞춤 영화 추천을 받을 수 있는 대화형 인터페이스를 구현합니다.
이 Codelab에서는 다음과 같이 단계별로 접근합니다.
- 영화 관련 데이터로 Neo4j 지식 그래프 빌드
- Vertex AI의 텍스트 임베딩을 사용하여 영화 개요/줄거리에 텍스트 임베딩을 생성하여 영화 데이터를 보강합니다.
- Gemini를 기반으로 Neo4j에서 시맨틱 검색 및 검색을 수행하는 Gradio 챗봇 인터페이스를 빌드하여 모든 것을 통합합니다.
- 원하는 경우 아래와 같이 Google Cloud Run에 독립형 웹 애플리케이션으로 배포합니다.
학습할 내용
- Cypher 및 Neo4j를 사용하여 영화 지식 그래프를 빌드하는 방법
- Vertex AI를 사용하여 텍스트의 시맨틱 임베딩을 생성하는 방법
- 지능형 벡터 기반 검색을 위해 Neo4j와 Gemini를 통합하는 방법
- Gradio로 대화형 챗봇 UI를 빌드하고 실행하는 방법
필요한 항목
- Chrome 웹브라우저
- Gmail 계정
- 결제가 사용 설정된 Google Cloud 프로젝트
- 무료 Neo4j Aura DB 계정
- 터미널 명령어 및 Python에 대한 기본적인 지식
이 Codelab은 초보자를 포함한 모든 수준의 개발자를 위해 설계되었으며 샘플 애플리케이션에서 Python 및 Neo4j를 사용합니다. Python 및 그래프 데이터베이스에 대한 기본적인 지식은 도움이 될 수 있지만 개념을 이해하거나 따라 하는 데는 사전 경험이 필요하지 않습니다.
2. Neo4j AuraDB 설정
Neo4j는 노드 (항목) 및 관계 (항목 간의 연결)의 네트워크로 데이터를 저장하는 업계 최고의 기본 그래프 데이터베이스입니다. 따라서 추천, 사기 감지, 지식 그래프 등 연결을 이해하는 것이 중요한 사용 사례에 적합합니다. 고정된 테이블이나 계층 구조를 사용하는 관계형 또는 문서 기반 데이터베이스와 달리 Neo4j의 유연한 그래프 모델을 사용하면 복잡하게 연결된 데이터를 직관적이고 효율적으로 표현할 수 있습니다.
Neo4j는 관계형 데이터베이스처럼 행과 테이블로 데이터를 구성하는 대신 정보가 노드 (항목) 및 관계 (해당 항목 간의 연결)로 표현되는 그래프 모델을 사용합니다. 이 모델을 사용하면 사람, 장소, 제품 또는 YouTube의 경우 영화, 배우, 장르와 같이 본질적으로 연결된 데이터를 매우 직관적으로 처리할 수 있습니다.
예를 들어 영화 데이터 세트에서
- 노드는
Movie
,Actor
또는Director
를 나타낼 수 있습니다. - 관계는
ACTED_IN
또는DIRECTED
일 수 있습니다.
이 구조를 사용하면 다음과 같은 질문을 쉽게 할 수 있습니다.
- 이 배우가 출연한 영화는 무엇인가요?
- 크리스토퍼 놀런과 함께 작업한 사람은 누구인가요?
- 공유된 배우 또는 장르를 기준으로 유사한 영화는 무엇인가요?
Neo4j에는 그래프 쿼리에 맞게 설계된 강력한 쿼리 언어인 Cypher가 함께 제공됩니다. Cypher를 사용하면 복잡한 패턴과 연결을 간결하고 읽기 쉬운 방식으로 표현할 수 있습니다.
Neo4j는 요구사항에 따라 다양한 배포 옵션을 제공합니다.
- 자체 관리형: Neo4j Desktop을 사용하거나 Docker 이미지 (온프레미스 또는 자체 클라우드)로 자체 인프라에서 Neo4j를 실행합니다.
- 클라우드 관리형: 마켓플레이스 제품을 사용하여 널리 사용되는 클라우드 제공업체에 Neo4j를 배포합니다.
- 완전 관리형: 프로비저닝, 확장, 백업, 보안을 자동으로 처리하는 Neo4j의 완전 관리형 클라우드 데이터베이스 서비스인 Neo4j AuraDB를 사용하세요.
이 Codelab에서는 AuraDB의 무료 등급인 Neo4j AuraDB Free를 사용합니다. 소규모 애플리케이션의 프로토타입 제작, 학습, 빌드에 충분한 스토리지와 기능을 갖춘 완전 관리형 그래프 데이터베이스 인스턴스를 제공하므로 생성형 AI 기반 영화 추천 챗봇을 빌드하는 목표에 적합합니다.
이 실습에서는 무료 AuraDB 인스턴스를 만들고 연결 사용자 인증 정보를 사용하여 애플리케이션에 연결한 후 이를 사용하여 영화 지식 그래프를 저장하고 쿼리합니다.
그래프를 사용해야 하는 이유
기존 관계형 데이터베이스에서는 '공유된 배우 또는 장르를 기준으로 인셉션과 유사한 영화는 무엇인가요?'와 같은 질문에 답변하려면 여러 테이블 간의 복잡한 JOIN 작업이 필요했습니다. 관계의 깊이가 증가하면 성능과 가독성이 저하됩니다.
그러나 Neo4j와 같은 그래프 데이터베이스는 관계를 효율적으로 탐색하도록 빌드되어 맞춤 콘텐츠 시스템, 시맨틱 검색, 스마트 어시스턴트에 적합합니다. 기존 데이터 모델을 사용하여 표현하기 어려운 공동작업 네트워크, 스토리라인, 시청자 선호도와 같은 실제 맥락을 포착하는 데 도움이 됩니다.
이러한 연결된 데이터를 Gemini와 같은 LLM 및 Vertex AI의 벡터 임베딩과 결합하면 챗봇 환경을 강화하여 더 맞춤설정되고 관련성 높은 방식으로 추론, 검색, 응답할 수 있습니다.
Neo4j AuraDB 무료 생성
- https://console.neo4j.io를 방문합니다.
- Google 계정 또는 이메일로 로그인합니다.
- '무료 인스턴스 만들기'를 클릭합니다.
- 인스턴스가 프로비저닝되는 동안 데이터베이스의 연결 사용자 인증 정보가 표시된 팝업 창이 나타납니다.
팝업에서 다음 세부정보를 다운로드하여 안전하게 저장해야 합니다. 이는 애플리케이션을 Neo4j에 연결하는 데 필수적입니다.
NEO4J_URI=neo4j+s://<your-instance-id>.databases.neo4j.io
NEO4J_USERNAME=neo4j
NEO4J_PASSWORD=<your-generated-password>
AURA_INSTANCEID=<your-instance-id>
AURA_INSTANCENAME=<your-instance-name>
이 값은 다음 단계에서 Neo4j로 인증하기 위해 프로젝트의 .env 파일을 구성하는 데 사용됩니다.
Neo4j AuraDB Free는 개발, 실험, 이 Codelab과 같은 소규모 애플리케이션에 적합합니다. 최대 200,000개의 노드와 400,000개의 관계를 지원하는 넉넉한 사용량 한도를 제공합니다. 지식 그래프를 빌드하고 쿼리하는 데 필요한 모든 필수 기능을 제공하지만 맞춤 플러그인이나 스토리지 증가와 같은 고급 구성은 지원하지 않습니다. 프로덕션 워크로드 또는 대규모 데이터 세트의 경우 더 큰 용량, 성능, 엔터프라이즈급 기능을 제공하는 상위 등급의 AuraDB 요금제로 업그레이드할 수 있습니다.
이제 Neo4j AuraDB 백엔드 설정 섹션이 완료되었습니다. 다음 단계에서는 Google Cloud 프로젝트를 만들고, 저장소를 클론하고, 필요한 환경 변수를 구성하여 개발 환경을 준비한 후 Codelab을 시작합니다.
3. 시작하기 전에
프로젝트 만들기
- Google Cloud 콘솔의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.
- Cloud 프로젝트에 결제가 사용 설정되어 있어야 하므로 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요 .
- bq가 미리 로드되어 제공되는 Google Cloud에서 실행되는 명령줄 환경인 Cloud Shell을 사용합니다. Google Cloud 콘솔 상단에서 Cloud Shell 활성화를 클릭합니다.
- Cloud Shell에 연결되면 다음 명령어를 사용하여 이미 인증되었는지, 프로젝트가 프로젝트 ID로 설정되어 있는지 확인합니다.
gcloud auth list
- Cloud Shell에서 다음 명령어를 실행하여 gcloud 명령어가 프로젝트를 알고 있는지 확인합니다.
gcloud config list project
- 프로젝트가 설정되지 않은 경우 다음 명령어를 사용하여 설정합니다.
gcloud config set project <YOUR_PROJECT_ID>
- 아래 명령어를 통해 필수 API를 사용 설정합니다. 이 작업은 몇 분 정도 걸릴 수 있으니 기다려 주시기 바랍니다.
gcloud services enable cloudresourcemanager.googleapis.com \
servicenetworking.googleapis.com \
run.googleapis.com \
cloudbuild.googleapis.com \
cloudfunctions.googleapis.com \
aiplatform.googleapis.com
명령어 실행이 성공하면 아래와 유사한 메시지가 표시됩니다.
Operation "operations/..." finished successfully.
gcloud 명령어의 대안은 콘솔을 통해 각 제품을 검색하거나 이 링크를 사용하는 것입니다.
누락된 API가 있으면 구현 과정에서 언제든지 사용 설정할 수 있습니다.
gcloud 명령어 및 사용법은 문서를 참조하세요.
저장소 클론 및 환경 설정 설정
다음 단계는 나머지 Codelab에서 참조할 샘플 저장소를 클론하는 것입니다. Cloud Shell에 있다고 가정하고 홈 디렉터리에서 다음 명령어를 실행합니다.
git clone https://github.com/sidagarwal04/neo4j-vertexai-codelab.git
편집기를 실행하려면 Cloud Shell 창의 툴바에서 편집기 열기를 클릭합니다. 왼쪽 상단의 메뉴 바를 클릭하고 아래와 같이 File(파일) → Open Folder(폴더 열기)를 선택합니다.
neo4j-vertexai-codelab
폴더를 선택하면 아래와 같이 폴더가 열리고 다음 파일이 표시됩니다.
다음으로 Codelab 전체에서 사용될 환경 변수를 설정해야 합니다. example.env
파일을 클릭하면 아래와 같은 콘텐츠가 표시됩니다.
NEO4J_URI=
NEO4J_USER=
NEO4J_PASSWORD=
NEO4J_DATABASE=
PROJECT_ID=
LOCATION=
이제 example.env
파일과 동일한 폴더에 .env
라는 새 파일을 만들고 기존 example.env 파일의 콘텐츠를 복사합니다. 이제 다음 변수를 업데이트합니다.
NEO4J_URI
,NEO4J_USER
,NEO4J_PASSWORD
,NEO4J_DATABASE
:- 이전 단계에서 Neo4j AuraDB 무료 인스턴스를 만들 때 제공된 사용자 인증 정보를 사용하여 이러한 값을 입력합니다.
NEO4J_DATABASE
는 일반적으로 AuraDB Free의 경우 neo4j로 설정됩니다.PROJECT_ID
및LOCATION
:- Google Cloud Shell에서 Codelab을 실행하는 경우 이러한 필드는 활성 프로젝트 구성에서 자동으로 추론되므로 비워 두어도 됩니다.
- 로컬에서 실행 중이거나 Cloud Shell 외부에서 실행 중인 경우
PROJECT_ID
를 이전에 만든 Google Cloud 프로젝트의 ID로 업데이트하고LOCATION
를 해당 프로젝트에 선택한 리전 (예: us-central1)으로 설정합니다.
값을 입력한 후 .env
파일을 저장합니다. 이 구성을 사용하면 애플리케이션이 Neo4j 및 Vertex AI 서비스에 모두 연결할 수 있습니다.
개발 환경 설정의 마지막 단계는 Python 가상 환경을 만들고 requirements.txt
파일에 나열된 모든 필수 종속 항목을 설치하는 것입니다. 이러한 종속 항목에는 Neo4j, Vertex AI, Gradio 등을 사용하는 데 필요한 라이브러리가 포함됩니다.
먼저 다음 명령어를 실행하여 .venv라는 가상 환경을 만듭니다.
python -m venv .venv
환경이 생성되면 다음 명령어를 사용하여 생성된 환경을 활성화해야 합니다.
source .venv/bin/activate
이제 터미널 프롬프트 시작 부분에 (.venv)가 표시되어 환경이 활성 상태임을 나타냅니다. 예: (.venv) yourusername@cloudshell:
이제 다음을 실행하여 필수 종속 항목을 설치합니다.
pip install -r requirements.txt
다음은 파일에 나열된 주요 종속 항목의 스냅샷입니다.
gradio>=4.0.0
neo4j>=5.0.0
numpy>=1.20.0
python-dotenv>=1.0.0
google-cloud-aiplatform>=1.30.0
vertexai>=0.0.1
모든 종속 항목이 설치되면 이 Codelab의 스크립트와 챗봇을 실행하도록 로컬 Python 환경이 완전히 구성됩니다.
좋습니다. 이제 다음 단계로 넘어가 데이터 세트를 이해하고 그래프 생성 및 시맨틱 보강을 위해 준비합니다.
4. 영화 데이터 세트 준비
첫 번째 작업은 지식 그래프를 빌드하고 맞춤 콘텐츠 챗봇을 지원하는 데 사용할 영화 데이터 세트를 준비하는 것입니다. 처음부터 시작하는 대신 기존의 공개 데이터 세트를 사용하고 이를 기반으로 구축하겠습니다.
Kaggle에서 제공되는 잘 알려진 공개 데이터 세트인 Rounak Banik의 영화 데이터 세트를 사용합니다. 여기에는 배우, 제작진, 키워드, 평점 등 TMDB의 45,000개가 넘는 영화에 대한 메타데이터가 포함되어 있습니다.
신뢰할 수 있고 효과적인 영화 추천 채팅봇을 빌드하려면 정리되고 일관되며 구조화된 데이터로 시작하는 것이 중요합니다. Kaggle의 영화 데이터 세트는 45,000개가 넘는 영화 레코드와 장르, 출연자, 제작진 등 자세한 메타데이터가 포함된 풍부한 리소스이지만 그래프 모델링이나 시맨틱 임베딩에 적합하지 않은 노이즈, 불일치, 중첩된 데이터 구조도 포함되어 있습니다.
이를 해결하기 위해 Neo4j 지식 그래프를 구축하고 고품질 임베딩을 생성하는 데 적합하도록 데이터 세트를 사전 처리 및 정규화했습니다. 이 프로세스에는 다음이 포함됩니다.
- 중복 및 불완전한 레코드 삭제
- 주요 필드 (예: 장르 이름, 인물 이름) 표준화
- 복잡한 중첩 구조 (예: 출연자 및 스태프)를 구조화된 CSV로 평면화
- Neo4j AuraDB 무료 한도 내에서 유지하기 위해 대표적인 영화 12,000편의 하위 집합 선택
고품질의 정규화된 데이터는 다음을 보장하는 데 도움이 됩니다.
- 데이터 품질: 더 정확한 맞춤 콘텐츠를 제공하기 위해 오류와 불일치를 최소화합니다.
- 쿼리 성능: 간소화된 구조로 검색 속도가 개선되고 중복이 줄어듭니다.
- 임베딩 정확성: 깔끔한 입력은 더 의미 있고 문맥에 적합한 벡터 임베딩을 생성합니다.
이 GitHub 저장소의 normalized_data/
폴더에서 정리되고 정규화된 데이터 세트에 액세스할 수 있습니다. 이 데이터 세트는 향후 Python 스크립트에서 쉽게 액세스할 수 있도록 Google Cloud Storage 버킷에 미러링됩니다.
데이터가 정리되고 준비되었으므로 이제 Neo4j에 데이터를 로드하고 영화 지식 그래프를 구성할 준비가 되었습니다.
5. 영화 지식 그래프 빌드
생성형 AI 지원 영화 추천 챗봇을 사용하려면 영화, 배우, 감독, 장르, 기타 메타데이터 간의 풍부한 연결 네트워크를 포착하는 방식으로 영화 데이터 세트를 구성해야 합니다. 이 섹션에서는 이전에 준비한 정리되고 정규화된 데이터 세트를 사용하여 Neo4j에서 영화 지식 그래프를 빌드합니다.
Neo4j의 LOAD CSV
기능을 사용하여 공개 Google Cloud Storage (GCS) 버킷에 호스팅된 CSV 파일을 처리합니다. 이러한 파일은 영화, 장르, 출연자, 제작진, 제작사, 사용자 평점과 같은 영화 데이터 세트의 다양한 구성요소를 나타냅니다.
1단계: 제약 조건 및 색인 만들기
데이터를 가져오기 전에 제약 조건 및 색인을 만들어 데이터 무결성을 적용하고 쿼리 성능을 최적화하는 것이 좋습니다.
CREATE CONSTRAINT unique_tmdb_id IF NOT EXISTS FOR (m:Movie) REQUIRE m.tmdbId IS UNIQUE;
CREATE CONSTRAINT unique_movie_id IF NOT EXISTS FOR (m:Movie) REQUIRE m.movieId IS UNIQUE;
CREATE CONSTRAINT unique_prod_id IF NOT EXISTS FOR (p:ProductionCompany) REQUIRE p.company_id IS UNIQUE;
CREATE CONSTRAINT unique_genre_id IF NOT EXISTS FOR (g:Genre) REQUIRE g.genre_id IS UNIQUE;
CREATE CONSTRAINT unique_lang_id IF NOT EXISTS FOR (l:SpokenLanguage) REQUIRE l.language_code IS UNIQUE;
CREATE CONSTRAINT unique_country_id IF NOT EXISTS FOR (c:Country) REQUIRE c.country_code IS UNIQUE;
CREATE INDEX actor_id IF NOT EXISTS FOR (p:Person) ON (p.actor_id);
CREATE INDEX crew_id IF NOT EXISTS FOR (p:Person) ON (p.crew_id);
CREATE INDEX movieId IF NOT EXISTS FOR (m:Movie) ON (m.movieId);
CREATE INDEX user_id IF NOT EXISTS FOR (p:Person) ON (p.user_id);
2단계: 영화 메타데이터 및 관계 가져오기
LOAD CSV 명령어를 사용하여 영화 메타데이터를 가져오는 방법을 살펴보겠습니다. 이 예에서는 제목, 개요, 언어, 런타임과 같은 주요 속성이 있는 영화 노드를 만듭니다.
LOAD CSV WITH HEADERS FROM "https://storage.googleapis.com/neo4j-vertexai-codelab/normalized_movies.csv" AS row
WITH row, toInteger(row.tmdbId) AS tmdbId
WHERE tmdbId IS NOT NULL
WITH row, tmdbId
LIMIT 12000
MERGE (m:Movie {tmdbId: tmdbId})
ON CREATE SET m.title = coalesce(row.title, "None"),
m.original_title = coalesce(row.original_title, "None"),
m.adult = CASE
WHEN toInteger(row.adult) = 1 THEN 'Yes'
ELSE 'No'
END,
m.budget = toInteger(coalesce(row.budget, 0)),
m.original_language = coalesce(row.original_language, "None"),
m.revenue = toInteger(coalesce(row.revenue, 0)),
m.tagline = coalesce(row.tagline, "None"),
m.overview = coalesce(row.overview, "None"),
m.release_date = coalesce(row.release_date, "None"),
m.runtime = toFloat(coalesce(row.runtime, 0)),
m.belongs_to_collection = coalesce(row.belongs_to_collection, "None");
유사한 Cypher 명령어를 사용하여 장르, 제작사, 언어, 국가, 출연자, 제작진, 평점과 같은 관련 항목을 가져올 수 있습니다.
Python을 통해 전체 그래프 로드
여러 Cypher 쿼리를 수동으로 실행하는 대신 이 Codelab에 제공된 자동화된 Python 스크립트를 사용하는 것이 좋습니다.
graph_build.py
스크립트는 .env
파일의 사용자 인증 정보를 사용하여 GCS의 전체 데이터 세트를 Neo4j AuraDB 인스턴스로 로드합니다.
python graph_build.py
스크립트는 필요한 모든 CSV를 순차적으로 로드하고, 노드와 관계를 만들고, 전체 영화 지식 그래프의 구조를 만듭니다.
그래프 검증
로드한 후 다음과 같은 간단한 Cypher 쿼리를 실행하여 그래프를 검증할 수 있습니다.
MATCH (m:Movie) RETURN m LIMIT 5;
MATCH (a:Actor)-[:ACTED_IN]->(m:Movie) RETURN a.name, m.title LIMIT 5;
이제 영화, 인물, 장르 등으로 그래프가 채워집니다. 이제 다음 단계에서 의미론적으로 보강할 준비가 되었습니다.
6. 임베딩 생성 및 로드하여 벡터 유사성 검색 수행
챗봇에서 시맨틱 검색을 사용 설정하려면 영화 개요의 벡터 임베딩을 생성해야 합니다. 이러한 임베딩은 텍스트 데이터를 유사성을 비교할 수 있는 숫자 벡터로 변환합니다. 따라서 쿼리가 제목이나 설명과 정확하게 일치하지 않더라도 챗봇이 관련 영화를 검색할 수 있습니다.
⚠️ 실적 관련 참고사항
수천 개의 영화 설명에 대한 임베딩을 실시간으로 생성하는 것은 시간과 리소스가 많이 듭니다. 이 Codelab을 효율적으로 이용할 수 있도록 Vertex AI의
text-embedding-004
모델을 생성하고 공개적으로 사용 가능한 CSV 파일에 저장했습니다.
옵션 1: 사이퍼를 통해 사전 계산된 임베딩 로드
Neo4j의 해당 Movie
노드에 임베딩을 빠르게 연결하려면 Neo4j 브라우저에서 다음 Cypher 명령어를 실행합니다.
LOAD CSV WITH HEADERS FROM 'https://storage.googleapis.com/neo4j-vertexai-codelab/movie_embeddings.csv' AS row
WITH row
MATCH (m:Movie {tmdbId: toInteger(row.tmdbId)})
SET m.embedding = apoc.convert.fromJsonList(row.embedding)
이 명령어는 CSV에서 임베딩 벡터를 읽고 각 Movie
노드에 속성 (m.embedding
)으로 연결합니다.
옵션 2: Python을 사용하여 임베딩 로드
제공된 Python 스크립트를 사용하여 프로그래매틱 방식으로 임베딩을 로드할 수도 있습니다. 이 접근 방식은 자체 환경에서 작업 중이거나 프로세스를 자동화하려는 경우에 유용합니다.
python load_embeddings.py
이 스크립트는 GCS에서 동일한 CSV를 읽고 Python Neo4j 드라이버를 사용하여 Neo4j에 임베딩을 씁니다.
[선택사항] 임베딩 직접 생성 (탐색용)
임베딩이 생성되는 방식을 알아보려면 generate_embeddings.py
스크립트 자체의 로직을 살펴보세요. Vertex AI를 사용하여 text-embedding-004
모델을 사용하여 각 영화 개요 텍스트를 삽입합니다.
직접 사용해 보려면 코드의 삽입 생성 섹션을 열고 실행하세요. Cloud Shell에서 실행하는 경우 Cloud Shell이 이미 활성 계정을 통해 인증되었으므로 다음 줄을 주석 처리할 수 있습니다.
# os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "./service-account.json"
⚠️ 전체 임베딩 생성 프로세스를 실행하면 Vertex AI 할당량이 소모되며, 특히 레코드가 수천 개 있는 경우 상당한 시간이 걸릴 수 있습니다.
임베딩이 Neo4j로 로드되면 영화 지식 그래프가 시맨틱 인식이 되어 벡터 유사성을 사용하여 강력한 자연어 검색을 지원할 수 있습니다.
7. 영화 추천 챗봇
지식 그래프와 임베딩을 설정했으므로 이제 모든 것을 대화형 인터페이스인 영화 추천 챗봇으로 통합할 차례입니다.
챗봇은 Python과 웹 기반 UI를 빌드하기 위한 경량 프레임워크인 Gradio를 사용하여 구현됩니다. 기본 로직은 chatbot.py
스크립트에 있으며, 이 스크립트는 Neo4j AuraDB 인스턴스에 연결하고 자연어 프롬프트를 기반으로 영화 임베딩에 대한 벡터 유사성 검색을 실행합니다.
챗봇은 Gemini를 사용하여 쿼리를 미세 조정하고 응답 형식을 지정하여 사용자 환경을 개선합니다. 검색 결과는 그래프 컨텍스트와 벡터 유사성을 조합하여 Neo4j에서 반환됩니다.
로컬에서 챗봇 실행
챗봇을 실행하려면 가상 환경을 활성화하고 (아직 활성화하지 않은 경우) 다음을 실행합니다.
python chatbot.py
다음과 비슷한 출력이 표시됩니다.
Old index dropped
Creating new vector index
Vector index created successfully
* Running on local URL: http://127.0.0.1:7860
To create a public link, set `share=True` in `launch()`.
💡 allow_flagging과 관련된 지원 중단 경고가 표시되면 지금은 무시해도 됩니다. 애플리케이션은 계속 실행됩니다.
챗봇과 상호작용
실행되면 터미널에 표시된 URL(일반적으로 http://127.0.0.1:7860
)을 엽니다.
간단한 채팅 인터페이스가 표시되며 다음과 같은 자연어 쿼리를 입력할 수 있습니다.
- "인셉션과 같은 SF 스릴러 추천해 줘"
- "톰 행크스가 출연한 로맨틱한 영화 추천해 줘"
- '기분 좋은 가족 드라마를 보고 싶어'
챗봇은 쿼리를 처리하고 영화 개요에 시맨틱 벡터 검색을 실행한 후 제목, 개요, 발매 연도 등 가장 관련성 높은 영화 목록을 표시합니다.
각 추천은 깔끔한 형식의 결과와 함께 카드 스타일 레이아웃으로 렌더링됩니다.
이제 챗봇이 로컬에서 실행되므로 Vertex AI 임베딩을 사용하여 지식 그래프, LLM (Gemini), 시맨틱 검색의 장점을 결합한 완전한 기능을 갖춘 생성형 AI 기반 영화 추천 시스템을 사용할 수 있습니다.
8. (선택사항) Google Cloud Run에 배포
웹에서 영화 추천 채팅봇에 공개적으로 액세스할 수 있도록 하려면 애플리케이션을 자동으로 확장하는 완전 관리형 서버리스 플랫폼인 Google Cloud Run에 배포하면 됩니다.
배포하기 전에 프로젝트에 다음 파일이 있는지 확인합니다 (이 저장소에 이미 포함되어 있음).
requirements.txt
– Neo4j 및 Vertex AI를 비롯하여 애플리케이션을 실행하는 데 필요한 모든 Python 종속 항목을 나열합니다.Dockerfile
: 기본 이미지, 종속 항목 설치, 앱 실행 방식을 비롯한 컨테이너 환경을 정의합니다.
1단계: 환경 변수 설정
터미널에서 다음 환경 변수를 설정합니다 (자리표시자 값을 실제 프로젝트 설정으로 바꿈).
# Set your Google Cloud project ID
export GCP_PROJECT='your-project-id' # Change this
# Set your preferred deployment region
export GCP_REGION='us-central1'
2단계: 아티팩트 저장소 만들기 및 컨테이너 빌드
# Artifact Registry repo and service name
export AR_REPO='your-repo-name' # Change this
export SERVICE_NAME='movies-chatbot' # Or any name you prefer
# Create the Artifact Registry repository
gcloud artifacts repositories create "$AR_REPO" \
--location="$GCP_REGION" \
--repository-format=Docker
# Authenticate Docker with Artifact Registry
gcloud auth configure-docker "$GCP_REGION-docker.pkg.dev"
# Build and submit the container image
gcloud builds submit \
--tag "$GCP_REGION-docker.pkg.dev/$GCP_PROJECT/$AR_REPO/$SERVICE_NAME"
이 명령어는 Dockerfile
를 사용하여 앱을 패키징하고 컨테이너 이미지를 Google Cloud Artifact Registry에 업로드합니다.
3단계: Cloud Run에 배포
배포하기 전에 모든 필수 환경 변수 (예: Neo4j 사용자 인증 정보, 프로젝트 설정)이 .env
파일에 나열됩니다.
다음 스니펫을 사용하여 .env
파일을 --set-env-vars
플래그와 호환되는 형식으로 동적으로 변환합니다.
ENV_VARS=$(grep -v '^#' .env | sed 's/ *= */=/g' | xargs -I{} echo -n "{},")
ENV_VARS=${ENV_VARS%,}
이제 앱을 배포합니다.
gcloud run deploy "$SERVICE_NAME" \
--port=8080 \
--image="$GCP_REGION-docker.pkg.dev/$GCP_PROJECT/$AR_REPO/$SERVICE_NAME" \
--allow-unauthenticated \
--region=$GCP_REGION \
--platform=managed \
--project=$GCP_PROJECT \
--set-env-vars="GCP_PROJECT=$GCP_PROJECT,GCP_REGION=$GCP_REGION,$ENV_VARS"
챗봇에 액세스
배포되면 Cloud Run은 다음 형식의 공개 서비스 URL을 반환합니다.
https://movies-chatbot-[UNIQUE_ID].${GCP_REGION}.run.app
브라우저에서 URL을 열어 챗봇에 액세스합니다. 클라우드에서 실행 중인 동일한 Gradio UI가 표시되며, 이 UI는 쿼리를 수신하고 영화 추천으로 응답할 수 있습니다.
참고사항 및 도움말
- 빌드 중에
Dockerfile
가pip install -r requirements.txt
를 실행하는지 확인합니다. - Cloud Shell을 사용하지 않는 경우 Vertex AI 및 Artifact Registry 권한이 있는 서비스 계정을 사용하여 환경을 인증해야 합니다.
- Google Cloud 콘솔 > Cloud Run에서 배포 로그와 측정항목을 모니터링할 수 있습니다.
Google Cloud 콘솔에서 Cloud Run으로 이동하면 Cloud Run의 서비스 목록이 표시됩니다. movies-chatbot
서비스가 여기에 나열된 서비스 중 하나여야 합니다 (유일한 서비스가 아닐 수도 있음).
특정 서비스 이름 (이 경우에는 movies-chatbot
)을 클릭하면 URL, 구성, 로그 등의 서비스 세부정보를 볼 수 있습니다.
이제 영화 추천 챗봇을 배포, 확장, 공유할 수 있습니다. 🎉
9. 삭제
이 게시물에서 사용한 리소스의 비용이 Google Cloud 계정에 청구되지 않도록 하려면 다음 단계를 따르세요.
- Google Cloud 콘솔에서 리소스 관리 페이지로 이동합니다.
- 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
- 대화상자에서 프로젝트 ID를 입력하고 종료를 클릭하여 프로젝트를 삭제합니다.
10. 축하합니다
Neo4j, Vertex AI, Gemini를 사용하여 그래프 기반의 생성형 AI 강화 영화 추천 챗봇을 빌드하고 배포했습니다. Neo4j의 표현형 모델링 기능을 Vertex AI 임베딩의 시맨틱 기능과 Gemini의 대화형 지능과 결합하여 자연어 쿼리를 이해하고 문맥과 관련된 영화 추천을 반환하는 직관적이고 지능적인 시스템을 만들었습니다.
이 Codelab에서는 다음을 수행합니다.
- 실제 영화 데이터 세트에서 상호 연결된 풍부한 지식 그래프를 만들었습니다.
- 시맨틱 유사성 검색을 사용 설정하기 위해 벡터 임베딩을 생성하고 통합했습니다.
- Gemini를 활용하여 자연어 상호작용 지원
- Gradio를 사용하여 간단하면서도 강력한 챗봇 인터페이스를 빌드했습니다.
- 확장성과 액세스를 위해 원하는 경우 Google Cloud Run을 사용하여 앱을 배포했습니다.
이 접근 방식은 영화에만 국한되지 않습니다. 동일한 아키텍처는 도서, 음악, 제품, 학술 논문 또는 관계와 의미론이 중요한 모든 도메인으로 확장할 수 있습니다. Gemini와 같은 멀티모달 GenAI 모델이 계속 발전함에 따라 더 심층적인 이해, 맞춤설정된 상호작용, 형식 다각화된 출력으로 애플리케이션을 보강할 수 있습니다.
계속 탐색하고 빌드하세요. Neo4j, Vertex AI, Google Cloud의 최신 소식을 확인하여 지능형 애플리케이션을 한 단계 업그레이드하세요.