topics Vector Database 벡터 데이터베이스란 무엇인가요?
IBM의 벡터 데이터베이스 솔루션 살펴보기 AI 업데이트 구독
클라우드 기반 환경 내에서 보안 서버 간 데이터의 동적 이동을 보여주는 그림
벡터 데이터베이스란 무엇인가요?

벡터 데이터베이스는 방대한 양의 고차원 벡터 데이터를 효율적으로 저장, 관리 및 인덱싱하도록 설계되었습니다.

벡터 데이터베이스는 생성형 인공 지능(AI) 사용 사례 및 애플리케이션을 위한 부가 가치를 창출하기 위해 빠르게 성장하고 있습니다. Gartner에 따르면, 기업의 30% 이상이 2026년까지 관련 비즈니스 데이터로 파운데이션 모델을 구축하기 위해 벡터 데이터베이스를 채택할 것이라고 합니다.1

행과 열을 가진 기존의 관계형 데이터베이스와 달리, 벡터 데이터베이스의 데이터 요소는 유사성에 따라 클러스터링된 고정된 수의 차원을 가진 벡터로 표현됩니다. 이 설계는 저지연 쿼리를 지원하므로 AI 기반 애플리케이션에 이상적입니다.



적절한 파운데이션 모델을 선택하는 방법

이 모델 선택 프레임워크를 사용하여 성능 요구 사항과 비용, 위험 및 배포 요구 사항의 균형을 맞추면서 가장 적합한 모델을 선택할 수 있습니다.

관련 내용

AI 데이터 저장소에 대한 eBook 받아보기

벡터 데이터베이스와 기존 데이터베이스  

데이터의 특성이 크게 바뀌고 있습니다. 데이터는 더 이상 기존 데이터베이스에 쉽게 저장할 수 있는 정형화된 정보에만 국한되지 않습니다. 소셜 미디어 게시물, 이미지, 비디오, 오디오 클립 등으로 구성된 비정형 데이터가 매년 30~60% 증가하고 있습니다.2 일반적으로 비정형 데이터 소스를 기존의 관계형 데이터베이스에 로드하여 저장, 관리 및 AI에 대비하려는 경우, 이 프로세스는 노동 집약적이며 특히 유사성 검색과 같은 새로운 생성형 사용 사례의 경우 효율성이 떨어집니다. 관계형 데이터베이스는 특정 형식의 정형 및 반정형 데이터 세트를 관리하는 데 적합하며, 벡터 데이터베이스는 고차원 벡터 임베딩을 통한 비정형 데이터 세트에 가장 적합합니다. 

벡터란 무엇인가요? 

벡터를 입력하세요. 벡터는 머신 러닝(ML) 모델에 의해 생성된 단어, 이미지, 동영상 및 오디오와 같은 복잡한 객체를 나타낼 수 있는 숫자 배열입니다. 고차원 벡터 데이터는 머신 러닝, 자연어 처리(NLP) 및 기타 AI 작업에 필수적입니다. 벡터 데이터의 몇 가지 예는 다음과 같습니다. 

  • 텍스트: 마지막으로 챗봇과 상호 작용했던 때를 떠올려 보세요. 챗봇이 자연어를 어떻게 이해할까요? 머신 러닝 알고리즘을 통해 변환된 단어, 단락, 전체 문서를 나타낼 수 있는 벡터를 사용합니다. 

  • 이미지: 이미지 픽셀은 숫자 데이터로 설명할 수 있으며, 이를 결합하여 해당 이미지의 고차원 벡터를 구성할 수 있습니다. 

  • 음성/오디오: 이미지와 마찬가지로 음파도 수치 데이터로 분해하여 벡터로 표현할 수 있으므로 음성 인식과 같은 AI 애플리케이션을 구현할 수 있습니다. 

벡터 임베딩이란 무엇인가요? 

AI에 필요한 비정형 데이터 세트의 양은 계속 증가할 텐데, 수백만 개의 벡터를 어떻게 처리할 수 있을까요? 여기서 벡터 임베딩과 벡터 데이터베이스가 작동합니다. 이러한 벡터는 임베딩이라고 하는 연속적인 다차원 공간으로 표현되며, 임베딩 모델은 벡터 데이터를 임베딩으로 변환하는 데 특화된 임베딩 모델로 생성됩니다. 벡터 데이터베이스는 임베딩 모델의 아웃풋을 저장하고 인덱싱하는 역할을 합니다. 벡터 임베딩은 데이터를 숫자로 표현한 것으로, 거의 모든 데이터 유형에서 의미론적 의미 또는 유사한 기능을 기반으로 데이터 세트를 그룹화합니다.  

예를 들어 '자동차'와 '차량'이라는 단어를 생각해 보세요. 이 두 단어는 글자는 다르지만 의미는 비슷합니다. AI 애플리케이션에서 효과적인 시맨틱 검색을 가능하게 하려면 '자동차'와 '차량'의 벡터 표현이 의미론적 유사성을 캡처해야 합니다. 머신 러닝에서 임베딩은 이러한 의미 정보를 인코딩하는 고차원 벡터를 나타냅니다. 이러한 벡터 임베딩은 추천, 챗봇 및 ChatGPT와 같은 생성형 앱의 근간을 이룹니다.

벡터 데이터베이스와 그래프 데이터베이스 비교  

지식 그래프는 객체 또는 이벤트와 같은 엔터티의 네트워크를 나타내며, 이들 간의 관계를 나타냅니다. 그래프 데이터베이스는 지식 그래프 정보를 저장하고 이를 그래프 구조로 시각화하는 데 적합한 데이터베이스입니다. 그래프 데이터베이스는 알려진 개체와 개체 간의 복잡한 관계를 나타내는 노드와 에지를 기반으로 구축되는 반면, 벡터 데이터베이스는 고차원 벡터를 기반으로 구축됩니다. 결과적으로 그래프 데이터베이스는 데이터 포인트 간의 복잡한 관계를 처리하는 데 선호되는 반면, 벡터 데이터베이스는 이미지나 동영상과 같은 다양한 형태의 데이터를 처리하는 데 더 적합합니다.

벡터 임베딩 및 벡터 데이터베이스 작동 방식 

엔터프라이즈 벡터 데이터는 IBM의 watsonx.ai모델 또는 Hugging Face(ibm.com 외부 링크) 모델에 임베딩 모델에 공급할 수 있습니다. 이러한 모델은 복잡한 고차원 벡터 데이터를 컴퓨터가 이해할 수 있는 숫자 형식으로 변환하여 데이터를 임베딩으로 변환하는 데 특화되어 있습니다. 이러한 임베딩은 분류 및 이상 징후 탐지와 같은 AI 작업에 사용되는 데이터의 속성을 나타냅니다.

벡터 스토리지

벡터 데이터베이스는 임베딩 모델 알고리즘의 아웃풋인 벡터 임베딩을 저장합니다. 또한 메타데이터 필터를 사용해 쿼리할 수 있는 각 벡터의 메타데이터를 저장합니다. 데이터베이스는 이러한 임베딩을 수집하고 저장함으로써 유사성 검색을 빠르게 조회하여 사용자의 프롬프트와 유사한 벡터 임베딩을 일치시킬 수 있습니다. 

벡터 인덱싱

데이터를 임베딩으로 저장하는 것만으로는 충분하지 않습니다. 검색 프로세스를 가속화하려면 벡터를 인덱싱해야 합니다. 벡터 데이터베이스는 검색 기능을 위해 벡터 임베딩에 인덱스를 생성합니다. 벡터 데이터베이스는 머신 러닝 알고리즘을 사용하여 벡터를 인덱싱합니다. 인덱싱은 벡터를 새로운 데이터 구조에 매핑하여 벡터 간의 가장 가까운 이웃 검색과 같은 유사성 또는 거리 검색을 더 빠르게 수행합니다.

질의 또는 프롬프트 기반 유사성 검색

AI에 필요한 비정형 데이터 세트의 양은 계속 증가할 텐데, 수백만 개의 벡터를 어떻게 처리할 수 있을까요? 이 측정은 해당 인덱스에서 해당 벡터가 얼마나 가깝거나 멀리 있는지 측정하는 데 사용되는 코사인 유사성과 같은 다양한 유사성 메트릭을 기반으로 수행할 수 있습니다. 사용자가 AI 모델에 쿼리하거나 프롬프트하면 동일한 임베딩 모델 알고리즘을 사용하여 임베딩이 계산됩니다. 벡터 데이터베이스는 임베딩 모델의 아웃풋을 저장하고 인덱싱하는 역할을 합니다. 유사성 순위에 따라 가장 유사한 벡터 또는 가장 가까운 이웃을 반환합니다. 이러한 계산은 추천 시스템, 시맨틱 검색, 이미지 인식 및 기타 자연어 처리 작업과 같은 다양한 머신 러닝 작업을 지원합니다. 

벡터 데이터베이스 및 검색 증강 생성(RAG) 

특히 고객 관리 및 인사/인재 채용과 같은 주요 사용 사례에서 빠른 출시 기간, 효율적인 추론 및 신뢰할 수 있는 결과물을 얻기 위해 생성형 AI 워크플로우에서 검색 증강 생성(RAG) 접근 방식을 선호하는 기업이 점점 더 많아지고 있습니다. RAG는 모델이 신뢰할 수 있고 가장 최신인 사실과 연결되고, 사용자가 모델의 출처에 액세스할 수 있도록 하여 모델의 주장이 정확한지 확인할 수 있도록 지원합니다. RAG는 신뢰할 수 있는 데이터에 대규모 언어 모델을 확고하게 구축하여 모델 할루시네이션을 줄이는 기능의 핵심입니다. 이 접근 방식은 고차원 벡터 데이터를 활용하여 파운데이션 모델에 의한 상황별 학습을 위해 의미적으로 관련성이 높은 정보로 프롬프트를 강화하는 데 중점을 둡니다. 많은 양의 데이터를 처리하는 추론 단계에서 저장 및 검색을 효과적으로 처리할 수 있어야 합니다. 벡터 데이터베이스는 이러한 고차원 벡터를 효율적으로 인덱싱, 저장 및 검색하는 데 탁월한 성능을 발휘하여 추천 엔진 및 챗봇과 같은 애플리케이션에 필요한 속도, 정밀도 및 확장성을 제공합니다.

벡터 데이터베이스의 장점 

엔터프라이즈 AI 기반 애플리케이션을 개선하기 위해 벡터 데이터베이스 기능에 대한 관심과 도입이 빠르게 증가하고 있는 것은 분명하지만, 다음과 같은 장점도 비즈니스 가치를 입증하고 있습니다. 

속도 및 성능: 벡터 데이터베이스는 다양한 인덱싱 기술을 사용하여 검색 속도를 향상합니다. 벡터 인덱싱 및 가장 가까운 이웃 검색과 같은 거리 계산 알고리즘은 최적화된 성능을 제공하여 수십억 개까지는 아니더라도 수백만 개의 데이터 포인트에서 관련 결과를 검색하는 경우 특히 유용합니다. 

확장성: 벡터 데이터베이스는 수평적 확장을 통해 방대한 양의 비정형 데이터를 저장하고 관리할 수 있으며, 쿼리 수요와 데이터 볼륨이 증가해도 성능을 유지합니다.

소유 비용: 벡터 데이터베이스는 파운데이션 모델을 처음부터 학습시키거나 미세 조정해야 하는 경우에 유용한 대안으로 사용될 수 있습니다. 이를 통해 파운데이션 모델의 비용과 추론 속도를 줄일 수 있습니다.

유연성: 벡터 데이터베이스는 이미지, 동영상 또는 기타 다차원 데이터 등 데이터의 종류와 관계없이 복잡성을 처리할 수 있도록 구축되었습니다. 시맨틱 검색에서 대화형 AI 애플리케이션에 이르기까지 다양한 사용 사례가 있다는 점을 고려할 때, 벡터 데이터베이스는 비즈니스 및 AI 요구 사항에 맞게 맞춤화하여 사용할 수 있습니다. 

LLM의 장기 메모리: IBM watsonx.ai의 Granite 시리즈 모델, Meta의 Llama-2 또는 Google의 Flan 모델과 같은 범용 모델로 시작한 후 벡터 데이터베이스에 자체 데이터를 제공하여 검색 증강 생성에 중요한 모델 및 AI 애플리케이션의 아웃풋을 개선할 수 있습니다. 

데이터 관리 구성 요소: 벡터 데이터베이스는 일반적으로 새로운 비정형 데이터를 쉽게 업데이트하고 삽입할 수 있는 기능을 기본으로 제공합니다. 

벡터 데이터베이스 및 데이터 전략에 대한 고려 사항 

조직의 데이터 및 AI 요구 사항을 충족하기 위해 벡터 데이터베이스 기능을 선택할 때 다양한 옵션 중에서 고를 수 있습니다. 

벡터 데이터베이스의 유형

 

몇 가지 대안 중에서 선택할 수 있습니다.

  • Pinecone과 같은 독립 실행형 독점 벡터 데이터베이스
  • 내장된 RESTful API를 제공하고 Python 및 Java 프로그래밍 언어를 지원하는 weaviate 또는 milvus와 같은 오픈 소스 솔루션
  • IBM watsonx.data에서 벡터 데이터베이스 기능이 통합된 플랫폼 곧 제공 예정

  • 벡터 유사성 검색 기능을 제공하는 PostgreSQL의 오픈 소스 pgvector 확장 프로그램 등의 벡터 데이터베이스/검색 확장 프로그램

데이터 에코시스템과의 통합

벡터 데이터베이스는 독립 실형형 기능이 아니라 광범위한 데이터 및 AI 에코시스템의 일부로 생각해야 합니다. 대부분은 API, 기본 확장 기능을 제공하거나 데이터베이스와 통합할 수 있습니다. 벡터 데이터베이스는 엔터프라이즈 데이터를 활용하여 모델을 개선하기 위해 구축되었으므로 이데이터 거버넌스러한 LLM의 기반이 되는 데이터를 신뢰할 수 있도록 적절한 데이터 거버넌스와 보안을 갖추고 있어야 합니다. 

신뢰할 수 있는 데이터 기반은 AI에서 중요한 역할을 하며, 이는 AI에 사용되기 전에 데이터를 저장, 관리 및 통제하는 방식에서 시작됩니다. 그 중심에는 개방형, 하이브리드, 관리형 데이터 레이크하우스가 있으며, 이러한 데이터 레이크하우스의 한 예인 IBM watsonx.datawatsonx AI 데이터 플랫폼에 포함되어 있으며 데이터 패브릭 아키텍처에 완벽하게 통합됩니다. 예를 들어, 모든 정형, 반정형 및 비정형 데이터와 메타데이터에 액세스하고, 분류하고, 관리하고, 변환할 수 있도록 구축된 IBM watsonx.data는 모든 정형, 반정형 및 비정형 데이터와 메타데이터에 액세스할 수 있습니다. 사용자는 이 관리형 데이터와 watsonx.data의 통합 벡터 데이터베이스 기능(2023년 4분기 기술 프리뷰)을 머신 러닝 및 생성형 AI 사용 사례에 활용할 수 있습니다. 

벡터 인덱싱이 최적이 아닌 경우

벡터 저장소와 인덱스는 팩트 또는 팩트 기반 쿼리를 기반으로 하는 애플리케이션에 적합합니다. 예를 들어, 지난해 회사의 법적 조항에 대해 질문하거나 복잡한 문서에서 특정 정보를 추출할 수 있습니다. 임베딩 거리를 통해 얻을 수 있는 검색 컨텍스트 세트는 쿼리와 의미적으로 가장 유사한 컨텍스트입니다. 그러나 주제에 대한 요약을 얻고자 하는 경우는 벡터 인덱스에 적합하지 않습니다. 이런 경우에는 LLM이 데이터 내에서 해당 주제에 대해 가능한 모든 컨텍스트를 검토하도록 하는 것이 좋습니다. 벡터 인덱스는 가장 관련성이 높은 데이터만 가져오므로 벡터 인덱스가 아닌 목록 인덱스와 같은 다른 종류의 인덱스를 사용할 수 있습니다.  

벡터 데이터베이스 사용 사례 

벡터 데이터베이스의 응용 분야는 방대하고 계속 성장하고 있습니다. 몇 가지 사용 사례는 다음과 같습니다.

시맨틱 검색: 쿼리의 의미나 문맥에 따라 검색을 수행하여 보다 정확하고 관련성 높은 결과를 얻을 수 있습니다. 시맨틱 벡터 검색 기능은 단어 뿐만 아니라 구문도 벡터로 표현할 수 있으므로, 일반 검색어보다 사용자의 의도를 더 잘 이해합니다. 

유사성 검색 및 애플리케이션: 고급 이미지 및 음성 인식, 자연어 처리 등을 포함한 콘텐츠 검색을 위해 유사한 이미지, 텍스트, 오디오 또는 비디오 데이터를 쉽게 찾을 수 있습니다. 

추천 엔진: 예를 들어, 전자 상거래 사이트는 벡터 데이터베이스와 벡터를 사용하여 고객 선호도와 제품 속성을 표시할 수 있습니다. 이를 통해 벡터 유사성을 기반으로 고객이 과거에 구매한 것과 유사한 상품을 제안하여 사용자 경험을 개선하고 유지율을 높일 수 있습니다.

대화형 AI: 관련 지식 기반을 효율적이고 정확하게 구문 분석하여 사용자 쿼리에 대한 실시간 컨텍스트 답변을 제공하고, 참조용 소스 문서 및 페이지 번호를 제공하는 기능을 개선해 가상 에이전트의 상호 작용을 향상합니다. 

벡터 데이터베이스 기능
watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오로서 기존의 머신 러닝, 그리고 파운데이션 모델 기반의 새로운 생성형 AI 기능을 모두 구축, 훈련, 검증, 조정 및 배포할 수 있습니다. 검색 증강 생성과 같은 watsonx.ai의 AI 작업을 통해 광범위한 내부 또는 외부 지식 기반에서 Q&A 리소스를 구축합니다.

더 알아보기

watsonx.data

오픈 데이터 레이크하우스 아키텍처를 기반으로 구축된 목적에 맞는 데이터 저장소로, 어디서나 모든 데이터에 대해 AI 워크로드를 확장할 수 있습니다. 통합 벡터 기능을 통해 watsonx.data에 벡터 임베딩을 저장, 쿼리 및 검색합니다(2023년 4분기 기술 프리뷰 예정).

더 알아보기

IBM Cloud Databases for PostgreSQL-

서비스형 PostgreSQL 데이터베이스 제품을 사용하면 고가용성, 백업 오케스트레이션, 특정 시점 복구(PITR), 읽기 복제본을 쉽게 구축할 수 있어 팀에서 구축에 더 많은 시간을 할애할 수 있습니다. PostgreSQL은 벡터 유사성 검색 기능을 갖춘 오픈 소스 벡터 확장 프로그램인 pgvector를 제공하며, 이 확장 프로그램은 IBM Cloud PostgreSQL 확장 프로그램(곧 출시 예정)과 함께 구성할 수 있습니다.

더 알아보기
IBM Cloud Databases for Elasticsearch

Elasticsearch 서비스형 데이터베이스는 전체 텍스트 검색 엔진과 함께 제공되므로 비정형 텍스트 데이터에 안성맞춤입니다. Elasticsearch는 또한 다양한 형태의 시맨틱(ibm.com 외부 링크) 유사성 검색을 지원합니다. 가장 가까운 이웃을 정확히 검색하기 위해 고밀도 벡터(ibm.com 외부 링크)를 지원하지만, 희소 벡터를 계산하고 고급 유사성 검색(ibm.com 외부 링크)을 수행할 수 있는 기본 제공 AI 모델도 제공합니다.

더 알아보기
벡터 데이터베이스 리소스 파운데이션 모델과 데이터 저장소로 생성형 AI의 잠재력 실현

생성형 AI 모델을 올바르게 활용하는 조직은 운영 효율성 증대, 의사 결정 개선, 신속한 마케팅 콘텐츠 제작 등 다양한 장점을 누릴 수 있습니다.

IBM에서 개발한 엔터프라이즈급 watsonx Granite 모델 사용 가능

IBM은 생성형 AI를 비즈니스 애플리케이션 및 워크플로우에 투입하기 위해 생성형 AI 모델 모음인 watsonx Granite 모델 시리즈의 첫 모델의 정식 출시를 발표했습니다.

검색 증강 생성(Retrieval-Augmented Generation)이란 무엇인가요?

RAG는 외부 지식 기반에서 사실을 검색하여 가장 정확한 최신 정보를 바탕으로 LLM을 생성하고, 사용자에게 LLM의 생성 프로세스에 대한 인사이트를 제공하는 AI 프레임워크입니다.

다음 단계 안내

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai 살펴보기 라이브 데모 예약하기
각주

1 Gartner 혁신 인사이트: 벡터 데이터베이스 (ibm.com 외부 링크), Gartner 계정 필요), Gartner

2 Gartner 2022 스토리지 전략 로드맵 (ibm.com 외부 링크), Gartner 계정 필요), Gartner