https://youtu.be/vwp-HvPtcJM

1. 벡터 데이터베이스 개요

텍스트, 이미지, 오디오 등 다양한 형태의 데이터를 고차원 벡터 공간에 임베딩하여 저장하고, 이를 기반으로 유사성 검색을 효율적으로 수행할 수 있도록 설계된 특수한 유형의 데이터베이스

핵심개념 벡터 임베딩 (Vector Embedding) - 텍스트나 이미지와 같은 데이터를 의미론적 또는 시각적 특징을 담고 있는 실수 값의 배열(벡터)로 변환하는 과정
유사성 검색 (Similarity Search) - 주어진 벡터와 의미적으로 유사하거나 시각적으로 유사한 벡터들을 데이터베이스에서 찾는 과정임. 이는 벡터 간의 거리(예: 코사인 유사도, 유클리드 거리)를 측정하여 이루어짐
등장배경 추천시스템 요구 증가 - 전통적인 키워드 기반 검색 방식의 한계를 극복하고, 의미 기반의 검색 및 추천 시스템 구축에 대한 요구가 증가하면서 주목받기 시작함
딥러닝 기술 발전 - 특히 딥러닝 기술의 발전으로 고품질의 벡터 임베딩 생성이 가능해짐에 따라 그 중요성이 더욱 커지고 있음

<aside>

예시

아버지 --> [0.15, -0.23, 0.87, 0.05, -0.51, ..., 0.33]

다른 단어와의 관계

"아버지"와 의미가 비슷한 단어("아빠", "가장")는 벡터 공간에서 "아버지" 벡터와 가까운 거리에 위치할 가능성이 높습니다. 반대로, 의미가 먼 단어("사과", "자동차")는 더 멀리 떨어져 있을 것입니다.

예를 들어:

아빠 --> [0.18, -0.20, 0.82, 0.08, -0.48, ..., 0.30] (아버지와 유사한 벡터) 사과 --> [-0.75, 0.31, 0.12, -0.63, 0.91, ..., -0.22] (아버지와 거리가 먼 벡터)

</aside>

2. 구조 및 동작 방식

IMG_0902.jpeg

벡터 데이터베이스의 구조와 동작 방식은 다음과 같은 주요 요소들을 중심으로 이루어짐.

3. 활용 사례

벡터 데이터베이스는 다양한 분야에서 혁신적인 활용 사례를 만들어내고 있음.