[RAG] RAG 시스템에서 BM25를 사용한 벡터 DB 구현하기
·
AI/ML/RAG
1. BM25 검색의 기본 원리RAG(Retrieval-Augmented Generation) 시스템에서 가장 널리 사용되는 키워드 기반 검색 알고리즘 중 하나가 BM25(Best Matching 25)입니다. BM25는 TF-IDF(Term Frequency-Inverse Document Frequency)를 개선한 알고리즘으로, 문서 길이를 고려하여 더욱 정교한 키워드 매칭을 가능하게 합니다.BM25의 주요 특징TF-IDF를 기반으로 한 향상된 키워드 검색 성능문서 길이에 따른 정규화 지원여기서 각 파라미터의 의미는:IDF(qi): 역문서 빈도f(qi,D): 문서 D에서 단어 qi의 출현 빈도|D|: 문서 D의 길이avgdl: 평균 문서 길이k1: 항 빈도에 대한 가중치 (일반적으로 1.2~2.0)b..