지식 마트 만들기
지식 마트를 만들면 구조화된 데이터와 구조화되지 않은 데이터를 벡터 데이터베이스에 포함하고 저장할 수 있습니다. 이를 통해 증강된 컨텍스트를 의미 체계 검색 기능을 통해 검색할 수 있으며, 이를 RAG(Retrieval Augmented Generation) 응용 프로그램의 컨텍스트로 사용할 수 있습니다.
RAG는 쿼리를 통해 LLM에 추가적인 컨텍스트를 제공하여 LLM 출력을 최적화합니다.
요구 사항
-
Qlik Talend Cloud 엔터프라이즈 구독이 필요합니다.
-
Snowflake 및 Databricks 플랫폼에서 지원됩니다. Snowflake Iceberg는 지원되지 않습니다.
-
고객 관리 데이터 게이트웨이가 필요합니다.
Databricks에는 Qlik 데이터 게이트웨이 - 데이터 이동 버전 2024.11.95 이상이 필요합니다.
Qlik 데이터 게이트웨이 - 데이터 이동 설치
지식 마트를 사용하려면 벡터 데이터베이스와 LLM 연결에 연결해야 하며 이를 위해서는 특정 Qlik 데이터 게이트웨이 - 데이터 이동를 설치해야 합니다. 자세한 내용은 지식 마트를 위한 Qlik 데이터 게이트웨이 - 데이터 이동 설정을 참조하십시오.
로그 보기 및 다운로드
지식 마트에 대한 로그를 보고 다운로드할 수 있습니다. 자세한 내용은 문제 해결 데이터 이동 게이트웨이을 참조하십시오.
전제 조건
다음 유형의 데이터 작업을 지식 마트의 소스로 사용할 수 있습니다.
-
저장소
-
변환
지식 마트를 만들기 전에 소스 데이터 작업에서 다음을 수행해야 합니다.
- 지식 마트에 사용할 데이터로 데이터 집합을 채웁니다. 자세한 내용은 데이터 웨어하우스로 데이터 온보딩을 참조하십시오.
-
데이터 집합 관계형 모델을 만들어 소스 데이터 집합 간의 관계를 정의합니다. 자세한 내용은 데이터 모델 만들기을 참조하십시오.
경고 메모모든 소스 데이터 집합에는 키가 있어야 합니다.
지식 마트를 위한 Databricks 구성
Databricks를 데이터 플랫폼으로 사용하는 경우 지식 마트를 만들려면 Databricks에서 일부 구성을 수행해야 합니다.
-
Databricks에서 SQL 웨어하우스를 만듭니다. 서버리스 컴퓨팅을 사용하는 것이 좋습니다.
또한 저장소 통합을 활성화하려면 SQL 웨어하우스 및 서버리스 컴퓨팅에 대한 데이터 보안을 구성해야 합니다.
-
벡터 검색에서 종료 지점을 만듭니다. 지식 마트 작업의 벡터 데이터베이스 설정에서 이 종료 지점의 이름을 참조하십시오.
성능 요구 사항에 따라 유형을 선택합니다. 대부분의 사용 사례에는 표준이 적합합니다.
필요한 경우 비용 특성을 위한 태그를 연결하기 위해 서버리스 사용 정책을 정의합니다.
-
제공에서 Databricks 모델을 구성합니다.
제공 종료 지점에서 Databricks에서 제공하는 LLM 포함 및 채팅 모델을 사용할 수 있습니다. 데이터 파이프라인에 사용할 모델을 반드시 확인합니다.
사용자 지정 모델에 대한 제공 종료 지점을 만들거나 OpenAI 또는 Azure OpenAI와 같은 기반 모델을 사용할 수도 있습니다.
포함 모델: databricks-gte-large-en
채팅/완료 모델: databricks-meta-llama-3-1-405b-instruct
제한 사항
다음 조건을 모두 충족하는 소스 데이터 집합을 사용하는 경우 제한 사항이 있습니다.
-
SQL 변환 또는 변환 흐름에 의해 만들어짐
-
구체화되지 않음
-
역사 데이터 저장소(유형 2)가 끄기
이러한 데이터 집합은 효율성과 비용에 영향을 미칠 수 있는 모든 실행 시 업데이트되는 것으로 간주됩니다. 다음을 통해 이 문제를 완화할 수 있습니다.
-
구체화할 소스 데이터 집합 변경.
-
명시적 데이터 집합 변환 사용.
-
여러 데이터 집합을 변환하는 전역 규칙 만들기.
지원되는 인코딩 형식
파일은 UTF-8로 올바르게 인코딩되어야 합니다. 다른 형식은 잘못 해석될 수 있습니다.
지원되는 문자
파일 및 폴더 이름에는 다음 문자가 포함될 수 있습니다.
- [0-9], [a-Z], [A-Z]
- ! - _ . * '()
다른 특수 문자가 지원될 수도 있지만, 특수 문자 처리가 중요하므로 위 목록에 있는 문자만 사용하는 것이 좋습니다.
관계
-
두 개의 데이터 집합에서 데이터를 연관시키는 것은 불가능합니다. 데이터 모델에서 관계를 정의하는 변환 작업을 만들고, 변환 작업을 해당 작업의 소스로 사용합니다.
-
데이터 모델에서 두 개의 데이터 집합이 관련되어 있는 경우, 두 데이터 집합 중 하나만 선택하더라도 작업에서 두 데이터 집합을 모두 사용할 수 있습니다.
연결 또는 데이터 게이트웨이 변경
벡터 연결이나 벡터 데이터 게이트웨이를 변경하는 경우 작업을 다시 준비해야 합니다.
문제 해결
OneDrive로 이동된 파일은 파일 지식 마트에서 인식되지 않습니다.
가능한 원인
이전 파일 만들기 및 수정 날짜를 보존하는 옵션을 사용하여 파일을 OneDrive로 이동하거나 동기화하는 경우, 해당 파일은 새 파일로 인식되지 않습니다.
제안 조치
파일 수정 날짜를 현재 날짜로 변경합니다.
Pinecone 사용 시 런타임 오류 발생
가능한 원인
Pinecone은 메타데이터 열의 NULL 값을 지원하지 않습니다. 결과적으로 런타임 오류가 발생합니다.
제안 조치
-
지식 마트 이전의 변환에서 NULL 값을 다른 값(예: 빈 문자열이나 NULL이라는 단어)으로 변환합니다.
-
다른 벡터 데이터베이스를 사용합니다.
-
열을 메타데이터로 사용하지 마십시오.