파일 기반 지식 마트 만들기

파일 기반 지식 마트를 사용하면 구조화되지 않은 데이터를 벡터 데이터베이스에 포함하고 저장할 수 있습니다. 이를 통해 증강된 컨텍스트를 의미 체계 검색 기능을 통해 검색할 수 있으며, 이를 RAG(Retrieval Augmented Generation) 응용 프로그램의 컨텍스트로 사용할 수 있습니다.

지원되는 입력 형식은 PDF, TXT 및 Word DOCX입니다.

요구 사항

Qlik Talend Cloud Enterprise 구독이 필요합니다.
Snowflake 및 Databricks 플랫폼에서 지원됩니다. Snowflake Iceberg는 지원되지 않습니다.
고객 관리 데이터 게이트웨이가 필요합니다.

Databricks에는 Qlik Data Gateway - Data Movement 버전 2024.11.95 이상이 필요합니다.

Qlik Data Gateway - Data Movement 설치

파일 기반 지식 마트를 만들기 전에 특정 Qlik Data Gateway - Data Movement를 설치해야 합니다. 자세한 내용은 지식 마트를 위한 Qlik Data Gateway - Data Movement 설정을 참조하십시오.

지원되는 연결

지원되는 항목에 대한 정보:

벡터 데이터베이스는 벡터 데이터베이스에 연결을 참조하십시오.
LLM 연결은 LLM 연결에 연결을 참조하십시오.
파일 저장소는 파일 저장소에 연결을 참조하십시오.
클라우드 스토리지(Amazon S3, Google Cloud Storage, Azure Data Lake Storage)는 클라우드 저장소에 연결 중을 참조하십시오.

파일 만들기

왼쪽 메뉴에서 파이프라인 프로젝트를 클릭하고 프로젝트를 엽니다.
파이프라인 프로젝트 페이지에서 파일 기반 지식 마트를 만들 수 있습니다. 다음 중 하나를 실행합니다.
- 새로 만들기 > 파일 기반 지식 마트를 클릭합니다.
- 데이터 작업의 > 파일 기반 지식 마트를 클릭합니다.
구성 창이 열립니다.
이름을 입력하십시오.
설명을 입력하십시오. 이는 선택 사항입니다.
소스 연결을 만들거나 선택합니다.
벡터 저장 위치 드롭다운 목록에서 문서를 저장할 위치를 선택합니다. 프로젝트와 함께 문서를 저장하려면 데이터 프로젝트 플랫폼을 선택합니다.
외부 벡터 데이터베이스를 선택한 경우 벡터 데이터베이스 연결을 만들거나 선택합니다. 문서와 벡터는 이 벡터 데이터베이스에 저장됩니다.
LLM 연결을 만들거나 선택합니다. 의미 체계 검색을 사용하려면 이러한 연결이 필요합니다.
만들기를 클릭합니다.
지식 마트가 만들어지면 문서를 추가합니다.

파일 추가

문서에는 텍스트만 기록됩니다. 다이어그램이나 이미지의 텍스트는 추출되지 않습니다.

데이터 작업 페이지의 폴더 탭에서 폴더를 선택하거나 폴더 선택을 클릭하여 새 폴더를 선택합니다.
폴더를 찾아 폴더의 확인란을 선택합니다.
파일이 폴더에 언제 추가되었는지에 관계없이 지원되는 형식 중 하나라면 해당 폴더에 있는 모든 파일을 읽을 수 있습니다.
폴더에서 인덱스에 이미 존재하는 파일을 삭제하더라도 데이터는 인덱스에 그대로 남아 있습니다. 인덱스에서 데이터를 제거하려면 같은 파일을 사용하지만 비어 있는 파일을 사용합니다.
폴더에 있는 파일 목록을 표시하려면 해당 폴더를 마우스 오른쪽 버튼으로 클릭합니다.
저장을 클릭하여 폴더 선택 창을 닫습니다.
청크 크기, 청크 중첩을 편집하려면 설정 > 런타임을 클릭합니다.
인덱스 이름을 편집하려면 설정 > 벡터 데이터베이스 설정을 클릭합니다.
자세한 내용은 인덱스 이름을 참조하십시오.
오른쪽의 > 준비를 클릭합니다.
준비가 완료되면 실행을 클릭합니다. 문서가 포함되고 전송됩니다.
실행 버튼이 활성화되면 전송이 완료됩니다.
첫 번째 전체 로드 시 각 파일의 상태를 확인합니다.
1. 메뉴에서 모니터를 선택합니다.
2. 페이지 하단에서 전체 로드 상태를 선택합니다.
3. 일부 파일이 실패한 경우 모든 것을 다시 실행하기 전에 오류를 수정하거나 해당 파일을 삭제합니다. 파일을 오류 상태로 유지하면 다음 실행이 실패합니다.
정보 메모모든 파일을 다시 로드하면 추가 비용이 발생할 수 있습니다.

파일이 정확하다면 데이터에 대한 질문을 할 수 있습니다. 자세한 내용은 테스트 지원 사용을 참조하십시오.

전체 로드 및 데이터 변경 내용 캡처(CDC)

최대 로드와 CDC가 지원됩니다.

전체 로드: 각 문서 인스턴스에 대해 문서가 생성되어 대상으로 전송됩니다.

CDC: 변경 내용이 있으면 문서가 다시 생성됩니다.

파일이 변경되거나 추가되면 이 파일에서 문서를 읽습니다. 파일은 청크 크기와 중첩에 따라 청크 문서로 분할됩니다.

첫 번째 전체 로드 시 각 파일의 상태를 확인합니다.

메뉴에서 모니터를 선택합니다.
페이지 하단에서 전체 로드 상태를 선택합니다.
일부 파일이 실패한 경우 모든 것을 다시 실행하기 전에 오류를 수정하거나 해당 파일을 삭제합니다. 파일을 오류 상태로 유지하면 다음 실행이 실패합니다.

모든 파일을 다시 로드하면 추가 비용이 발생할 수 있습니다.

입력 데이터 업데이트

입력 데이터를 업데이트할 때는 데이터 작업을 실행하여 변경 내용을 벡터 데이터베이스나 데이터 플랫폼으로 전송해야 합니다.

이전 청크가 삭제되고 새 청크가 삽입되면 필드 hdr__operation은 업데이트 작업이 아닌 삽입 작업에 해당합니다. 자세한 내용은 클라우드 데이터웨어하우스의 데이터 집합 아키텍처를 참조하십시오.

인덱스 이름

각 지식 마트에는 의미 체계 검색에 사용되는 인덱스 이름이 있습니다.

동일한 인덱스에 쓰기 위해 작업을 구성하는 경우 해당 작업에 대해 동일한 LLM 매개 변수를 구성해야 합니다.

문서를 동일한 인덱스에 포함하려면 인덱스 이름이 동일해야 합니다.

인덱스 이름을 편집하려면:

데이터 작업 페이지에서 설정을 클릭합니다.
벡터 데이터베이스 설정 탭을 선택합니다.
인덱스 이름을 편집합니다.
확인을 클릭합니다.

인덱스 이름을 편집한 후에는 작업을 준비해야 합니다. 그렇지 않으면 변경 내용이 다음 실행에 적용되지 않습니다.

작업 정보 보기

메뉴 막대에서 를 클릭하여 작업 정보를 볼 수 있습니다(예:).

소유자
공간
데이터 플랫폼
프로젝트 ID
데이터 작업 런타임 ID

설정

지식 마트의 설정을 보고 편집할 수 있습니다.

데이터 작업 페이지에서 > 설정을 클릭합니다.

설정은 저장소(Databricks, Snowflake 등)에 따라 달라지므로, 다음 표에서는 항상 사용할 수 있는 설정을 설명합니다. 더 많은 설정을 사용할 수 있습니다.

이 표에서는 연결 탭의 설정을 설명합니다.
설정	설명
소스 연결	소스 연결.
벡터 저장 위치	드롭다운 목록에서 다음을 선택합니다. 외부 벡터 데이터베이스 데이터 프로젝트 플랫폼
벡터 데이터베이스 연결 이 설정은 벡터 저장에 대해 외부 벡터 데이터베이스가 선택된 경우 사용할 수 있습니다.	벡터 데이터베이스 연결. 자세한 내용은 벡터 데이터베이스에 연결을 참조하십시오.
LLM 연결	LLM 연결. 자세한 내용은 LLM 연결에 연결을 참조하십시오. Databricks를 LLM 연결로 사용하려면 지식 마트를 만들 때 포함 모델 제공 종료 지점과 완료 모델 제공 종료 지점을 구성합니다. 자세한 내용은 Databricks 설명서를 참조하십시오.

이 표에서는 플랫폼 설정 탭의 설정을 설명합니다.
설정	설명
데이터 작업 스키마	데이터 작업 스키마의 이름.
내부 스키마	내부 스키마의 이름.
모든 테이블 및 보기에 대한 접두사	여러 데이터 작업 간의 충돌을 해결하기 위한 접두사.

이 표에서는 벡터 데이터베이스 설정 탭의 설정을 설명합니다.
설정	설명
인덱스 스키마 벡터 저장에 대해 외부 벡터 데이터베이스가 선택된 경우 이 설정을 사용할 수 없습니다.	인덱스 스키마의 이름.
인덱스 이름	인덱스의 이름.
인덱스가 이미 존재하는 경우	여러 작업이 동일한 인덱스에 쓰는 경우 인덱스를 삭제해야 할지 여부를 선택합니다. 기존 인덱스 사용: 인덱스가 삭제되지 않습니다. 인덱스 삭제 및 만들기: 인덱스가 삭제됩니다.
Databricks 벡터 검색 종료 지점	Databricks에서 생성된 벡터 검색 엔드포인트의 이름입니다. 자세한 내용은 지식 마트를 위한 Databricks 구성 을 참조하십시오. 정보 메모Databricks를 데이터 플랫폼으로 사용하는 프로젝트에만 적용됩니다.

이 표에서는 런타임 탭의 설정을 설명합니다.
설정	설명
병렬 실행	데이터베이스 연결의 최대 수. 1~50 사이의 값을 입력합니다.
대량 크기	지식 마트의 경우 대량 크기는 각 대량 요청에 로드된 문서의 수입니다. 파일 기반 지식 마트의 경우 대량 크기는 각 대량 요청에 로드된 파일 수입니다. Snowflake 및 Databricks에서는 모든 것이 하나의 쿼리로 로드되므로 대량 크기가 필요하지 않습니다.
로드할 최대 레코드 수	0은 모든 레코드가 로드되었음을 의미합니다.

이 표에서는 Snowflake의 뷰 탭 설정을 설명합니다.
설정	설명
표준 보기	표준 뷰를 사용하면 쿼리 결과를 마치 테이블처럼 표시할 수 있습니다.
Snowflake 보안 보기	기본 테이블의 모든 사용자에게 노출되어서는 안 되는 중요한 데이터에 대한 액세스를 제한하기 위해 만든 보기 등, 데이터 개인정보 보호 또는 중요한 정보 보호를 위해 지정된 보기에는 Snowflake 보안 보기를 사용합니다. Snowflake 보안 보기는 표준 보기보다 실행 속도가 느릴 수 있습니다.

이 표에서는 테스트 도우미 탭의 설정을 설명합니다.
설정	설명
컨텍스트 내 문서 수	컨텍스트로 모델에 전달될 관련 문서의 수.
프롬프트 템플릿	AI가 포함할 문서를 필터링하기 위해 따라야 하는 템플릿을 입력합니다.
필터	포함할 문서를 필터링하기 위한 표현식을 입력합니다. 필터는 메타데이터를 기반으로 하지만 파일 기반 지식 마트에는 메타데이터가 없으므로 구성하는 필터를 신중하게 고려합니다. 데이터를 포함하는 것보다 제외하는 것이 더 적절할 수도 있습니다. 자세한 내용은 테스트 지원 사용을 참조하십시오.
문서 검색	드롭다운 목록에서 옵션을 선택합니다. 검색된 컨텍스트 표시: 테스트 지원은 답변을 생성한 문서를 제공합니다. 검색된 컨텍스트 표시 안 함: 테스트 지원은 답변을 생성하지만 문서를 제공하지 않습니다.
답변 생성	드롭다운 목록에서 옵션을 선택합니다. 답변 생성: 테스트 지원자는 문서를 기반으로 답변을 생성합니다. 답변을 생성하지 않음: 테스트 지원은 문서만으로 답변합니다.

연결 또는 데이터 게이트웨이 변경

소스 연결, 벡터 연결 또는 벡터 데이터 게이트웨이를 변경하는 경우 작업을 다시 준비해야 합니다.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!

여기에 피드백을 남겨주십시오.