기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

파일 기반 지식 마트 만들기

파일 기반 지식 마트를 사용하면 구조화되지 않은 데이터를 벡터 데이터베이스에 포함하고 저장할 수 있습니다. 이를 통해 증강된 컨텍스트를 의미 체계 검색 기능을 통해 검색할 수 있으며, 이를 RAG(Retrieval Augmented Generation) 응용 프로그램의 컨텍스트로 사용할 수 있습니다.

지원되는 입력 형식은 PDF, TXT 및 Word DOCX입니다.

정보 메모Qlik Talend Cloud 엔터프라이즈 구독이 필요합니다.
정보 메모이 기능은 Snowflake 플랫폼과 고객 관리 데이터 게이트웨이에서만 지원됩니다.

Qlik Data Gateway - Data Movement 설치

파일 기반 지식 마트를 만들기 전에 특정 Qlik Data Gateway - Data Movement를 설치해야 합니다. 자세한 내용은 지식 마트를 위한 Qlik Data Gateway - Data Movement 설정을 참조하십시오.

지원되는 연결

지원되는 항목에 대한 정보:

파일 만들기

  1. 왼쪽 메뉴에서 프로젝트를 클릭하고 프로젝트를 엽니다.
  2. 프로젝트 페이지에서 파일 기반 지식 마트를 만들 수 있습니다. 다음 중 하나를 실행합니다.
    • 새로 만들기 > 파일 기반 지식 마트를 클릭합니다.
    • 데이터 작업의 작업 아이콘 > 파일 기반 지식 마트를 클릭합니다.

    구성 창이 열립니다.

  3. 이름을 입력하십시오.
  4. 설명을 입력하십시오. 이는 선택 사항입니다.
  5. 소스 연결을 만들거나 선택합니다.
  6. 벡터 저장 위치 드롭다운 목록에서 문서를 저장할 위치를 선택합니다. 프로젝트와 함께 문서를 저장하려면 데이터 프로젝트 플랫폼을 선택합니다.

  7. 외부 벡터 데이터베이스를 선택한 경우 벡터 데이터베이스 연결을 만들거나 선택합니다. 문서와 벡터는 이 벡터 데이터베이스에 저장됩니다.
  8. LLM 연결을 만들거나 선택합니다. 의미 체계 검색을 사용하려면 이러한 연결이 필요합니다.
  9. 만들기를 클릭합니다.
  10. 지식 마트가 만들어지면 문서를 추가합니다.

파일 추가

정보 메모문서에는 텍스트만 기록됩니다. 다이어그램이나 이미지의 텍스트는 추출되지 않습니다.
  1. 데이터 작업 페이지의 폴더 탭에서 폴더를 선택하거나 폴더 선택을 클릭하여 새 폴더를 선택합니다.
  2. 폴더를 찾아 폴더의 확인란을 선택합니다.

    파일이 폴더에 언제 추가되었는지에 관계없이 지원되는 형식 중 하나라면 해당 폴더에 있는 모든 파일을 읽을 수 있습니다.

    폴더에서 인덱스에 이미 존재하는 파일을 삭제하더라도 데이터는 인덱스에 그대로 남아 있습니다. 인덱스에서 데이터를 제거하려면 같은 파일을 사용하지만 비어 있는 파일을 사용합니다.

    폴더에 있는 파일 목록을 표시하려면 해당 폴더를 마우스 오른쪽 버튼으로 클릭합니다.

  3. 저장을 클릭하여 폴더 선택 창을 닫습니다.
  4. 청크 크기, 청크 중첩을 편집하려면 설정 > 런타임을 클릭합니다.
  5. 인덱스 이름을 편집하려면 설정 > 벡터 데이터베이스 설정을 클릭합니다.

    자세한 내용은 인덱스 이름을 참조하십시오.

  6. 오른쪽의 작업 아이콘 > 준비를 클릭합니다.
  7. 준비가 완료되면 실행을 클릭합니다. 문서가 포함되고 전송됩니다.

    실행 버튼이 활성화되면 전송이 완료됩니다.

  8. 첫 번째 전체 로드 시 각 파일의 상태를 확인합니다.
    1. 메뉴에서 모니터를 선택합니다.
    2. 페이지 하단에서 전체 로드 상태를 선택합니다.

      모니터의 전체 로드 상태

    3. 일부 파일이 실패한 경우 모든 것을 다시 실행하기 전에 오류를 수정하거나 해당 파일을 삭제합니다. 파일을 오류 상태로 유지하면 다음 실행이 실패합니다.
    정보 메모모든 파일을 다시 로드하면 추가 비용이 발생할 수 있습니다.

파일이 정확하다면 데이터에 대한 질문을 할 수 있습니다. 자세한 내용은 테스트 지원 사용을 참조하십시오.

전체 로드 및 데이터 변경 내용 캡처(CDC)

최대 로드와 CDC가 지원됩니다.

전체 로드: 각 문서 인스턴스에 대해 문서가 생성되어 대상으로 전송됩니다.

CDC: 변경 내용이 있으면 문서가 다시 생성됩니다.

파일이 변경되거나 추가되면 이 파일에서 문서를 읽습니다. 파일은 청크 크기와 중첩에 따라 청크 문서로 분할됩니다.

첫 번째 전체 로드 시 각 파일의 상태를 확인합니다.

  1. 메뉴에서 모니터를 선택합니다.
  2. 페이지 하단에서 전체 로드 상태를 선택합니다.

    모니터의 전체 로드 상태

  3. 일부 파일이 실패한 경우 모든 것을 다시 실행하기 전에 오류를 수정하거나 해당 파일을 삭제합니다. 파일을 오류 상태로 유지하면 다음 실행이 실패합니다.
정보 메모모든 파일을 다시 로드하면 추가 비용이 발생할 수 있습니다.

입력 데이터 업데이트

입력 데이터를 업데이트할 때는 데이터 작업을 실행하여 변경 내용을 벡터 데이터베이스나 데이터 플랫폼으로 전송해야 합니다.

이전 청크가 삭제되고 새 청크가 삽입되면 필드 hdr__operation은 업데이트 작업이 아닌 삽입 작업에 해당합니다. 자세한 내용은 클라우드 데이터웨어하우스의 데이터 집합 아키텍처를 참조하십시오.

인덱스 이름

각 지식 마트에는 의미 체계 검색에 사용되는 인덱스 이름이 있습니다.

동일한 인덱스에 쓰기 위해 작업을 구성하는 경우 해당 작업에 대해 동일한 LLM 매개 변수를 구성해야 합니다.

문서를 동일한 인덱스에 포함하려면 인덱스 이름이 동일해야 합니다.

인덱스 이름을 편집하려면:

  1. 데이터 작업 페이지에서 설정을 클릭합니다.
  2. 벡터 데이터베이스 설정 탭을 선택합니다.
  3. 인덱스 이름을 편집합니다.
  4. 확인을 클릭합니다.

인덱스 이름을 편집한 후에는 작업을 준비해야 합니다. 그렇지 않으면 변경 내용이 다음 실행에 적용되지 않습니다.

설정

지식 마트의 설정을 보고 편집할 수 있습니다.

데이터 작업 페이지에서 > 설정을 클릭합니다.

정보 메모설정은 저장소(Databricks, Snowflake 등)에 따라 달라지므로, 다음 표에서는 항상 사용할 수 있는 설정을 설명합니다. 더 많은 설정을 사용할 수 있습니다.
이 표에서는 연결 탭의 설정을 설명합니다.
설정설명
소스 연결

소스 연결.

벡터 저장 위치

드롭다운 목록에서 다음을 선택합니다.

  • 외부 벡터 데이터베이스
  • 데이터 프로젝트 플랫폼
벡터 데이터베이스 연결

이 설정은 벡터 저장에 대해 외부 벡터 데이터베이스가 선택된 경우 사용할 수 있습니다.

벡터 데이터베이스 연결.

자세한 내용은 벡터 데이터베이스에 연결을 참조하십시오.

LLM 연결LLM 연결.

자세한 내용은 LLM 연결에 연결을 참조하십시오.

Databricks를 LLM 연결로 사용하려면 지식 마트를 만들 때 포함 모델 제공 종료 지점완료 모델 제공 종료 지점을 구성합니다. 자세한 내용은 Databricks 설명서를 참조하십시오.

이 표에서는 플랫폼 설정 탭의 설정을 설명합니다.
설정설명
데이터 작업 스키마데이터 작업 스키마의 이름.
내부 스키마내부 스키마의 이름.
모든 테이블 및 보기에 대한 접두사여러 데이터 작업 간의 충돌을 해결하기 위한 접두사.
이 표에서는 벡터 데이터베이스 설정 탭의 설정을 설명합니다.
설정설명
인덱스 스키마

벡터 저장에 대해 외부 벡터 데이터베이스가 선택된 경우 이 설정을 사용할 수 없습니다.

인덱스 스키마의 이름.
인덱스 이름인덱스의 이름.
인덱스가 이미 존재하는 경우여러 작업이 동일한 인덱스에 쓰는 경우 인덱스를 삭제해야 할지 여부를 선택합니다.
  • 기존 인덱스 사용: 인덱스가 삭제되지 않습니다.
  • 인덱스 삭제 및 만들기: 인덱스가 삭제됩니다.
이 표에서는 런타임 탭의 설정을 설명합니다.
설정설명
병렬 실행

데이터베이스 연결의 최대 수. 

1~50 사이의 값을 입력합니다.

대량 크기지식 마트의 경우 대량 크기는 각 대량 요청에 로드된 문서의 수입니다.

파일 기반 지식 마트의 경우 대량 크기는 각 대량 요청에 로드된 파일 수입니다.

Snowflake에서는 모든 것이 하나의 쿼리로 로드되므로 대량 크기가 필요하지 않습니다.

로드할 최대 레코드 수0은 모든 레코드가 로드되었음을 의미합니다.
이 표에서는 탭의 설정을 설명합니다.
설정 설명
표준 보기 표준 뷰를 사용하면 쿼리 결과를 마치 테이블처럼 표시할 수 있습니다.
Snowflake 보안 보기 기본 테이블의 모든 사용자에게 노출되어서는 안 되는 중요한 데이터에 대한 액세스를 제한하기 위해 만든 보기 등, 데이터 개인정보 보호 또는 중요한 정보 보호를 위해 지정된 보기에는 Snowflake 보안 보기를 사용합니다.

Snowflake 보안 보기는 표준 보기보다 실행 속도가 느릴 수 있습니다.

이 표에서는 테스트 도우미 탭의 설정을 설명합니다.
설정설명
컨텍스트 내 문서 수컨텍스트로 모델에 전달될 관련 문서의 수.
프롬프트 템플릿AI가 포함할 문서를 필터링하기 위해 따라야 하는 템플릿을 입력합니다.
필터포함할 문서를 필터링하기 위한 표현식을 입력합니다.

필터는 메타데이터를 기반으로 하지만 파일 기반 지식 마트에는 메타데이터가 없으므로 구성하는 필터를 신중하게 고려합니다. 데이터를 포함하는 것보다 제외하는 것이 더 적절할 수도 있습니다.

자세한 내용은 테스트 지원 사용을 참조하십시오.

문서 검색드롭다운 목록에서 옵션을 선택합니다.
  • 검색된 컨텍스트 표시: 테스트 지원은 답변을 생성한 문서를 제공합니다.
  • 검색된 컨텍스트 표시 안 함: 테스트 지원은 답변을 생성하지만 문서를 제공하지 않습니다.
답변 생성드롭다운 목록에서 옵션을 선택합니다.
  • 답변 생성: 테스트 지원자는 문서를 기반으로 답변을 생성합니다.
  • 답변을 생성하지 않음: 테스트 지원은 문서만으로 답변합니다.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!