기본 콘텐츠로 건너뛰기 보완적인 콘텐츠로 건너뛰기

데이터 레이크에 데이터 랜딩

데이터 레이크의 데이터 랜딩 작업을 설정하여 데이터를 다음 대상에 전달할 수 있습니다.

  • Amazon S3

    Amazon S3에 대한 연결 구성에 대한 자세한 내용은 Amazon S3을 참조하십시오.

  • Azure Data Lake Storage

    Azure Data Lake Storage에 대한 연결 구성에 대한 자세한 내용은 Azure Data Lake Storage를 참조하십시오.

  • Google 클라우드 저장소

    Google 클라우드 저장소 연결 구성에 대한 자세한 내용은 Google 클라우드 저장소를 참조하십시오.

팁 메모작업 설정 마법사에서 소스 및 대상 연결 데이터 레이크의 데이터 랜딩 설정을 구성할 수 있지만 설정 절차를 간소화하려면 작업을 만들기 전에 이 작업을 수행하는 것이 좋습니다.

데이터 소스 연결 구성에 대한 자세한 내용은 데이터 소스에 연결을 참조하십시오.

데이터 레이크 랜딩 작업을 설정하려면:

  1. 오른쪽 위에 있는 새로 추가 버튼을 클릭한 다음 드롭다운 메뉴에서 데이터 프로젝트 만들기를 선택합니다.

  2. 새 데이터 프로젝트 대화 상자에서 다음을 수행합니다.

    1. 프로젝트의 이름을 제공합니다.

    2. 프로젝트를 만들 공간을 선택합니다.
    3. 선택적으로 설명을 제공합니다.
    4. 사용 사례복제를 선택합니다.
    5. 선택적으로, 설정을 구성하지 않고 빈 프로젝트를 만들려면 열기 확인란을 선택 해제합니다.
    6. 만들기를 클릭합니다.

      다음 중 하나가 발생합니다.

      • 새 데이터 프로젝트 대화 상자에서 열기 확인란을 선택한 경우(기본값) 프로젝트가 열립니다.
      • 새 데이터 프로젝트 대화 상자에서 열기 확인란을 선택 해제하면 프로젝트가 프로젝트 목록에 추가됩니다. 나중에 프로젝트의 메뉴에서 열기를 선택하여 프로젝트를 열 수 있습니다.
  3. 프로젝트가 열린 후 데이터 레이크의 데이터 랜딩을 클릭합니다.

    데이터 레이크의 데이터 랜딩 마법사가 열립니다.

  4. 일반 탭에서 데이터 레이크 랜딩 작업의 이름과 설명을 지정합니다. 그런 다음 다음을 클릭합니다.

    정보 메모슬래시(/) 또는 백슬래시(\) 문자가 포함된 이름은 지원되지 않습니다.
  5. 소스 연결 선택 탭에서 소스 데이터에 대한 연결을 선택합니다. 선택적으로 작업 열의 메뉴에서 편집을 선택하여 연결 설정을 편집할 수 있습니다.

    아직 소스 데이터에 대한 데이터 연결이 없으면 탭 오른쪽 위에 있는 연결 만들기를 클릭하여 먼저 연결을 만들어야 합니다.

    왼쪽의 필터를 사용하여 연결 목록을 필터링할 수 있습니다. 소스 유형, 게이트웨이, 공간 및 소유자에 따라 연결을 필터링할 수 있습니다. 연결 목록 위의 모든 필터 버튼은 현재 필터의 수를 표시합니다. 이 버튼을 사용하여 왼쪽의 필터 패널을 닫거나 열 수 있습니다. 현재 활성 필터는 사용할 수 있는 데이터 연결 목록 위에도 표시됩니다.

    오른쪽 드롭다운 목록에서 마지막으로 수정한 날짜, 마지막으로 만든 날짜, 또는 사전순을 선택하여 목록을 정렬할 수도 있습니다. 정렬 순서를 변경하려면 목록 오른쪽에 있는 화살표를 클릭합니다.

    데이터 소스 연결을 선택한 후 선택적으로 탭 오른쪽 위에 있는 연결 테스트를 클릭하고(권장), 다음을 클릭합니다.

  6. 데이터 집합 선택 탭에서 데이터 레이크 랜딩 작업에 포함할 테이블 및/또는 뷰를 선택합니다. 또한 데이터베이스에서 데이터 선택에 설명된 대로 와일드카드를 사용하고 선택 규칙을 만들 수도 있습니다.

    정보 메모슬래시(/) 또는 백슬래시(\) 문자가 포함된 스키마 이름이나 테이블 이름은 지원되지 않습니다.
  7. 대상 연결 선택 탭의 사용할 수 있는 연결 목록에서 대상을 선택한 후 다음을 클릭합니다. 기능적인 측면에서는 앞서 설명한 소스 연결 선택 탭과 동일합니다.

  8. 설정 탭에서 선택적으로 다음 설정을 변경한 후 다음을 클릭합니다.

    • 데이터 변경 내용 캡처(CDC): 데이터 레이크 랜딩 작업은 전체 로드로 시작됩니다(선택한 모든 테이블이 랜딩되는 동안). 랜딩된 데이터는 CDC(데이터 변경 내용 캡처) 기술을 사용하여 최신 상태로 유지됩니다.

      정보 메모DDL 작업의 CDC(데이터 변경 내용 캡처)는 지원되지 않습니다.
    • 다시 로드: 선택한 소스 테이블의 데이터를 대상 플랫폼으로 전체 로드하고 필요한 경우 대상 테이블을 만듭니다. 전체 로드는 작업이 시작될 때 자동으로 발생하지만 수동으로 수행하거나 필요에 따라 주기적으로 발생하도록 예약할 수도 있습니다.

    데이터 변경 내용 캡처(CDC)를 선택하고 데이터에 CDC를 지원하지 않는 테이블이나 뷰도 포함되어 있는 경우 두 개의 데이터 파이프라인이 만들어집니다. CDC를 지원하는 모든 테이블이 포함된 하나의 파이프라인과 다시 로드를 사용하는 다른 모든 테이블 및 뷰가 포함된 또 다른 파이프라인입니다.

    파일을 쓰려는 버킷 폴더에 따라 다음 중 하나를 선택합니다.

    • 기본 폴더: 기본 폴더 형식은 <프로젝트 이름>/<작업 이름>입니다.
    • 루트 폴더: 파일을 버킷에 직접 기록합니다.
    • 폴더: 폴더 이름을 입력합니다. 폴더가 없는 경우 데이터 레이크 랜딩 작업 중에 폴더가 만들어집니다.

      정보 메모 폴더 이름에는 특수 문자(예: @, #, ! 등)를 포함할 수 없습니다.
  9. 요약 탭에는 데이터 파이프라인이 시각적으로 표시됩니다. <name> 작업 열기 또는 아무 작업도 하지 않음 중에서 선택합니다. 그런 다음 만들기를 클릭합니다.

    선택에 따라 작업이 열리거나 프로젝트 목록이 표시됩니다.

  10. 작업 열기를 선택한 경우 데이터 집합 탭에 선택한 데이터 자산 테이블의 구조와 메타데이터가 표시됩니다. 여기에는 명시적으로 나열된 모든 테이블과 선택 규칙과 일치하는 테이블이 포함됩니다.

    데이터 소스에서 더 많은 테이블을 추가하려면 소스 데이터 선택을 클릭합니다.

  11. 선택 사항으로 데이터 레이크에 랜딩 설정에 설명된 대로 작업 설정을 변경합니다.

  12. 데이터 집합에서 변환을 수행하거나 데이터를 필터링하거나 열을 추가할 수 있습니다.

    자세한 내용은 데이터 집합 관리을 참조하십시오.

  13. 원하는 변환을 추가했으면 데이터 집합 유효성 검사를 클릭하여 데이터 집합의 유효성을 검사할 수 있습니다. 유효성 검사에 실패하면 계속 진행하기 전에 오류를 해결합니다.

    자세한 내용은 데이터 집합 유효성 검사 및 조정을 참조하십시오.

  14. 준비가 되면 준비를 클릭하여 랜딩 작업을 분류하고 실행을 준비합니다.

  15. 데이터 작업이 준비되면 실행을 클릭합니다.

  16. 이제 데이터 레이크 랜딩 작업이 시작됩니다. 모니터링 보기에서 진행률을 모니터링할 수 있습니다. 자세한 내용은 개별 데이터 작업 모니터링를 참조하십시오.

데이터 집합의 로드 우선 순위 설정

각 데이터 집합에 로드 우선 순위를 할당하여 데이터 작업에서 데이터 집합의 로드 순서를 제어할 수 있습니다. 예를 들어, 큰 데이터 집합보다 작은 데이터 집합을 로드하려는 경우에 유용할 수 있습니다.

  1. 로드 우선 순위를 클릭합니다.

  2. 각 데이터 집합의 로드 우선 순위를 선택합니다.

    기본 로드 우선 순위는 보통입니다. 데이터 집합은 다음 우선 순위에 따라 로드됩니다.

    • 가장 높음

    • 보다 높음

    • 높음

    • 기본

    • 낮음

    • 보다 낮음

    • 가장 낮음

    우선 순위가 동일한 데이터 집합은 특별한 순서 없이 로드됩니다.

  3. 확인을 클릭합니다.

정보 메모SaaS 응용 프로그램 소스의 데이터 집합에는 로드 순서에 따른 종속성이 포함될 수 있습니다. 로드 우선 순위를 설정할 때 이를 고려합니다.

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 개선 방법을 알려 주십시오!