자동 데이터 준비 및 변환

실험을 위해 선택한 데이터 집합은 자동으로 전처리되어 모델 교육을 준비합니다. 전처리 단계에는 데이터 준비 및 변환이 포함됩니다. 이렇게 하면 데이터의 품질이 향상되어 정확한 결과를 생성하는 모델을 제공합니다.

데이터를 전처리하기 위해 다양한 데이터 과학 기술이 사용됩니다. 대부분의 단계는 기본적으로 수행되며 많은 사용 사례에서 잘 작동합니다. 기본 개념과 함께 이러한 기본 단계가 무엇인지 알면 모델 교육에 데이터를 사용하기 전에 특정 사용 사례에 대한 데이터로 무엇을 해야 하는지 이해하는 데 도움이 될 수 있습니다.

실험 설정

전처리가 시작되기 전에 Qlik Predict은 여러 준비 단계를 수행하고 데이터 처리 방법에 대한 미리 보기를 제공합니다. 일부 단계는 실험 유형 및 기타 요인에 따라 달라집니다. 다음 단계가 적용될 수 있습니다:

데이터 집합의 열을 범주형, 숫자형, 날짜 또는 무료 문자 기능 유형으로 분류합니다.
- 부동 소수점, 이중 및 소수 데이터 유형은 항상 숫자로 간주됩니다.
- 평균 50자 미만을 포함하는 문자열 데이터 유형의 열은 범주형으로 분류됩니다.
- 평균 50자 이상의 문자를 포함하는 문자열 데이터 유형의 열은 무료 문자로 분류됩니다. 그러나 현 단계에서는 이러한 열을 무료 문자 기능으로 사용할 수 있다고 보장할 수 없습니다. 추가 요구 사항은 사전 처리 중에 확인됩니다. 전처리 단계을 참조하십시오.
- 정수 데이터 유형은 항상 숫자로 간주됩니다.
- 날짜 및 타임스탬프 데이터 유형은 항상 날짜 기능 유형을 갖는 것으로 간주됩니다. 실험 설정 중에 Qlik Predict은 상위 날짜 기능에서 파생될 수 있는 자동 엔지니어링 기능을 미리 봅니다.
각 열의 희소성, 상수, 높은 집합 크기를 확인합니다. 다음과 같은 경우 열을 제외합니다.
- 열이 50% 이상 null인 경우. 기능을 위한 null 값이 포함된 레코드를 삭제하면 유용한 교육 예가 버려질 수 있습니다. 또는 값을 대체하면 예를 저장할 수 있지만 레코드는 현실의 근사치일 뿐입니다. 따라서 null 값이 많은(50% 이상) 기능을 제외하는 것이 우수한 경우가 많습니다. 0은 null로 간주되지 않습니다.
- 열은 모든 행에서 동일한 값을 갖습니다(상수). 즉, 열의 집합 크기가 낮습니다. 단일 값만 있는 기능에는 예측 값이 없습니다.
- 열은 범주형이며 90% 이상의 고유 값(높은 집합 크기)을 갖습니다. 고유한 값이 너무 많으면 모델이 교육 데이터 집합 이상으로 일반화하기 어렵습니다.

사전 처리가 시작된 후 데이터 처리 방법이 조정될 수 있습니다.

전처리 단계

대상 열을 선택한 후 다음 단계는 실험 유형에 따라 달라집니다. 분류 및 회귀 실험의 경우, 대상 값이 null인 행이 식별되고 분리되어 대상이 훈련 세트로 알려진 행이 남습니다. 시계열 실험의 경우, 누락된 대상 값은 보간됩니다.

교육 데이터 집합의 데이터만 다음 단계에서 결정을 내리는 데 사용됩니다. 단계는 메타데이터와 함께 저장되고 모델이 예측할 새 데이터에 적용됩니다.

새로운 실험 버전을 실행할 때마다 포함된 기능에 대해 사전 처리가 수행됩니다. 일부 단계는 실험 유형 및 기타 요인에 따라 달라집니다.

숫자 값의 평균과 범주 값의 모드를 계산하고 저장합니다.
누락된 값을 대체합니다. 자세한 내용은 null의 대체을 참조하십시오.
범주 변수를 인코딩합니다.
시계열 모델의 경우, 사용자가 구성한 실험 속성을 검증하고 학습이 완료된 후 사용자에게 추가 정보를 제공하기 위해 여러 단계가 수행됩니다:
- 최대 예측 기간이 결정됩니다.
- 날짜 인덱스의 시간 단계가 확인됩니다.
- 사용자가 선택한 대상 그룹화가 검증되거나, 지정되지 않은 경우 포함된 범주형 기능에서 존재하는 경우 식별됩니다.
데이터 집합의 기존 열에서 새 기능을 생성합니다. 이러한 새로운 자동 엔지니어링 기능은 만드는 모델의 성능과 예측 기능을 향상시킬 수 있습니다.

가능한 무료 문자로 식별된 열의 평균 단어 길이를 식별합니다. 열의 평균 단어 길이가 5단어보다 긴 경우 자동 기능 엔지니어링을 사용하여 무료 문자 기능으로 인코딩할 수 있습니다. 그러지 않은 경우 경고가 표시됩니다. 무료 문자로 사용할 수 없는 경우 집합 크기가 높으면 해당 기능을 선택 취소해야 합니다.
기능 크기 조정에 사용할 각 열에 대한 요약 통계를 계산하고 저장합니다.
기능 크기 조정으로 각 열을 표준화합니다.
편향 감지를 위해 선택된 기능에 대한 분석을 수행하여 데이터 편향 측정항목과 해당 인사이트를 반환합니다. 자세한 내용은 머신러닝 모델에서 편향 감지을 참조하십시오.
교육 데이터의 자동 홀드아웃과 5개의 접기 교차 유효성 검사를 사용합니다. 자세한 내용은 홀드아웃 데이터 및 교차 유효성 검사을 참조하십시오.
확실성을 높여 데이터 세트에 대한 다양한 통계를 계산합니다. 예를 들어, 데이터 세트 크기, 행 및 셀 개수, null 값의 비율에 대한 새로운 정보를 사용할 수 있습니다. 자세한 내용은 학습 데이터 세트 및 프로파일링 제한 사항을 참조하십시오.

자세한 정보

자동 기능 엔지니어링

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!

여기에 피드백을 남겨주십시오.