자동 데이터 준비 및 변환
실험을 위해 선택한 데이터 집합은 자동으로 전처리되어 모델 교육을 준비합니다. 전처리 단계에는 데이터 준비 및 변환이 포함됩니다. 이렇게 하면 데이터의 품질이 향상되어 정확한 결과를 생성하는 모델을 제공합니다.
데이터를 전처리하기 위해 다양한 데이터 과학 기술이 사용됩니다. 대부분의 단계는 기본적으로 수행되며 많은 사용 사례에서 잘 작동합니다. 기본 개념과 함께 이러한 기본 단계가 무엇인지 알면 모델 교육에 데이터를 사용하기 전에 특정 사용 사례에 대한 데이터로 무엇을 해야 하는지 이해하는 데 도움이 될 수 있습니다.
실험 설정
전처리가 시작되기 전에 AutoML은 여러 준비 단계를 수행하고 데이터 처리 방법에 대한 미리 보기를 제공합니다. 다음 단계가 적용됩니다.
-
데이터 집합의 열을 범주형, 숫자형, 날짜 또는 무료 문자 기능 유형으로 분류합니다.
-
부동 소수점, 이중 및 소수 데이터 유형은 항상 숫자로 간주됩니다.
-
평균 50자 미만을 포함하는 문자열 데이터 유형의 열은 범주형으로 분류됩니다.
-
평균 50자 이상의 문자를 포함하는 문자열 데이터 유형의 열은 무료 문자로 분류됩니다. 그러나 현 단계에서는 이러한 열을 무료 문자 기능으로 사용할 수 있다고 보장할 수 없습니다. 추가 요구 사항은 사전 처리 중에 확인됩니다. 전처리 단계를 참조하십시오.
-
정수 데이터 유형은 항상 숫자로 간주됩니다.
-
날짜 및 타임스탬프 데이터 유형은 항상 날짜 기능 유형을 갖는 것으로 간주됩니다. 실험 설정 중에 AutoML은 상위 날짜 기능에서 파생될 수 있는 자동 엔지니어링 기능을 미리 봅니다.
-
-
각 열의 희소성, 상수, 높은 집합 크기를 확인합니다. 다음과 같은 경우 열을 제외합니다.
-
열이 50% 이상 null인 경우. 기능을 위한 null 값이 포함된 레코드를 삭제하면 유용한 교육 예가 버려질 수 있습니다. 또는 값을 대체하면 예를 저장할 수 있지만 레코드는 현실의 근사치일 뿐입니다. 따라서 null 값이 많은(50% 이상) 기능을 제외하는 것이 우수한 경우가 많습니다. 0은 null로 간주되지 않습니다.
-
열은 모든 행에서 동일한 값을 갖습니다(상수). 즉, 열의 집합 크기가 낮습니다. 단일 값만 있는 기능에는 예측 값이 없습니다.
-
열은 범주형이며 90% 이상의 고유 값(높은 집합 크기)을 갖습니다. 고유한 값이 너무 많으면 모델이 교육 데이터 집합 이상으로 일반화하기 어렵습니다.
-
사전 처리가 시작된 후 데이터 처리 방법이 조정될 수 있습니다.
전처리 단계
대상 열을 선택한 후 대상 값이 null인 행이 식별되고 분리되어 대상이 교육 집합으로 알려진 행이 남습니다. 교육 데이터 집합의 데이터만 다음 단계에서 결정을 내리는 데 사용됩니다. 단계는 메타데이터와 함께 저장되고 모델이 예측할 새 데이터에 적용됩니다.
새로운 실험 버전을 실행할 때마다 포함된 기능에 대해 사전 처리가 수행됩니다.
-
숫자 값의 평균과 범주 값의 모드를 계산하고 저장합니다.
-
누락된 값을 대체합니다.자세한 내용은 null의 대체을 참조하십시오.
-
범주 변수를 인코딩합니다.
-
데이터 집합의 기존 열에서 새 기능을 생성합니다. 이러한 새로운 자동 엔지니어링 기능은 만드는 모델의 성능과 예측 기능을 향상시킬 수 있습니다.
가능한 무료 문자로 식별된 열의 평균 단어 길이를 식별합니다. 열의 평균 단어 길이가 5단어보다 긴 경우 자동 기능 엔지니어링을 사용하여 무료 문자 기능으로 인코딩할 수 있습니다. 그러지 않은 경우 경고가 표시됩니다. 무료 문자로 사용할 수 없는 경우 집합 크기가 높으면 해당 기능을 선택 취소해야 합니다.
-
기능 크기 조정에 사용할 각 열에 대한 요약 통계를 계산하고 저장합니다.
-
기능 크기 조정으로 각 열을 표준화합니다.
-
교육 데이터의 자동 홀드아웃과 5개의 접기 교차 유효성 검사를 사용합니다.자세한 내용은 홀드아웃 데이터 및 교차 유효성 검사을 참조하십시오.