무료 문자 데이터의 처리

무료 문자(예: 양식에 입력된 텍스트 문자열 데이터)가 모델에서 유용하려면 기계 학습 알고리즘에 의한 특수 처리가 필요합니다. Qlik 프로젝트에서 무료 문자 처리는 자동 기능 추출의 한 형태입니다. 기술적으로 말하면 이 처리에는 TF-IDF(용어 빈도 - 역 문서 빈도) 방법이 사용됩니다.

Qlik 프로젝트은 영어로 된 무료 문자 데이터가 있는 기능에 대해 별도의 처리를 지원합니다.

교육 데이터의 열에 무료 문자가 포함되어 있으면 무료 문자 기능 유형이 할당됩니다. 범주형 기능으로 사용할 수도 있지만 집합 크기가 높은 경우(고유 값이 너무 많은 경우) 권장하지 않습니다.

실험에서 무료 문자 기능으로 사용할 열을 최대 3개까지 선택할 수 있습니다.

무료 문자 데이터로 구성된 필드를 사용하는 경우 2024년 1월 23일 이전에 교육된 모델을 다시 교육하는 것이 좋습니다.

무료 문자 인코딩 요구 사항

무료 문자가 포함된 열을 무료 문자로 성공적으로 인코딩하려면 두 가지 요구 사항을 충족해야 합니다. 이러한 요구 사항은 실험 만들기의 다양한 단계에서 확인됩니다.

요구 사항은 다음과 같습니다.

열의 평균 문자 길이는 50자 이상이어야 합니다.
열의 평균 단어 길이는 5단어 이상이어야 합니다.

기능을 무료 문자로 처리

기능을 무료 문자로 처리하는 과정은 다음과 같습니다.

교육 데이터를 선택하면 Qlik 프로젝트은 무료 문자로 처리될 수 있는 기능을 식별합니다. 스키마 보기에서 가능한 무료 문자 통찰력으로 표시되며 무료 문자 기능 유형을 갖게 됩니다.
v1 실험을 실행한 후 추가 분석이 완료됩니다. 이 시점에서 초기에 무료 문자 가능으로 표시된 기능은 무료 문자 기능으로 사용할 수 없는 것으로 확인될 수 있습니다.

무료 문자로 사용할 수 없는 기능의 집합 크기가 높으면 실험에서 해당 기능을 선택 취소하는 것이 좋습니다. 이러한 기능은 범주형으로 처리될 때 모델 성능에 아무런 가치도 기여하지 않습니다.

무료 문자로 사용할 수 없는 기능의 집합 크기가 높지 않은 경우 범주형으로 처리를 클릭하거나 기능 유형을 무료 문자에서 범주형으로 전환하여 실험에 포함할 수 있습니다. 기능 유형을 무료 문자로 두면 내부적으로도 범주형으로 처리되어 impact encoded됩니다.

사전 처리에 대한 자세한 내용은 자동 데이터 준비 및 변환을 참조하십시오.

스키마 보기에 표시되는 각 통찰력에 대한 자세한 내용은 학습 데이터에 대한 인사이트 보기을 참조하십시오.

무료 문자 기능을 실험 대상으로 사용

드문 경우지만 무료 문자 기능을 대상으로 선택할 수 있습니다. 기능이 무료 문자 인코딩에 대한 모든 요구 사항을 충족하고 2~10개의 고유 값을 포함하는 경우 대상으로 사용할 수 있습니다. 이러한 시나리오에서 실험은 표준 이진 분류 또는 다중 클래스 분류 문제로 정의됩니다.

예측의 무료 문자 기능

자유 텍스트 기능을 사용하여 학습된 배포된 모델로 예측을 실행하기 위한 요구 사항에 대해 알아보려면 예측에서 무료 문자 기능 작업을(를) 참조하십시오.

고려사항

실험에 무료 문자 기능을 포함하면 실험의 복잡성과 실험 실행에 필요한 프로세스가 늘어납니다. 무료 문자 데이터가 충분히 복잡한 경우 결과 모델에 대해 permutation importance 차트를 사용하지 못할 수도 있습니다.

문제 해결

무료 문자 데이터를 사용하여 모델을 교육하는 것은 리소스 집약적인 프로세스일 수 있습니다. 수많은 고유 단어가 포함된 무료 문자 열을 기능으로 포함하면 오류가 발생할 수 있습니다.

다음은 이러한 오류를 해결하기 위한 몇 가지 지침입니다.

더 적은 수의 무료 문자 행을 포함하도록 교육 데이터 집합의 데이터 하위 집합을 줄입니다.
모델 교육에 포함할 필요가 없는 무료 문자 기능을 제거합니다.
하나 이상의 무료 문자 열을 무료 문자가 아닌 범주형 기능으로 처리합니다. 이러한 무료 문자 기능에 높은 집합 크기가 포함되어 있는 경우 이는 권장되지 않습니다.

제한 사항

자동 자유 텍스트 기능 엔지니어링은 특정 크기 제한 내의 훈련 데이터 세트에서만 사용할 수 있습니다. 자세한 내용은 학습 데이터 세트 및 프로파일링 제한 사항을 참조하십시오.
시계열 실험에는 자동 자유 텍스트 기능 엔지니어링을 사용할 수 없습니다.

자세한 정보

이 페이지가 도움이 되었습니까?

이 페이지 또는 해당 콘텐츠에서 오타, 누락된 단계 또는 기술적 오류와 같은 문제를 발견하면 알려 주십시오!

여기에 피드백을 남겨주십시오.