머신 러닝 이해하기
머신 러닝은 수학적 알고리즘을 사용하여 데이터의 패턴을 인식한 다음 해당 패턴을 사용하여 예측을 수행하는 방식입니다.
간단한 예: 매출 예측
머신 러닝을 더 잘 이해하기 위해 다음 분기의 제품 매출을 예측하는 간단한 예를 살펴보겠습니다. 이 제품의 매출은 제품 광고에 지출된 금액의 영향을 받는다는 것을 알 수 있습니다. 이전 분기의 데이터를 살펴보면 다음을 알 수 있습니다.
-
텔레비전에서 제품을 광고하는 데 지출된 금액(수천 달러 단위)입니다.
-
매출액(수백만 달러 단위)입니다.
데이터를 플로팅해 보면 텔레비전에서 제품을 광고하는 데 더 많은 돈을 지출할수록 더 많이 판매된다는 것이 분명합니다.
매출 대 텔레비전 광고 지출의 플롯

다음 비즈니스 분기 동안의 매출 수익을 예측하기 위해 과거 데이터에 함수를 맞출 수 있습니다.
데이터에 맞춰진 선형 함수

다음 비즈니스 분기 동안 텔레비전 광고에 지출하기로 예산을 책정한 금액을 기준으로 이 금액에 해당하는 값에서 함수를 평가할 수 있습니다. 다음 분기에 텔레비전 광고에 225,000달러를 지출할 계획이라고 가정해 보겠습니다. 225에서 함수를 평가하면 17.7이 나오며, 다음 분기에 1,770만 달러의 매출을 예측할 수 있습니다.
광고에 지출된 특정 금액에 대한 매출을 예측하기 위해 평가된 함수

예측의 정확도를 더욱 향상시키기 위해 그림과 같이 과거 데이터에 더 잘 맞는 함수를 찾고 이 함수를 기반으로 예측을 수행할 수 있습니다.
데이터에 더 잘 맞는 함수

이 예에서는 텔레비전 광고에 지출된 금액만 살펴보았습니다. 미래 매출에 영향을 미치는 다른 요인도 고려할 수 있습니다. 텔레비전 광고 지출만의 함수로 매출을 구하는 대신, 예를 들어 텔레비전 광고 지출, 라디오 광고 지출, 신문 광고 지출이라는 세 가지 변수의 함수로 매출을 구할 수 있습니다. 원하는 만큼 많은 변수를 사용할 수 있지만 일반적인 개념은 동일합니다.
머신 러닝 개념
데이터 관점에서 머신 러닝 문제는 과거 데이터로 테이블을 컴파일하는 것으로 요약됩니다. 테이블에는 예측하려는 항목을 나타내는 하나의 열이 있으며, 이전 예에서는 매출이었습니다. 머신 러닝 언어에서 이 열을 대상이라고 합니다. 다른 열은 기능이라고 하며 대상 열의 값을 예측하는 데 사용됩니다. 기능은 대상 결과에 잠재적으로 기여할 수 있는 변수입니다. 머신 러닝의 기본 개념은 다음과 같습니다.
데이터 세트가 주어지면 해당 데이터에 맞는 함수를 찾아 기능 열의 값이 주어졌을 때 대상 열의 값이 무엇인지 예측할 수 있습니다.
다양한 종류의 머신 러닝 문제를 해결하기 위해 몇 가지 정교한 머신 러닝 알고리즘이 개발되었습니다. 머신 러닝 알고리즘에 데이터를 제공하고 패턴을 학습하게 하는 것을 머신 러닝 알고리즘을 훈련한다고 합니다.
Qlik 프로젝트에서 머신 러닝 문제는 다음에 따라 분류, 회귀 또는 시계열 문제로 나뉩니다.
-
특정 미래 기간에 대한 데이터를 예측해야 하는지 여부. 시계열 문제의 예를 참조하십시오.
자동화된 머신 러닝
자동화된 머신 러닝을 사용하면 과거 데이터에 대한 훈련 중에 가장 적합한 함수가 자동으로 발견됩니다. 데이터 세트를 쉽게 업로드하고 대상을 선택한 다음 버튼 하나만 누르면 훈련을 시작할 수 있습니다.
그러나 좋은 입력이 있어야만 좋은 예측 출력을 얻을 수 있습니다. 머신 러닝 실험에는 잘 정의된 머신 러닝 질문과 해당 질문에 답하도록 설계된 데이터 세트가 필요합니다. 첫 번째 실험을 시작하려면 다음 단계를 따르십시오.
- 머신 러닝 질문 정의
구조화된 프레임워크를 사용하여 비즈니스 사용 사례를 특정 질문으로 전환합니다.
- 훈련 데이터 세트 준비
사용 사례와 관련된 양질의 데이터를 수집합니다.
- 자동화된 머신 러닝 실험 생성
준비가 완료되면 실험을 시작할 수 있습니다.