機械学習101 - デシジョンツリー
この記事では、機械学習とデシジョンツリーを開発する方法について説明します。
概要
この実践的チュートリアルでは、TalendとSparkを使って機械学習ルーチンを開発する基礎を示します。具体的には、デシジョンツリー学習を活用し、実際の銀行のマーケティングデータを分類します。修了すれば、機械学習がどのようにTalendワークフローに統合されているかに関する実用的知識と、再利用可能なコードスニペットを習得できます。
このチュートリアルで使われるソースデータは、UCI機械学習リポジトリーから取得されました。Irvine, CA: University of California, Schools of Information and Computer Science. パブリックドメインで使用でき、次に割り当てられています: [Moro et al., 2014] S. Moro, P. Cortez and P. Rita. "A Data-Driven Approach to Predict the Success of Bank Telemarketing." Decision Support Systems, Elsevier, 62:22-31, June 2014: Bank Marketing dataset.
前提条件
前提条件:
- Hortonworks 2.4 (HDP)がインストール済みで、設定されていること。また、ダウンロード可能な仮想マシン(VM)であるHortonworks sandboxも使用できます。詳細は、「Create HDFS Metadata - Hortonworks」をご覧ください。
- 次の基本的知識:
- Hadoopのエコシステムのツールとテクノロジー
- Hadoop Distributed File System (HDFS)とSpark
- Talend StudioとTalend Big Data Platformの実践的知識があること。
- Talend Big Data Platformがインストール済みで、設定されていること。