メイン コンテンツをスキップする 補完的コンテンツへスキップ

機械学習101 - デシジョンツリー

この記事では、機械学習とデシジョンツリーを開発する方法について説明します。

概要

この実践的チュートリアルでは、TalendとSparkを使って機械学習ルーチンを開発する基礎を示します。具体的には、デシジョンツリー学習を活用し、実際の銀行のマーケティングデータを分類します。修了すれば、機械学習がどのようにTalendワークフローに統合されているかに関する実用的知識と、再利用可能なコードスニペットを習得できます。

このチュートリアルで使われるソースデータは、UCI機械学習リポジトリーから取得されました。Irvine, CA: University of California, Schools of Information and Computer Science. パブリックドメインで使用でき、次に割り当てられています: [Moro et al., 2014] S. Moro, P. Cortez and P. Rita. "A Data-Driven Approach to Predict the Success of Bank Telemarketing." Decision Support Systems, Elsevier, 62:22-31, June 2014: Bank Marketing dataset.

前提条件

前提条件:
  • Hortonworks 2.4 (HDP)がインストール済みで、設定されていること。また、ダウンロード可能な仮想マシン(VM)であるHortonworks sandboxも使用できます。詳細は、「Create HDFS Metadata - Hortonworks」をご覧ください。
  • 次の基本的知識:
    • Hadoopのエコシステムのツールとテクノロジー
    • Hadoop Distributed File System (HDFS)とSpark
  • Talend StudioTalend Big Data Platformの実践的知識があること。
  • Talend Big Data Platformがインストール済みで、設定されていること。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。