メイン コンテンツをスキップする 補完的コンテンツへスキップ

機械学習101 - デシジョンツリー

この記事では、機械学習とデシジョンツリーを開発する方法について説明します。

概要

この実践的チュートリアルでは、TalendとSparkを使って機械学習ルーチンを開発する基礎を示します。具体的には、デシジョンツリー学習を活用し、実際の銀行のマーケティングデータを分類します。修了すれば、機械学習がどのようにTalendワークフローに統合されているかに関する実用的知識と、再利用可能なコードスニペットを習得できます。

このチュートリアルで使われるソースデータは、UCI機械学習リポジトリーから取得されました。Irvine, CA: University of California, Schools of Information and Computer Science. パブリックドメインで使用できて、次に割り当てられています: [Moro et al., 2014] S. Moro, P. Cortez and P. Rita. "A Data-Driven Approach to Predict the Success of Bank Telemarketing." Decision Support Systems, Elsevier, 62:22-31, June 2014: Bank Marketing Data Set (英語のみ)

前提条件

  • Hortonworks 2.4 (HDP)がインストール済みで、設定されていること。また、ダウンロード可能な仮想マシン(VM)であるHortonworksサンドボックス (英語のみ)も使えます。詳細は、HDFSメタデータを作成 - Hortonworksをご覧ください。
  • Hadoopのエコシステムのツールとテクノロジーに関する基本的な知識があること。
  • Hadoop Distributed File System (HDFS)とSparkの基本的な知識があること。
  • Talend StudioTalend Big Data Platformの実践的知識があること。
  • Talend Big Data Platformがインストール済みで、設定されていること。このプラットフォーム以降のどのライセンスモデルでも動作します。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。