メイン コンテンツをスキップする

Spark Batchジョブを使ってCloudera Kuduでデータの読み書きを行う

このシナリオでは、Kuduコンポーネントを使ってSpark Batchジョブを作成し、データを分割してKuduテーブルに書き込んでから、Kuduからデータの一部を読み取ります。

このシナリオは、サブスクリプションベースのビッグデータ対応のTalend製品にのみ適用されます。

読み取られたサンプルデータは次のとおりです。
01;ychen;30
02;john;40
03;yoko;20
04;tom;60
05;martin;50

このデータには、一部の人名、これらの人に割り当てられたID番号、および年齢が含まれています。

このカラムはプライマリキーカラムであり、このシナリオでは年齢が範囲のパーティショニングに使われるため、年齢の区別が意図的に行われます。

サンプルデータはあくまでも例示用です。

前提条件:
  • 使うSparkクラスターとCloudera Kuduデータベースが正しくインストールされ、実行されていることを確認します。

  • Talendジョブが実行されているクライアントマシンが、使用するHadoopクラスターのノードのホスト名を認識できることを確認します。そのためには、そのHadoopクラスターのサービスに使用するIPアドレス/ホスト名のマッピングエントリーをクライアントマシンのhostsファイルに追加します。

    たとえば、Hadoopネームノードサーバーのホスト名がtalend-cdh550.weave.localで、IPアドレスが192.168.x.xの場合、マッピングエントリーは192.168.x.x talend-cdh550.weave.localとなります。

  • 使用するクラスターがkerberosで保護されている場合は、Talendジョブが実行されているコンピュータにkerberosが正しくインストールされ、設定されていることをご確認ください。使用するkerberosモードに応じて、そのマシンでkerberos kinitチケットまたはキータブを利用できるようにしておく必要があります。

    詳細は、Talend Help Centerで、ビッグデータによってTalend StudioでKerberosを使用する方法を検索してください。

推奨事項:
  • [Repository] (リポジトリー)[Hadoop cluster] (Hadoopクラスター)ノードからHadoop接続メタデータを定義します。この方法では、この接続を別のジョブで再利用できるだけでなく、ジョブでこの接続を使用する際に、Hadoopクラスターへの接続が適切に設定されていて、正しく機能していることを確認することもできます。

    再利用可能なHadoop接続の設定方法は、Hadoop接続メタデータの一元管理をご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。