メイン コンテンツをスキップする 補完的コンテンツへスキップ

tHiveConnectionの標準プロパティ

これらのプロパティは、標準ジョブのフレームワークで実行されているtHiveConnectionを設定するために使われます。

標準tHiveConnectionコンポーネントは、ファミリービッグデータデータベースELTに属しています。

このフレームワーク内のコンポーネントは、すべてのTalend製品で利用できます。

基本設定

接続設定:
  • このコンポーネントをQubole on AWSと併用する場合:
    [API Token] (APIトークン)

    [API Token] (APIトークン)フィールドの横にある[...]ボタンをクリックして、使用するQuboleユーザーアカウントに生成された認証トークンを入力します。このトークンの入手方法は、QuboleのドキュメンテーションでManage Qubole account (英語のみ)をご覧ください。

    このトークンで、Quboleへのアクセスに使用するユーザーアカウントを指定できます。ジョブは、Quboleでこのユーザーアカウントに付与された権限を自動的に使用します。

    [Cluster label] (クラスターラベル)

    [Cluster label] (クラスターラベル)チェックボックスをオンにして、使用するQuboleクラスターの名前を入力します。このチェックボックスをオフのままにしておくと、デフォルトのクラスターが使用されます。

    デフォルトのクラスターに関する詳細が必要な場合は、Quboleサービスの管理者にお問い合わせください。デフォルトQuboleクラスターの設定に関する情報については、Quboleのドキュメンテーションでこの記事 (英語のみ)をご覧ください。

    [Change API endpoint] (APIエンドポイントの変更)

    [Change API endpoint] (APIエンドポイントの変更)チェックボックスをオンにして、使用するリージョンを選択します。このチェックボックスをオフのままにしておくと、デフォルトのリージョンが使用されます。

    QDS-on-AWSでサポートされているQuboleエンドポイントについては、さまざまなクラウドプロバイダーでサポートされているQuboleエンドポイント (英語のみ)をご覧ください。

  • このコンポーネントをGoogle Dataprocと併用する場合:

    [Project identifier] (プロジェクト識別子)

    Google Cloud PlatformプロジェクトのIDを入力します。

    プロジェクトIDがわからない場合は、Google Cloud Platformサービスの[Manage Resources]ページでご確認ください。

    [Cluster identifier] (クラスター識別子)

    使用するDataprocクラスターのIDを入力します。

    [Region] (リージョン)

    使用するGoogle Cloudリージョンをこのドロップダウンリストから、選択します。

    [Google Storage staging bucket] (Googleストレージステージングバケット)

    Talendジョブでは、依存jarファイルが実行されることを想定しているため、ジョブが実行時にこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするGoogle Storageディレクトリーを指定します。

    入力するディレクトリーの末尾はスラッシュ(/)にする必要があります。ディレクトリーがない場合は即座に作成されますが、使用するバケットはあらかじめ作成しておく必要があります。

    [Database] (データベース)

    このフィールドにデータベースの名前を入力します。

    [Provide Google Credentials in file] (Googleクレデンシャルをファイルで指定)

    Google Cloud SDKがインストールされており、Google Cloud Platformへのアクセスでユーザーアカウント認証情報の使用が許可されている特定のマシンからジョブを起動する場合は、このチェックボックスをオフにします。この状況では多くの場合、このマシンはお使いのローカルマシンです。

    JobServerなど、リモートマシンからジョブを起動する場合は、このチェックボックスをオンにし、[Path to Google Credentials file] (Googleクレデンシャルファイルへのパス)フィールドが表示されたら、このJSONファイルを保存するJobServerマシン内のディレクトリーを入力します。また、[....]ボタンをクリックし、ポップアップダイアログボックスでJSONファイルを参照することもできます。

    Googleクレデンシャルファイルの詳細は、Google Cloud Platformの管理者に問い合わせるか、Google Cloud Platform Auth Guide (英語のみ)をご覧ください。

  • このコンポーネントをHDInsightと併用する場合:

    WebHCatの設定

    使用するMicrosoft HD Insightクラスターのアドレスと認証情報を入力します。たとえば、アドレスはyour_hdinsight_cluster_name.azurehdinsight.netとなり、Azureアカウントの認証情報は次のようになります: ychen。Studioはこのサービスを使ってジョブをHD Insightクラスターに送信します。

    [Job result folder] (ジョブ結果保存フォルダー)フィールドに、使用するAzure Storageでのジョブの実行結果を保存するロケーションを入力します。

    ジョブステータスポーリングの設定

    [Poll interval when retrieving Job status (in ms)] (ジョブステータスを取得する時のポーリング間隔(ミリ秒))フィールドで、StudioがジョブのステータスをSparkに要求する時間間隔(ミリ秒)を入力します。たとえば、このステータスは[Pending] (保留中)または[Running] (実行中)になります。

    [Maximum number of consecutive statuses missing] (見つからないステータスの最大連続回数)フィールドには、ステータスの応答がない場合にStudioがステータス取得のために再試行する最大回数を入力します。

    [HDInsight configuration] (HDInsightの設定)

    使用するMicrosoft HD Insightクラスターのアドレスと認証情報を入力します。たとえば、アドレスはyour_hdinsight_cluster_name.azurehdinsight.netとなり、Azureアカウントの認証情報は次のようになります: ychen。Studioはこのサービスを使ってジョブをHD Insightクラスターに送信します。

    [Job result folder] (ジョブ結果保存フォルダー)フィールドに、使用するAzure Storageでのジョブの実行結果を保存するロケーションを入力します。

    [Windows Azure Storage configuration] (Windows Azure Storageの設定)

    使用するAzure StorageアカウントかADLS Gen2アカウントのアドレスと認証情報を入力します。この設定では、ビジネスデータを読み書きする場所は定義せず、ジョブをデプロイする場所のみ定義します。

    [Container] (コンテナー)フィールドに、使用するコンテナーの名前を入力します。利用可能なコンテナーは、使用するAzure StorageアカウントのBlobブレードで確認できます。

    [Deployment Blob] (デプロイメントBlob)フィールドに、このAzure Storageアカウントで現在のジョブとその依存ライブラリーを保存する場所を入力します。

    [Hostname] (ホスト名)フィールドに、https://部分を含まないAzure StorageアカウントのプライマリーBlobサービスエンドポイントを入力します。このエンドポイントは、このストレージアカウントの[Properties] (プロパティ)ブレードにあります。

    [Username] (ユーザー名)フィールドに、使用するAzure Storageアカウントの名前を入力します。

    [Password] (パスワード)フィールドに、使用するAzure Storageアカウントのアクセスキーを入力します。このキーは、このストレージアカウントの[Access keys] (アクセスキー)ブレードにあります。

    [Database] (データベース)

    このフィールドにデータベースの名前を入力します。

  • その他のディストリビューションを使用する場合:

    [Connection mode] (接続モード)

    リストから接続モードを選択します。オプションは、使用しているディストリビューションによって異なります。

    [Hive server] (Hiveサーバー)

    このコンポーネントを使用しているジョブに Hive上のクエリーを実行させるために使用するHiveサーバーを選択します。

    この[Hive server] (Hiveサーバー)リストは、HortonWorks Data Platform V1.2.0 (Bimota)など、使用するHadoopディストリビューションがHiveServer2をサポートしている場合のみ利用できます。これにより、HiveServer (Hive 1)よりも複数クライアントの同時接続に対するサポートに優れているサーバー、HiveServer2 (Hive 2)を選択できます。

    HiveServer2の詳細は、https://cwiki.apache.org/confluence/display/Hive/Setting+Up+HiveServer2 (英語のみ)をご覧ください。

    [Host] (ホスト)

    データベースサーバーのIPアドレス。

    [Port] (ポート)

    データベースサーバーのリスニングポート番号。

    [Database] (データベース)

    このフィールドにデータベースの名前を入力します。

    情報メモ注:

    [Connection mode] (接続モード) リストで[Embedded] (埋め込み)を選択した場合、このフィールドは利用できません。

    [Username] (ユーザー名)[Password] (パスワード)

    データベースユーザー認証データ。

    パスワードを入力するには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符の間に入力し、OKをクリックして設定を保存します。

    [Use Kerberos authentication] (Kerberos認証を使用)

    Kerberosセキュリティを実行しているHiveメタストアにアクセスする場合は、このチェックボックスをオンにし、表示されたフィールドに、関連するパラメーターを入力します。
    • このクラスターが5.0.0バージョン以上のMapRクラスターである場合は、「セキュリティ対応MapRへの接続」の説明に従って、MapRチケット認証設定を追加または代替として設定できます。https://help.talend.com/ja-JP/components/7.3/mapr/connecting-to-security-enabled-mapr

      この設定により、ジョブで定義されたユーザー名用の新しいMapRセキュリティチケットが実行ごとに生成されます。同じユーザー名に対して発行された既存のチケットを再使用する必要がある場合は、[Force MapR ticket authentication] (MapRチケット認証を強制)チェックボックスと[Use Kerberos authentication] (Kerberos認証を使用)チェックボックスをオフにすると、そのチケットを即座に自動的に見つけることができます。

    次のパラメーターの値は、使用するHiveシステムのhive-site.xmlファイル内にあります。
    1. [Hive principal] (Hiveプリンシパル)hive.metastore.kerberos.principalの値を使用します。これはHiveメタストアのサービスプリンシパルです。

    2. [HiveServer2 local user principal] (HiveServer2ローカルユーザープリンシパル)は、hive.server2.authentication.kerberos.principalの値を使用します。

    3. [HiveServer2 local user key tab] (HiveServer2ローカルユーザーキータブ)は、hive.server2.authentication.kerberos.keytabの値を使用します。

    4. [Metastore URL] (メタストアURL)は、javax.jdo.option.ConnectionURLの値を使用します。これは、HiveメタストアへのJDBC接続文字列です。

    5. [Driver class] (ドライバークラス)は、javax.jdo.option.ConnectionDriverNameの値を使用します。これは、JDBC接続のドライバーの名前です。

    6. [Username] (ユーザー名)は、javax.jdo.option.ConnectionUserNameの値を使用します。ユーザー名とパスワードのパラメーターは、Hiveメタストアへの接続用のユーザー認証情報になります。

    7. [Password] (パスワード)は、javax.jdo.option.ConnectionPasswordの値を使用します。

    表示されるその他のパラメーターは、それぞれのパラメーターが含まれているHadoop設定ファイルをご覧ください。たとえば、[Namenode principal] (ネームノードプリンシパル)は、使用しているディストリビューションのhdfs-site.xmlファイルまたはhdfs-default.xmlファイルにあります。

    接続しているHadoopのディストリビューションによってはこのチェックボックスが表示されないこともあります。

    [Use a key tab to authenticate] (キータブを認証に使用)

    [Use a keytab to authenticate] (Keytabを認証に使用)チェックボックスをオンにして、所定のkeytabファイルを使ってKerberos対応のシステムにログインします。keytabファイルには、Kerberosのプリンシパルと暗号化されたキーのペアが含まれています。使用するプリンシパルを[Principal] (プリンシパル)フィールドに入力し、keytabファイルへのアクセスパスを[Keytab] フィールドに入力します。このkeytabファイルは、ジョブが実際に実行されているマシン、たとえば、Talend Jobserverに保存する必要があります。

    keytabが有効なジョブは、プリンシパルに任命されたユーザーでなくても実行できますが、使用するkeytabファイルの読み取り権限が必要です。たとえばuser1というユーザー名でジョブを実行し、使用するプリンシパルがguestの場合、user1に使用するキータブファイルの読み取り権限があることをご確認ください。

    [Use SSL connection] (SSL暗号化を使用)

    SSLまたはTLS暗号化接続を有効にする場合は、このチェックボックスを選択します。

    次に、表示されたフィールドに認証情報を入力します。
    • [Trust store path] (トラストストアのパス)フィールドにパスを入力するか、使用するTrustStoreファイルに移動します。デフォルトでは、サポートされるTrustStore型は、JKSおよびPKCS 12です。

    • パスワードを入力するには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符の間に入力し、OKをクリックして設定を保存します。

    この機能は、以下のディストリビューションの[Standalone] (スタンドアロン)モードのHiveServer2でのみ利用できます。
    • Hortonworksデータプラットフォーム2.0 +

    • Cloudera CDH4 +

    • Pivotal HD 2.0 +

    • Amazon EMR 4.0.0 +

    [Set Resource Manager] (リソースマネージャーの設定)

    このチェックボックスをオンにして、表示されるフィールドにディストリビューションのResourceManagerのロケーションを入力します。たとえば、tal-qa114.talend.lan: 8050のようにします。

    その後、使用するHadoopクラスターの構成に応じて以下のパラメーターを引き続き設定できます (パラメーターのチェックボックスをオフのままにしておくと、実行時に、使用するHadoopクラスター内のこのパラメーターに関する設定は無視されます):
    1. [Set resourcemanager scheduler address] (リソースマネージャースケジューラーアドレスの設定)チェックボックスをオンにして、表示されたフィールドにスケジューラーアドレスを入力します。

    2. [Set jobhistory address] (ジョブ履歴アドレスの設定)チェックボックスをオンにして、使用するHadoopクラスターのJobHistoryサーバーの場所を入力します。これにより、現在のジョブのメトリックス情報がそのJobHistoryサーバーに保存されます。

    3. [Set staging directory] (ステージングディレクトリーの設定)チェックボックスをオンにして、実行プログラムで作成される一時ファイル用のHadoopクラスターで定義されたこのディレクトリーを入力します。一般的には、このディレクトリーはディストリビューションのyarn-site.xmlmapred-site.xmlなどの設定ファイル内にあるyarn.app.mapreduce.am.staging-dirプロパティの下にあります。

    4. [Advanced settings] (詳細設定)ビューの[Set memory] (メモリの設定)チェックボックスをオンにして、適切なメモリ容量をYARNのMapReduceの計算およびApplicationMasterに割り当てます。

    5. [Set Hadoop user] (Hadoopユーザーの設定)チェックボックスをオンにして、ジョブを実行するユーザー名を入力します。Hadoop内のファイルまたはディレクトリーには読み取りまたは書き込みの適切な権限を持つ特定のオーナーがあるため、このフィールドを使用して、処理するファイルまたはディレクトリーにアクセスする適切な権限を持つユーザー名の下でジョブを直接実行できます。

    6. [Use datanode hostname] (データノードホスト名を使用)チェックボックスをオンにして、これらのホスト名によるデータノードへのアクセスをジョブに許可します。これは、実際にはdfs.client.use.datanode.hostnameプロパティをtrueに設定しています。S3Nファイルシステムに接続する場合、このチェックボックスをオンにする必要があります。

    これらのパラメーターの詳細は、ドキュメンテーションを参照するか、使用するHadoopクラスターの管理者にお問い合わせください。

    Hadoop Map/Reduceフレームワークの詳細は、http://hadoop.apache.org (英語のみ)で、Apache Hadoopに関するドキュメンテーションにあるMap/Reduceのチュートリアルをご覧ください。

    [Set NameNode URI] (ネームノードURIの設定)

    このチェックボックスをオンにして、表示されるフィールドに、HadoopシステムのマスターノードであるHadoop NameNodeのURIを入力します。たとえば、NameNodeとしてmasternodeという名前のマシンを選択した場合、その場所はhdfs://masternode:portnumberになります。 WebHDFSを使用している場合、ロケーションはwebhdfs://masternode:portnumberとなります。WebHDFS with SSLはまだサポートされていません。

    Hadoop Map/Reduceフレームワークの詳細は、http://hadoop.apache.org (英語のみ)で、Apache Hadoopに関するドキュメンテーションにあるMap/Reduceのチュートリアルをご覧ください。

    Sparkカタログ

    使用するSpark実装値を選択します。
    • In-memory: 外部メタストアではないHiveメタストアにHive Thriftメタストアを設定する場合は、この値を選択します。
    • Hive: 使用するクラスターの外に存在する外部HiveメタストアにHive Thriftメタストアを設定する場合は、この値を選択します。
その他のプロパティ:

[Property type] (プロパティタイプ)

[Built-in] (組み込み)[Repository] (リポジトリー)のいずれかです。

[Built-In] (組み込み): 一元的に保存されるプロパティデータはありません。

[Repository] (リポジトリー): プロパティが保存されているリポジトリーファイルを選択します。

[Distribution] (ディストリビューション)

ドロップダウンリストから、使用するクラスターを選択します。リストのオプションは使用するコンポーネントによって異なります。これらのオプションの中でも、以下のオプションを使用するには特定の設定が必要です。
  • この[Distribution] (ディストリビューション)ドロップダウンリストに[Microsoft HD Insight]オプションが表示されている場合は、Microsoft HD Insightクラスターを利用できます。この場合、表示されているエリアでクラスターのHD Insightクラスター、Windows Azure Storageサービスへの接続を設定する必要があります。これらのパラメーターの詳細は、Talend Help Center (https://help.talend.com (英語のみ))で接続の手動の設定について検索してください。

  • Amazon EMRを選択している場合、Amazon EMRの開始方法は、Talend Help Center (https://help.talend.com (英語のみ))をご覧ください。

  • [Custom] (カスタム)オプションを使用すれば、リストにあるディストリビューションのものとは異なるクラスター、つまり、 Talend で正式にサポートされていないクラスターに接続できます。

  1. [Import from existing version] (既存のバージョンからインポート)を選択すると、正式にサポートされているディストリビューションをベースとしてインポートしてから、ベースディストリビューションで提供されていない他の必要なjarファイルを追加できます。

  2. [Import from zip] (zipからインポート)を選択すると、使用するカスタムディストリビューションの設定zipファイルをインポートできます。zipファイルには、Hadoopの各種エレメントのライブラリーおよびこれらのライブラリーのインデックスファイルが含まれている必要があります。

    Talend はカスタムバージョンを公式にサポートしていません。 Talend とそのコミュニティでは、Studioからカスタムバージョンに接続するための方法を紹介していますが、Hadoopのディストリビューションとバージョンの種類は幅広いため、選択したバージョンの設定がスムーズに機能するかどうかは保証できません。そのような接続のセットアップは、Hadoopについてどんな問題でもご自身で対処できる十分な経験をお持ちの場合のみ行ってください。

    情報メモ注:

    カスタムディストリビューションとこのコンポーネント間で作成する接続に関わるjarファイルがインポートされるように、このダイアログボックスのアクティブなチェックボックスをオフにしないでください。

    カスタムディストリビューションの接続方法、および接続の共有方法のステップ例は、Hortonworksをご覧ください。

[Hive version] (Hiveのバージョン)

使用しているHadoopのディストリビューションのバージョンを選択します。使用可能なオプションは、使用しているコンポーネントによって異なります。

[Inspect the classpath for configurations] (設定用のクラスパスを検査)

$HADOOP_CONF_DIR変数で設定したディレクトリー内の設定ファイルをコンポーネントがチェックして、このディレクトリー内のこれらのファイルからパラメーターを直接読み取ることができるようにする場合は、このチェックボックスを選択します。この機能により、コンポーネントのHadoop設定を変更して、たとえばテスト環境から本番環境に切り替えるなど、環境の切り替えを容易に行うことができます。

この状況では、Hadoop接続とKerberosセキュリティ(またはそのいずれか)の設定に使われるフィールドやオプションは非表示になっています。

Kerberosパラメーターなど、特定のパラメーターを使おうとしていて、それらのパラメーターがHadoop設定ファイルに含まれていない場合は、talend-site.xmlという名前のファイルを作成し、$HADOOP_CONF_DIRを使用して定義したのと同じディレクトリーに置く必要があります。このtalend-site.xmlファイルは、次のようになります。
<!-- Put site-specific property overrides in this file. --> 
<configuration> 
    <property> 
        <name>talend.kerberos.authentication </name> 
        <value>kinit </value>
         <description> Set the Kerberos authentication method to use. Valid values are: kinit or keytab.  </description> 
    </property> 
    <property> 
        <name>talend.kerberos.keytab.principal </name>
        <value>user@BIGDATA.COM </value>
        <description> Set the keytab's principal name.  </description>
    </property> 
    <property>   
        <name>talend.kerberos.keytab.path </name> 
        <value>/kdc/user.keytab </value> 
        <description> Set the keytab's path.  </description> 
    </property> 
    <property> 
        <name>talend.encryption </name> 
        <value>none </value> 
        <description> Set the encryption method to use. Valid values are: none or ssl.  </description> 
    </property> 
    <property> 
        <name>talend.ssl.trustStore.path </name> 
        <value>ssl </value> 
        <description> Set SSL trust store path.  </description> 
    </property> 
    <property> 
        <name>talend.ssl.trustStore.password </name> 
        <value>ssl </value> 
        <description> Set SSL trust store password.  </description> 
    </property> 
</configuration>

これらの設定ファイルから読み取られたパラメーターは、Studioが使用しているデフォルトのパラメーターを オーバーライドします。これらの設定ファイルにパラメーターが存在しない場合は、デフォルトのパラメーターが使用されます。

このオプションは、Hive [Standalone] (スタンドアロン)モードの[Hive 2]でのみ使用できます。

[Use or register a shared DB Connection] (共有データベース接続を使用または登録)

このチェックボックスをオンにして、データベース接続の共有、または親もしくは子ジョブによって共有されているデータベース接続の取得を行い、[Shared DB Connection Name] (共有データベース接続名)フィールドが表示されたら、共有データベース接続の名前を入力します。これにより、1つのデータベース接続(データベーススキーマの設定は除く)を複数のデータベース接続コンポーネントの間で共有できます。ジョブレベルが異なっていても、親と子のどちらであっても可能です。

このオプションは、tRunJobコンポーネントの[Use dynamic Job] (ダイナミックジョブを使用)および[Use an independent process to run subJob] (サブジョブを独立したプロセスで実行)オプションには対応していません。いずれかのオプションを有効にしてtRunJobコンポーネントで共有接続を使用すると、ジョブが失敗する原因となります。

[Execution engine] (実行エンジン)

このチェックボックスをオンにして、ドロップダウンリストから、ジョブの実行に使用する必要のあるフレームワークを選択します。

このリストが利用できるのは、Hive接続に[Embedded] (埋め込み)モードを使用していて、作業に使用しているディストリビューションが以下である場合に限られます。
  • カスタムこのオプションにより、Tezをサポートしつつも Talend で公式にサポートされていないディストリビューションに接続できます。

Tezを使用する前に、使用しているHadoopクラスターがTezをサポートしていることを確認します。このコンポーネントの[Advanced settings] (詳細設定)ビューから関連するTezライブラリーへのアクセスを設定する必要があります。

Hive on Tezの詳細は、Apacheの関連ドキュメンテーション(https://cwiki.apache.org/confluence/display/Hive/Hive+on+Tez (英語のみ))をご覧ください。そこには、Tezを使用してMapReduceを上回るパフォーマンスを得る方法を示すサンプルがいくつか示されています。

[Store by HBase] (HBaseによるストア)

HiveのコンポーネントによるHBaseテーブルへのアクセスを許可するために設定が必要なパラメーターを表示する場合は、このチェックボックスを選択します。
  • このアクセスが設定されると、HBase内のデータの読み取りと書き込みを行うHive QLステートメントをtHiveRowtHiveInputで利用できるようになります。

  • Kerberos認証を使用している場合は、表示された当該フィールドでHBase関連のプリンシパルを定義する必要があります。

HiveとHBaseを伴うこのアクセスの詳細は、Hive/HBaseのインテグレーションについて説明しているApacheのHiveのドキュメンテーションをご覧ください。

[Zookeeper quorum] (Zookeeperクォーラム)

Studioとデータベース間のトランザクションを調整するZookeeperサービスの名前またはURLを入力します。Zookeeperを設定する時に、zookeeper.znode.parentプロパティを明示的に設定して、作成されてデータベースで使用されているすべてのznodeを含むルートznodeへのパスを定義しなければならない場合があります。次に、[Set Zookeeper znode parent] (親Zookeeper znodeを設定)チェックボックスをオンにして、このプロパティを定義します。

[Zookeeper client port] (Zookeeperクライアントポート)

使用しているZookeeperサービスのクライアントリスニングポートの数を指定します。

[Define the jars to register for HBase] (HBase用に登録するjarを定義します)

このチェックボックスをオンにして、[Register jar for HBase] (HBase用にjarを登録)テーブルを表示します。このテーブルで、たとえば、デフォルトでHiveのインストール時に登録されるHive Storage Handlerなど、HBaseが必要とするjarファイルで欠けているものがあれば登録できます。

[Register jar for HBase] (HBase用にjarを登録)

[+]ボタンをクリックしてこのテーブルに行を追加し、[Jar name] (Jar名)カラムで、登録するjarファイルを選択し、[Jar path] (Jarパス)カラムで、そのjarファイルをポイントするパスを入力します。

詳細設定

[Tez lib] (Tezライブラリー)

Tezライブラリーへのアクセス方法を選択します。
  • [Auto install] (自動インストール): ランタイムに、ジョブはStudioから提供されたTezライブラリーをアップロードし、[Install folder in HDFS] (HDFS内のインストールフォルダー)フィールドで指定したディレクトリー(たとえば/tmp/usr/tez)にデプロイします。

    プロパティテーブルにtez.lib.urisプロパティを設定した場合、このディレクトリーはランタイムでそのプロパティの値を上書きします。ただし、プロパティテーブルで設定したその他のプロパティは引き続き有効です。

  • [Use exist] (既存を使用): ジョブは、使用するHadoopクラスターにデプロイ済みのTezライブラリーにアクセスします。それらのライブラリーをポイントするパスを[Lib path (folder or file)] (ライブラリーパス(フォルダーまたはファイル))フィールドに入力する必要があります。

  • [Lib jar] (ライブラリーjar): [Tez lib] (Tezライブラリー)リストで[Auto install] (自動インストール)を選択し、使用しているディストリビューションが[Custom] (カスタム)である場合に、このテーブルが表示されます。アップロードするTezライブラリーをこのテーブルに追加する必要があります。

[Hadoop properties] (Hadoopプロパティ)

Talend Studio では、Hadoopディストリビューションの処理を実行するエンジンに、デフォルト設定を使用しています。特定の場合にカスタム設定を使用する必要がある場合は、カスタマイズするプロパティをこのテーブルで設定します。設定後、カスタマイズしたプロパティによってこれらのデフォルトのプロパティが実行時に上書きされます。
  • [Repository] (リポジトリー)に一元的に保管されたメタデータを使用している場合、テーブルにはそのメタデータで定義されたプロパティが自動的に継承されます。[Property type] (プロパティタイプ)[Repository] (リポジトリー)から[Built-in] (組み込み)に変更しないと、テーブルは編集できなくなります。

Hadoop、およびHDFSやHiveなどのその関連システムで必要なプロパティの詳細は、使用しているHadoopディストリビューションのドキュメンテーションを参照するか、http://hadoop.apache.org/docs (英語のみ)に掲載されているApacheのHadoopのドキュメンテーションを参照し、必要なバージョンのドキュメンテーションを選択してください。以下のリンクでは、一部のプロパティについて実例を紹介しています。

[Hive properties] (Hiveプロパティ)

Talend Studioでは、Hiveデータベースの処理を実行するエンジンに、デフォルト設定を使用しています。特定の場合にカスタム設定を使用する必要がある場合は、カスタマイズするプロパティをこのテーブルで設定します。設定後、カスタマイズしたプロパティによってこれらのデフォルトのプロパティが実行時に上書きされます。Hive専用のプロパティの詳細は、https://cwiki.apache.org/confluence/display/Hive/AdminManual+Configuration (英語のみ)をご覧ください。
  • Tezを使用してHiveジョブを実行する必要がある場合は、hive.execution.enginePropertiesカラムに、Tez[Value] (値)カラムに追加し、これらの文字列をどちらも二重引用符で囲みます。
  • [Repository] (リポジトリー)に一元的に保管されたメタデータを使用している場合、テーブルにはそのメタデータで定義されたプロパティが自動的に継承されます。[Property type] (プロパティタイプ)[Repository] (リポジトリー)から[Built-in] (組み込み)に変更しないと、テーブルは編集できなくなります。

[Mapred job map memory mb] (MapredジョブMapメモリmb)および[Mapred job reduce memory mb] (MapredジョブReduceメモリmb)

[Set memory] (メモリのセット)チェックボックスをオンにしてHadoopシステムでの計算実行で適切なメモリ割り当てをセットし、マッピングを調整して計算を減らすことができます。

このような場合は、必要な値を[Mapred job map memory mb] (MapredジョブのMapメモリMB)フィールドと[Mapred job reduce memory mb] (MapredジョブのReduceメモリMB)フィールドにそれぞれ入力してください。デフォルトでは、いずれのフィールドも通常は計算の実行に適切な1000に設定されています。

[Path separator in server] (サーバーのパス区切り)

サーバーのパス区切りのデフォルト値はそのままにしておきます。区切りをコロン(:)以外のHadoopディストリビューションのホストマシンで使用されているPATH変数またはその他の単語に変更している場合は除きます。その場合、値はホストで使用しているものに変更する必要があります。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスを選択すると、コンポーネントレベルでログデータを収集できます。

グローバル変数

グローバル変数

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + スペースを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、Talend Studioユーザーガイドをご覧ください。

使用方法

使用ルール

このコンポーネントは、通常、他のコンポーネント、特にtHiveCloseと併用されます。

Hiveデータベースへの接続に使用しているStudioisがWindowsマシンにインストールされている場合は、このStudioがインストールされているディスクのルートにtmpというフォルダーを手動で作成する必要があります。

前提条件

Talend Studio との操作を確実に行うには、Hadoopディストリビューションを適切にインストールする必要があります。以下のリストに、MapR関連の情報などを示します。

  • MapRクライアントは必ずStudioのあるマシンにインストールして、そのマシンのPATH変数にMapRクライアントライブラリーを追加します。MapRのドキュメンテーションによると、各OSバージョンに対応するMapRクライアントのライブラリーは、MAPR_INSTALL\ hadoop\hadoop-VERSION\lib\nativeにあります。たとえば、Windows版のライブラリーは、\lib\native\MapRClient.dllにあるMapRクライアントのjarファイルにあります。詳細は、MapRからhttp://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-mapr (英語のみ)をご覧ください。

    指定のライブラリーを追加しないと、no MapRClient in java.library.pathというエラーが発生する可能性があります。

  • たとえば、[Window] (ウィンドウ)メニューの[Preferences] (環境設定)ダイアログボックスにある[Run/Debug] (実行/デバッグ)ビューの[Job Run VM arguments] (ジョブ実行VMの引数)エリアで、-Djava.library.path引数を設定するために使われます。この引数により、そのMapRクライアントのネイティブライブラリーへのパスがStudioに渡されるので、サブスクリプションベースのユーザーはデータビューアーをフルに活用して、MapRに保存されたデータをStudioでローカルに表示できます。

Hadoopディストリビューションのインストール方法は、使用しているHadoopディストリビューションに対応するマニュアルをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。