メイン コンテンツをスキップする 補完的コンテンツへスキップ

tHiveCreateTableの標準プロパティ

これらのプロパティは、標準ジョブのフレームワークで実行されているtHiveCreateTableを設定するために使われます。

標準tHiveCreateTableコンポーネントは、ビッグデータファミリーとデータベースファミリーに属しています。

このフレームワークのコンポーネントは、すべてのビッグデータ対応のTalend製品およびTalend Data Fabricで使用できます。

基本設定

接続設定:
  • このコンポーネントをGoogle Dataprocと併用する場合:

    [Project ID] (プロジェクトID)

    Google Cloud PlatformプロジェクトのIDを入力します。

    プロジェクトIDがわからない場合は、Google Cloud Platformサービスの[Manage Resources]ページでご確認ください。

    [Cluster ID] (クラスターID)

    使用するDataprocクラスターのIDを入力します。

    [Region] (リージョン)

    使用するGoogle Cloudリージョンをこのドロップダウンリストから、選択します。

    [Google Storage staging bucket] (Googleストレージステージングバケット)

    Talendジョブでは、依存jarファイルが実行されることを想定しているため、ジョブが実行時にこれらのjarファイルにアクセスできるよう、これらのファイルの転送先にするGoogle Storageディレクトリーを指定します。

    入力するディレクトリーの末尾はスラッシュ(/)にする必要があります。ディレクトリーがない場合は即座に作成されますが、使用するバケットはあらかじめ作成しておく必要があります。

    [Database] (データベース)

    このフィールドにデータベースの名前を入力します。

    [Provide Google Credentials in file] (Googleクレデンシャルをファイルで指定)

    Google Cloud SDKがインストールされており、Google Cloud Platformへのアクセスでユーザーアカウント認証情報の使用が許可されている特定のマシンからジョブを起動する場合は、このチェックボックスをオフにします。この状況では多くの場合、このマシンはお使いのローカルマシンです。

    リモートマシン(Talend JobServerなど)からジョブを起動する場合は、このチェックボックスを選択し、[Path to Google Credentials file] (Googleクレデンシャルファイルへのパス)フィールドが表示されたら、このJSONファイルを保存するTalend JobServerrマシン内のディレクトリーを入力します。また、[....]ボタンをクリックし、ポップアップダイアログボックスでJSONファイルを参照することもできます。

    Googleクレデンシャルファイルの詳細は、Google Cloud Platformの管理者に問い合わせるか、Google Cloud Platform Auth Guideをご覧ください。

  • Microsoft HD Insightディストリビューションでこのコンポーネントを使用する場合:

    Livyの設定

    使用するMicrosoft HD Insightクラスターのアドレスと認証情報を入力します。たとえば、アドレスはhttps://your_hdinsight_cluster_name.azurehdinsight.netとなり、Azureアカウントの認証情報は次のようになります: yournameTalend Studioは、このサービスを使用してジョブを HD Insightクラスターに送信します。

    [Job result folder] (ジョブ結果保存フォルダー)フィールドに、使用するAzure Storageでのジョブの実行結果を保存するロケーションを入力します。

    ジョブステータスポーリングの設定

    [Poll interval when retrieving Job status (in ms)] (ジョブステータスを取得する時のポーリング間隔(ミリ秒))フィールドで、Talend StudioがジョブのステータスをSparkに要求する時間間隔(ミリ秒)を入力します。たとえば、このステータスは[Pending] (保留中)または[Running] (実行中)になります。

    [Maximum number of consecutive statuses missing] (見つからないステータスの最大連続回数)フィールドには、ステータスのレスポンスがない場合にTalend Studioがステータス取得のために再試行する最大回数を入力します。

    [HDInsight configuration] (HDInsightの設定)

    • [Username] (ユーザー名)は、クラスターの作成時に定義されたものです。これは、クラスターの[SSH + Cluster] (SSH + クラスター)ログインブレードで確認できます。
    • [Password] (パスワード)は、このクラスターの認証でHDInsightクラスターを作成する時に定義します。

    [Windows Azure Storage configuration] (Windows Azure Storageの設定)

    使用するAzure StorageアカウントかADLS Gen2アカウントのアドレスと認証情報を入力します。この設定では、ビジネスデータを読み書きする場所は定義せず、ジョブをデプロイする場所のみ定義します。

    [Container] (コンテナー)フィールドに、使用するコンテナーの名前を入力します。利用可能なコンテナーは、使用するAzure StorageアカウントのBlobブレードで確認できます。

    [Deployment Blob] (デプロイメントBlob)フィールドに、このAzure Storageアカウントで現在のジョブとその依存ライブラリーを保存する場所を入力します。

    [Hostname] (ホスト名)フィールドに、https://部分を含まないAzure StorageアカウントのプライマリーBlobサービスエンドポイントを入力します。このエンドポイントは、このストレージアカウントの[Properties] (プロパティ)ブレードにあります。

    [Username] (ユーザー名)フィールドに、使用するAzure Storageアカウントの名前を入力します。

    [Password] (パスワード)フィールドに、使用するAzure Storageアカウントのアクセスキーを入力します。このキーは、このストレージアカウントの[Access keys] (アクセスキー)ブレードにあります。

    [Database] (データベース)

    このフィールドにデータベースの名前を入力します。

  • その他のディストリビューションを使用する場合:

    [Connection mode] (接続モード)

    リストから接続モードを選択します。オプションは、使用しているディストリビューションによって異なります。

    [Hive version] (Hiveのバージョン)

    使用しているHiveのバージョンを選択します。

    ホスト

    データベースサーバーのIPアドレス。

    [Port] (ポート)

    データベースサーバーのリスニングポート番号。

    [Database] (データベース)

    このフィールドにデータベースの名前を入力します。

    Username (ユーザー名)Password (パスワード)

    データベースユーザー認証データ。

    パスワードを入力するためには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符で囲んで入力して[OK]をクリックし、設定を保存します。

    [Use Kerberos authentication] (Kerberos認証を使用)

    Kerberosセキュリティを実行しているHiveメタストアにアクセスする場合は、このチェックボックスを選択し、表示されたフィールドに関連するパラメーターを入力します。

    次のパラメーターの値は、使用するHiveシステムのhive-site.xmlファイル内にあります。
    1. [Hive principal] (Hiveプリンシパル)hive.metastore.kerberos.principalの値を使用します。これは、Hiveメタストアのサービスプリンシパルです。

    2. [HiveServer2 local user principal] (HiveServer2ローカルユーザープリンシパル)は、hive.server2.authentication.kerberos.principalの値を使用します。

    3. [HiveServer2 local user key tab] (HiveServer2ローカルユーザーキータブ)は、hive.server2.authentication.kerberos.keytabの値を使用します。

    4. [Metastore URL] (メタストアURL)は、javax.jdo.option.ConnectionURLの値を使用します。これは、HiveメタストアへのJDBC接続文字列です。

    5. [Driver class] (ドライバークラス)は、javax.jdo.option.ConnectionDriverNameの値を使用します。これは、JDBC接続のドライバーの名前です。

    6. [Username] (ユーザー名)は、javax.jdo.option.ConnectionUserNameの値を使用します。ユーザー名とパスワードのパラメーターは、Hiveメタストアへの接続用のユーザー認証情報になります。

    7. [Password] (パスワード)は、javax.jdo.option.ConnectionPasswordの値を使用します。

    表示されるその他のパラメーターは、それぞれのパラメーターが含まれているHadoop設定ファイルをご覧ください。たとえば、[Namenode principal] (ネームノードプリンシパル)は、使用しているディストリビューションのhdfs-site.xmlファイルまたはhdfs-default.xmlファイルにあります。

    接続しているHadoopのディストリビューションによってはこのチェックボックスが表示されないこともあります。

    [Use a key tab to authenticate] (キータブを認証に使用)

    [Use a keytab to authenticate] (Keytabを認証に使用)チェックボックスをオンにして、所定のkeytabファイルを使ってKerberos対応のシステムにログインします。keytabファイルには、Kerberosのプリンシパルと暗号化されたキーのペアが含まれています。使用するプリンシパルを[Principal] (プリンシパル)フィールドに入力し、keytabファイルへのアクセスパスを[Keytab] フィールドに入力します。このキータブファイルは、ジョブが実際に実行されているマシン(Talend JobServerなど)に保存する必要があります。

    keytabが有効なジョブは、プリンシパルに任命されたユーザーでなくても実行できますが、使用するkeytabファイルの読み取り権限が必要です。たとえばuser1というユーザー名でジョブを実行し、使用するプリンシパルがguestの場合、user1に使用するキータブファイルの読み取り権限があることをご確認ください。

    [Use SSL connection] (SSL暗号化を使用)

    SSLまたはTLS暗号化接続を有効にする場合は、このチェックボックスを選択します。

    次に、表示されたフィールドに認証情報を入力します。
    • [Trust store path] (トラストストアのパス)フィールドにパスを入力するか、使用するTrustStoreファイルに移動します。デフォルトでは、サポートされるTrustStore型は、JKSおよびPKCS 12です。

    • パスワードを入力するためには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符で囲んで入力して[OK]をクリックし、設定を保存します。

    この機能は、以下のディストリビューションの[Standalone] (スタンドアロン)モードのHiveServer2でのみ利用できます。
    • Hortonworksデータプラットフォーム2.0 +

    • Cloudera CDH4 +

    • Pivotal HD 2.0 +

    • Amazon EMR 4.0.0 +

    [Set Resource Manager] (リソースマネージャーの設定)

    このチェックボックスを選択して、表示されるフィールドにディストリビューションのResourceManagerのロケーションを入力します。たとえば、tal-qa114.talend.lan: 8050のようにします。

    その後、使用するHadoopクラスターの構成に応じて以下のパラメーターを引き続き設定できます (パラメーターのチェックボックスをオフのままにしておくと、実行時に、使用するHadoopクラスター内のこのパラメーターに関する設定は無視されます):
    1. [Set resourcemanager scheduler address] (リソースマネージャースケジューラーアドレスの設定)チェックボックスをオンにして、表示されたフィールドにスケジューラーアドレスを入力します。

    2. [Set jobhistory address] (ジョブ履歴アドレスの設定)チェックボックスをオンにして、使用するHadoopクラスターのJobHistoryサーバーの場所を入力します。これにより、現在のジョブのメトリックス情報がそのJobHistoryサーバーに保存されます。

    3. [Set staging directory] (ステージングディレクトリーの設定)チェックボックスをオンにして、実行プログラムで作成される一時ファイル用のHadoopクラスターで定義されたこのディレクトリーを入力します。一般的には、このディレクトリーはディストリビューションのyarn-site.xmlmapred-site.xmlなどの設定ファイル内にあるyarn.app.mapreduce.am.staging-dirプロパティの下にあります。

    4. [Advanced settings] (詳細設定)ビューの[Set memory] (メモリの設定)チェックボックスをオンにして、適切なメモリ容量をYARNのMapReduceの計算およびApplicationMasterに割り当てます。

    5. [Set Hadoop user] (Hadoopユーザーの設定)チェックボックスをオンにして、ジョブを実行するユーザー名を入力します。Hadoop内のファイルまたはディレクトリーには読み取りまたは書き込みの適切な権限を持つ特定のオーナーがあるため、このフィールドを使用して、処理するファイルまたはディレクトリーにアクセスする適切な権限を持つユーザー名の下でジョブを直接実行できます。

    6. [Use datanode hostname] (データノードホスト名を使用)チェックボックスをオンにして、これらのホスト名によるデータノードへのアクセスをジョブに許可します。これは、実際にはdfs.client.use.datanode.hostnameプロパティをtrueに設定しています。S3Nファイルシステムに接続する場合、このチェックボックスを選択する必要があります。

    これらのパラメーターの詳細は、ドキュメンテーションを参照するか、使用するHadoopクラスターの管理者にお問い合わせください。

    Hadoop Map/Reduceフレームワークの詳細は、Apache Hadoopに関するドキュメンテーションでMap/Reduceのチュートリアルをご覧ください。

    [Set NameNode URI] (ネームノードURIの設定)

    このチェックボックスを選択して、表示されるフィールドに、HadoopシステムのマスターノードであるHadoop NameNodeのURIを入力します。たとえば、NameNodeとしてmasternodeという名前のマシンを選択した場合、その場所はhdfs://masternode:portnumberになります。 WebHDFSを使用している場合、ロケーションはwebhdfs://masternode:portnumberとなります。WebHDFS with SSLはまだサポートされていません。

    Hadoop Map/Reduceフレームワークの詳細は、Apache Hadoopに関するドキュメンテーションでMap/Reduceのチュートリアルをご覧ください。

    Sparkカタログ

    使用するSpark実装値を選択します。
    • In-memory: 外部メタストアではないHiveメタストアにHive Thriftメタストアを設定する場合は、この値を選択します。
    • Hive: 使用するクラスターの外に存在する外部HiveメタストアにHive Thriftメタストアを設定する場合は、この値を選択します。

その他のプロパティ:

[Property type] (プロパティタイプ)

[Built-in] (組み込み)[Repository] (リポジトリー)のいずれかです。

 

[Built-in] (組み込み): 一元的に保存されるプロパティデータはありません。

 

[Repository] (リポジトリー): プロパティが保管されるリポジトリーファイルを選択します。後続フィールドは、取得されたデータを使用して自動的に入力されます。

[Use an existing connection] (既存の接続を使用)

定義済みの接続の詳細を再利用する場合は、このチェックボックスを選択して、[Component List] (コンポーネントリスト)ドロップダウンリストから、目的の接続コンポーネントを選択します。

情報メモ注: ジョブに親ジョブと子ジョブが含まれている時は、親ジョブと子ジョブの間の既存の接続を共有したい場合(たとえば、親ジョブで作成した接続を子ジョブと共有するなど)には、次のように実行します。
  1. 親レベルで、共有するデータベース接続を、そのデータベース接続そのものを作成する接続コンポーネントの[Basic settings] (基本設定)ビューに登録します。
  2. 子レベルで、登録済みのそのデータベース接続を読み取るために専用の接続コンポーネントを使用します。

ジョブレベル全体でデータベース接続を共有する方法の例は、データベース接続を共有をご覧ください。

ディストリビューション

ドロップダウンリストから、使用するクラスターを選択します。リストのオプションは使用するコンポーネントによって異なります。これらのオプションの中でも、以下のオプションを使用するには特定の設定が必要です。
  • この[Distribution] (ディストリビューション)ドロップダウンリストに[Microsoft HD Insight]オプションが表示されている場合は、Microsoft HD Insightクラスターを利用できます。この場合、表示されているエリアでクラスターのHD Insightクラスター、Windows Azure Storageサービスへの接続を設定する必要があります。これらのパラメーターの詳細は、手動で接続を設定をご覧ください。

  • Amazon EMRを選択している場合は、Amazon EMR - Getting Startedで詳細をご覧ください。

  • [Custom] (カスタム)オプションを使用すれば、リストにあるディストリビューションのものとは異なるクラスター、つまり、 Talend で正式にサポートされていないクラスターに接続できます。

  1. [Import from existing version] (既存のバージョンからインポート)を選択すると、正式にサポートされているディストリビューションをベースとしてインポートしてから、ベースディストリビューションで提供されていない他の必要なjarファイルを追加できます。

  2. [Import from zip] (zipからインポート)を選択すると、使用するカスタムディストリビューションの設定zipファイルをインポートできます。zipファイルには、Hadoopの各種エレメントのライブラリーおよびこれらのライブラリーのインデックスファイルが含まれている必要があります。

    Talendはカスタムバージョンを公式にサポートしていません。Talendとそのコミュニティでは、Talend Studioからカスタムバージョンに接続するための方法を紹介していますが、Hadoopのディストリビューションとバージョンの種類は幅広いため、選択したバージョンの設定がスムーズに機能するかどうかは保証できません。そのような接続のセットアップは、Hadoopについてどんな問題でもご自身で対処できる十分な経験をお持ちの場合のみ行ってください。

    情報メモ注:

    カスタムディストリビューションとこのコンポーネント間で作成する接続に関わるjarファイルがインポートされるように、このダイアログボックスのアクティブなチェックボックスをオフにしないでください。

    カスタムディストリビューションの接続方法、および接続の共有方法のステップ例は、Hortonworksをご覧ください。

情報メモ注: Talend Studio 8.0 R2024-04以降、[Distribution] (ディストリビューション)パラメーターは削除されています。

[Hive version] (Hiveのバージョン)

使用しているHadoopのディストリビューションのバージョンを選択します。使用可能なオプションは、使用しているコンポーネントによって異なります。

情報メモ注: Talend Studio 8.0 R2024-04以降、[Hive version] (Hiveバージョン)パラメーターは削除されています。
Hiver Server 使用しているHiveのバージョンを選択します。
[Hadoop version] (Hadoopのバージョン) 使用しているHadoopのバージョンを選択します。

[Schema] (スキーマ)[Edit Schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。

  • [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。

    変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

 

[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

再利用するスキーマに整数またはファンクションのデフォルト値が指定されている場合は、これらのデフォルト値を引用符で囲まないようにご注意ください。引用符で囲まれている場合は手動で削除します。

詳細は、テーブルスキーマを取得をご覧ください。

[Table Name] (テーブル名)

作成するテーブルの名前。

[Action on table] (テーブルでのアクション)

テーブルを作成するためのアクションを選択します。

Format (形式)

作成するテーブル専用のデータ形式を選択します。

使用可能なデータ形式は、使用しているHadoopディストリビューションのバージョンによって異なります。

使用するファイル形式が[PARQUET]である場合は、特定のPARQUET JARファイルを検索してTalend Studioにインストールするように指示するプロンプトが表示されることがあります。
  • Hiveへの接続モードが[Embedded] (組み込み)の場合、ジョブはローカルマシンで実行され、Talend StudioにインストールされているこのJARを呼び出します。

  • Hiveへの接続モードが[Standalone] (スタンドアロン)の場合、ジョブはHiveをホストするサーバーで実行され、このJARファイルは接続先のクラスターのHDFSシステムに送信されます。したがって、[Basic settings] (基本設定)ビューの対応するフィールドでNameNode URIが正しく定義されていることをご確認ください。

このJARファイルはApacheのサイトからダウンロードできます。外部モジュールのインストール方法は、外部モジュールをインストールをご覧ください。

Inputformat classOutputformat class

これらのフィールドは、[Format] (フォーマット)リストで[INPUTFORMAT and OUTPUTFORMAT] (入力形式と出力形式)を選択した場合にのみ表示されます。

これらのフィールドでは、[Format] (フォーマット)リストで使用できないデータフォーマットに使用するjarファイルの名前を入力できます。

[Storage Class] (ストレージクラス)

非ネイティブテーブル(Hive以外のシステムCassandraやMongoDBなどで保存および管理されるHiveテーブル)の作成に使用するストレージハンドラーの名前を入力します。

このフィールドは、 [Format] (フォーマット)リストで[STORAGE] (ストレージ)が選択されている場合のみ利用できます。

ストレージハンドラーの詳細は、Hive Storage Handlersをご覧ください。

[Set partitions] (パーティションを設定)

作成するテーブルにパーティションカラムを追加するには、このチェックボックスをオンにします。選択したら、追加する必要のあるパーティションカラムのスキーマを定義する必要があります。

[Set file location] (ファイルのロケーションの設定)

デフォルト以外のディレクトリーにHiveテーブルを作成する場合は、このチェックボックスをオンにして、テーブルのコンテンツを保持するために使用するディレクトリーをHDFSに入力します。

これは通常、[Advanced settings] (詳細設定)タブの[Create an external table] (外部テーブルを作成する)チェックボックスをオンにして外部Hiveテーブルを作成する必要がある場合に役立ちます。

[Use S3 endpoint] (S3エンドポイントを使用)

[Set file location] (ファイルのロケーションを設定する)チェックボックスをオンにして、外部Hiveテーブルを作成すると、[Use S3 endpoint] (S3エンドポイントを使用)チェックボックスが表示されます。

この[Use S3 endpoint] (S3エンドポイントを使用)チェックボックスをオンにしたら、表示されたフィールドに次のパラメーターを入力する必要があります。
  • [S3 bucket] (S3バケット): テーブルを作成するバケットの名前を入力します。

  • [Bucket name] (バケット名): ジョブの依存項目を保存するために使用するバケットの名前を入力します。S3に既存のバケットを用意しておく必要があります。
  • [Temporary resource folder] (一時リソースフォルダー): ジョブの依存項目を保存するディレクトリーを入力します。たとえば、バケット内の/temp_resources フォルダーに依存項目を書き込むには、temp_resourcesと入力します。

    ランタイムにこのフォルダーが既に存在する場合、そのコンテンツは新しい依存項目によって上書きされます。そうでない場合、このフォルダーは自動的に作成されます。

  • [Access key] (アクセスキー)[Secret key] (シークレットキー): 使用するAmazon S3バケットへの接続に必要な認証情報を入力します。

    パスワードを入力するためには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符で囲んで入力して[OK]をクリックし、設定を保存します。

S3ファイルの形式はS3N (S3ネイティブファイルシステム)です。

S3で作成されたHiveテーブルは実際には外部テーブルであるため、この[Use S3 endpoint] (S3エンドポイントを使用)チェックボックスは、[Create an external table] (外部テーブルの作成)が選択された状態で使用する必要があります。

詳細設定

[Like table] (テーブルのように)

このチェックボックスをオンにし、コピーするHiveテーブルの名前を入力します。これにより、データをコピーせずに既存のテーブルの定義をコピーできます。

Likeパラメーターの詳細は、Hiveのデータ定義言語に関するApacheの情報をご覧ください。

外部テーブルの作成

このチェックボックスをオンにすると、作成するテーブルが外部Hiveテーブルになります。この種のHiveテーブルは、データがHDFSにある場合、生データをそのまま残します。

通常、ファイルシステムに存在する共有データにアクセスするには、外部テーブルの方が適しています。

Hiveのテーブルの詳細は、Hiveに関するApacheのドキュメンテーションをご覧ください。

[Table comment] (テーブルコメント)

作成するテーブルに使用する説明を入力します。

[As select] (選択として)

このチェックボックスを [Select] (選択)し、Selectステートメントに基づくHiveテーブルを作成するためのAs selectステートメントを入力します。

clustered_byまたはskewed_byステートメントの設定

Clustered byステートメントを入力して、テーブルまたはパーティションのデータをバケットにクラスター化します。 or/andSkewed byステートメントを入力して、Hiveが大きく歪んだデータを抽出し、それを個別のファイルに配置できるようにします。これは通常、クエリー中のパフォーマンスを向上させるために使用されます。

[SerDe properties] (SerDeプロパティ)

SerDe行形式を使用している場合は、カスタムSerDeプロパティを追加して、Talend StudioのHadoopエンジンで使用されるデフォルトのプロパティを上書きできます。

[Table properties] (テーブルのプロパティ)

Talend StudioのHadoopエンジンで使用されるデフォルトのプロパティをオーバーライドするカスタムHiveテーブルプロパティを追加します。

[Temporary path] (一時パス)

クエリーselect * from your_table_nameを実行する時にJobtrackerとNameNodeを設定しない場合は、この一時パスを設定する必要があります。たとえば、Windowsでは/C:/select_allになります。

[Hadoop properties] (Hadoopプロパティ)

Talend Studio では、Hadoopディストリビューションの処理を実行するエンジンに、デフォルト設定を使用しています。特定の場合にカスタム設定を使用する必要がある場合は、カスタマイズするプロパティをこのテーブルで設定します。設定後、カスタマイズしたプロパティによってこれらのデフォルトのプロパティが実行時に上書きされます。
  • [Repository] (リポジトリー)に一元的に保管されたメタデータを使用している場合、テーブルにはそのメタデータで定義されたプロパティが自動的に継承されます。[Property type] (プロパティタイプ)[Repository] (リポジトリー)から[Built-in] (組み込み)に変更しないと、テーブルは編集できなくなります。

Hadoopやその関連システム(HDFS、Hiveなど)で必要なプロパティの詳細は、使用しているHadoopディストリビューションのドキュメンテーションか、ApacheのHadoopドキュメンテーションをご覧になって、必要なバージョンのドキュメンテーションを選択してください。以下のリンクでは、一部のプロパティについて実例を紹介しています。

[Hive properties] (Hiveプロパティ)

Talend Studioでは、Hiveデータベースの処理を実行するエンジンに、デフォルト設定を使用しています。特定の場合にカスタム設定を使用する必要がある場合は、カスタマイズするプロパティをこのテーブルで設定します。設定後、カスタマイズしたプロパティによってこれらのデフォルトのプロパティが実行時に上書きされます。詳細は、Hive専用のプロパティをご覧ください。
  • Tezを使用してHiveジョブを実行する必要がある場合は、hive.execution.enginePropertiesカラムに、Tez[Value] (値)カラムに追加し、これらの文字列をどちらも二重引用符で囲みます。
  • [Repository] (リポジトリー)に一元的に保管されたメタデータを使用している場合、テーブルにはそのメタデータで定義されたプロパティが自動的に継承されます。[Property type] (プロパティタイプ)[Repository] (リポジトリー)から[Built-in] (組み込み)に変更しないと、テーブルは編集できなくなります。

[Mapred job map memory mb] (MapredジョブMapメモリmb)および[Mapred job reduce memory mb] (MapredジョブReduceメモリmb)

[Set memory] (メモリのセット)チェックボックスをオンにしてHadoopシステムでの計算実行で適切なメモリ割り当てをセットし、マッピングを調整して計算を減らすことができます。

このような場合は、必要な値を[Mapred job map memory mb] (MapredジョブのMapメモリMB)フィールドと[Mapred job reduce memory mb] (MapredジョブのReduceメモリMB)フィールドにそれぞれ入力してください。デフォルトでは、いずれのフィールドも通常は計算の実行に適切な1000に設定されています。

設定するメモリパラメーターは[Map (in Mb)][Reduce (in Mb)][ApplicationMaster (in Mb)]です。これらのフィールドは、MapとReduceの計算、およびYARNのApplicationMasterに動的にメモリを割り当てることができます。

[Path separator in server] (サーバーのパス区切り)

サーバーのパス区切りのデフォルト値はそのままにしておきます。区切りをコロン(:)以外のHadoopディストリビューションのホストマシンで使用されているPATH変数またはその他の単語に変更している場合は除きます。その場合、値はホストで使用しているものに変更する必要があります。

[Set application name] (アプリケーション名を設定)

このチェックボックスを選択すると、MapReduceやTezでクエリーを実行する時に重複を避けることができます。

MapReduceではmapred.job.nameが、Tezではhive.query.nameがそれぞれ変更されます。どちらの名前も、プロジェクト名、ジョブ名、ジョブのバージョン、日付、時間を連結したものに修正されます。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスを選択すると、コンポーネントレベルでログデータを収集できます。

グローバル変数

グローバル変数

QUERY: 処理されているクエリーステートメント。これはFlow変数で、文字列を返します。

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入力する場合は、Ctrl + スペースを押して変数リストにアクセスし、使用する変数を選択します。

変数の詳細は、コンテキストと変数を使用をご覧ください。

使用方法

使用ルール

このコンポーネントは、スタンドアロンとして機能します。

Hiveデータベースへの接続に使用しているTalend StudioがWindowsマシンにインストールされている場合は、Talend Studioがインストールされているディスクのルートにtmpというフォルダーを手動で作成する必要があります。

[Row format] (行形式)

[Set Delimited row format] (区切り行形式を設定する)

 

[Set SerDe row format] (SerDe行フォーマットを設定する)

 

[Die on error] (エラー発生時に強制終了)

[Dynamic settings] (ダイナミック設定)

[+]ボタンをクリックしてテーブルに行を追加し、[Code] (コード)フィールドにコンテキスト変数を入力して、ジョブ内で計画した複数の接続からデータベース接続をダイナミックに選択します。この機能は、データストラクチャーが同じでデータベースが異なるデータベーステーブルにアクセスする必要がある場合、特に、Talend Studioを介さずにジョブをデプロイおよび実行する必要がある時など、ジョブの設定を変更できない環境で作業している場合に役立ちます。

[Dynamic settings] (ダイナミック設定)テーブルは、[Basic settings] (基本設定)ビューで[Use an existing connection] (既存の接続を使用)チェックボックスがオンになっている場合のみ利用できます。ダイナミックパラメーターを定義すると、[Basic settings] (基本設定)ビューの[Component List] (コンポーネントリスト)ボックスは利用できなくなります。

ダイナミックパラメーターの定義法を示すユースケースについては、コンテキストベースのダイナミック接続によってデータベースからデータを読み取りと、ダイナミックにロードされた接続パラメーターを使って異なるMySQLデータベースからデータを読み取りをご覧ください。ダイナミック設定とコンテキスト変数の詳細は、ダイナミックスキーマコンテキストグループを作成し、その中でコンテキスト変数を定義をご覧ください。

前提条件

Talend Studio との操作を確実に行うには、Hadoopディストリビューションを適切にインストールする必要があります。以下のリストに、MapR関連の情報などを示します。

  • MapRクライアントは必ずTalend Studioのあるマシンにインストールして、そのマシンのPATH変数にMapRクライアントライブラリーを追加します。MapRのドキュメンテーションによると、各OSバージョンに対応するMapRクライアントのライブラリーは、MAPR_INSTALL\ hadoop\hadoop-VERSION\lib\nativeにあります。たとえば、Windows版のライブラリーは、\lib\native\MapRClient.dllにあるMapRクライアントのjarファイルにあります。

    指定のライブラリーを追加しないと、no MapRClient in java.library.pathというエラーが発生する可能性があります。

  • たとえば、[Window] (ウィンドウ)メニューの[Preferences] (環境設定)ダイアログボックスにある[Run/Debug] (実行/デバッグ)ビューの[Job Run VM arguments] (ジョブ実行VMの引数)エリアで、-Djava.library.path引数を設定するために使われます。この引数により、そのMapRクライアントのネイティブライブラリーへのパスがTalend Studioに渡されるので、サブスクリプションベースのユーザーはデータビューアーをフルに活用して、MapRに保存されたデータをTalend Studioでローカルに表示できます。

Hadoopディストリビューションのインストール方法の詳細は、使用しているHadoopディストリビューションに対応するマニュアルをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。