Apache Spark BatchのtSnowflakeConfigurationプロパティ

これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtSnowflakeConfigurationを設定するために使われます。

Spark BatchのtSnowflakeConfigurationコンポーネントは、データベースファミリーに属しています。

このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend 製品すべて、およびTalend Data Fabricで使用できます。

基本設定

[Account] (アカウント)	[Account] (アカウント)フィールドに、Snowflakeによって割り当てられたアカウント名を二重引用符で囲んで入力します。
Region	ドロップダウンリストからAWSまたはAzureリージョンを選択します。
認証方式	認証方式を設定するために使われます。 [Key Pair] (キーペア): キーペア認証が有効な場合は、このオプションを選択します。キーペア認証の詳細は、Using Key Pair Authentication (英語のみ)をご覧ください。情報メモ注: [Key Pair] (キーペア)オプションを選択する前に、tSetKeystoreコンポーネントの[Basic settings] (基本設定)ビューでキーペア認証データが次のように設定済みであることを確認します。 [TrustStore type] (TrustStoreタイプ)フィールドをそのままにしておきます。 [TrustStore file] (TrustStoreファイル)を`""`に設定します。 [TrustStore password] (TrustStoreパスワード)フィールドをクリアします。 [Need Client authentication] (クライアント認証が必要)を選択します。キーストアファイルへのパスを二重引用符で囲んで[KeyStore file] (KeyStoreファイル)フィールドに入力します(または[KeyStore file] (KeyStoreファイル)フィールドの右側にある[…]ボタンをクリックして、キーストアファイルに移動します)。キーストアファイルのパスワードを[KeyStore password] (KeyStoreパスワード)フィールドに入力します。 [Check server identity] (サーバーIDをチェック)オプションをクリアします。情報メモ注: [Key Pair] (キーペア)オプションは、ローカルSparkモードでSpark v2.4以降を使用している場合、EMR 5.29およびCDH 6.1ディストリビューションでのみ利用できます。
[Username] (ユーザー名)と[Password] (パスワード)	Snowflakeにログインするための認証情報を二重引用符で囲んで入力します。
[Database] (データベース)	使用するSnowflakeデータベースの名前を二重引用符で囲んで入力します。この名前では大文字と小文字が区別され、Snowflakeでは通常は大文字です。
[Database Schema] (データベーススキーマ)	使用するデータベーススキーマの名前を二重引用符で囲んで入力します。この名前では大文字と小文字が区別され、Snowflakeでは通常は大文字です。
[Warehouse] (ウェアハウス)	使用するSnowflakeウェアハウスの名前を二重引用符で囲んで入力します。この名前では大文字と小文字が区別され、Snowflakeでは通常は大文字です。
[Connection properties] (接続のプロパティ)	対応するカラムに、接続のプロパティと関連する値を二重引用符で囲んで入力します。Snowflakeの公式ドキュメントから、Setting Configuration Options for the Connector (英語のみ)で使用可能なプロパティを見つけることができます。

詳細設定

[Use Custom Region] (カスタムリージョンを使う)	このチェックボックスをオンにすると、カスタマイズしたSnowflakeリージョンが使用されます。
[Custom Region] (カスタムリージョン)	使用するリージョンの名前を二重引用符で囲んで入力します。この名前では大文字と小文字が区別され、Snowflakeでは通常は大文字です。

使用方法

使用ルール	このコンポーネントは、他のコンポーネントに接続せずに使用されます。 tMysqlConfigurationコンポーネントの設定は、この設定を使い、同じジョブ内にあるMySQL関連コンポーネントにのみ適用されます。
[Spark Connection] (Spark接続)	[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。 Yarnモード(YarnクライアントまたはYarnクラスター): Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。 HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。 Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。 Quboleを使用する場合は、ジョブにtS3Configurationを追加し、QuboleでS3システム内に実際のビジネスデータを書き込みます。tS3Configurationを使用しないと、このビジネスデータはQubole HDFSシステムに書き込まれ、クラスターをシャットダウンすると破棄されます。オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。 [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。この接続は、ジョブごとに有効になります。

使用ルール

このコンポーネントは、他のコンポーネントに接続せずに使用されます。

tMysqlConfigurationコンポーネントの設定は、この設定を使い、同じジョブ内にあるMySQL関連コンポーネントにのみ適用されます。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。

Yarnモード(YarnクライアントまたはYarnクラスター):
- Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。
- HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。
- Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
- Quboleを使用する場合は、ジョブにtS3Configurationを追加し、QuboleでS3システム内に実際のビジネスデータを書き込みます。tS3Configurationを使用しないと、このビジネスデータはQubole HDFSシステムに書き込まれ、クラスターをシャットダウンすると破棄されます。
- オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。
[Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください