HDFSへの接続の作成
- Big Data
- Big Data Platform
- Cloud Big Data
- Cloud Big Data Platform
- Cloud Data Fabric
- Data Fabric
- Real-Time Big Data Platform
手順
- [Repository] (リポジトリー)ツリービューで、[Metadata] (メタデータ)ノードの下の[Hadoop cluster] (Hadoopクラスター)ノードを展開し、使用するHadoop接続を右クリックしてコンテキストメニューから[Create HDFS] (HDFSの作成)を選択します。
-
接続ウィザードが表示されます。ここで、[Name] (名前)、[Purpose] (目的)、[Description] (説明)など、ジェネリックプロパティを入力します。[Status] (ステータス)フィールドは、[File] (ファイル) > [Edit project properties] (プロジェクトプロパティを編集)で定義できます。
-
完了したら、[Next] (次へ)をクリックします。2番目のステップでは、HDFSの接続データを入力します。[User name] (ユーザー名)プロパティには、前のステップで選択したHadoop接続から継承された値が自動的に入力されます。
[Row separator] (行区切り)と[Field separator] (フィールド区切り)のプロパティには、デフォルトの値を使用します。使用しているHadoop接続でKerberosセキュリティが有効な場合は、[User name] (ユーザー名)フィールドが自動的に無効になります。
- アクセス先のHDFSのデータに、無視したいヘッダーメッセージが含まれている場合は、[Header] (ヘッダー)チェックボックスをオンにして、無視するヘッダー行の番号を入力します。
-
アクセスするデータのカラム名を定義する必要がある場合は、[Set heading row as column names] (先頭行をカラム名に設定)チェックボックスをオンにします。これにより、Studioは無視した最後の行を選択し、データのカラム名として使用します。
たとえば、このチェックボックスをオンにして、[Header] (ヘッダー)フィールドに1と入力すると、使用するデータのスキーマを取得する時に、データの最初の行がデータボディとしては無視され、データのカラム名として使用されます。
-
使用するHadoopディストリビューションのHDFSの設定をカスタマイズする必要がある場合は、[Hadoop properties] (Hadoopのプロパティ)の横の[...]ボタンをクリックして対応するプロパティテーブルを開き、カスタマイズするプロパティを追加します。その後、実行時にStudioがHadoopのエンジンに使用するデフォルトのプロパティが、カスタマイズした設定に上書きされます。
[Parent Hadoop properties] (親Hadoopのプロパティ)テーブルは、現在編集中のプロパティテーブルの上部に表示されます。この親テーブルは読み取り専用で、現在のHDFS接続のベースとなる親Hadoop接続のウィザードで定義されたHadoopのプロパティがリストされます。HDFSに関連するプロパティの詳細は、Apache Hadoopのドキュメンテーション (英語のみ)か、使用するHadoopディストリビューションのドキュメンテーションをご覧ください。たとえば、このページ (英語のみ)にはデフォルトのHDFS関連のHadoopプロパティがいくつか記載されています。このプロパティテーブルの活用方法の詳細は、再利用可能なHadoopのプロパティを設定をご覧ください。
-
必要に応じてデフォルトの区切り文字を変更し、[Check] (チェック)をクリックして接続を確認します。
正しく接続できたかどうかを示すメッセージが表示されます。
-
[Finish] (終了)をクリックして変更を確定します。
作成したHDFSの接続は、[Repository] (リポジトリー)ツリービューの[Hadoop cluster] (Hadoopクラスター)ノードの下に表示されます。情報メモ注:
この[Repository] (リポジトリー)ビューは、使用しているStudioのエディションによって異なる場合があります。
環境コンテキストを使用してこの接続のパラメーターを定義する必要がある場合は、[Export as context] (コンテキストとしてエクスポート)ボタンをクリックして対応するウィザードを開き、以下のオプションから選択します。-
[Create a new repository context] (新しいリポジトリーコンテキストを作成): 現在のHadoop接続からこの環境コンテキストを作成します。つまり、ウィザードで設定するパラメーターは、これらのパラメーターに設定した値と共にコンテキスト変数として取られます。
-
[Reuse an existing repository context] (既存のリポジトリーコンテキストを再利用): 特定の環境コンテキストの変数を使用して現在の接続を設定します。
[Export as context] (コンテキストとしてエクスポート)機能の使用方法の詳細な例は、メタデータのコンテキストとしてエクスポート、およびコンテキストパラメーターを再利用して接続を設定をご覧ください。
-
- 作成した接続を右クリックし、ドロップダウンリストから[Retrieve schema] (スキーマを取得)を選択して、目的のテーブルスキーマを確立した接続からロードします。