コンポーネントをリンクして、DeltaLakeデータのフローを設計する
DeltaLakeデータの読み取りと処理に使用するコンポーネントをドロップしてリンクします。
手順
- Studioの Integration パースペクティブで、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードから空のSpark Batchジョブを1つ作成します。
- ワークスペース内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントは、tS3Configuration (名前はs3_flights)、2つのtDeltaLakeInputコンポーネント(名前はそれぞれflights_latest_version、およびflights_first_version)、2つのtAggregateRowコンポーネント(名前はcount_per_flights)、2つのtPartitionコンポーネント(名前はrepart)、1つのtMapコンポーネントおよび1つのtFileOutputDelimitedコンポーネントです。
- 上図に従い、 リンクを使用してこれらのコンポーネントを接続します。
- tS3Configurationコンポーネントは、接続しないでおきます。