このページ上

メインコンテンツをスキップする

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

AWSでS3とDatabricksを使ってジョブのデータフローを設計

Studioの Integration パースペクティブで、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードから空のSpark Batchジョブを1つ作成します。
ワークスペース内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントは、tS3Configuration、tFixedFlowInput、tFileOutputParquet、tFileInputParquet、tLogRowです。
tFixedFlowInputコンポーネントは、サンプルデータをデータフローにロードするために使われます。実際には、ファイル入力コンポーネントと処理コンポーネントを使って、処理するデータを準備する高度なプロセスを設計できます。
[Row] (行) > [Main] (メイン)リンクを使って、tFixedFlowInputをtFileOutputParquetに接続させます。
[Row] (行) > [Main] (メイン)リンクを使って、tFileInputParquetをtLogRowに接続させます。
[Trigger] (トリガー) > OnSubjobOkリンクを使ってtFixedFlowInputをtFileInputParquetに接続します。
tS3Configurationコンポーネントは、接続しないでおきます。

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。