Unity Catalogを使って管理対象テーブルで作業
このシナリオでは、管理対象のDelta Lakeテーブルに保存されたデータをUnity Catalogを使って準備、分析、変換するSparkバッチジョブについて説明します。
このシナリオでは、Delta Lakeデータセットの中で最もストリーミングされた曲とアルバムが含まれているストリーミング音楽のレコードで作業しています。Databricksの同じテーブルでシームレスに消費できるよう、人気とジャンル別に曲を分析したいと考えています。
以下は、このシナリオで使用するデータセットのサンプルです:

始める前に
Spark Batchジョブを設定
このシナリオでは、サブジョブがいくつか含まれているSpark Batchジョブを作成する必要があります。サブジョブはそれぞれ、異なるアクションを実行するために使われます。

手順
データをUnity Catalogに保存
このシナリオの最初のステップは、ストリーミング音楽のレコードが含まれているCSVファイルをTalend Studioにロードし、データセットをDelta Lakeテーブルに保存することでです。
このタスクについて
手順
タスクの結果
人気別に曲をフィルタリング
このシナリオの第2ステップは、Delta Lakeデータセットから曲を人気別にフィルタリングすることです。最初のフィルターは最も人気がある曲に適用され、2番目のフィルターはあまり人気がない曲に適用されます。
このタスクについて
手順
タスクの結果
曲をジャンル別にパーティショニング
このシナリオの第3ステップは、曲を5つのジャンル(この例ではacoustic、brazilian、anime、breakbeat、blues)にパーティショニングすることです。それぞれのジャンルが新しいテーブルを表しています。
このタスクについて
- Partitioning by genre: acoustic
- Partitioning by genre: brazil
- Partitioning by genre: breakbeat
- Partitioning by genre: blues
手順
タスクの結果
データ来歴を分析
このシナリオの最後のステップは、Unity Catalogのデータ来歴ツールで最終データを分析することです。