チュートリアル - データフロー初級者向け

このチュートリアルでは、データフローの構築に必要なさまざまな手順と、提供されるさまざまな可能性をよりよく理解できるように、基本的なデータ準備のユースケースを紹介します。いくつかのデータセットを含む添付パッケージを使用すると、このチュートリアルのすべてのステップを再現できます。

このシナリオでは、世界中の顧客に関する販売データサンプルと、顧客の名前、注文日とステータス、出身国、州、住所、電話番号などの情報に焦点を当てます。たとえば、米国の顧客に焦点を当てたデータを準備するとします。米国の顧客に関するすべてのデータを分離し、原産国に関する不足情報を追加し、わずかな書式変更を行い、たとえば分析アプリケーションのソースとして使用できる新しいファイルにデータをエクスポートします。

前提条件

このパッケージをダウンロードしてデスクトップに解凍します。

データフロー初級者向けチュートリアル

パッケージには、チュートリアルを完了するために必要な次のデータファイルが含まれています。

sales_data_sample.xlsx
states.xlsx

ソースファイルをカタログに追加する

データフローの作成を開始する前に、パッケージの 2 つのファイルが分析プラットフォームで使用可能になっている必要があります。ソースデータをカタログに追加するには、次を実行します。

Launcher メニューから、 [分析] > [カタログ] を選択します。
右上の [新規作成] をクリックし、 [データセット] を選択します。
開いたウィンドウで、 [データファイルをアップロード] をクリックします。
チュートリアルファイルをデスクトップから [ファイルを追加] ウィンドウの専用領域にドラッグアンドドロップするか、 [参照] をクリックして保存場所から選択します。
[Upload] (アップロード)をクリックします。

データフローの作成とソースの追加

すべての準備が整ったので、ソースからデータフローの作成を開始できます。

Launcher メニューから、 [分析] > [データの準備] を選択します。
[データフロー] タイルをクリックするか、 [新規作成] > [データフロー] をクリックします。
[新しいデータフローを作成] ウィンドウで、データフローの情報を次のように設定し、 [作成] をクリックします。
- [名前] はデータフローのチュートリアル。
- [スペース] は個人。
- [説明] は米国の顧客に焦点を当てた販売データを準備するためのデータフロー。
- [タグ] はチュートリアル。
空のデータフローが開きます。
空のキャンバスで [カタログを参照] をクリックして、カタログに追加されたデータセットの確認を開始します。
フィルター検索を使用して、以前にアップロードした sales_data_sample.xlsx および states.xlsx データセットを見つけ、名前の前のチェックボックスを選択します。
[Next] (次へ)をクリックします。
概要内のデータセットとそのフィールドを確認し、 [データフローにロード] をクリックします。

両方のソースデータセットがキャンバスに追加され、プロセッサーを使用したデータの準備を開始できます。sales_data_sample.xlsx は作業するメインデータセットであり、states.xlsx は追加データとして使用されます。

米国顧客に関するデータのフィルタリング

プロセッサを使用して、連続的な変更を伴うデータの準備を開始できるようになりました。最初のステップは、データセットの範囲を縮小し、米国を拠点とする顧客のみに焦点を当てることです。実行するには、Filter プロセッサーを使用して、COUNTRY フィールドに USA 値を持つ行のみを選択します。

キャンバス上の sales_data_sample ソースのアクションメニュー () をクリックします。
開いたメニューから、 [プロセッサーを追加] > [Filter] を選択します。

Filter プロセッサーはキャンバス上に配置され、ソースノードにすでに接続されています。

情報メモ[プロセッサー] の左パネルから手動でプロセッサーを手動でドラッグアンドドロップし、ノードを手動で接続することもできます。
まだ開いていない場合は、キャンバスの右上にある [プロパティ] をクリックしてプロセッサープロパティパネルを開き、プロセッサーを構成したり、データのプレビューやスクリプトを確認したりできます。
プロパティパネルで、プロセッサー名の横にある [編集] アイコン () をクリックして、プロセッサーに「米国フィルター」などの意味のある名前を付け、「米国顧客のフィルター」などの短い説明を付けます。
[処理するフィールド] ドロップダウンリストで、 [COUNTRY] を選択します。
[Operator] (オペレーター)ドロップダウンリストから==をクリックします。
[Use with] (一緒に使用) フィールドで [値] を選択し、「USA」と入力します。
[一致する行を選択] リストから、 [すべてのフィルター] を選択します。

これらのパラメーターは、複数のフィルターを組み合わせる場合に便利です。
[適用] をクリックします。

プロセッサーの構成は有効ですが、プロセッサーにまだ出力フローがないため、「接続されていません」というメッセージが表示されます。
下部パネルの [データのプレビュー] をクリックします。

プレビューを見ると、国が USA である行のみがこの段階で保持され、出力フローに伝播されることがわかります。これまでのデータフローは次のようになります。

別のデータセットから州名を追加する

米国を拠点とする顧客の場合、「STATE」フィールドには 2 文字のコードとして州の情報が含まれます。州の正式名称を使用して、この情報を読みやすくしたいと考えています。

先ほどソースとしてインポートした states.xlsx データセットには、2 文字のコードに対応する正式名称を持つ米国のすべての州の参照が含まれています。これら 2 つのデータセット間の結合を実行して州名を取得し、メインフローを補完します。

州名を含む参照データセット

結合の対象となるには、2 つのデータセットに少なくとも 1 つの共通フィールドが必要です。

結合するには、次を実行します。

Filter プロセッサーのアクションメニュー () をクリックし、 [一致するブランチにプロセッサーを追加] > [Join] を選択します。
プロパティパネルの [編集] アイコン () を使用して、プロセッサーの名前を「Full state names (州の正式名称)」に変更します。
州のソースを Join プロセッサー下部のアンカーポイントに接続します。リンクを作成するには、ソースノードの右側にあるドットをクリックし、クリックしたままリンクをプロセッサーノードの左側にある下のドットまでドラッグします。
[結合タイプ] ドロップダウンリストで、 [左外部結合] を選択します。
[左キー] ドロップダウンリストで、 [STATE (州)] フィールドを選択します。
[右キー] ドロップダウンリストで、 [Abbreviation (略称)] フィールドを選択します。

選択された 2 つの列には共通の情報が含まれており、2 つの入力フロー間のリンクが可能になります。左外部結合では、2 番目のデータセットからの追加フィールドのみがメインフローに追加されます。
[適用] をクリックします。

データセットの最後に新しいフィールド「State (州)」が追加され、各顧客の州の正式名称が表示されます。

フィールドの名前変更と移動

現在、列の名前付けと書式設定にはいくつかの問題があります。STATE と State は酷似しているため混乱を招き、2 つのフィールドは離れすぎています。Select fields プロセッサーを使用してフィールドの名前を変更したり、フィールドを移動したりすることで、フィールドの一貫性と統一性を向上できます。

Join プロセッサーのアクションメニュー () をクリックし、 [プロセッサーを追加] > [Select fields] を選択します。
Join プロセッサーを Select fields プロセッサーに接続します。
プロパティパネルの [編集] アイコン () を使用して、プロセッサーの名前を「Reorganize states fields (州フィールドの再編成)」に変更します。
フロー内のすべての項目を保持するには、 [すべて選択]チェックボックスをクリックします。
名前を変更するフィールドにマウスを合わせ、 [編集] アイコンをクリックして、 2 つのフィールド名を次のように編集します。
- STATE を STATECODE に
- State を STATENAME に
= アイコンを使用して、新しい STATENAME 列を STATECODE の横にドラッグアンドドロップします。
[適用] をクリックします。

フィールドを再編成すると、データフローは次のようになります。

顧客名を大文字表記にする

顧客の姓を強調表示し、名と区別しやすくするために、Strings プロセッサーのシンプルな書式設定関数を使用して、姓を大文字にします。

Select fields プロセッサーのアクションメニュー () をクリックし、 [プロセッサーを追加] > [Strings] を選択します。
Select fields プロセッサーを Strings プロセッサーに接続します。
プロパティパネルの [編集] アイコン () を使用して、プロセッサーの名前を「Upper case (大文字)」に変更します。
[Function name] (関数名) ドロップダウンリストで [Change to upper case] (大文字に変換) を選択します。
[処理するフィールド] ドロップダウンリストで、 [CONTACTLASTNAME] を選択します。
[適用] をクリックします。

ターゲットを追加してデータフローを実行する

主な準備ステップは完了ました。結果のデータをエクスポートする方法を構成して、データフローを最終決定できます。このシナリオでは、準備したデータを .qvd ファイルとしてエクスポートし、カタログに直接保存します。こうすることで、後で分析アプリケーションなどで使用しやすくなります。

Strings プロセッサーのアクションメニュー () をクリックし、 [ターゲットを追加] > [データファイル] を選択します。
Strings プロセッサーを [データファイルターゲット] に接続します。
プロパティパネルの [編集] アイコン () を使用して、プロセッサーの名前を「QVD ターゲット」に変更します。
[スペース] ドロップダウンリストで、 [個人] を選択します。
[ファイル名] フィールドに「tutorial_output」と入力します。
[拡張] ドロップダウンリストで、 [.qvd] を選択します。
[適用] をクリックします。

ヘッダーバーのステータスと、各ソース、プロセッサー、ターゲットノードの下の緑色のチェックマークで示されるように、データフローが完了して有効になりました。
ウィンドウの右上にある [フローを実行] ボタンをクリックします。

実行の進行状況を示すモーダルが開きます。

しばらくするとウィンドウが閉じ、実行が成功したかどうかを知らせる通知が表示されます。データフローの出力は、カタログまたはデータフローの [概要] パネルの [出力] セクションで確認できます。

次のステップ

ソースデータをカタログにインポートし、データをフィルター処理して改善するためのシンプルなデータフローを構築し、準備の結果をすぐに使用できるファイルとしてエクスポートする方法を学習しました。

独自のユースケースにデータフローを使用するさまざまな方法については、データフロープロセッサー の完全なリストと、提供される関数を参照してください。

準備したデータを分析アプリケーションで使用する方法については、「分析の作成とデータの視覚化」を参照してください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください

チュートリアル - データ フロー初級者向け