メイン コンテンツをスキップする 補完的コンテンツへスキップ

フィルターを使った、顧客データ上での"if"条件の作成

video_customers.xlsxデータセットには、動画ストリーミング会社の米国の顧客に関する情報を持つサンプルが含まれています。名前、州、年齢、サブスクリプション日などがこのファイルにリストされています。

"if"条件のように動作する複数のフィルターを組み合わせると、特にターゲットにしたい顧客カテゴリーに対してクレンジング処理を実行できます。この例では、30~55歳の年齢層で、登録された顧客数が最も多い5つの米国の州の顧客をリストすると同時に、使用できないデータを排除したファイルを出力します。

video_customers.xlsxファイルをダウンロードします。

video customersデータセットのプレパレーションの追加

プレパレーションを追加し、データの準備とクレンジングを開始します。

Talend Data Preparationで既に使用可能になっているデータセットまたはローカルファイルからプレパレーションを作成できます。対応するボタンでプレパレーションを追加すると、現在作業しているフォルダーにプレパレーションが作成されます。また、プレパレーションはプレパレーションリストに自動的に保存され、変更した内容もすべて自動的に保存されます。

Before you begin

前にダウンロードしたファイルを使い、Talend Cloud Data Preparationvideo_customersというデータセットを作成しました。

Procedure

  1. ホームページで[Preparations] (プレパレーション)をクリックし、プレパレーションのリストを開きます。
  2. [Add preparation] (プレパレーションを追加)ボタンをクリックします。
  3. [Datasets] (データセット)のリストでvideo_customersを選択し、ソースマテリアルとして使います。
    [Add a preparation] (プレパレーションを追加)ウィンドウに、プレパレーションの作成に利用可能なデータセット(video_customersを含む)のリストが表示されている状態。
    [Preparation name] (プレパレーション名)フィールドは自動で入力されますが、このプレパレーション名は変更することもできます。
  4. [Submit] (送信)をクリックします。

Results

レシピが空のデータセットが開くので、プレパレーションステップの追加を開始します。変更した内容はすべて自動的に保存されます。

空のレコードと無効なレコードの削除

クオリティバーは、カラムに空のレコードまたは無効なレコードが含まれているかどうかを示します。

クオリティバーがあるグリッドの一部のカラムに、無効セルまたは空のセルが表示されている状態。

カラムタイプに一致するデータはクオリティバーで緑で表示されます。赤の場合、カラムタイプに一致しない無効なデータを示します。空のレコードはグレーで表示されます。

特定の年齢範囲と州の顧客に注目する必要があるので、該当するカラムの空のデータは要りません。操作は簡単で、age (年齢)とstate (州)のカラムの空のデータと無効な値をデータセットから削除するだけです。

Procedure

  1. グリッドの左上にあるメニューアイコンをクリックして、[Display rows with invalid or empty values] (値が無効または空の行を表示)を選択します。
    データセット全体にある空白行と無効行のためのフィルタリングオプション。

    この操作によってデータへのフィルターが作成され、データセットからの空のエントリーまたは無効なエントリーだけが表示されます。データに適用されているフィルターはすべて、グリッド上部でいつでも表示できます。

    また、ファンクションパネル下部に新しいオプションが表示されています。フィルターや条件を適用すると、全データまたはフィルター処理済みのデータだけにファンクションを適用するかどうか選択できます。Talend Cloud Data Preparationではこのように条件を使用します。

    このフィルターが全データで有効になったので、age (年齢とstate (州)のカラムから特に空のレコードを削除します。

  2. [age] (年齢)カラムのヘッダーにあるクオリティバーのグレーの部分をクリックします。
  3. メニューが開いたら、[Delete the rows with empty cell] (空のセルを含む行を削除)を選択します。

    空の値が削除されたので、age (年齢)カラムのクオリティバーで確認できるように、このカラムには有効なデータだけが格納されています。

  4. 同じ手順をstate (州)カラムでも繰り返します。

    現在有効な条件からわかるように、データセットの他のカラムには空の値が含まれていますが、重要なのは年齢と州なので、空の値はそのままにします。マーケティング目的に使用できるphone number (電話番号)カラムから無効なデータを削除します。

  5. phone numberのクオリティバーの赤の部分をクリックして、[Delete the rows with invalid cell] (無効なセルを含む行を削除)を選択します。

    無効と見なされたデータはすべて削除されます。

  6. フィルターバーのごみ箱アイコンをクリックしてフィルターを消去し、再びデータセット全体を表示します。

Results

age (年齢)、state (州)、phone numbers (電話番号)のカラムの空の値または無効な値を持つ行が削除されます。データセットから余分なデータがある程度取り除かれたので、重要なデータに集中して取り組めます。

年齢と州へのフィルターの作成

フィルターを作成すれば、データをすばやく識別および隔離できます。

ここでもフィルターを使って、この例で最も重要なデータ、つまり、顧客の年齢と居住地を隔離します。インターフェイスの右下にあるデータプロファイリングエリアでは、[age] (年齢)カラムと[state] (州)のカラムのデータを示すチャートを操作して、特定のデータ範囲を選択できます。

Procedure

  1. [age] (年齢)カラムのヘッダーをクリックしてその内容を選択します。

    画面右下のデータプロファイリングエリアには、カラムに表示されている各値の出現数を示す縦棒グラフがあります。

    ageカラムに値の割合が示されている棒グラフ。

    その中にある最小の年齢は18歳で、最大値は80歳です。

  2. グリッドに表示されている年齢の値を制限し、30~55歳の範囲のフィルターを作成するには、次の手順を実行します。
    • 範囲スライダーの両端をドラッグして、表示する最小値と最大値を選択します。
      ageカラムに、30〜55でフィルタリングされた値の割合が示されている棒グラフ。
    • 最小値として30、最大値として55を、該当するフィールドに直接入力します。

    新しいフィルターがデータセットに適用され、顧客データは、30~55歳の範囲で設定された条件を満たすものだけが表示されます。

    フィルターが適用され、30〜55のage値だけが表示されている状態。

    フィルターは、フィルターバーのテキストエリアに値を手動で入力すれば作成できますが、一度に1つまたは複数のカラムのデータにフィルターを適用する便利で簡単な方法は、ダイアグラムを使用する方法です。

    特定の年齢範囲に関するビジョンを得たので、最初のフィルターの上に2番目のフィルターを加えます。フィルターは多くの方法で組み合わせることができます。ここでは、顧客数が最も多い5つの州を表示することにします。

  3. [state] (州)カラムのヘッダーをクリックしてその内容を選択します。

    今回は、データをプロファイリングエリアの横棒グラフとして表示します。

    stateカラムの値の割合が示されている棒グラフ。
  4. 最も顧客数が多い上位5州のフィルターを作成するには、Shiftキーを押したまま、CaliforniaTexasFloridaNew YorkVirginiaをクリックします。
    stateカラムに、5州でフィルタリングされた値の割合が示されている棒グラフ。

    フィルターバーを見ると、フィルターは最初にフィルターの上に適用され、両方を満たすデータだけがグリッドに表示されています。

    2つのフィルターが適用され、ageカラムとstateカラムの一部の値のみが表示されている状態。
  5. 使用されなくなったデータを削除し、このサンプルだけを維持するには、ファンクションパネルで[Keep these filtered rows] (フィルター処理された行を維持)ファンクションをクリックします。

    このファンクションは、[Apply changes to: Filtered rows] (変更の適用先: フィルター処理済みの行)ラジオボタンが有効になっている場合にだけ使用できます。

  6. ごみ箱アイコンをクリックするか各フィルターのバツ印をクリックして、フィルターバーを消去します。

Results

サンプルでは、設定した条件を満たす顧客だけのリストが表示されます。

特定の顧客範囲のデータをエクスポート

作業対象のデータが隔離され、クレンジングされたので、ローカルファイルとしてエクスポートできます。

フィルターを使用することで、データに対して条件付き操作を実行しました。特定の州の35~50歳の顧客に適用されたデータだけが維持されます。準備したデータセットがエクスポート可能な状態になりました。

Procedure

  1. [Export] (エクスポート)ボタンをクリックします。
  2. データのエクスポートで使う形式を選択します:
    • [Local CSV file] (ローカルCSVファイル)を選択した場合は、使用するフィールド区切り、テキスト囲み文字、およびエスケープ文字を選択し、エクスポートするファイルの名前を入力します。
    • [Local XLSX file] (ローカルXLSXファイル)を選択する場合は、エクスポートするファイルの名前を入力します。
    • Amazon S3を選択する場合は、認証情報とその他の情報を入力して、ファイルをAmazon S3に保存します。

Results

プレパレーションを使ってクレンジングしたデータがローカルファイルにエクスポートされます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。