メイン コンテンツをスキップする 補完的コンテンツへスキップ

数値データでの "or" 条件の作成

数値データが含まれているデータセットで作業する時は、フィルターを使って特定の値を含んでいる行を分離したり、[Chart] (チャート)パネルで値の範囲を選択し、対応するフィルターを作成したりできます。ただし、値のリストに対応する行を返すフィルター(つまり "or" フィルター)を作成するには、別の方法で処理する必要があります。選択したすべての数値に一致する正規表現を作成し、その正規表現に一致する行をフィルタリングします。

一例として、自動車販売店のデータセットを使い、特定の年に発売された自動車の売上を表示するフィルターを作成します。その後、このフィルターに該当する顧客情報のみをエクスポートできるようになります。

自動車販売店のデータセットにプレパレーションを追加

プレパレーションを追加し、データの準備とクレンジングを開始します。

Talend Cloud Data Preparationで既に使用可能になっているデータセットまたはローカルファイルからプレパレーションを作成できます。対応するボタンでプレパレーションを追加すると、現在作業しているフォルダーにプレパレーションが作成されます。また、プレパレーションはプレパレーションリストに自動的に保存され、変更した内容もすべて自動的に保存されます。

Before you begin

前にダウンロードしたファイルを使い、Talend Cloud Data Preparationcar_dealershipデータセットを作成しました。

Procedure

  1. ホームページで[Preparations] (プレパレーション)をクリックし、プレパレーションのリストを開きます。
  2. [Add preparation] (プレパレーションを追加)ボタンをクリックします。
  3. [Datasets] (データセット)のリストでcar_dealershipを選択し、ソースマテリアルとして使います。
    [Add a preparation] (プレパレーションを追加)ウィンドウに、プレパレーションの作成に利用可能なデータセット(car_dealershipを含む)のリストが表示されている状態。
    [Preparation name] (プレパレーション名)フィールドは自動で入力されますが、このプレパレーション名は変更することもできます。
  4. [Submit] (送信)をクリックします。

Results

レシピが空のデータセットが開くので、プレパレーションステップの追加を開始します。変更した内容はすべて自動的に保存されます。

自動車の年に一致する正規表現の作成

関心のあるすべての年(1950、1960、1970、1980、1990、2000、2010)に一致する正規表現を作成します。

Procedure

  1. car_yearカラムのヘッダーをクリックし、その内容を選択します。
  2. 画面の右側にあるファンクションパネルにMatch patternと入力し、結果をクリックして関連ファンクションのオプションを開きます。
  3. [Pattern] (パターン)フィールドのドロップダウンリストで[Other] (その他)を選択します。
  4. [Manual pattern] (手動パターン)ドロップダウンリストでRegExを選択します。
  5. [Manual pattern] (手動パターン)フィールドに次の正規表現を入力します。
    ^1950$|^1960$|^1970$|^1980$|^1990$|^2000$|^2010$

    この表現式は、1950年、1960年、1970年など、自動車に関連する売上が含まれているすべての行に一致します。

  6. [Submit] (送信)をクリックします。

Results

新しい列が作成され、正規表現に一致する行はtrueとして、一致しない行はfalseとしてそれぞれマークされます。
新しいカラムがプレパレーションに追加され、その値が式に一致することが示されている状態。

これらの値をフィルタリングして "or" 条件を作成

正規表現に一致する行を知る方法がわかったので、新しいカラムでフィルターを作成すれば、該当する行をすべて取得できるようになります。

Procedure

  1. car_year_matchingカラムのヘッダーをクリックし、その内容を選択します。
    画面右下のデータプロファイリングエリアに、カラム内のtrue値とfalse値の出現数を示す横棒グラフがあります。正確な出現数を表示するには、各バーの上にマウスを置きます。
    true値とfalse値の割合が示されている棒グラフ。
  2. フィルターを作成するには、trueバーをクリックします。
    フィルターバーを見ると、フィルターがデータセットに適用されたことがわかります。また、顧客データは正規表現で前に設定された条件に一致する場合のみ表示されます。
    フィルターが適用され、true値だけが表示されている状態。

Results

1つだけではなく複数の数値に基づくこのフィルターを同時に適用し、特定年における自動車関連の売上を分離しました。今後は、どのファンクションも適用して作業できるのはこのサンプルのみとなります。

フィルタリングされた行のエクスポート

顧客の限定リストの強調表示とプレパレーションができたので、ローカルファイルにエクスポートします。

Procedure

  1. [Export] (エクスポート)ボタンをクリックします。
  2. [All data] (すべてのデータ)ラジオボタンを選択し、[Apply filters] (フィルターを適用)スイッチが有効になっていることを確認します。
    これによって、データセットがサンプルより大きい場合でも、フィルターに一致する潜在的な行がエクスポートにすべて含まれるようになります。
  3. データのエクスポートで使用する形式を選択します。
    • [Local CSV file] (ローカルCSVファイル)を選択した場合は、使用するフィールド区切り、テキスト囲み文字、およびエスケープ文字を選択し、エクスポートするファイルの名前を入力します。
    • [Local XLSX file] (ローカルXLSXファイル)を選択する場合は、エクスポートするファイルの名前を入力します。
    • Amazon S3を選択する場合は、認証情報とその他の情報を入力して、ファイルをAmazon S3に保存します。

Results

プレパレーションを使ってクレンジングしたデータがローカルファイルにエクスポートされます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。