メイン コンテンツをスキップする 補完的コンテンツへスキップ

例に基づいてデータを自動的に形式設定

スマート入力ファンクションでは、専用のファンクションを持たないデータ型をフォーマットしたり、同じファンクションで連続する変換を簡単に実行したりするための便利なソリューションを提供します。

情報メモ注: このファンクションはSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。

機械学習アルゴリズムを使用して、このファンクションを使用すると、事前に定義したいくつかの例に基づいて、パターンを定義し、自動的にカラム全体に変換を適用できます。

現在、スマート入力ファンクションがサポートしている変換タイプは次のとおりです。

  • Substring
  • 定数(数字、文字、特殊文字)の追加
  • 大文字と小文字の区別
  • 国、米国の郵便番号と州、メール、URL、日付のセマンティック変換

ファンクションを動作させるには、適用する変換の例を少なくとも2つ入力する必要があります。その後は3つまで例を追加できます。入力する例が多いほど、ファンクションによってより正確にパターンが識別されます。

ファンクションで生成された変換プログラムがソースカラムからのデータの一部に適用されなければ、ターゲットカラムでは変更されないままとなります。

[dates] (日付)[phone numbers] (電話番号)などのデータ型には、その形式を簡単に変更するために使える専用のファンクションがあります。たとえば、[full names] (氏名)[social security numbers] (社会保障番号)[state codes] (州コード)はそうではありません。次のシナリオでは、スマート入力関数を使用して、そのような場合にデータの形式を設定する方法を示しています。

スマート入力によるフォーマット名

スマート入力ファンクションを使用すると、例で定義されたパターンに基づいて自動的に名前の形式を設定できます。

フルネームまたは顧客を含むカラムを持つデータセットの例を見てみましょう。

データセットに顧客のフルネームが含まれている状態。

名前の形式を設定し、ファーストネームの最初の文字、次にドット、最後に大文字のラストネームの順にします。たとえば、George AbitbolはG. ABITBOLになります。これは、スマート入力ファンクションを使用して、変換する方法の例をいくつか設定し、それをカラムの残りの部分に適用することで最も簡単に実現できます。

Procedure

  1. [fullname]カラムのヘッダーをクリックして、その内容を選択します。
  2. ファンクションパネルにMagic fillと入力し、結果をクリックして関連するファンクションのオプションを表示します。
  3. [Create new column] (新しいカラムを作成)チェックボックスをオフにします。
    これにより、値は既存のカラムに直接固定されます。
  4. [Input 1] (入力1)フィールドに、変換するfullnameカラムからの値の1つ、たとえば、Dimitri Tudorを入力します。
  5. [Output 1] (出力1)フィールドに同じ値を入力しますが、今回は正しい形式D. TUDORと入力します。
    ファンクションを動作させるには、適用する変換の少なくとも2つの完全な例を入力する必要があります。その後は3つまで例を追加できます。例は、データセットから取ることも新たに作成することもできます。入力する例が多いほど、ファンクションによってより正確にパターンが識別されます。
  6. 残りのフィールドで、例の前後に追加でデータを入力します。
    • Mina Luze[Input 2] (入力2)として、M Luze[Output 2] (出力2)として
    • Henry Bank[Input 3] (入力3)として、H. BANK[Output 3] (出力3)として
    • Ben Schneider[Input 4] (入力4)として、B. SCHNEIDER[Output 4] (出力4)として
    • Jonathan Oliver[Input 5] (入力5)として、J. OLIVER[Output 5] (出力5)として
  7. [Submit] (送信)をクリックします。

Results

最初に設定されたいくつかの例から、ファンクションはパターンを理解し、対応する変換を自動的に作成できました。これで、データセット内の名前が、予想される形式で置き換えられました。
データセットに変換と共に顧客のフルネームが含まれている状態。

スマート入力を使って社会保障番号の形式を設定

スマート入力ファンクションを使用すると、例で定義されたパターンに基づいて自動的に社会保障番号の形式を設定できます。

この例では、顧客情報(名前、メールアドレスなど)が含まれているデータセットで作業していますが、最も重要なのは社会保障番号です。問題は、これらの社会保障番号がハイフンなしで間違った形式で入力されたことです。たとえば、334-20-6259などの数値は、このデータセットでは334206259として入力されています。この形式は間違っているため、ほとんどのデータはアプリケーションによって銀行のルーティング転送番号として解釈され、無効と見なされます。

データセットに顧客情報が含まれている状態。

この間違いを解決するには、入力するいくつかの例に基づいてパターンに従って、スマート入力ファンクションを使用し、データに正しい社会保障番号形式を適用します。

Procedure

  1. ssnカラムのヘッダーをクリックして、その内容を選択します。
  2. ファンクションパネルにMagic fillと入力し、結果をクリックして関連するファンクションのオプションを表示します。
  3. [Input 1] (入力1)フィールドに、変換するssnカラムの値の1つ、472989590などを入力します。
  4. [Output 1] (出力1)フィールドに、同じ値を入力しますが、この時は正しい形式になります:472-98-9590.
    ファンクションを動作させるには、適用する変換の少なくとも2つの完全な例を入力する必要があります。その後は3つまで例を追加できます。例は、データセットから取ることも新たに作成することもできます。入力する例が多いほど、ファンクションによってより正確にパターンが識別されます。
  5. 残りのフィールドで、例の前後にデータを追加入力します:
    • [Input 2] (入力2)428990989[Output 2] (出力2)428-99-0989を入力
    • [Input 3] (入力3)281066499[Output 3] (出力3)281-06-6499を入力
    • [Input 4] (入力4)244356471[Output 4] (出力4)244-35-6471を入力
    • [Input 5] (入力5)233262165[Output 5] (出力5)233-26-2165を入力
  6. [Submit] (送信)をクリックします。

Results

例によって定義された変換が残りの数値に適用される新しいカラムが作成されます。これで、社会保障番号は正しい形式になり、この新しいカラムのヘッダーのセマンティックタイプによって示されるように、自動的にそのように検出されます。無効なデータを含む他のカラムを削除できるようになりました。
データセットに新しいカラムと共に顧客情報が含まれている状態。

セマンティック認識でスマート入力を使って州コードを州に変換

入力する例に基づいて、スマート入力機能では、特定のセマンティックタイプに対応するデータ(国、メール、URL、日付、米国の郵便番号と州)を認識し、フォーマットすることもできます。

ここでは、顧客情報(名前、メールアドレス、居住州など)が含まれているデータセットの例を見てみましょう。このシナリオでは、スマート入力ファンクションを使って2文字の州コードを州のフルネームに変換し、読みやすいフォーマットにする方法について説明します。

データセットに顧客情報が含まれている状態。

Procedure

  1. stateカラムヘッダーをクリックして、内容を選択します。
  2. ファンクションパネルにMagic fillと入力し、結果をクリックして関連するファンクションのオプションを表示します。
  3. [Input 1] (入力1)フィールドに、変換するstateカラムの値の1つ(NYなど)を入力します。
  4. [Output 1] (出力1)フィールドに、対応する州のフルネーム(New Yorkなど)を入力します。
    ファンクションを動作させるには、適用する変換の少なくとも2つの完全な例を入力する必要があります。その後は3つまで例を追加できます。例はデータセットから取ることができますが、データセット外から他の有効な米国の州コード値を使用することも可能です。入力する例が多いほど、ファンクションによって識別される変換の精度が上がります。
  5. 残りのフィールドで、例の前後にデータを追加入力します:
    • [Input 2] (入力2)AZ[Output 2] (出力2)Arizona
    • [Input 3] (入力3)TX[Output 3] (出力3)Texas
    • [Input 4] (入力4)IN[Output 4] (出力4)Indiana
    • [Input 5] (入力5)MI[Output 5] (出力5)Michigan

    ファンクションはこれらの例に基づき、入力がすべて2文字の州コードであること、そして出力が州のフルネームであることを理解し、対応する変換を残りのカラムに適用します。

  6. [Submit] (送信)をクリックします。

Results

例によって定義されたフォーマット操作が残りの州コードに適用される、新しいカラムが作成されます。カラムヘッダーを見ると、新しい値がすべてUS Stateセマンティックタイプに対応しており、見やすいフォーマットになっていることが確認できます。これでstateカラムを削除できます。
データセットに新しいカラムと共に顧客情報が含まれている状態。

セマンティック認識を活用し、スマート入力を使って日付を曜日に変換

入力する例に基づいて、スマート入力機能では、特定のセマンティックタイプに対応するデータ(国、メール、URL、米国の郵便番号と州、日付)を認識し、フォーマットすることもできます。

市内に数店舗を構える小規模の流通企業を例にとってみましょう。次のデータセットは、毎日の合計販売数が該当する日付と共に記録されるしくみを表したものです。日付の入力にはdd/MM/yyyyというフォーマットが使われますが、統計分析を行って最も収益が高い曜日を知るため、該当する曜日も表示したいとします。このシナリオでは、スマート入力ファンクションを使ってこの情報を抽出する方法を説明します。

データセットに販売記録数が含まれている状態。

Procedure

  1. stateカラムのヘッダーをクリックし、内容を選択します。
  2. ファンクションパネルにMagic fillと入力し、結果をクリックして関連するファンクションのオプションを表示します。
  3. [Input 1] (入力1)フィールドに、変換するdateカラムの値の1つ(17/01/2018など)を入力します。
  4. [Output 1] (出力1)フィールドに、対応する曜日であるWednesdayを入力します。
    ファンクションを動作させるには、適用する変換の少なくとも2つの完全な例を入力する必要があります。その後は3つまで例を追加できます。例はデータセットから取得できますが、他の有効な日付/日の組み合わせを使用することも可能です。入力する例が多いほど、ファンクションによって識別される変換の精度が上がります。
  5. 残りのフィールドで、例の前後にデータを追加入力します:
    • [Input 2] (入力2)02/11/2018[Output 2] (出力2)Friday
    • [Input 3] (入力3)06/12/2018[Output 3] (出力3)Thursday
    • [Input 4] (入力4)22/09/2019[Output 4] (出力4)Sunday
    • [Input 5] (入力5)13/07/2019[Output 5] (出力5)Saturday

    ファンクションはこれらの例に基づき、入力がすべてdd/MM/yyyyという日付であること、そして出力が該当する曜日であることを理解し、対応する変換を残りのカラムに適用します。

  6. [Submit] (送信)をクリックします。

Results

新しいカラムが作成され、最初のカラムの各日付に該当する曜日が表示されます。販売の大半が水曜日と土曜日に成立していることがわかりますが、この情報はこれまで得られらなかったものです。この後は特定の曜日にフィルターを適用したり、チャートパネルを介して集計を行い、各曜日の販売平均を算出したりすることもできます。
データセットに新しいカラムと共に販売記録数が含まれている状態。

スマート入力を使って組織名を短縮フォームに変換

スマート入力ファンクションを使って、名前、単位、式のいずれかを短縮フォームに変換できます。

この例で改善するデータセットには、よく知られている全国的または国際的な組織に勤めている人物に関するデータが含まれます。ただし、これらの組織はフルネームが長くて、対応する頭字語ほど知られていないことがよくあります。データセットをより読みやすくするため、スマート入力ファンクションを使い、フルネームをそれらの頭字語に変換します。
データセットに、有名な国内期間や国際機関で働く人々のデータが含まれている状態。

Procedure

  1. organizationカラムのヘッダーをクリックし、選択します。
  2. ファンクションパネルにMagic fillと入力し、結果をクリックして関連するファンクションのオプションを表示します。
  3. [Input 1] (入力1)フィールドに、変換したいorganizationカラムの値(たとえばWorld Wildlife Fund)を一つ入力します。
  4. [Output 1] (出力1)フィールドに、対応する頭字語(ここはWWF)を入力します。
    ファンクションを動作させるには、適用する変換の少なくとも2つの完全な例を入力する必要があります。その後は3つまで例を追加できます。例は、データセットから取ることも新たに作成することもできます。入力する例が多いほど、ファンクションによってより正確にパターンが識別されます。
  5. 残りのフィールドで、例の前後にデータを追加入力します:
    • [Input 2] (入力2)Federal Bureau of Investigation[Output 2] (出力2)FBI
    • [Input 3] (入力3)International Court of Justice[Output 3] (出力3)ICJ
    • [Input 4] (入力4)World Trade Organization[Output 4] (出力4)WTO
    • [Input 5] (入力5)European Union[Output 5] (出力5)EU

    ファンクションにより、これらの例に基づいて各語の先頭の大文字を保持し、フルネームを対応する頭字語に変換することのみが必要とされていることが識別されます。

  6. [Submit] (送信)をクリックします。

Results

例によって定義された変換が残りの組織名に適用された新しいカラムが作成されます。データセットにどの組織が表示されるかをより容易に認識できるようになりました。
データセットに、有名な国内期間や国際機関で働く人々のデータが頭字語と共に含まれている状態。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。