例に基づいてデータを自動的に形式設定
スマート入力ファンクションでは、専用のファンクションを持たないデータ型をフォーマットしたり、同じファンクションで連続する変換を簡単に実行したりするための便利なソリューションを提供します。
機械学習アルゴリズムを使用して、このファンクションを使用すると、事前に定義したいくつかの例に基づいて、パターンを定義し、自動的にカラム全体に変換を適用できます。
現在、スマート入力ファンクションがサポートしている変換タイプは次のとおりです。
- Substring
- 定数(数字、文字、特殊文字)の追加
- 大文字と小文字の区別
- 国、米国の郵便番号と州、メール、URL、日付のセマンティック変換
ファンクションを動作させるには、適用する変換の例を少なくとも2つ入力する必要があります。その後は3つまで例を追加できます。入力する例が多いほど、ファンクションによってより正確にパターンが識別されます。
ファンクションで生成された変換プログラムがソースカラムからのデータの一部に適用されなければ、ターゲットカラムでは変更されないままとなります。
[dates] (日付)や[phone numbers] (電話番号)などのデータ型には、その形式を簡単に変更するために使える専用のファンクションがあります。たとえば、[full names] (氏名)、[social security numbers] (社会保障番号)、[state codes] (州コード)はそうではありません。次のシナリオでは、スマート入力関数を使用して、そのような場合にデータの形式を設定する方法を示しています。
スマート入力によるフォーマット名
スマート入力ファンクションを使用すると、例で定義されたパターンに基づいて自動的に名前の形式を設定できます。
フルネームまたは顧客を含むカラムを持つデータセットの例を見てみましょう。
名前の形式を設定し、ファーストネームの最初の文字、次にドット、最後に大文字のラストネームの順にします。たとえば、George AbitbolはG. ABITBOLになります。これは、スマート入力ファンクションを使用して、変換する方法の例をいくつか設定し、それをカラムの残りの部分に適用することで最も簡単に実現できます。
Procedure
Results
スマート入力を使って社会保障番号の形式を設定
スマート入力ファンクションを使用すると、例で定義されたパターンに基づいて自動的に社会保障番号の形式を設定できます。
この例では、顧客情報(名前、メールアドレスなど)が含まれているデータセットで作業していますが、最も重要なのは社会保障番号です。問題は、これらの社会保障番号がハイフンなしで間違った形式で入力されたことです。たとえば、334-20-6259などの数値は、このデータセットでは334206259として入力されています。この形式は間違っているため、ほとんどのデータはアプリケーションによって銀行のルーティング転送番号として解釈され、無効と見なされます。
この間違いを解決するには、入力するいくつかの例に基づいてパターンに従って、スマート入力ファンクションを使用し、データに正しい社会保障番号形式を適用します。
Procedure
Results
セマンティック認識でスマート入力を使って州コードを州に変換
入力する例に基づいて、スマート入力機能では、特定のセマンティックタイプに対応するデータ(国、メール、URL、日付、米国の郵便番号と州)を認識し、フォーマットすることもできます。
ここでは、顧客情報(名前、メールアドレス、居住州など)が含まれているデータセットの例を見てみましょう。このシナリオでは、スマート入力ファンクションを使って2文字の州コードを州のフルネームに変換し、読みやすいフォーマットにする方法について説明します。
Procedure
Results
セマンティック認識を活用し、スマート入力を使って日付を曜日に変換
入力する例に基づいて、スマート入力機能では、特定のセマンティックタイプに対応するデータ(国、メール、URL、米国の郵便番号と州、日付)を認識し、フォーマットすることもできます。
市内に数店舗を構える小規模の流通企業を例にとってみましょう。次のデータセットは、毎日の合計販売数が該当する日付と共に記録されるしくみを表したものです。日付の入力にはdd/MM/yyyyというフォーマットが使われますが、統計分析を行って最も収益が高い曜日を知るため、該当する曜日も表示したいとします。このシナリオでは、スマート入力ファンクションを使ってこの情報を抽出する方法を説明します。
Procedure
Results
スマート入力を使って組織名を短縮フォームに変換
スマート入力ファンクションを使って、名前、単位、式のいずれかを短縮フォームに変換できます。
この例で改善するデータセットには、よく知られている全国的または国際的な組織に勤めている人物に関するデータが含まれます。ただし、これらの組織はフルネームが長くて、対応する頭字語ほど知られていないことがよくあります。データセットをより読みやすくするため、スマート入力ファンクションを使い、フルネームをそれらの頭字語に変換します。