例に基づいてデータを自動的に形式設定
スマート入力関数では、専用の関数を持たないデータ型をフォーマットしたり、同じ関数で連続する変換を簡単に実行したりするための便利なソリューションを提供します。
情報メモ注: この機能はSparkジョブおよびS3のエクスポートとは互換性がありません。
機械学習アルゴリズムを使用して、この関数を使用すると、事前に定義したいくつかの例に基づいて、パターンを定義し、自動的にカラム全体に変換を適用できます。
現在、スマート入力ファンクションがサポートしている変換タイプは次のとおりです。
- Substring
- 定数(数字、文字、特殊文字)の追加
- 大文字と小文字の区別
- 国、米国の郵便番号と州、メール、URL、日付のセマンティック変換
ファンクションを動作させるには、適用する変換の例を少なくとも2つ入力する必要があります。その後は3つまで例を追加できます。入力する例が多いほど、ファンクションによってより正確にパターンが識別されます。
ファンクションで生成された変換プログラムがソースカラムからのデータの一部に適用されなければ、ターゲットカラムでは変更されないままとなります。
[dates] (日付)や[phone numbers] (電話番号)などのデータ型には、その形式を簡単に変更するために使える専用のファンクションがあります。たとえば、[full names] (氏名)、[social security numbers] (社会保障番号)、[state codes] (州コード)はそうではありません。次のシナリオでは、スマート入力ファンクションを使ってそのような場合にデータの形式を設定する方法を説明します。