非ストラクチャー化データを標準化するプロセスを設定する
このタスクについて
これを行うには、次の手順に従います。
手順
- [Row] (行) > [Main] (メイン)リンクを使って、tFixedFlowInputコンポーネントをtStandardizeRowコンポーネント に接続します。
-
tStandardizeRowコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを表示します。
詳細なルールタイプは、ルールの順序に関係なく、常にANTLR固有のルールの後に実行されます。
- [Column to parse] (解析するカラム)リストで、[input] (入力)を選択します。
- [Standardize this field] (このフィールドを標準化)チェックボックスをオンにします。
-
[Conversion rules] (変換ルール)テーブルで[+]ボタンを6回クリックして、カラムを6つ追加します。それらに名前を付け、キャプチャーに示すように設定します。"StreetName"ルールの場合:
- [Type] (タイプ)フィールドで[Index] (インデックス)タイプを選択します。
-
[Value] (値)フィールドにインデックスへのパスを入力します。
ファイルパスを次のように設定します。
- ローカルモードの場合:
- Apache Spark 3.1以前のバージョンでは、prefix://file pathまたはfile:///file pathとなります。
- Apache Spark 3.2以降のバージョンでは、file:///file pathとなります。
- スタンドアロンおよびYarnモードの場合は、prefix://file pathとなります。
- インデックスがクラスターにある場合は、hdfs://hdpnameservice1/file pathとなります。
- ローカルモードの場合:
-
[Search mode] (検索モード)リストから、検索モードとして[Match exact] (完全一致)を選択します。
[Match exact] (完全一致)モードを使うことにより、ストリート名インデックスに完全に一致する文字列のみが入力フローから抽出されます。利用可能な検索モードの詳細は、インデックスルールの検索モードをご覧ください。
その他のルールは次のとおりです。[Name] (名前)
[Type] (タイプ)
[Value] (値)
"Zip"
[Format] (形式)
" DIGIT DIGIT DIGIT DIGIT DIGIT "
"City" [Enumeration] (列挙) " 'Paris' | 'Paris' | 'PARIS' | 'Bagnolet' "
"SpecialStreetNumber" [Format] (形式) " (INT ('bis'|'ter')) | ( INT '-' INT) "
"INT" [Shape] (シェイプ) "<SpecialStreetNumber>"
"Address" [Shape] (シェイプ) " <INT> <StreetName> <Zip> <City> "
詳細ルールタイプは常にANTLR固有のルールの後に実行されるため、基本ルール"Zip"、"City"、および"SpecialStreetNumber"が最初に実行され、その後に詳細ルール"INT"および"Address"が実行されます。
-
[Routines] (ルーチン)内にコードを生成するために、[Generate parser code in Routines] (ルーチン内にパーサーコードを生成する)ボタンをクリックします。
このボタンをクリックしないと、ジョブは実行されません。
-
[Advanced settings] (詳細設定)ビューで、[Output format] (出力形式)エリアでデフォルトで選択されているオプションをそのまま使います。
[Max edits for fuzzy match] (ファジーマッチの最大編集)は、デフォルトで1に設定されています。
- デザインワークスペースでtStandardizeRowコンポーネントを右クリックし、[Row] (行) > [Reject] (リジェクト)リンクを使って、下にあるtLogRowに接続させます。
-
tStandardizeRowコンポーネントにリンクされているtLogRowコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを表示します。
- [Mode] (モード)エリアで、[Table (print values in cells of a table)] (テーブル(テーブルのセルの出力値))オプションを選択します。
タスクの結果
次に、目的とするデータをフィルタリングおよび抽出するプロセスの設定を続けます。