ファンクションのリスト
以下の表は、Talend Data Preparationで使用できるすべてのファンクションとその効果をまとめたものです。
Mathファンクションを除き、データが無効と見なされた場合、またはデータ型が選択したファンクションと互換性がない場合に以下のリストのファンクションを適用すると、[Create new column] (新しいカラムを作成)チェックボックスの選択にかかわらず入力値が返されます。
Mathファンクションの場合、空の値は無視されます。値が無効な場合にファンクションが適用されると結果は空になります。
情報メモ注:
以下のファンクションは一致アルゴリズムに依存しており、アジア系文字はサポートされていません。
- [Standardize value (fuzzy matching)] (標準値(ファジーマッチング))
- [Find and group similar text] (類似テキストを検索してグルーピング)
行に適用できるファンクション
名前 | カテゴリー | 説明 |
---|---|---|
[Delete row] (行を削除) | data cleansing | この行を削除 |
[Make as header] (ヘッダーとして作成) | data cleansing | この行のセルはカラム名になり、行は削除されます。 |
カラムに適用できるファンクション
名前 | カテゴリー | 説明 |
---|---|---|
[Negate value] (値を反転) | ブール値 | このカラムのセルのブール値を反転します。 |
[Change data type] (データ型を変更) | column metadata | このカラムのタイプ(数値、テキスト、日付など)を変更します。 |
[Change semantic domain] (セマンティックドメインを変更) | column metadata | このカラムのセマンティックドメイン(市区町村、郵便番号、ラストネームなど)を変更します。 |
[Create new column] (新しいカラムを作成) | column metadata | カラムをコピーするか新しいカラムを作成します。 情報メモ注: シーケンスモードで使用する場合、このファンクションはSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。
|
[Delete Column] (カラムを削除) | column metadata | 選択したカラムを削除します。 |
カラムを複製 | column metadata | このカラムの正確なコピーを作成します。 |
カラム名を変更 | column metadata | このカラムの名前を変更します。 |
[Concatenate columns] (カラムを連結) | columns | 2つ以上のカラムの内容を新しいカラムにマージします。 |
[Concatenate with] (連結) | columns | このカラムの内容を別のカラムの内容と結合して新しいカラムに表示します。 |
[Reorder columns] (カラムの順序を変更) | columns | カラムの順序を変更します。 |
[Swap columns] (カラムを交換) | columns | 他のカラムと値を交換します。 |
[Convert country names and codes] (国名とコードを変換) | conversions | 国名をISO-3166国コード(alpha-2、alpha-3、または数値)に、またはその逆に変換します。このファンクションでは、英語、フランス語、日本語の名前とコードがサポートされています。 |
[Convert distance] (距離を変換) | conversions | 距離の単位を別の単位に変換します。 |
[Convert duration] (期間を変換) | conversions | 期間の単位を別の単位に変換します。 |
[Convert temperature] (温度を変換) | conversions | 温度の単位を変換します |
[Clear on matching value] (値に一致したセルを消去) | data cleansing | 値に一致したセルを消去します。 |
[Clear the cells with invalid values] (無効な値のセルを消去) | data cleansing | 無効と認識された値を含んだセルを消去します。 |
[Coalesce columns] (カラムを融合) | data cleansing | 選択したカラム中の各行にNULLでない最初の値を取得します。 |
[Delete empty rows] (空の行を削除) | data cleansing | 各カラムのセルが空である行を削除します。 |
[Delete the rows that match] (値に一致した行を削除) | data cleansing | このカラムのセルに特定の値がある行を削除します。 |
[Delete the rows with empty cell] (空のセルを含む行を削除) | data cleansing | 空のセルを含む行を削除します。 |
[Delete the rows with invalid cell] (無効なセルを含む行を削除) | data cleansing | 無効なセルを含む行を削除します。 |
[Delete the rows with negative values] (負の値の行を削除) | data cleansing | このカラムの負の値のある行が削除されます。 |
[Fill cells with value] (セルに値を入力) | data cleansing | 指定した値をこのカラムのセルに入力します。 |
[Fill empty cells from above] (空のセルに上の内容を入力) | data cleansing | 空ではない直前のセルから値をコピーします。一連の空のセルがある場合、選択された値がこれらのすべてのセルに入力されます。 情報メモ注: このファンクションはSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。
|
[Fill empty cells with text] (空のセルにテキストを入力) | data cleansing | 指定した値をこのカラムの空のセルに入力します。 |
[Fill empty cells with value] (空のセルに値を入力) | data cleansing | 指定した値をこのカラムのセルに入力します。 |
[Standardize value (fuzzy matching)] (標準値(ファジーマッチング)) | data cleansing | 無効な値をディクショナリーの最も類似した正しい値に置換します。 情報メモ注: このファンクションはアジア系文字をサポートしていません。
|
[Hash data] (データをハッシュ化) | data masking | SHA-256アルゴリズムを使用してカラムのコンテンツをハッシュ化します。 |
[Mask data (obfuscation)] (データをマスキング: 難読化) | data masking | カラムのドメイン情報に従ってデータをマスキング(匿名化)します。 |
[Lookup] (ルックアップ) | data blending | 別のデータセットのカラムからこのデータセットにブレンドします。 |
[Calculate time since] (経過時間を計算) | dates | 目的の単位(年、月、日、時、分、秒)の日付からの経過時間を計算します。 |
[Calculate timestamp to date] (現在までのタイムスタンプを計算) | dates | タイムスタンプ(UNIX時間である01/01/1970から経過した時間)がある場合、その日付で新しいカラムを作成します。 |
[Change date format] (日付形式を変更) | dates | 日付カラムで使用する日付形式を変更します。 |
[Compare dates] (日付を比較) | dates | このカラムを別のカラムまたは定数と比較します。 |
[Convert dates] (日付を変換) | dates | 日付の歴を別の歴に変換します。 |
[Extract date parts] (日付部分を抽出) | dates | 年、月、四半期、日、時、分、秒などのカラムを作成します。 |
[Modify Dates] (日付を変更) | dates | 時間単位の量を加算または減算します。 |
[Deduplicate rows with identical values] (同じ値を持つ重複行を除外) | deduplication | 部分的または全体的に重複する行を削除し、カラムの最初の行を保持します。 情報メモ注: このファンクションはSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。
|
[Delete these filtered rows] (フィルタリング済みの行を削除) | filtered | 現在のフィルターに一致した行のみを削除します。 |
[Keep these filtered rows] (フィルタリング済みの行を維持) | filtered | 現在のフィルターに一致した行のみを維持します。 |
[Add、multiply、substract、divide] (加算、乗算、減算、除算) | math | 別のカラムや固定値でこのカラムに対し、加算( + )、乗算( x )、減算( - )、除算( / )のいずれかを実行します。 |
[Base 10 Logarithm] (10を底とする対数) | math | カラムから基数10の対数を計算します。 |
[Calculate absolute value] (絶対値を計算) | math | このカラムのすべての数値の絶対値を計算します。 |
[Cosine] (コサイン) | math | カラムからコサインを計算します。 |
[Exponential] (べき乗) | math | カラム番号の指数 |
[Max] (最大) | math | 別のカラムまたは定数で最大化します。 |
[Max of columns] (カラムの最大値) | math | 2つ以上のカラムのレコードの最大値を表示します。 |
[Mean of columns] (カラムの平均値) | math | 2つ以上のカラムのレコードの平均値を計算します。 |
[Median of columns] (カラムの中央値) | math | 2つ以上のカラムのレコードの中央値を計算します。 |
[Min] (最小) | math | 別のカラムまたは定数で最小化します。 |
[Min of columns] (カラムの最小値) | math | 2つ以上のカラムのレコード間の最小値を表示します。 |
[Modulo] (余り) | math | 除算演算の剰余を計算します。 |
[Multiply columns] (カラムの乗算) | math | 2つ以上のカラムの値を乗算し、結果を新しいカラムに表示します。 |
[Natural logarithm] (自然対数) | math | カラムから自然対数を計算します。 |
[Negate] (反転) | math | カラム番号を負の値に反転 |
[Power] (べき乗) | math | 別のカラムや定数でべき乗します。 |
[Sine] (サイン) | math | カラムからサインを計算します。 |
[Square root] (平方根) | math | カラム番号の平方根を計算します。 |
[Sum columns] (カラムの合計) | math | 2つ以上のカラムのレコードの合計を計算し、結果を新しいカラムに表示します。 |
[Tangent] (タンジェント) | math | カラムからタンジェントを計算します。 |
[Compare numbers] (数値を比較) | numbers | このカラムを別のカラムまたは定数と比較します。 |
[Format numbers] (数値をフォーマット) | numbers | 数値(小数点、整数、指数)を特定の形式やパターンでフォーマットすることを許可します。 |
[Generate sequence] (シーケンスを生成) | numbers | 選択したステップでカラムに正または負の整数のシーケンスを作成します。 情報メモ注: このファンクションはSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。
|
[Remove fractional part] (端数部分を削除) | numbers | 値をゼロに近付けるように丸めます。(3.74 -> 3、-3.74 -> -3) |
[Remove negative values] (負の値を削除) | numbers | 負の整数または10進数の値を空の値に置換します。 |
[Round value using ceil mode] (シールモードを使って値を丸める) | numbers | 設定した精度に応じて値を最も近い数に丸めます。([Precision] (精度)が0に設定されている場合は3.14 -> 4になり、[Precision] (精度)が1に設定されている場合は3.14 -> 3.2になります。) |
[Round value using down mode] (切り捨てモードを使って値を丸める) | numbers | 値をゼロに近付けるように丸めます。([Precision] (精度)が0に設定されている場合は3.74 -> 3、-3.74 -> -3となります。) |
[Round value using floor mode] (フロアモードを使って値を丸める) | numbers | 設定した精度に応じて値を最も近い数に切り捨てます。([Precision] (精度)が0に設定されている場合は3.74 -> 3になり、[Precision] (精度)が1に設定されている場合は3.74 -> 3.7となります。) |
[Round value using halfUp mode] (四捨五入モードを使って値を丸める) | numbers | 設定した精度に応じて、値を最も近い数に四捨五入します。([Precision] (精度)が0に設定されている場合は3.14 -> 3、3.74 -> 4となります。) |
[Extract phone number information] (電話番号情報を抽出) | phones | 電話タイプ、国、通信事業者名などの追加情報を電話番号から抽出します。各フィールドが新しいカラムに抽出されます。 |
[Format phone number] (電話番号をフォーマット) | phones | 電話番号を標準形式にフォーマットします。 |
[Extract email Parts] (メールのエレメントを抽出) | split | メールからローカルとドメインの部分を抽出します。 |
[Extract full name parts] (フルネームの部分を抽出) | split | フルネームから情報(タイトル、ファーストネーム、ニックネーム、ミドルネーム、ラストネームなど)を抽出します。 |
[Extract number] (数値を抽出) | split | 入力データから数値を抽出します。 |
[Extract values by regex] (正規表現で値を抽出) | split | 正規表現グループを基に文字列トークンを抽出します。 |
[Extract values by semantic type] (セマンティックタイプで値を抽出) | split | 定義済み、またはカスタムのセマンティックタイプに合わせて、区切られたカラムにあるさまざまな情報を抽出します。 |
[Extract URL Parts] (URL部分を抽出) | split | 区切られたカラムのURLからプロトコル、ホスト、ポート、クエリーなどを抽出します。 |
[Split the text in parts] (テキストを複数の部分に分割) | split | 区切りからカラムを分割します。 |
[Calculate length] (長さを計算) | strings | 値(23562 -> 5)から桁数を抽出します。 |
[Change to lower case] (小文字に変換) | strings | このカラムのセルテキストをすべて小文字に変換します。 |
[Change to title case] (単語の先頭文字を大文字に変更) | strings | このカラムのテキストコンテンツをタイトル表記に変換します。(例: "this is an example" -> "This Is an Example") |
[Change to upper case] (大文字に変換) | strings | このカラムのセルテキストをすべて大文字に変換します。 |
[Contains text] (テキストを含める) | strings | セルに指定の値が含まれているかどうか確認します。 |
[Extract a value by index] (インデックスで値を抽出) | strings | テキストの一部(部分文字列)を抽出して新しいカラムを作成します。 |
[Magic fill] (スマート入力) | strings | 例を参考にパターンを定義し、カラム全体に変換を適用できます。 情報メモ注: このファンクションはSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。
|
[Match similar text] (類似のテキストに一致) | strings | 値が指定の値のレーベンシュタイン距離以下かどうかに応じて、trueまたはfalseの値を持つ新しいカラムを作成します。 |
[Matches pattern] (パターンにマッチ) | strings | 値が特定のパターンにマッチするかどうかに応じて、trueまたはfalseの値を持つ新しいカラムを作成します。 |
[Remove consecutive characters] (連続する文字を削除) | strings | 連続して繰り返される文字を削除します。 |
[Remove part of the text] (テキストの一部を削除) | strings | このカラムのセルから指定のテキストを削除します。 |
[Remove trailing and leading characters] (後続文字および先行文字を削除) | strings | 末尾と先頭の空白、または特定の文字を削除(トリム)します。 |
[Search and replace] (検索して置換) | strings | 特定の値を含んでいるセル、またはセルの部分を置換します。 |
[Add extra characters] (余分な文字を追加) | strings advanced | 予測されるサイズに一致するよう、元の値の左または右に余分な文字を追加(パディング)します。 |
[Convert character width] (文字幅を変換) | strings advanced | 文字幅を半角または全角に変換したり、文字列を正規化したりします。 |
[Find and group similar text] (類似テキストを検索してグルーピング) | strings advanced | 類似の値を正しい値にすべて置換し(ファジーマッチングをまとめ)ます。 情報メモ注: このファンクションはアジア系文字をサポートしていません。
|
[Generate unique identifier (UUID)] (ユニークな識別子(UUID)を生成) | strings advanced | カラムの各行にユニークな識別子を生成します。 |
[Remove all non alpha numeric characters] (数字以外の文字をすべて削除) | strings advanced | 0~9、Aa~Zz、アクセント記号付き文字以外の文字をすべて削除することで、予期しない文字を含む値を消去します。空白文字は保持されます。 たとえば、 T=+Âl**€en#d$ 20%1,7はTÂlend 2017になります。 |
[Remove all non numeric characters] (数字以外の文字をすべて削除) | strings advanced | 0~9以外の文字をすべて削除することで数値を消去します。小数点記号と空白文字は保持されます。 たとえば、 T=+Âl**€en#d$ 20%1,7は201,7になります。 |
[Simplify text (remove case, accent, etc.)] (テキストを簡素化(大文字/小文字の区別やアクセントなどを排除)) | strings advanced | 小文字にし、アクセントを削除し、NFKDを利用して正規化し、組み合わせた文字は分割し、文字列全体を短くしてカラムの内容を簡略化します。 たとえば、Françoisはfrancoisのようになります。 |
テーブル全体に適用できるファンクション
名前 | カテゴリー | 説明 |
---|---|---|
[Delete empty columns] (空のカラムを削除) | data cleansing | 値が空のカラムをすべて削除します。 |
[Delete empty rows] (空の行を削除) | data cleansing | 各カラムのセルが空である行を削除します。 |
[Change date format] (日付形式を変更) | dates | 日付カラムで使用する日付形式を変更します。 |
[Remove duplicate rows] (重複行を削除) | deduplication | 完全に重複している行を1つだけ残し、後はすべて削除します。 情報メモ注: このファンクションはSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。
|
[Format numbers] (数値をフォーマット) | numbers | 数値(小数点、整数、指数)を特定の形式やパターンでフォーマットすることを許可します。 |
[Format phone number] (電話番号をフォーマット) | phones | 電話番号を標準形式にフォーマットします。 |
[Remove trailing and leading characters] (後続文字および先行文字を削除) | strings | 末尾と先頭の空白、または特定の文字を削除(トリム)します。 |
[Search and replace] (検索して置換) | strings | 特定の値を含んでいるセル、またはセルの部分を置換します。 |