セマンティックタイプに基づいてフィールドの部分を抽出
[Extract values by semantic type] (セマンティックタイプで値を抽出)ファンクションを使用して、事前定義またはカスタムのセマンティックタイプに従い、セルに含まれているさまざまな情報を新しいカラムに抽出できます。
このタスクについて
このファンクションでは、特定のフィールドから抽出する情報のタイプに対応する異なるセマンティックタイプを最大5つまで選択できます。また、正規表現またはディクショナリーに基づくセマンティックタイプ、および複合セマンティックタイプが使用できます。
ここで、あなたは文化省の仕事をしており、博物館の来訪者を対象とするアンケートに基づいてデータを準備する必要しなければならないとしましょう。このアンケートでは、たとえば年齢や性別など、来訪者の基本的な人口統計情報を収集できましたが、コメントを入力する特定のフィールドもありました。来訪者はこのコメントフィールドに自分の経験をシェアしたり、他の連絡先情報を残したり、訪問した他国の他の博物館を推奨する書き込みをしたりすることも可能でした。このような情報は将来のパートナーシップの構築などにも使用できるものです。
ただし、簡単な解析操作によって、コメントフィールドに収集された情報はすべて結果データセット内の1つのフィールドに帰結しています。その一方であなたは、さまざまなタイプの情報を抽出して特定のカラムにソートしたいと考えています。そのために、[Extract values by semantic type] (セマンティックタイプで値を抽出)ファンクションや、Talend Data Preparationで使用可能な事前定義済みまたはカスタムセマンティックタイプを利用して、コメントに残されたさまざまなカテゴリーの情報を識別し、個別のカラムに抽出します。