メイン コンテンツをスキップする 補完的コンテンツへスキップ

FTPサーバーにあるファイルの処理と移動

このシナリオは、パイプラインでコネクターを簡単にセットアップして使用できるようにすることを目的としています。お使いの環境とユースケースに適応させてください。

以下の手順で作成されるパイプラインの例。

手順

  1. [Connections] (接続) > [Add connection] (接続を追加)をクリックします。
  2. 開いたパネルで、作成する接続のタイプを選択します。

    FTP
  3. [Engine] (エンジン)リストでエンジンを選択します。
    情報メモ注:
    • データの高度処理の場合は、Cloud Engine for DesignではなくRemote Engine Gen2を使用することをお勧めします。
    • Talend Management Consoleから作成されたRemote Engine Gen2がないか、存在していても稼働中ではないステータスの場合は、リストで接続の[Connection type] (接続タイプ)を選択することも、新しい接続を保存することもできません。
    • 使用可能な接続タイプのリストは、選択したエンジンによって異なります。
  4. 作成する接続のタイプを選択します。
    ここでは[FTP]を選択します。
  5. FTPプロパティの説明に従って、接続のプロパティを入力し、FTPサーバーにアクセスし、接続をチェックして、[Add dataset] (データセットを追加)をクリックします。
  6. [Add a new dataset] (新しいデータセットを追加)パネルで、必要なプロパティを入力し、ファイルがあるFTPディレクトリーをポイントして、[VIEW SAMPLE] (サンプルを表示)をクリックしてデータセットサンプルのプレビューを表示させます。
    新しいFTPデータセットの設定。
    ここで取得するファイルは、Talend/Filesフォルダー内にあるボルチモアのレストランをリストアップしたCSVファイルです。
    Talend/Filesフォルダーから取得するCSVファイル
  7. [Validate] (検証)をクリックしてデータセットを保存します。
  8. 同じFTP接続で、パイプライン内でデスティネーションとして使うデータセットを追加します。ここではTalend/Outフォルダーをポイントしています。
    Talend/Outフォルダーでパイプラインのデスティネーションとして使用するCSVデータセットファイル。
  9. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  10. パイプラインに意味のある名前を付けます。

    FTPサーバーにあるファイルの処理と移動
  11. [ADD SOURCE] (ソースを追加)をクリックし、パネルが開いたら、restaurant on FTP dirというソースデータセットを選択します。
  12. [Add Processor] (プロセッサーを追加)をクリックし、パイプラインにプロセッサーを追加します。たとえば全レストランの住所をリスト化する場合は、Aggregateプロセッサーを使います。
  13. プロセッサーを設定します。[Operations] (操作)エリアで次の操作を行います。
    1. [Field path] (フィールドパス)リストで.locationを選択します。
    2. [Operation] (操作)リストでListを選択します。
    3. 出力フィールド名の名前(ここではaddress)を入力します。
    4. 設定を保存します。
    [Output data] (出力データ)プレビューで、50件のアドレスが1つのアドレスリストになっています。

    レストランの住所が1つのレコードに集約されます。

  14. [Add Processor] (プロセッサーを追加)をクリックしてパイプラインにNormalizeプロセッサーを追加し、アドレスレコードがフラット化され、どのエントリーも個別のレコードに分割されるようにします。
  15. プロセッサーを設定します。[Operations] (操作)エリアで次の操作を行います。
    1. [Field path to normalize] (正規化するフィールドパス)リストで.addressを選択します。
    2. [Is list] (リスト)オプションを有効にします。
    3. 設定を保存します。
    [Output data] (出力データ)プレビューで、1レコードとしてカウントされるアドレスの水平リストが、50レコードとしてカウントされるアドレスの垂直リストになっています。
  16. パイプラインで[ADD DESTINATION] (デスティネーションを追加)アイテムをクリックしてパネルを開き、自分の出力ファイルのアップロード先となるFTP出力ディレクトリーを選択します。
  17. デスティネーションに、意味のある名前(addresses on FTP out dirなど)を付けます。
  18. デスティネーションの[Configuration] (運用設定)タブで、アップロードするファイルがサイズ制限を超えていないことを確認します。
  19. [Save] (保存)をクリックして設定を保存します。
  20. Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
  21. リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、FTPディレクトリーに保存されていたレストランデータは処理され、出力ファイルは指定のFTPターゲットディレクトリーにアップロードされます。
  • 新たにアップロードされたファイルがあるFTPターゲットディレクトリー:

    Talend/Outフォルダーにあるパイプラインから新しくアップロードされたファイルとCSVデータセットファイル。
  • レストランの住所リストが含まれているCSV出力ファイル:
    50件の住所が1つずつリスト表示されているCSVファイル。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。