メイン コンテンツをスキップする 補完的コンテンツへスキップ

人事管理システムのデータのクレンジング

[HRMS Export] (HRMSエクスポート)データセットはHRMS (American human resource management system)からエクスポートされたExcelファイルに対応しています。

会社創業以来の従業員の名前、役職、雇用日、退職日(該当する場合)、給与の振込口座の完全なリストが含まれます。このデータセットでは米国の日付形式になっていますが、フランスのソフトウェアソリューションで使用できるようフランスの日付形式に変換することも可能です。また、フランスの口座であればIBAN番号から銀行口座番号を抽出することもできます。

HRMS_export.xlsxファイルをダウンロードします。

HRMS exportデータセットのプレパレーションの追加

プレパレーションを追加し、データの準備とクレンジングを開始します。

Talend Cloud Data Preparationで既に使用可能になっているデータセットまたはローカルファイルからプレパレーションを作成できます。対応するボタンでプレパレーションを追加すると、現在作業しているフォルダーにプレパレーションが作成されます。また、プレパレーションはプレパレーションリストに自動的に保存され、変更した内容もすべて自動的に保存されます。

Before you begin

前にダウンロードしたファイルを使い、Talend Cloud Data PreparationHRMS_exportデータセットを作成しました。

Procedure

  1. ホームページで[Preparations] (プレパレーション)をクリックし、プレパレーションのリストを開きます。
  2. [Add preparation] (プレパレーションを追加)ボタンをクリックします。
  3. [Datasets] (データセット)のリストでHRMS_exportを選択し、ソースマテリアルとして使います。
    [Add a preparation] (プレパレーションを追加)ウィンドウに、プレパレーションの作成に利用可能なデータセット(HRMS_exportを含む)のリストが表示されている状態。
    [Preparation name] (プレパレーション名)フィールドは自動で入力されますが、このプレパレーション名は変更することもできます。
  4. [Submit] (送信)をクリックします。

Results

レシピが空のデータセットが開くので、プレパレーションステップの追加を開始します。変更した内容はすべて自動的に保存されます。

日付をフランス形式に変換

世界で使われている日付形式は同一ではないため、日付を含むカラムで使用する形式を変更しなければならない場合があります。

このデータセットで使用されている日付形式を米国形式からフランス形式に変更します。

Procedure

  1. entry_dateカラムを選択します。
  2. 画面右側のファンクションパネルに「Change date format (日付形式を変更)」と入力し、結果をクリックして関連ファンクションのオプションを開きます。
  3. 次のようにファンクションを設定します。
    • [Current format] (現在の形式)フィールドで、[I don't know, best guess] (最も妥当と思われるもの)を選択します。
    • [New format] (新しい形式)フィールドで、[Other] (その他)を選択します。
    • [Your format] (ユーザー形式)フィールドに、dd/MM/yyyyと入力します。

    使用するフランスの形式dd/MM/yyyyはデフォルトでは使用できないため、[Your format] (ユーザー形式)フィールドにカスタム値として入力する必要があります。

    たとえば12/25/2015は25/12/2015となります。

  4. [Submit] (送信)をクリックしてファンクションを適用します。

    このファンクションの結果を新しいカラムに出力するには、[Create new column] (新しいカラムを作成)チェックボックスをオンにします。

Results

選択したカラムで日付形式が変更されます。

銀行口座番号の抽出

セルに含まれているテキストの一部を取り出し、他の場所で再使用する場合は、そのテキストの部分を抽出できます。

HRMS Export (HRMSのエクスポート)プレパレーションには、フランスのIBAN (International Bank Account Numbers)が含まれています。IBANは、スペースを含めて33文字になるコードです。国コード、2つの検査数字、5桁の銀行ID、5桁の支店コード、11桁の口座番号、2つの最終検査番号からなります。

IBANから口座番号の部分を新しいカラムに抽出します。

Before you begin

手順を進める前に、テキストレコードから不要なスペースを削除し、セルの長さが同じどうか確認することをお勧めします。

Procedure

  1. ibanカラムを選択します。
  2. ファンクションパネルにExtract a value by indexと入力し、結果をクリックして関連するファンクションのオプションを表示します。
  3. 次のようにファンクションを設定します。
    • [Create new column] (新しいカラムを作成)チェックボックスをオンにします。
    • [From] (開始)フィールドで、[From beginning] (最初から)を選択します。
    • [To] (終了)フィールドで、[To index] (インデックスまで)を選択します。
    • [End index] (終了インデックス)フィールドに、5と入力します。

    スペースを含めて17番目の文字で開始し、末尾の前に2文字を入れます。

  4. [Submit] (送信)ボタンをクリックし、選択したデータを新しいカラム(この場合はiban_substring)に抽出します。

Results

選択したデータに相当するテキストが新しいカラムに抽出されます。カラムの名前は変更できます。

準備されたHRMSデータをエクスポート

プレパレーションが完成したら、クレンジングしたデータをエクスポートできます。

日付形式を変更し、IBANから口座番号を抽出するための、hrms_export.xlsx上のプレパレーションが完成したので、エクスポートできます。

Procedure

  1. [Export] (エクスポート)ボタンをクリックします。
  2. データのエクスポートで使う形式を選択します:
    • [Local CSV file] (ローカルCSVファイル)を選択した場合は、使用するフィールド区切り、テキスト囲み文字、およびエスケープ文字を選択し、エクスポートするファイルの名前を入力します。
    • [Local XLSX file] (ローカルXLSXファイル)を選択する場合は、エクスポートするファイルの名前を入力します。
    • Amazon S3を選択する場合は、認証情報とその他の情報を入力して、ファイルをAmazon S3に保存します。

Results

プレパレーションを使ってクレンジングしたデータがローカルファイルにエクスポートされます。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。