メイン コンテンツをスキップする 補完的コンテンツへスキップ

データセットを作成

データセットを最初から作成する方法を説明します。

手順

  1. [Datasets] (データセット) > [Add dataset] (データセットを追加)に進みます。
  2. [Add a new dataset] (新しいデータセットを追加)パネルで、データセットに名前を付け、データセットを作成する接続を選択します。
    まだ存在していない接続からデータセットを追加する場合は、[Connection] (接続)ドロップダウンリストからこの接続を直接作成できます。
  3. 必要に応じて説明を追加し、データセットの必要なプロパティを入力します。
    • S3接続やHDFSファイルストレージ接続の場合は、[Auto detect] (自動検出)ボタンを使えば、データの形式(CSV、Excel、Avro、Parquet)を自動的に検出して入力できます。

    • クエリー型データベースを変換先データセットとして使用できないため、データベースクエリーとテーブルタイプに互換性がありません。そのため、保存後にデータベース設定を別の種類に変更しようとすると、パイプラインでこの操作が可能かどうかを確認するチェックがトリガーされます。

  4. (オプション) [View sample] (サンプルを表示)をクリックすると、データセットサンプルの最初のレコードがプレビュー表示されます。
  5. [Validate] (検証)をクリックしてデータセットを保存します。

タスクの結果

新しいデータセットが[Datasets] (データセット)ページのリストに追加され、使用できる状態になります。
作成したデータセットの詳細ビューに移動して、さまざまな形式でサンプルを表示できます。
  • [Grid] (グリッド): このビューから、表形式でデータの最初の10,000件のレコードを表示できます。
  • [Hierarchy] (階層): このビューから、データの最初の10,000件のレコードをツリー状の構造に表示できます
  • [Raw] (生): このビューから、データの最初の10,000件のレコードの未変更のバージョンとフィルタリングされていないものを表示できます。

ローカルデータセットを作成

ローカルのCSV、Excel、Avro、Parquetファイルをインベントリーへ直接インポートします。 [Add dataset] (データセットを追加)ボタンを使えばさまざまな接続からデータセットを追加できますが、いずれかのローカルファイルをインポートするだけの場合は、[Drag a file or browse] (ファイルをドラッグまたは参照)ボタンで簡単にインポートできます。

Procedure

ローカルデータセットを直接インポートする場合は、次のいずれかの操作を行います。
  • ローカルファイルをドラッグし、データセット画面上の任意の位置にドロップします。
    ドラッグ&ドロップ画面
    ローカルファイルをクラウドアプリにドロップできる画面。
  • [Drag a file or browse] (ファイルをドラッグまたは参照)ボタンをクリックしてエクスプローラーを開き、インポートするファイルを選択します。
    [Drop a file or browse] (ファイルをドロップまたは参照)ボタンをクリックすれば、インポートするファイルを選択できます。

ファイルがアップロードされ、moviesデータセットが作成されます。[Overview] (概要)ページが直接開きます。ローカル接続がまだ設定されていない場合はオンザフライで作成されます。

この新しい接続は、可能な場合はCloud Engine for Designに依存しますが、利用できる唯一のものであれば既存のRemote Engine Gen2だけを使います。

既にローカル接続がある場合、ローカルインポートは、Cloud Engine for Designで作成された最も古い接続に優先的に依存しますが、必要であればRemote Engine Gen2で作成された接続を使います。

ただし、インポート時に使用可能なエンジンがなければローカルインポートは無効になります。

エスケープ文字やフィールド区切りなど、csvファイルプロパティに関する情報はバックグラウンドで自動検出されましたが、データセットプロパティ内でいつでも変更できます。

Results

ローカルファイルがデータセットのリストに追加され、これまでに接続がなかった場合はローカル接続が作成されます。

テストデータセットを作成

手動で入力したスキーマに基づいてデータセットを作成する方法について説明します。

テストデータセットは、実際のレコードストアを必要とせずに固定された値のセットを提供するのに役立ち、製品を簡単に試せるようにしています。

Procedure

  1. [Datasets] (データセット) > [Add dataset] (データセットを追加)に進みます。
  2. [Add a new dataset] (新しいデータセットを追加)パネルで、テストデータセットに名前を付けます。
  3. 前に作成したもので、データの追加先とするテスト接続を選択します。
  4. データの形式を選択します。
    • CSV: その場合、スキーマフィールドの想定される形式は次のとおりです。
      • [A-Za-z_]の文字で始まる必要があります
      • 含めることができるのは[A-Za-z0-9_]のみです
      • 使用できる区切りはセミコロンのみです
      例: First_Name;Last_Name;Phone1;Phone2;Address;State;Company
      情報メモNote: 形式を指定しない場合、デフォルトでジェネリックなものが作成されます。
    • JSON: その場合は、JSON値の特定の形式に従い、一貫性を持たせる必要があります。レコードの並び順、1件ずつ、区切りかどうか、改行ごと。各レコードは1行でなくても構いません。最後に、テキストエリアのデータは角括弧付きの一般的なJSON文書ではありません。

      例:

        {
          "Id": 3146717,
          "PosTime": 1525097499899,
          "Latitude": 48.8585,
          "Longitude": 2.4921,
          "Operator": "Air France"
        }
        {
          "Id": 3757865,
          "PosTime": 1525097474634,
          "Latitude": 48.5018,
          "Longitude": 2.2246,
          "Operator": "Lufthansa"
        }
    • AVRO: この場合は、Avroレコードのスキーマ(つまりAvro Apacheドキュメンテーションに記述されている特定構文を持つJSONドキュメント)も入力する必要があります。
  5. [Values] (値)エリアで、データを入力するか貼り付けます。
    データのサイズは32KBを超えることはできません。
    手動でJSON値を入力できる新しいデータセット設定ページ。
  6. (オプション) [View sample] (サンプルを表示)をクリックして、データの有効性を確認します。
  7. [Validate] (検証)をクリックしてデータセットを保存します。

Results

データセットの概要パネルにリダイレクトされます。さまざまな情報やメタデータがここに表示されます。

データセットのコンテンツを視覚化して把握する場合は、[Sample] (サンプル)パネルを開きます。自分のデータが有効かどうかチェックできます。

データセットのサンプルパネル
データセットJSON値のテーブルビューを示すサンプルパネル。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。