データフローの構築

データフローの作成

まず、新しいデータフローを作成します。

Launcher メニューから、 [分析] > [作成] または [分析] > [データの準備] を選択します。
[データフロー] をクリックします。

[新しいデータフローを作成] ダイアログが開きます。
該当する項目にデータフローの [名前] を入力します。
該当するドロップダウンリストから、データフローを保存する [スペース] を選択します。
[説明] を追加して、データフローの目的を文書化します。
データフローに [タグ] を追加して、見つけやすくします。
必要に応じて、 [データフローを開く] チェックボックスをオンにして、作成されたデータフローを直接表示します。
[作成] をクリックします。

空のデータフローが開き、ナビゲーションヘッダーの [概要] タブが表示されます。新しいデータフローは、後から Qlik Cloud の [分析] > [ホーム] ページで確認することもできます。

データフローの概要で確認できる情報の詳細については、「データフローのナビゲート」を参照してください。

データフローの設計を開始するには、ナビゲーションヘッダーの [エディター] タブに移動します。

ソースを選択する

データフローの最初の構成要素は、準備するデータを含むソースです。カタログまたは接続からの任意のデータを使用できます。

データセットからデータを追加する

カタログに保存されるデータセットは、ファイル (.qvd、xls、csv、parquet、json など) またはデータベースやデータウェアハウスのテーブルに基づくことができます。サポートされている形式のリストについては、「ファイル形式」を参照してください。

データプロジェクトの一部として Qlik Talend Data Integration で作成されたデータセットを使用して、データフローを作成することもできます。

データフローのソースとしてデータセットを選択するには、次を実行します。

左側のパネルの [ソース] タブから [データセット] ソースをドラッグして、キャンバスにドロップします。

データカタログウィンドウが開き、以前にアップロードしたデータセットを参照したり、 [データファイルをアップロード] をクリックしてコンピューター上のファイルを参照し、その場でアップロードしたりできます。

警告メモ300 MB を超える大きなファイルをアップロードする場合、処理に時間がかかることがあります。ウィンドウを閉じないでください。進行状況はスピナーに表示されますが、最初は空である可能性があります。
検索とフィルターを使用して、リストから 1 つ以上のデータセットの前のチェックボックスを選択し、 [次へ] をクリックします。

カタログ内の接続から追加されたデータセットを選択し、複数の接続が一致する場合は、ドロップダウンリストを使用して、使用する特定の接続を選択できます。
[概要] タブでは、選択したデータセットを確認し、そこに含まれる項目をチェックし、必要に応じて一部を除外することができます。[データフローにロード] をクリックします。

ソースがキャンバスに追加され、他のノードに接続する必要があるという警告が表示されます。

ソースがキャンバスに配置されると、ソースをクリックして [プロパティ] パネルにアクセスし、ソースのスキーマが更新された場合など、必要に応じて選択した項目を編集できます。

csv ファイルのアップロードと構成

以前にカタログにアップロードしたか、プロセス中に直接アップロードした csv ファイルデータセットをソースとして使用していて、プレビューでデータが正しく表示されない場合は、ファイルが適切にフォーマットされていない可能性があります。

たとえば、区切り記号としてカンマを使用するこの顧客データは、1 つの列に表示されます。

誤って 1 つの列に表示されているカンマで区切られたデータ

ファイルのフォーマットが不適切であるか、アップロード中に区切り記号が正しく検出されませんでした。この問題をトラブルシューティングするには、データセット設定に移動する必要があります。

Launcher メニューから、 [分析] > [カタログ] を選択します。
修正するデータセットを開きます。

データセットの概要には、フォーマットエラーの可能性があるという警告が表示されます。
警告メッセージから [ファイル形式の設定] へのリンクをクリックするか、概要の右上にある [他のアクション] メニューを使用します。

区切り記号が誤ってセミコロンに設定されていることがわかります。
[区切り記号] ドロップダウンリストから、 [カンマ] を選択します。

適切な区切り記号を選択すると、プレビューは異なる項目を正しく表示するようになりました。
[保存] をクリックします。
データフローに戻り、キャンバスが空でなかった場合は古いソースを削除して、再度追加します。今回は、ソースに適切なデータセット構成が反映されます。

接続からデータを追加する

Qlik Cloud とデータフローは、データソースへのさまざまな接続をサポートします。詳細については、「サポートされるデータソースのリスト」を参照してください。

現在サポートされていない接続タイプは次のとおりです。

AI21 Labs (Amazon Bedrock)、Advanced Analytics、Amazon Comprehend、Amazon SageMaker、Amazon Titan (Amazon Bedrock)、Anthropic (Amazon Bedrock)、Azure ML、Azure OpenAI、Cohere (Amazon Bedrock)、DataRobot、Databricks MLflow、Google Ads、Google Calendar、Hugging Face、Meta (Amazon Bedrock)、MeaningCloud、OData、OpenAI、Qlik Predict、Qlik Big Data Index (QBDI)、Qlik GeoOperations、Qlik GeoOperations GeoJSON、Qlik GeoOperations Shapefile、Sentiment140、SMTP、Watson Natural Language Understanding、YouTube Analytics。

データフローのソースとして接続を選択するには、次を実行します。

左側のパネルの [ソース] タブから [接続] ソースをドラッグして、キャンバスにドロップします。

接続の選択ウィンドウが開き、以前に作成した接続を参照したり、 [接続を作成] をクリックして認証後に新しい接続を即座に定義したりできます。
検索とフィルターを使用して、リストから接続の前のチェックボックスを選択し、 [次へ] をクリックします。
接続に応じて、ファイルを参照したり、データへのパスを入力したり、データベースからテーブルを選択したりできるようになります。
ソースデータを選択したら、 [保存] または [完了] をクリックします。

ソースがキャンバスに追加され、別のノードに接続する必要があることを示す警告が表示されます。

プロセッサーを追加する

プロセッサは、データフローで使用できるさまざまな準備機能を含む構成要素です。入力されたデータを受け取り、準備したデータをフローの次のステップに返します。プロセッサーにより、ライブプレビューを使用して、さまざまなデータに対して複雑な抽出、改善、およびクリーニング操作を実行できます。利用可能な機能の詳細については、「データフロープロセッサー」を参照してください。

最初のプロセッサーをデータソースに接続するには、次を実行します。

次のいずれかを実行できます。
- 左側のパネルの [プロセッサー]タブから、選択したプロセッサーをドラッグし、ソースの横のキャンバスにドロップします。
  
  ソースとプロセッサーを手動で接続する必要があります。ソースノードの右側にあるドットをクリックし、リンクを押したままプロセッサーノードの左側にあるドットまでドラッグしてリンクを作成します。
- ソースのアクションメニューをクリックし、 [プロセッサーを追加] を選択して、希望するプロセッサーをクリックします。
  
  プロセッサーはキャンバス上に配置され、ソースに自動的に接続されます。
プロセッサーをクリックして、右側のパネルで構成を開始します。

各プロセッサーに応じて、利用できるさまざまな機能と構成するパラメーターは異なります。詳細については、各プロセッサーのドキュメントを参照してください。
[保存] をクリックします。
データを準備するために必要な数のプロセッサーを追加して接続します。

[プレビュー] パネルで [データプレビュー] スイッチを有効にすると、プロセッサーがデータのサンプルに与える影響を確認できます。歯車アイコンをクリックしてプレビューの [設定] を開き、サンプルサイズを最大 10000 行まで設定します。また、 [スクリプト] スイッチを有効にすると、この時点でデータフローに相当する Qlik スクリプトを確認できます。

ターゲットを選択する

データフローを終了するには、最後のプロセッサーをターゲットノードに接続する必要があります。次の 2 つのターゲットタイプから選択できます。

Qlik Cloud のカタログに保存されているファイルのデータファイル。
Qlik Cloud の接続として追加された外部ソースに書き込むための接続。

どちらのオプションでも、準備データを .qvd、.parquet、.txt、または .csv ファイルとしてエクスポートできます。

ターゲットを残りのフローに接続するには、次を実行します。

次のいずれかを実行できます。
- 左側のパネルの [ターゲット] タブから、選択したターゲットタイプをドラッグし、最後のプロセッサーの横のキャンバスにドロップします。
  
  以前にプロセッサーを接続したのと同じ方法で、最後のプロセッサーをターゲットに手動で接続します。
- 最後のプロセッサーのアクションメニューをクリックし、 [ターゲットを追加] を選択して、選択したターゲットをクリックします。
ターゲットをクリックして、右側のパネルで構成を開始します。

情報メモ[データファイル] の場合、希望するスペースの特定のフォルダーに書き込むことができます。たとえば、個人スペースに folder_name というフォルダーを作成した場合、ターゲットのファイル名として folder_name/data_flow_output.qvd を使用します。結果のファイルはフォルダーに直接送信されます。
[保存] をクリックします。

少なくとも 1 つのソース、1 つのターゲット、およびオプションのプロセッサーがあれば、データフローを実行できるようになりました。

データフローを実行する

データフローのすべてのノードが接続され、構成され、OK としてマークされている場合、緑色のチェックマークは、データフローが有効であるとみなされ、実行可能であることを示します。この時点で、キャンバスの右上にある [スクリプトをプレビュー] ボタンを使用して、バックグラウンドで生成される完全なスクリプトを確認できます。

実行可能な有効なデータフロー

[フロー実行] をクリックしてデータの処理を開始します。

実行のステータスを示す通知が開きます。
フローが正常に完了すると、出力された準備済みデータは、ターゲットに応じてさまざまな場所で確認できます。
- [カタログ] 内の他のアセットと一緒に、およびデータファイルのデータフロー [概要] の [出力] セクション
- 接続ベースのデータセットのデータフロー [概要] の [出力] セクション
  
  フローが失敗した場合、何が問題だったのかを特定するために実行ログを開くことができます。

この準備されたデータを、Qlik Predict 実験またはビジュアライゼーションアプリのクリーンソースとして使用することができるようになりました。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください