メイン コンテンツをスキップする 補完的コンテンツへスキップ

カラム分析を確定および実行

分析するカラムを定義し、インジケーターを設定したら、分析するデータにフィルターを適用し、カラム分析の実行に使用するエンジンを決定します。

始める前に

  • 分析エディターでカラム分析が開いていること。
  • カラム分析でシステムインジケーターまたは事前定義済みインジケーターを設定していること。
  • データクオリティに必要なSQLエクスプローラーライブラリーをTalend Studioにインストール済みであること。

手順

  1. 必要であればSQL WHERE句を入力し、[Connection] (接続)メニューから分析を実行するデータをフィルタリングします。
  2. [Advanced settings] (詳細設定)メニューで:
    1. [Number of connections per analysis] (分析ごとの接続数)フィールドで、分析ごとに許可される同時接続数を設定します。
      この数値はデータベースの利用可能リソース、つまりデータベースがサポートできる同時接続数に基づいて設定します。
      情報メモ注: SQLite データベースまたはSpark上のHiveデータベースへの接続を使用する場合、接続の同時実行はサポートされません。Hive2サーバーへの接続を使用する場合、接続コンカレンシーはサポートされます。
    2. [Execution engine] (実行エンジン)リストから、分析の実行に使用したいエンジン(JavaまたはSQL)を選択します。
      Javaエンジンを選択した場合は、次の操作を行います。
      • [Summary] (要約)ビューで[Allow drill down] (ドリルダウンを許可)チェックボックスをオンにすると、インジケーターの結果をすべて表示できます。ただし、[Row Count] (行数)インジケーターには適用されません。
      • [Max number of rows kept per indicator] (インジケーターごとに維持する最大行数)フィールドに、ドリルダウンしたいデータ行数を入力します。
    3. 分析エディターの[Context] (コンテキスト)ビューでコンテキスト変数を使用したい場合は、[Open context view] (コンテキストビューを開く)をクリックします。
      コンテキスト変数を設定すれば、データをフィルタリングし、分析ごとの同時接続数を決定できます。
  3. [Save and run] (保存して実行)をクリックします。
    エディターが[Summary] (要約)ビューに切り替わります。
    SQLエンジンを使用している場合は、分析では複数のインジケーターが並列して実行され、分析が進行中でも、チャート内の結果は更新されます。
    以下は、fullnameカラムの頻度とテキスト統計を表すグラフィックです。
    [値の頻度]セクションと[テキスト統計]セクションでのグラフィカルな結果。
    頻度とテキスト統計の詳細は、それぞれ詳細統計およびテキスト統計をご覧ください。
    以下は、emailカラムのパターン頻度とパターン低頻度統計を表すグラフィックです。
    [パターン頻度]セクションと[パターン低頻度]セクションでのグラフィカルな結果。
    テーブル内のパターンでは、aAを使ってメールの値を表します。各パターンには30文字まで使用できます。文字の合計数が30を超えると、パターンは次のように表されます: aaaaaAAAAAaaaaaAAAAAaaaaaAAAAA...<合計文字数>。テーブル内のパターン上にマウスポインターを置くと、元の値が表示されます。
    これらのインジケーターの詳細は、パターン頻度統計をご覧ください。
    以下は、total_salesカラムの集計統計を表すグラフィックです。
    [集計統計]セクションにあるグラフィカルな結果。
    これらのインジケーターの詳細は、集計統計をご覧ください。
    以下は、total_salesカラムのベンフォードの法則統計のグラフィックです。
    [ベンフォードの法則]セクションにあるグラフィカルな結果。
    不正会計と経費のインジケーターとして通常使用されるベンフォードの法則度数統計の詳細は、 不正の検出をご覧ください。

タスクの結果

Javaエンジンを使ってこの分析を実行する場合、[Analysis Parameters] (分析パラメーター)ビューの[Allow drill down] (ドリルダウンを許可)チェックボックスをオンにすると、分析したデータをローカルで保存できるので、分析結果 > [Data] (データ)ビューでアクセスできます。[Max number kept per indicator] (インジケーターごとに維持する最大行数)フィールドを使って、アクセス可能にするデータ行数を決定できます。

Javaエンジンを選択すると、システムではJava正規表現が最初に検索され、何も見つからないと、SQL正規表現が検索されます。

SQLエンジンを使ってこの分析を実行した場合、インジケーターを右クリックし、リストから[View executed query] (実行したクエリーを表示)オプションを選択すると、付加した各インジケーターに対して実行したクエリーを確認できます。ただし、Javaエンジンを使用するとSQLクエリーにアクセスできなくなり、このオプションをクリックすると警告メッセージが表示されます。

[分析済みカラム]セクションにあるカラムのコンテキストメニュー。

Javaエンジンの詳細は、JavaエンジンまたはSQLエンジンの使用をご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。