テキスト統計
分析エディターでデータマイニングタイプが[nominal] (名義)に設定されている場合にのみ、テキスト統計インジケーターを使用してカラムを分析できます。それ以外の場合、これらの統計は[Indicator Selection] (インジケーターの選択)ダイアログボックスでは選択不可となります。使用できるデータマイニングタイプの詳細は、データマイニングのタイプをご覧ください。
テキスト統計は、カラム内のテキストフィールドの最小文字数、最大文字数、平均文字数などの特性を分析できます。
- [Minimal Length] (最小文字数): テキストフィールドの最小文字数を計算します。null値と空白値は除外されます。
- [Maximal Length] (最大文字数): テキストフィールドの最大文字数を計算します。null値と空白値は除外されます。
- [Average Length] (平均文字数): テキストフィールドの平均文字数を計算します。null値と空白値は除外されます。
他にも、上記の各インジケーターでnull値を持つもの、空白値を持つもの、null値と空白値の両方を持つものをカウントすることもできます。
null値は長さ0のデータとしてカウントされ、null値の最小長は0となります。そのため、null値、空白値、またはその両方を持つ上述の各インジケーターは、その他のテキストインジケーターを使ってカウントできます。[Minimal Length With Null] (nullを含む最小文字数)と[Maximal Length With Null] (nullを含む最大文字数)では、長さが0のテキストと見なされるnull値が含まれているテキストフィールドの最小長と最大長が計算されます。
空白値は長さが1の標準データとしてカウントされます。空の値は長さが0のデータとしてカウントされるため、空白値の最小長は0となります。そのため、[Minimal Length With Blank] (空白を含む最小文字数)と[Maximal Length With Blank] (空白を含む最大文字数)では、空白値が含まれているテキストフィールドの最大長と最小長が計算されます。
どの平均インジケーターにも同様の計算が適用されます。空の値も長さが0のデータとしてカウントされます。
たとえば、テキスト統計インジケーターのあらゆる異なるタイプを使い、以下の値が含まれているカラム内のテキストフィールドの長さを計算します。
値 | 文字数 |
---|---|
"Brayan" | 6 |
"Ava" | 3 |
"_" | 1 |
"" | 0 |
<null> | <null> |
"__________" | 10 |
どのデータベースでも選択できるインジケーターを次のテーブルに示します。
インジケーター | Java解析エンジンでサポートされているデータ型 | SQL解析エンジンでサポートされているデータ型 |
---|---|---|
最小文字数 | Text | Text |
nullを含む最小文字数 | Text | Text |
空白を含む最小文字数 | Text | Text |
空白とnullを含む最小文字数 | Text | Text |
最大文字数 | Text | Text |
nullを含む最大文字数 | Text | Text |
空白を含む最大文字数 | Text | Text |
空白とnullを含む最大文字数 | Text | Text |
平均文字数 | Text | Text |
nullを含む平均長 | Text | Text |
空白を含む平均長 | Text | Text |
空白とnullを含む平均長 | Text | テキスト |