tChunkingの標準のプロパティ
これらのプロパティは、標準ジョブのフレームワークで実行されているtChunkingを設定するために使われます。
標準のtChunkingコンポーネントは、AIファミリーに属しています。
基本設定
[Schema] (スキーマ)と[Edit Schema] (スキーマを編集) |
スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。 ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。 スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。
|
|
[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。 |
|
[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。 |
[Split column] (カラムを分割) | チャンクに分割しなければならないカラムを選択します。 |
[Chunking method] (チャンキング方式) | ドロップダウンリストから方式を選択:
チャンクは、定義されたものかそれ以下のサイズになります。 |
[Chunk size] (チャンクサイズ) | チャンクに含める必要がある文字やトークンの最大数を入力します。 [Chunking method] (チャンキング方式)が:
|
[Chunk overlap] (チャンクの重複) |
隣接する2つのチャンク間で重複している文字やトークンの数を入力します。この数は[Chunk size] (チャンクサイズ)よりも小さくなる必要があります。 重複はチャンク間の連続性と文脈を確保し、セグメンテーションによってテキストの流れや一貫性が乱されるのを防ぎます。 重複は、チャンキング方式、[Fixed-size] (固定サイズ)、[Token-based] (トークンベース)のいずれかにに基づきます。 |
[Tokenizer] (トークナイザー) | このオプションは、[Chunking method] (チャンキング方式)として[Token-based] (トークンベース)が選択されている場合に利用できます。 ドロップダウンリストでモデルを選択します。 Hugging Faceの場合は、他のモデルより時間がかかることがあります。 |
詳細設定
[tStatCatcher Statistics] (tStatCatcher統計) |
このチェックボックスを選択すると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。 |
使用方法
使用ルール |
このコンポーネントは、中間ステップとして使用されます。入力フロート出力フローが必要になります。 |