tChunking
大型のテキストをより扱いやすい小さなチャンクに分割します。
デフォルトで、このコンポーネントはTalend Studioと共には出荷されていません。機能マネージャーを使ってインストールする必要があります。 詳細は、機能マネージャーを使って機能をインストールをご覧ください。
tChunkingの標準のプロパティ
これらのプロパティは、標準ジョブのフレームワークで実行されているtChunkingを設定するために使われます。
標準のtChunkingコンポーネントは、AIファミリーに属しています。
基本設定
| プロパティ | 説明 |
|---|---|
|
[Schema] (スキーマ)と[Edit Schema] (スキーマを編集) |
|
| [Split column] (カラムを分割) | チャンクに分割しなければならないカラムを選択します。 |
| [Chunking method] (チャンキング方式) | ドロップダウンリストから方式を選択:
チャンクは、定義されたものかそれ以下のサイズになります。 |
| [Chunk size] (チャンクサイズ) | チャンクに含める必要がある文字やトークンの最大数を入力します。 [Chunking method] (チャンキング方式)が:
|
| [Chunk overlap] (チャンクの重複) |
隣接する2つのチャンク間で重複している文字やトークンの数を入力します。この数は[Chunk size] (チャンクサイズ)よりも小さくなる必要があります。 重複により、チャンク間の連続性とコンテキストが確保され、セグメンテーションによってテキストの流れと一貫性が損なわれることがなくなります。 重複は、チャンキング方式、[Fixed-size] (固定サイズ)、[Token-based] (トークンベース)のいずれかにに基づきます。 |
| [Tokenizer] (トークナイザー) | このオプションは、[Chunking method] (チャンキング方式)として[Token-based] (トークンベース)が選択されている場合に利用できます。 ドロップダウンリストでモデルを選択します。 Hugging Faceの場合は、他のモデルより時間がかかることがあります。 |
詳細設定
| プロパティ | 説明 |
|---|---|
|
[tStatCatcher Statistics] (tStatCatcher統計) |
このチェックボックスをオンにすると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。 |
使用方法
| 使用方法のガイダンス | 説明 |
|---|---|
|
使用ルール |
このコンポーネントは、中間ステップとして使用されます。入力フロート出力フローが必要になります。 |