メイン コンテンツをスキップする 補完的コンテンツへスキップ

tChunkingの標準のプロパティ

Availability-noteBeta

これらのプロパティは、標準ジョブのフレームワークで実行されているtChunkingを設定するために使われます。

標準tChunkingコンポーネントは、AIファミリーに属しています。

基本設定

[Schema] (スキーマ)[Edit Schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。

  • [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。

    変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

 

[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Split column] (カラムを分割) チャンクに分割しなければならないカラムを選択します。
[Chunking method] (チャンキング方式) ドロップダウンリストから方式を選択:
  • [Fixed-size] (固定サイズ): 各チャンクには同じ文字数が含まれています。
  • [Token-based] (トークンベース): 各チャンクには同じ数のトークンが含まれています。

チャンクは、定義されたものかそれ以下のサイズになります。

[Chunk size] (チャンクサイズ) チャンクに含める必要がある文字やトークンの最大数を入力します。
[Chunking method] (チャンキング方式)が:
  • [Fixed-size] (固定サイズ)の場合。サイズは文字数によって決まります。たとえば、How are you?は12文字と等しくなります。
  • [Token-based] (トークンベース)の場合。サイズはトークンによって決まります。How are you?は4トークンと等しくなります。Howareyou?はそれぞれ1トークンです。
[Chunk overlap] (チャンクの重複)

隣接する2つのチャンク間で重複している文字やトークンの数を入力します。この数は[Chunk size] (チャンクサイズ)よりも小さくなる必要があります。

重複はチャンク間の連続性と文脈を確保し、セグメンテーションによってテキストの流れや一貫性が乱されるのを防ぎます。

重複は、チャンキング方式、[Fixed-size] (固定サイズ)[Token-based] (トークンベース)のいずれかにに基づきます。

[Tokenizer] (トークナイザー) このオプションは、[Chunking method] (チャンキング方式)として[Token-based] (トークンベース)が選択されている場合に利用できます。

ドロップダウンリストでモデルを選択します。

Hugging Faceの場合は、他のモデルより時間がかかることがあります。

詳細設定

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスを選択すると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

使用方法

使用ルール

このコンポーネントは、中間ステップとして使用されます。入力フロート出力フローが必要になります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。