メインコンテンツをスキップする補完的コンテンツへスキップ

tChunkingの標準のプロパティ

このページ上

メインコンテンツをスキップする

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

tChunkingの標準のプロパティ

これらのプロパティは、標準ジョブのフレームワークで実行されているtChunkingを設定するために使われます。

標準のtChunkingコンポーネントは、AIファミリーに属しています。

基本設定

[Schema] (スキーマ)と[Edit Schema] (スキーマを編集)	スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語の`line`を避けます。ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。 [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。 [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。 [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。
	[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。
	[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。
[Split column] (カラムを分割)	チャンクに分割しなければならないカラムを選択します。
[Chunking method] (チャンキング方式)	ドロップダウンリストから方式を選択: [Fixed-size] (固定サイズ): 各チャンクには同じ文字数が含まれています。 [Token-based] (トークンベース): 各チャンクには同じ数のトークンが含まれています。チャンクは、定義されたものかそれ以下のサイズになります。
[Chunk size] (チャンクサイズ)	チャンクに含める必要がある文字やトークンの最大数を入力します。 [Chunking method] (チャンキング方式)が: [Fixed-size] (固定サイズ)の場合。サイズは文字数によって決まります。たとえば、`How are you?`は12文字と等しくなります。 [Token-based] (トークンベース)の場合。サイズはトークンによって決まります。`How are you?`は４トークンと等しくなります。`How`、`are`、`you`、`?`はそれぞれ1トークンです。
[Chunk overlap] (チャンクの重複)	隣接する2つのチャンク間で重複している文字やトークンの数を入力します。この数は[Chunk size] (チャンクサイズ)よりも小さくなる必要があります。重複はチャンク間の連続性と文脈を確保し、セグメンテーションによってテキストの流れや一貫性が乱されるのを防ぎます。重複は、チャンキング方式、[Fixed-size] (固定サイズ)、[Token-based] (トークンベース)のいずれかにに基づきます。
[Tokenizer] (トークナイザー)	このオプションは、[Chunking method] (チャンキング方式)として[Token-based] (トークンベース)が選択されている場合に利用できます。ドロップダウンリストでモデルを選択します。 Hugging Faceの場合は、他のモデルより時間がかかることがあります。

詳細設定

[tStatCatcher Statistics] (tStatCatcher統計)	このチェックボックスを選択すると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

使用方法

使用ルール	このコンポーネントは、中間ステップとして使用されます。入力フロート出力フローが必要になります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください