行の重複除去

[Remove duplicate rows] (重複行を削除)ファンクションを使用すると、完全に重複しているすべての行を簡単に削除し、データセットに1行のみを保持できます。

注: このファンクションはSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。

たとえば、コピーアンドペーストの失敗などのヒューマンエラー、さらには自動操作のためにスプレッドシートの情報が重複することがあります。この例では、受信したデータセットには、顧客情報がすべてシステムで複製された行が含まれています。

[Remove duplicate rows] (重複行を削除)を使用すると、データセットを簡単に消去できます。

手順

重複した情報はすべて1回の簡単な操作で削除でき、データセットでは各行1行のみが表示されるようになります。

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。