Standardmäßig werden Datensätze mit mehr als 10.000 Zeilen in Talend Cloud Data Preparation als umfangreiche/große Datensätze eingestuft.
Auch wenn keine Einschränkung hinsichtlich der Größe der Datensätze gegeben ist, die Sie erstellen können, entsprechen Exporteinstellungen und Anzeige für umfangreiche Datensätze nicht denjenigen herkömmlicher Datensätze. Sie können mit einem Sample arbeiten, das den ersten 10.000 Zeilen entspricht. Allerdings können Sie Ihre Datenaufbereitung auch auf den Rest des Datensatzes anwenden. Das folgende Beispiel-Szenario basiert auf einem Datensatz mit 50.000 Zeilen.
Abrufen von mehr Daten aus umfangreichen Datensätzen
Wenn Sie in Talend Cloud Data Preparation mit einem umfangreichen Datensatz arbeiten, beispielweise mit 50.000 Zeilen, wird nur ein Sample mit den ersten 10.000 Zeilen angezeigt.
Sie können Ihre Daten aufbereiten und Funktionen anwenden, wie Sie es auch mit jedem anderen Datensatz tun würden. Allerdings ergibt sich ein Unterschied, wenn Sie einen beliebigen Filter auf Ihre Daten anwenden. Da Sie nur mit einem Sample arbeiten, werden nur die übereinstimmenden Zeilen unter den ersten 10.000 abgerufen. Sie haben jedoch die Möglichkeit, mehr übereinstimmende Zeilen unter den verbleibenden 40.000 abzurufen und auf der Grundlage dieses neuen Samples Ihre Datenaufbereitung zu verfeinern.
Procedure
Klicken Sie auf das Menüsymbol in der oberen linken Ecke des Rasters und wählen Sie Display rows with invalid or empty values (Zeilen mit ungültigen oder leeren Werten anzeigen) aus.
In der Filterleiste wird angegeben, das der Filter ordnungsgemäß angewendet wurde und nur die übereinstimmenden Zeilen im Raster angezeigt werden. Sie können jeden beliebigen anderen Filter auswählen. Darüber hinaus ist ebenfalls für jede einzelne Spalte die Option zur Anwendung eines Filters auf eine Kategorie von Daten verfügbar, selbst wenn im Sample kein übereinstimmender Wert vorhanden ist. Klicken Sie auf das Menüsymbol in der Überschrift einer Spalte, um die verfügbaren Optionen anzuzeigen.
Die Schaltfläche Fetch more (Weitere abrufen) in der Filterleiste verweist darauf, dass Sie zurzeit mit einem Sample arbeiten und potenziell weitere Zeilen vorhanden sind, die Ihrem Filter entsprechen.
Klicken Sie auf Fetch more (Weitere abrufen), um weitere mit den aktuellen Filtern übereinstimmende Zeilen abzurufen.
Daraufhin wird das Dialogfeld Fetch additional rows (Zusätzliche Zeilen abrufen) geöffnet, in dem der Status des Datenabrufs angezeigt wird.
Talend Cloud Data Preparation hält automatisch an, wenn 10.000 Ergebnisse erzielt wurden oder das Ende des Datensatzes erreicht ist. Sie können ebenfalls den Prozess anhalten und die bis dahin identifizierten Zeilen anzeigen. Sie kehren dann zum Raster zurück, in dem die abgerufenen Zeilen jetzt das Sample bilden, mit dem Sie arbeiten werden. Alle ab jetzt angewendeten Filter bzw. Funktionen werden nur auf dieses Sample angewendet.
Wenn der von Ihnen ursprünglich ausgewählte Filter keine Zeile zurückgibt, können Sie entweder alle Filter löschen oder versuchen, den gesamten Datensatz nach übereinstimmenden Zeilen zu durchsuchen.
Um zu Ihrem ursprünglichen Sample zurückzukehren, löschen Sie alle Filter.
Klicken Sie auf das Kreuz in jedem einzelnen Filter oder auf das Papierkorb-Symbol, um die Filter zu löschen.
Results
Im Raster werden jetzt erneut die ersten 10.000 Zeilen des Datensatzes angezeigt und Sie können mit der Aufbereitung Ihrer Daten fortfahren.
Hat diese Seite Ihnen geholfen?
Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!