Utilisation du composant tUniqRow dans Talend
Le composant tUniqRow est un outil puissant de Talend qui permet de supprimer les doublons d’un flux de données. Que vous travailliez avec des données provenant de bases de données, de fichiers plats ou d’autres sources, tUniqRow peut vous aider à nettoyer votre flux en éliminant les enregistrements en double. Dans ce tutoriel, nous vous guiderons à travers les étapes nécessaires pour utiliser efficacement le composant tUniqRow dans Talend.
Prérequis:
Avant de commencer ce tutoriel, assurez-vous d’avoir installé Talend Studio et d’avoir des connaissances de base sur la création de Jobs dans Talend.

Étapes :
- Préparation des données :
Pour illustrer l’utilisation du composant tUniqueRow, nous aurons besoin de données sources appropriées. Dans cet exemple, nous utiliserons un fichier CSV contenant des informations sur les employés, y compris leur identifiant, leur nom, leur email et leur département.
- Création du Job Talend
- Lancez Talend Studio et créez un nouveau Job.
- Dans la palette de composants à gauche, recherchez et faites glisser le composant tFileInputDelimited sur l’espace de travail du Job.
- Configurez le composant tFileInputDelimited pour lire le fichier CSV contenant vos données d’employés. Spécifiez le chemin du fichier, le délimiteur de champ et les autres paramètres pertinents.
- Faites glisser le composant tUniqRow depuis la palette de composants et reliez-le au composant tFileInputDelimited.
- Double-cliquez sur le composant tUniqRow pour ouvrir sa fenêtre de configuration. Dans cet onglet, vous pouvez spécifier les paramètres du composant tUniqRow pour répondre à vos besoins.
- Dans la section « Unique key » de la fenêtre de configuration de votre composant tUniqRow, cochez la case « Key attribute » pour la colonne « identifiant » afin d’effectuer le dédoublonnage basé sur cette colonne. De plus, cochez également la case « Case sensitive » pour différencier les majuscules et les minuscules.
- Faites glisser deux composants tLogRow depuis la palette pour afficher les résultats de votre Job.
- Reliez les sorties « Uniques » et « Duplicates » de votre composant tUniqRow aux deux composants tLogRow.



- Exécution et vérification des résultats :
- Une fois que vous avez configuré le composant tUniqRow et les composants de sortie, vous pouvez exécuter votre Job pour supprimer les doublons. Cliquez sur le bouton « Run » dans la barre d’outils de Talend Studio pour lancer l’exécution.

Comme le montre la figure ci-dessus, le dédoublonnage est effectué avec succès.
Conclusion :
Dans ce tutoriel, nous avons appris comment utiliser le composant tUniqRow dans Talend pour supprimer les doublons dans un flux de données. Le composant tUniqRow est un outil essentiel pour améliorer la qualité des données et faciliter leur traitement ultérieur.
Laisser un commentaire
Il n'y a pas de commentaires pour le moment. Soyez le premier à participer !