Outil de Déduplication de Texte

Outil gratuit en ligne de déduplication de texte avec correspondance floue pour supprimer les phrases ou paragraphes quasi-doublons. Seuils de similarité ajustables pour une détection précise des doublons.

Texte d'entrée

Paramètres de détection

Mode de détection

Seuil de similarité: 80%

50% (Plus flou)100% (Correspondance exacte)

Correspondance sensible à la casseConserver la première occurrence (supprimer les doublons)

Texte dédupliqué

Text Readability Score

Text Sorting by Length

Outils associés

Duplicates Remover

Duplicate Word Finder

Text Diff Tool

Whitespace Cleaner

Text Merger

Text Splitter

Find & Replace

Text Stats Analyzer

Word Frequency Analyzer

Share this tool

Help others discover Text Deduplication Tool

À propos de cet outil

Comment ça fonctionne

Utilise l'algorithme de distance de Levenshtein pour la correspondance floue de texte
Détecte les phrases ou paragraphes quasi-doublons basé sur le seuil de similarité
Seuil ajustable de 50% à 100% pour le contrôle de précision
Options de comparaison sensible ou insensible à la casse
Conserve ou supprime automatiquement la première/dernière occurrence

Cas d'utilisation courants

Nettoyer le contenu répétitif dans les articles ou essais
Supprimer les paragraphes en double des documents combinés
Identifier les phrases similaires pour la consolidation du contenu
Nettoyage des données pour le traitement et l'analyse de texte
Contrôle de qualité pour le contenu généré automatiquement ou extrait

Foire aux questions

Qu'est-ce que la déduplication de texte et comment fonctionne-t-elle?

La déduplication de texte est le processus d'identification et de suppression des phrases ou paragraphes quasi-doublons ou très similaires dans un texte. Cet outil utilise l'algorithme de distance de Levenshtein pour calculer la similarité entre les segments de texte et supprime ceux qui dépassent le seuil de similarité spécifié.

Qu'est-ce que le seuil de similarité et comment le régler?

Le seuil de similarité est un pourcentage (50-100%) qui détermine à quel point deux segments de texte doivent être similaires pour être considérés comme des doublons. 100% signifie uniquement une correspondance exacte, tandis que des valeurs plus faibles (comme 80%) permettent de légères différences.

Puis-je dédupliquer à la fois des phrases et des paragraphes?

Oui, l'outil prend en charge deux modes: la déduplication au niveau de la phrase (divise le texte par les points, les points d'exclamation et les points d'interrogation) et la déduplication au niveau du paragraphe (divise par les sauts de ligne).

Qu'est-ce que la correspondance floue et pourquoi est-elle utile?

La correspondance floue identifie des segments de texte similaires mais non identiques. Elle est utile pour détecter des doublons avec des variations mineures comme une ponctuation différente, de petites fautes de frappe ou une formulation légèrement différente.

Dois-je utiliser une correspondance sensible à la casse?

La correspondance insensible à la casse (par défaut) traite 'Bonjour' et 'bonjour' comme identiques, ce qui est généralement préféré pour la déduplication de contenu. Utilisez la correspondance sensible à la casse si les différences de capitalisation sont significatives dans votre contenu.

Que se passe-t-il avec la première occurrence des doublons?

Par défaut, l'outil conserve la première occurrence et supprime les doublons suivants. Vous pouvez décocher 'Conserver la première occurrence' pour conserver la dernière occurrence à la place.

Comment l'outil gère-t-il plusieurs groupes de doublons?

L'outil identifie tous les groupes de doublons séparément. Si le segment A correspond à B, et C correspond à D, ils forment deux groupes distincts. L'analyse vous montre combien de groupes de doublons ont été trouvés et leurs pourcentages de similarité.

Quels sont les cas d'utilisation courants de la déduplication de texte?

Les cas d'utilisation courants comprennent: le nettoyage d'articles avec des phrases répétitives, la fusion de documents avec du contenu qui se chevauche, la suppression de paragraphes en double des résultats de scraping web, et la consolidation de réponses similaires aux sondages.

Cet outil peut-il gérer des documents volumineux?

Oui, l'outil peut traiter des documents de diverses tailles. Cependant, les performances peuvent varier avec des textes très grands (plus de 10 000 phrases ou paragraphes) en raison de la complexité computationnelle de la correspondance floue.

Quelle est la précision de l'algorithme de distance de Levenshtein?

L'algorithme de distance de Levenshtein est très précis pour détecter la similarité de texte basée sur des différences au niveau des caractères. Il calcule le nombre minimum d'éditions à un seul caractère nécessaires pour transformer une chaîne en une autre.

L'outil préservera-t-il la mise en forme de mon texte?

L'outil préserve le contenu des segments de texte dédupliqués mais les reformate en fonction du mode sélectionné. Le mode phrase joint les phrases dédupliquées avec des points et des espaces, tandis que le mode paragraphe les sépare avec des doubles sauts de ligne.

Quelles informations l'analyse fournit-elle?

L'analyse montre: le nombre original de phrases/paragraphes, le nombre après déduplication, le nombre de doublons supprimés, le pourcentage de réduction et les détails de chaque groupe de doublons incluant les scores de similarité.