Detección de duplicados: una guía metodológica

Iván Amón Uribe; Claudia Jiménez

Iván Amón Uribe Universidad Pontifica Bolivariana, Circular 1 N° 70 – 01 Medellín-Colombia.
Claudia Jiménez Universidad Nacional de Colombia, Circular 59ª N° 63-20 Medellín-Colombia.

Resumen Cómo citar Descargas

Resumen

Cuando una misma entidad del mundo real se almacena más de una vez, a través de una o varias bases de datos, en tuplas con igual estructura pero sin un identificador único y éstas presentan diferencias en sus valores, se presenta el fenómeno conocido como detección de duplicados. Para esta tarea, se han desarrollado múltiples funciones de similitud las cuales detectan las cadenas de texto que son similaresmas no idénticas. En este artículo se propone una guía metodológica para seleccionar entre nueve de estas funciones de similitud (Levenshtein, Brecha Afín, Smith-Waterman, Jaro, Jaro-Winkler, Bi-grams, Tri-grams, Monge-Elkan y SoftTF-IDF) la más adecuada para un caso específico o situación particular, de acuerdo con la naturaleza de los datos que se estén analizando.

Cómo citar

Amón Uribe, I., & Jiménez, C. (2010). Detección de duplicados: una guía metodológica. Revista Colombiana De Computación, 11(2), 7–23. Recuperado a partir de https://revistas.unab.edu.co/index.php/rcc/article/view/1387

Descargar cita

Descargas

Los datos de descargas todavía no están disponibles.

Detección de duplicados: una guía metodológica

Resumen

Descargas

portada

button_group_sidebar

tutoriales

Para autores:

Para editores:

Para revisores:

Indexada

Scimago

estadisticas

sugeridos

Importante

Nuestros Sitios

Enlaces de Interés