¡Hola, Pica! Creo que te he contado en más de una ocasión aquello del profe de la carrera que nos hacía borrar los outliers de un plumazo. Evidentemente esto es una barbaridad, pero, ¿podrías hablar de en qué situaciones sí es correcto eliminar lo que pueden parecer outliers pero más bien son artefactos? (No sé si en Estadística se usa el término "artefacto" para hablar de algo (datos, imágenes...) que suele estar ahí por algún fallo de procesamiento y que estorba más que otra cosa)
Por lo general hay que tener cuidado cuando hablamos de outliers, y no eliminarlos a la ligera sólo basándonos en sus valores. Incluso aunque se vayan a eliminar, puede ser interesante estudiarlos aparte. Pero bueno, respondiendo a tu pregunta, los supuestos en los que sí convendría depurarlos son:
- Cuando estos outliers se produzcan debido a errores de medida. Esto unas veces es más fácil de detectar que otras, claro, pero cuando no tengamos duda (p. ej. un padre siendo más joven que su hijo, una persona que pese una cantidad negativa de kilogramos, etc.) no van a aportar nada al análisis salvo entorpecerlo.
- En general, cuando los outliers no formen parte de la población objetivo de nuestro estudio. Por ejemplo, suponte que hacemos una encuesta dirigida a población universitaria, y al analizar los datos nos encontramos que la ha rellenado una persona de 15 años de edad. Sus respuestas obviamente no tienen por qué ser erróneas, pero no forma parte de nuestra población objetivo, por lo que hay que quitarla de nuestro conjunto.
Y reitero: todo con mucho cuidado, porque los outliers también pueden ser debidos a sucesos improbables pero que siguen siendo parte de nuestra población objetivo, y esos sí debemos retenerlos aunque luego toque hacerles un análisis aparte (empleando la teoría de valores extremos).