📊⛏ Picanúmeros
picanumeros
Doctor en Estadística y profe de ídem.
Tengo un archivo de 15gb tipo de archivo .sas pero no he podido trabajarlo en R es muy pesado, es sobre las pruebas PISA quisiera saber como hago para poder procesar esos datos.
Pues a ver, tienes un par de paquetes en R para cargar datos de tipo .sas: {sas7bdat} por un lado y {haven} (función read_sas) por otro.
El problema aquí está en que 15 GB de datos no hay RAM que se lo trague, así que tienes que trabajar en disco sí o sí. La opción más popular es utilizar el paquete {data.table}, que presenta un alto rendimiento para trabajar con volúmenes de datos muy grandes pero cuya sintaxis es un poco diferente a la de R base, así que si te manejas con el Tidyverse puedes utilizar el paquete {dtplyr}.
Hola! Por que no contestaste la pregunta sobre conformal predictions? :(
Sí que te contesté! Enlace a la respuesta: https://neospring.org/+c/52df24a0b2 Lo que pasa es que no me lo mandaste como pregunta, sino como comentario a la respuesta a una pregunta que había publicado yo. Por eso no aparece en la TL de mi perfil.
Las preguntas que tengáis, si queréis que aparezcan en el TL (y que las pueda compartir por redes), mandadlas siempre a la inbox que hay en la página principal de mi perfil.
Hola, quiero aprender más de ecuaciones estructurales y modelos SEM ¿qué me recomiendas? Y así en general ¿qué recomiendas para aprender estadística? Estoy viendo si puedo sola o comprarme un curso.
Creo que el Multivariate Data Analysis de Hair et al. (Cengage Learning, 2019) tiene todo lo necesario para aprender los modelos de ecuaciones estructurales (que por cierto, para mí SEM es un acrónimo de Structural Equation Modelling, es decir, que son lo mismo).
En general para aprender estadística yo te recomendaría acudir a educación reglada: grado, máster, cursos homologados... lo que tu tiempo te deje. MOOCs no me suelen dejar buen sabor de boca, aunque si son para algo muy muy muy específico quizá te pueden valer. Bootcamps... mejor que no.
Y si no puedes acceder a nada de esto, siempre te queda la formación autodidacta a través de los libros y de practicar todo lo que puedas por tu cuenta. En mi blog hay un listado colaborativo de libros de estadística con multitud de títulos, algunos de ellos disponibles online: https://picanumeros.wordpress.com/2019/08/23/listado-de-libros-para-el-aprendizaje-y-refuerzo-de-la-estadistica/
¿Como explicar que la incertidumbre siempre estará en una defensa de tesis?
¿Explicar en una defensa de tesis que siempre estará, o explicar que, en una defensa de tesis, habrá incertidumbre? xD
Asumiendo lo lógico (esto es, que me preguntas por lo primero)... puedes explicar un poco por encima qué significa estimar un parámetro y que distintas muestras pueden dar lugar a distintas estimaciones. También puedes hacer especial hincapié en dar medidas del error de las estimaciones que obtengas (márgenes de error, intervalos de confianza, etc.).
Te secuestran. A las 2 horas te liberan porque no paraste de hablar sobre qué cosa?
Buaaah pues podrían ser muchos temas pero estaría entre datos random de grupos musicales en general (y de Los Planetas en particular) y datos random de fútbol en general (y del Almería en particular).
¿Qué, te esperabas algo de estadística? Mwahahah
Hola Pica! Que hecho sobre la estadística parece mentira pero es real?
La paradoja del cumpleaños suele levantar muchas ampollas, pero la de Monty Hall (y su primo hermano: el problema de los dos sobres) ya sí que es para darse calamonazos contra la pared. La solución no se la creyó ni Paul Erdös, imagínate.
Y a un nivel más mundano: todavía a mucha gente le parece mentira que una muestra de 1.000 o 2.000 unidades sea suficiente para estimar información sobre una población de miles de millones de unidades con un margen de error aceptable... pero es real. "Sólo" necesitas saber qué probabilidad tiene cada unidad de ser seleccionada.
Hola! Un hijo de un amigo le gusta mucho el mundo de la estadística y va a estudiar la carrera de matemáticas. Como se acerca su cumpleaños he pensado en regalarle algún libro que le pudiese gustar sobre el tema, pero claro está no tengo el conocimiento para elegir uno u otro. Que libro me recomendaría? Está empezando 1 de carrera. Gracias
Pues le puedes regalar El arte de la estadística, de Spiegelhalter, que está recién traducido y es baratito. Y si te quieres estirar un poco más, cualquiera de los de Walter Sosa Escudero. Por cierto, una pena que el hijo de tu amigo no supiera que existe el Grado en Estadística 😜
Tengo dos hijos. Uno de 2 años y medio y otro de medio año. Es agotador. Los días que no van al colegio, es poner el pie en el suelo porque lloran (a las 7:00 u 8:00) y no parar hasta que se acuestan (a las 20:00). Por suerte duermen del tiron normalmente. Pero un día y otro y otro... es agotador estar todo el día pendiente de ellos, sacando, recogiendo, limpiando, comprando, ordenando, volviendo a sacar... ¿sobre qué edad comienzan a ser más autónomos? Supongo que sobre los 3 años. Me refiero a una edad en la que juegan más tiempo solos, no tienen pañal, no lloran por todo, no hacen rabietas.....
Ni idea :____ no soy especialista en estadísticas sobre crianza. En todo caso, y porque ya me ha dado curiosidad, una búsqueda rápida en Google me lleva a un artículo (https://doi.org/10.1162/opmi_a_00090) describiendo un estudio en el que niños de hasta 7 años se sienten como posesión de sus adres. Pero no puedo decir mucho más.
¡Hola, Pica! Creo que te he contado en más de una ocasión aquello del profe de la carrera que nos hacía borrar los outliers de un plumazo. Evidentemente esto es una barbaridad, pero, ¿podrías hablar de en qué situaciones sí es correcto eliminar lo que pueden parecer outliers pero más bien son artefactos? (No sé si en Estadística se usa el término "artefacto" para hablar de algo (datos, imágenes...) que suele estar ahí por algún fallo de procesamiento y que estorba más que otra cosa)
Por lo general hay que tener cuidado cuando hablamos de outliers, y no eliminarlos a la ligera sólo basándonos en sus valores. Incluso aunque se vayan a eliminar, puede ser interesante estudiarlos aparte. Pero bueno, respondiendo a tu pregunta, los supuestos en los que sí convendría depurarlos son:
- Cuando estos outliers se produzcan debido a errores de medida. Esto unas veces es más fácil de detectar que otras, claro, pero cuando no tengamos duda (p. ej. un padre siendo más joven que su hijo, una persona que pese una cantidad negativa de kilogramos, etc.) no van a aportar nada al análisis salvo entorpecerlo.
- En general, cuando los outliers no formen parte de la población objetivo de nuestro estudio. Por ejemplo, suponte que hacemos una encuesta dirigida a población universitaria, y al analizar los datos nos encontramos que la ha rellenado una persona de 15 años de edad. Sus respuestas obviamente no tienen por qué ser erróneas, pero no forma parte de nuestra población objetivo, por lo que hay que quitarla de nuestro conjunto.
Y reitero: todo con mucho cuidado, porque los outliers también pueden ser debidos a sucesos improbables pero que siguen siendo parte de nuestra población objetivo, y esos sí debemos retenerlos aunque luego toque hacerles un análisis aparte (empleando la teoría de valores extremos).
A ver, Pica, que yo me entere: eso de la distribución normal, que está por todos lados, ¿cuándo empezó la gente a darse cuenta de que se daba? La estadística es una ciencia relativamente joven (un poco como la biología, por eso somos coleguis creo yo) pero muchos de sus conocimientos dudo que lo sean tanto, ¿no?
Ohhhhh, buena pregunta. Se tiene constancia de que el mismo Galileo Galilei, en el siglo XVI, se dio cuenta de que los errores de medición de las mediciones astronómicas eran simétricos (en torno a los valores reales) y que además los errores pequeños se daban con mucha mayor frecuencia que los grandes. Muchos años después fue Abraham De Moivre el que "descubrió" la distribución Normal como una aproximación del número de éxitos al repetir un experimento muchas veces (p. ej. número de caras al tirar una moneda repetidas veces), es decir, aproximó la Binomial a través de la Normal, algo que hacemos muy habitualmente hoy en día. Unos años más tarde, Pierre Simon Laplace describió el Teorema Central del Límite, que mostraba que la media de una muestra sigue esa distribución incluso aunque la variable cuya media se está tomando no la siga (siempre y cuando el tamaño de muestra sea lo suficientemente grande). Y ya en el siglo XIX se utilizó la Normal para describir tanto errores de medida en experimentos como la altura y el peso de los seres humanos.