Introducción al análisis de datos PISA. El muestreo
Cada tres años, desde el año 2000, la OCDE (Organización para la Cooperación y Desarrollo Económico) realiza una serie de exámenes a nivel nacional en una serie de países a alumnos de 15 años para evaluar el grado de conocimientos en tres grupos principales de materias: ciencias, comprensión lectora y matemáticas. Se trata del programa PISA, cuya última edición se realizó en el año 2015.
Además de las puntuaciones de los exámenes en estas materias, se recogen gran cantidad de datos estadísticos sobre el nivel socioeconómico de los alumnos, su actitud hacia los estudios, la escuela y la vida en general, así como datos sobre las escuelas y, en algunos países, sobre los padres de los alumnos. Todos estos datos se utilizan por los gobiernos de los países participantes para evaluar sus políticas educativas, realizándose gran cantidad de estudios, muchos de ellos disponibles en la red para su descarga.
En este enlace tenéis una introducción al programa PISA más detallada.
Todos los datos recogidos se publican en la web oficial de PISA de la OCDE, y están disponibles para su descarga más o menos un año después de la realización de los exámenes. Actualmente existen datos hasta el año 2012. Se trata de ficheros de texto plano con las respuestas a todas las preguntas de todos los cuestionarios, junto con ficheros de control para cargar los datos en SPSS y SAS.
Todo esto hace que este conjunto de datos sea excelente para hacer prácticas de análisis estadístico, ya que disponemos de multitud de trabajos cuyos resultados podemos intentar reproducir. En este enlace tenéis ejemplos de estudios basados en datos PISA. Como SPSS y SAS tienen un precio bastante elevado, lo que yo he hecho es volcar en SQL Server la base de datos de PISA, a partir de la cual se pueden extraer los datos mediante consultas SQL, además de poder utilizar las características propias de SQL Server para el análisis y la minería de datos.
Los datos se pueden extraer de esta base de datos utilizando la aplicación WinPODUtil, con la que se obtendrán ficheros CSV que después podremos procesar utilizando el programa R, de libre distribución. Todos los ejemplos que veremos en esta serie están realizados con este programa.
Aquí veremos por encima las principales características de estos datos y las principales técnicas que se tienen que utilizar con ellos de cara a su análisis. En este enlace podéis descargar el manual de análisis de datos PISA, donde se explican con gran detalle y mucho más rigor todas estas técnicas. Este manual está orientado al análisis con SPSS, y todos los ejemplos están programados en el lenguaje propio de esta aplicación, pero la parte teórica es excelente y aquí veremos todos los ejemplos realizados en código R.
En este primer artículo de la serie veremos cómo se recogen los datos de estos estudios y que debemos tener en cuenta a la hora de realizar el muestreo. En este enlace podéis descargar ejemplos de código para muestreo de datos PISA.
El muestreo de datos en PISA
La selección de alumnos para los estudios PISA se realiza siguiendo un muestreo en dos etapas. En una primera fase se seleccionan las escuelas que van a participar, procurando que la distribución y características de las mismas sea representativa del sistema educativo del país en el que se realiza el estudio. Después se realiza una selección aleatoria de alumnos dentro de cada escuela, de entre todos aquellos que tienen 15 años en el momento de la prueba. Esto hace que no todos los alumnos pertenezcan necesariamente al mismo curso.
En cada escuela se seleccionan aproximadamente 35 alumnos, pero no todas disponen de este número de alumnos y, como la participación es voluntaria, no todos los alumnos seleccionados participan al final en la prueba. Por este motivo, se le asigna a cada uno de ellos un peso, que se calcula utilizando la probabilidad de la escuela de ser seleccionada para el estudio y la probabilidad del alumno de ser seleccionado dentro de la escuela.
La suma de los pesos de todos los alumnos de un país nos da un valor aproximadamente igual a la población total de alumnos de 15 años del país.
Todos los cálculos deben realizarse teniendo en cuenta los pesos de cada alumno. De este modo, no debe tomarse cada registro como los datos personales de un determinado alumno, sino que cada alumno representa a una población de individuos con las mismas características.
Por todo ello, cuando se obtiene una submuestra de datos de un determinado país con una cantidad de registros inferior al tamaño de la muestra completa, estos pesos se deben corregir para que continúen sumando el total de la población. La corrección es muy sencilla, basta con multiplicar el peso por la cantidad de individuos en la muestra completa y dividirlo por la cantidad de registros seleccionados para la submuestra.
En WinPODUtil, los pesos de los alumnos están en la pestaña Estimadores (previamente deberemos seleccionar al menos un año y uno de los países, con sus divisiones territoriales). Seleccionando Tipos de estimadores en la lista desplegable y después Weights en la lista de opciones disponibles. A continuación, pasamos a Pesos y estimadores en la lista desplegable y veremos los diferentes pesos disponibles.
El peso del alumno es W_FSTUWT, y el de la escuela SCWEIGHT. Resulta recomendable descargarse en un fichero aparte todos los pesos de los alumnos de un país, ya que la consulta resulta bastante pesada. Luego podemos combinar este fichero con la selección de respuestas descargada, aquí podéis ver como manipular y combinar archivos csv con la opción Procesar del programa WinPODUtil.
Debido a la gran cantidad de preguntas que componen cada uno de estos estudios, resulta imposible que los alumnos contesten a todas ellas, por lo que se distribuyen en una serie de cuestionarios, cada uno de los cuales contiene una selección diferente de preguntas. Por este motivo, encontraremos una gran cantidad de valores faltantes en las respuestas de cada uno de los registros.
Esto puede provocar que, en función de la combinación de preguntas que hayamos seleccionado, el programa no nos devuelva ningún dato. Para evitar esto, en la pestaña Respuestas del programa WInPODUtil, deberemos seleccionar todos aquellos valores faltantes que queremos obtener. Para que R los reconozca automáticamente como valores faltantes, es conveniente cambiar su valor a NA, pulsando con el ratón sobre el texto del valor, como se indica en la imagen:
En el próximo artículo de la serie, veremos otro conjunto de pesos que es fundamental para realizar los cálculos de la varianza muestral y el error típico, los pesos replicados. También podréis encontrar ejemplos de código R para realizar estos cálculos, que son bastante pesados.