Continuando con los estudios citados por Ed Yong (particularmente el de http://dx.doi.org/10.1098/rspb.2… ) Comencé a hacer la pregunta: ¿Cómo serían las distribuciones de los niveles de habilidad de los 10 mejores jugadores? ¿Se comparan entre sí, en lugar del nivel de habilidad del mejor jugador? (el documento que citó solo contenía datos para el mejor jugador, que no es realmente generalizable para situaciones como la academia, donde tienes múltiples “ganadores”, en lugar de un solo “ganador” [por ganador, me refiero a la persona que ha alcanzado la tenencia ])
Así que … publiqué la pregunta en el sitio web de Statistics Stack Exchange y obtuve una respuesta interesante de http://stats.stackexchange.com/q …
Aquí estaba la pregunta que publiqué:
“Básicamente, este es un modelo que podría explicar por qué no hay más mujeres en competiciones prestigiosas de matemáticas / ciencias; podría ser un artefacto estadístico que surge del simple hecho de que hay más hombres que mujeres en matemáticas / ciencias. Si este modelo se aplica, es posible que no tengamos que asumir que la inteligencia masculina tiene mayor variación que la inteligencia femenina.
La pregunta que me gustaría ver abordada: si asumimos medias iguales y varianzas iguales (pero tamaños de muestra diferentes), entonces el modelo en el documento sigue siendo el mejor modelo cuando se usa para predecir, digamos, la composición de género del equipo de Los 5-10 mejores jugadores? ¿En lugar de solo la composición de género del gran maestro?
http: //rspb.royalsocietypublishi … tiene el diagrama y el uso del modelo
Básicamente, utilizaron el emparejamiento entre los 100 mejores hombres y las 100 mejores mujeres. ¿Es un supuesto válido para hacer sin embargo? Funciona para los grandes maestros, eso es cierto, pero ¿funcionaría si estamos tratando de seleccionar a las 10 mejores personas en cualquier campo? Después de todo, es totalmente posible que las distribuciones esperadas sean diferentes si estamos tratando de seleccionar de una distribución aleatoria de los 5 mejores jugadores de cada género, en lugar del noveno clasificado de cada género.
A medida que aumenta la cantidad de jugadores que selecciona para un equipo “ganador”, por ejemplo, tal vez las distribuciones se repitan de una manera diferente. Yo esperaría que el grupo más pequeño tenga mayor varianza en la media que el grupo más grande. Sabemos que esto es cierto cuando se promedia en toda la distribución de la población (como consecuencia del teorema del límite central). ¿Pero qué pasa si solo queremos 10 personas de cada población? El hecho es que muchas de las personas “potencialmente” más importantes terminarán abandonando sus estudios porque harían algo más que pasar horas al día para practicar para un “equipo ganador”.
Sin embargo, una gran variabilidad del valor extremo, tiene sentido si estamos hablando de lo más alto. En una población grande, el valor extremo va a ser muy consistente. Mientras que en una población pequeña, el valor extremo tendrá MUCHA variabilidad, pero ese valor extremo pasa mucho más tiempo en la parte izquierda de la (media de los valores extremos) en comparación con la parte derecha. Por lo tanto, si tuvo una comparación directa la mayoría de los años, la población con el tamaño de muestra más grande ganará.
La cuestión es, ¿qué pasa con un enfrentamiento directo de los 10 miembros principales de cada distribución? Sería una especie de promedio entre el modelo que usó el documento (enfrentamientos 1 a 1) y el modelo en el que simplemente tuvimos emparejamientos entre las dos poblaciones completas entre sí “.
Así que Denis escribió un código que fue bastante útil (su código se proporciona en el enlace adjunto en http://stats.stackexchange.com/q …), y lo ejecuté para comparar los 10 valores principales para los niveles de habilidad que seguían las distribuciones de Gauss. de media y varianza idénticas (pero con diferentes tamaños de muestra), lo que es más relevante, sin embargo, es el número de personas con puntajes z por encima de un cierto umbral, ya sea 2.5 o 3 . En esta simulación, asumimos que las hembras tenían un tamaño de muestra de 100, y que los machos tenían un tamaño de muestra de 1000.
Así que ejecuté la simulación de Monte Carlo para la N superior de ambas poblaciones. Y aquí está lo que tengo:
Monte Carlo el top 3 de muchos gaussianos:
top 3 de 100 gaussianos, medianas: [[2. 2.1 2.4]]
top 3 de 1000 gaussianos, medianas: [[2.8 2.9 3.2]]
>>>
Monte Carlo el top 10 de muchos gaussianos:
top 10 de 100 gaussianos, medianas: [[1.3 1.4 1.5 1.5 1.6 1.7 1.8 2. 2.1 2.4]]
top 10 de 1000 gaussianos, medianas: [[2.3 2.4 2.4 2.5 2.6 2.6 2.7 2.8 2.9 3.2]]
>>>
Monte Carlo el top 10 de muchos gaussianos:
top 10 de 100 gaussianos, medianas: [[1.3 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.1 2.5]]
top 10 de 1000 gaussianos, medianas: [[2.4 2.4 2.4 2.5 2.5 2.6 2.7 2.8 3. 3.2]]
Ahora, este código no es riguroso ni perfecto todavía ( para hacerlo riguroso, tendríamos que tomar los promedios sobre muchos valores de semilla diferentes ). Pero creo que obtenemos la imagen general solo a partir de estos ejemplos (que trataré de ampliar más adelante hoy).
Por ejemplo, si establece el límite en 2.0, solo tendrá 2 personas de la primera distribución (o mujeres) y más de 10 personas de la segunda distribución (o hombres). Luego tendríamos que comparar los porcentajes relativos alcanzados con los de nuestra población de referencia (si estamos comparando 100 con 1000, por ejemplo, sabríamos que los gaussianos serían suficientes para explicar estas tendencias si la proporción de mujeres respecto a hombres con Las puntuaciones z de 2.5 o superior fueron significativamente menores que 0.1).
Este no es un post terminado todavía , lo examinaré más adelante.