La probabilidad y el número π

El método Montecarlo

Anuncios

Imagen: Casino de Montecarlo. Fuente: Monte-Carlo SBM.

La probabilidad se puede definir como la relación entre el número de casos favorables en la realización de un hecho y el número de casos posibles; en otras palabras, el número de veces que se cumple un hecho, determinado por nosotros, en un experimento. Para conocer múltiples veces la probabilidad de un hecho se realiza una experiencia aleatoria y se denomina espacio muestral al conjunto de resultados posibles, identificándose habitualmente con Ω.

Dentro de la probabilidad no podemos prever cual será el resultado posible del espacio muestral, pero sí qué casos serán más probables que otros. Cada parte del espacio muestral se denomina acontecimiento (o suceso), de esta forma la probabilidad de cada acontecimiento es igual al número de casos favorables dividido por el número de casos posibles.

Si realizamos un número n de repeticiones del experimento E y f es el número de veces que se ha producido el suceso A, la frecuencia relativa de A es f/n. Si n tiende a infinito f/n tiende a estabilizarse en un número que es la probabilidad del acontecimiento A o P(A). La probabilidad de un suceso está comprendida, por lo tanto, entre 0 y 1, siendo 0 la imposibilidad y 1 la total certeza.

Los estudios de probabilidad se iniciaron con los juegos de azar durante los siglos XVII y XVIII con matemáticos como Bernoulli, Huygens y Pascal que desarrollaron el cálculo de probabilidades, al que también contribuyeron Euler, Gauss y Laplace entrando en el siglo XIX. En el siglo XX Kolmogorov creó la teoría de conjuntos y la teoría de medida, de gran importancia ambas en probabilidad y estadística.

El número π (pi) es un número irracional producto de la relación entre la longitud de una circunferencia y su diámetro. Desde la antigüedad se ha intentado determinar su composición exacta aproximándose con diversos grados de éxito. En -1800 el egipcio Ahmes lo aproximó con 256/81, Arquímedes en el siglo III a. C. lo hizo con 22/7 y en el siglo V el chino Zu Chongzhi con 355/113. Actualmente se utilizan computadoras que han permitido calcular π con millones de cifras exactas, pero aun no se le ha encontrado el final.

Para calcular el número π mediante la teoría de la probabilidad se utiliza el llamado método Montecarlo, en honor al casino mas famoso del mundo en Mónaco. El método permite aproximar expresiones matemáticas complejas mediante la generación de números aleatorios. Si tenemos un cuadrado de área 4 y lados de 2 unidades, dentro del mismo podemos inscribir una círculo de radio 1 y área igual a π. Cogiendo una sección del cuadrado formada por un cuarto del círculo obtenemos un cuadrado de lado 1 y un cuarto del círculo de radio 1 y superficie igual a π/4. Si generamos un punto al azar dentro del nuevo cuadrado la probabilidad de que esté dentro del área del círculo es de π/4.

A medida que generamos más puntos la frecuencia de que se encuentren dentro del círculo se acerca a π/4. Al generar n pares de números (x, y) aleatorios comprendidos entre 0 y 1 sabiendo que x²+y²<1 es un punto del círculo podemos determinar que:

C = número de veces que (x, y) está dentro del círculo.

P = C/n = π/4

π = 4C/n

Ahora podemos realizar una simulación generando números dentro del cuadrado con el semicírculo a partir de un sencillo programa de Basic:

10 INPUT “NÚM. DE PUNTOS:”; N

20 FOR I = 1 TO N

30 X = RND: Y = RND

40 IF X * X + Y * Y < 1 THEN C = C +1

50 NEXT I

60 PRINT “PUNTOS:”;N, “PI:”; 4 * C/N

Así obtenemos diversos resultados que indican que la probabilidad real se acerca a la teórica a medida que nos acercamos a infinito y generamos más puntos:

Puntos           Pi

1                      4

5                      3’2

10                    2’4

50                    3’04

100                  3’16

500                  3’208

1000                3’136

5000                3’1256

10000               3’1496

100000             3’14664

1000000           3’14172

El valor actual de π hasta con 20 decimales es: 3’14159265358979323846.

Página web para utilizar el método Montecarlo para aproximarse a π

Estimación de π mediante Montecarlo con R

Y también en Python

Fuentes en Geografía de la Población

Las principales fuentes en España

Imagen: Cruce de la estación del barrio de Shibuya en Tokio, el llamado “Scramble Kōsaten“, distrito con una densidad de población de casi 15 000 habitantes por Km2.

La Geografía de la Población se encarga de estudiar las relaciones entre el territorio y sus características con la estructura y la dinámica de la población, la distribución, las migraciones y su crecimiento. Para poder realizar ese estudio es necesario recopilar datos sobre la población a analizar mediante las fuentes más completas y fidedignas que indaguen dentro de una región, municipio o estado concreto. Las más utilizadas en España son el censo de población, el padrón municipal, las estadísticas vitales, el padrón continuo, los nomenclátor, el movimiento natural de la población y las encuestas.

El censo de población es la fuente con mayor información, recuenta los habitantes de un estado clasificados según diferentes datos demográficos, su objetivo es saber cuánta población hay y sus características. Es universal, de obligado cumplimiento y veracidad, se reparte a los hogares (pero la información es individual), es simultáneo en un momento concreto y existe un compromiso para repetirlo periódicamente, normalmente cada 10 años, aunque depende de la riqueza y la población del país, ya que requiere mucha inversión. El censo está regulado por la administración central del estado (mediante institutos de estadística normalmente, en España el Instituto Nacional de Estadística -INE- desde 1970) y se garantiza su realización, obligatoriedad, veracidad y protección de los datos por ley.

El padrón municipal recoge información parecida a la del censo con las diferencias de que es de ámbito municipal, y no estatal, y no tiene secreto estadístico. Debido a la falta de protección las preguntas del padrón son más reducidas, pero incluyen datos sobre la vivienda, el género, la edad, el nacimiento y los estudios, encaradas hacia el censo electoral. Los municipios más grandes piden los datos directamente al censo o a los institutos de estadística regionales (como el Institut d’Estadística de Catalunya -Idescat-) debido al gran volumen de población que manejan. El padrón es una herramienta muy necesaria para poder gestionar y planificar los servicios de sanidad, las elecciones y el uso de infraestructuras. Desde 1986 hasta 2001 se realizaba cada 5 años, pero desde entonces se propuso cambiar al padrón continuo.

La ONU recomienda un listado de preguntas a realizar por los países en sus estudios demográficos. Algunos ejemplos son: lugar de residencia, lugar de nacimiento, composición del hogar, género, edad, estado civil, ciudadanía, religión, idiomas, grupo étnico, hijos (vivos y totales), defunciones en el último año, alfabetización, asistencia escolar, nivel de instrucción, ocupación y rama, ingresos, tiempo trabajado, discapacidades, etc. Las preguntas varían de país a país, según sus necesidades y presupuesto, y en algunos casos son de uso partidista o polémico.

Las estadísticas vitales son los datos sobre nacimientos, matrimonios, defunciones y divorcios en un momento concreto. Se actualizan constantemente obligando a su cambio a la población por ley en el Registro Civil desde 1871. Existe una amplia colaboración entre el Registro, el INE y el padrón para compartir datos entre ellos y realizar una explotación estadística de los mismos. Los datos del Registro Civil también están protegidos y se exige veracidad.

El padrón continuo se elabora a partir del Registro Civil sumando el número de nacimientos y restando las defunciones a la población inicial de esta fuente. Debido a la obligatoriedad de empadronarse si hay un cambio de domicilio o entrada en el país el INE actualiza el cambio en el padrón continuo cuando se notifica. Pero esto comporta problemas, porque muchas personas sólo se empadronan si lo necesitan y a menudo no lo hacen, incluso algunos municipios que no quieran perder población pueden falsear los datos o pueden existir problemas de comunicación o burocracia interna que ralenticen la actualización. También existen datos como el nivel de instrucción que no se pueden actualizar constantemente; aunque el trabajo de campo es caro y comporta problemas no debería de abandonarse ya que permite mayor fiabilidad.

El nomenclátor se realiza paralelo al censo por unidad de población, no municipio, y nos proporciona información inframunicipal importante para el poblamiento de un territorio. Se lleva a cabo desde el siglo XIX y nos da información sobre el número de entidades de población dentro de un municipio y su tipología (villa, lugar, masía, etc.), la población por género, el número de viviendas y la distancia entre la capital y la entidad.

El movimiento natural de la población es una publicación anual del INE donde se registran los movimientos del Registro Civil desde 1975. La ONU recomienda que en un boletín de estadísticas vitales se diferencie entre el lugar donde se produce el suceso y el lugar de residencia debido a que los hospitales tienen un índice mucho más elevado de nacimientos y defunciones que otros lugares, por ejemplo, o la diferencia entre el municipio de un matrimonio y el lugar de residencia posterior de la pareja. La ONU también recomienda una serie de preguntas como: datos del recién nacido (prematuro, parto múltiple), datos de la madre y el padre (edad, profesión, residencia, estado civil, hijos), datos sobre el difunto (edad, estado civil, género, profesión, residencia), causas de la muerte, causas antecedentes a la muerte (enfermedades, lesiones), religión del matrimonio, etc.

Además de las encuestas de carácter privado o esporádico existe la “Encuesta de fecundidad y familia” de la ONU con continuidad desde 1950 hasta 1995 con las mismas preguntas en cada periodo de 10 años aproximadamente. El resto de encuestas son poco comparativas, aunque sirven para ampliar la información del resto de fuentes, junto a variables indirectas interesantes (por ejemplo, el uso de preservativos).

Según los países el porcentaje de respuesta a las fuentes varía. En la UE, los Estados Unidos, Japón, Australia, Venezuela, Canadá y Argentina el porcentaje es alto; en Rusia, China, y el resto de América, Asia y África septentrional y austral es medio; en cambio en África central es bajo. Los datos sobre nacimientos suelen ser mejores que el resto de datos y en las áreas urbanas son más fiables que en las rurales.