Cómo funcionan Alpha Go, AlphaZero y DeepMind, dioses de la inteligencia artificial

Cómo funcionan Alpha Go, AlphaZero y DeepMind, dioses de la inteligencia artificial

Publicado por el Feb 3, 2018

Compartir

Hemos hablado por aquí de la revolucionaria irrupción de AlphaZero en el mundo del ajedrez y de la inteligencia artificial. De todo lo visto y leído, cabe destacar el número 132 de la revista «Peón de Rey», que incluye un trabajado y brillante artículo de Miguel Illescas. El segundo gran hallazgo es el documental «Alpha Go», dirigido por Greg Kohs y disponible en Netflix, que viaja a las entrañas de la empresa DeepMind, en Londres, donde podría gestarse el principio de algo grande y, quién sabe, quizá también el final de la supremacía humana sobre las máquinas. Ojo, porque después del ajedrez y del go empiezan a trabajar en juegos «asimétricos» como el póker. Además de ayudar en campos como la medicina y la bioquímica, ni siquiera parece descartable que después se dediquen a componer piezas musicales o a escribir libros. Este mismo artículo podrían mejorarlo, sin duda.

Jerry Kaplan trataba de apaciguar nuestros temores en el libro «Inteligencia artificial. Lo que todo el mundo debe saber», editado por Teell, pero después de ver el fascinante documental de Kohs el espectador siente una mezcla de alivio y preocupación. Alivio porque aunque la máquina aprende por sí misma, la intervención humana todavía es necesaria. O eso nos hace creer, en su compleja perversidad.

Dennis Hassabis, fundador de DeepMind

El proceso es simple en teoría. Alpha Go (y luego AlphaZero) fagocita bases de datos con cientos de miles de partidas magistrales y, una vez asimilado lo que da de sí la inteligencia humana, juega luego contra sí mismo incontables veces, para depurar su estilo. En algún momento, sin embargo, los programadores detectan un punto débil y trabajan contra el reloj para minimizar el inesperado talón de aquiles. Su problema es que ninguno de ellos juega tan bien como para evaluar con corrección el juego de su criatura. Son como algunos padres en los torneos de ajedrez, que critican las jugadas de sus hijos aunque estos les saquen 200 puntos Elo o más.

Jugadas inexplicables

El miedo también es palpable. Alpha Go realiza movimientos que no entienden ni los mejores jugadores del mundo. Los expertos consideran a veces que se hallan ante un error, que el monstruo «se ha vuelto loco». Poco a poco, un manto de humildad cubre la sala. En su magnanimidad autoaprendida, o por algún otro motivo de momento inexplicable, Alpha Go prefiere ganar por la mínima que rematar a la víctima con saña, como hasta ahora hacían las máquinas. Sentíamos terror hacia estos Terminators, pero el verdadero peligro procede de la que intenta no asustarnos. Ya saben, «el mejor truco del Diablo fue hacernos creer que no existía».

Otro dato esencial para comprender el desarrollo de Deep Mind y sus programas jugones es que, aunque todos hablamos de que aprende cualquier actividad en cuatro horas, estamos ante un código que lleva veinte años en barbecho. No ha florecido de forma espontánea. En el documental se ve el ingente trabajo que hay detrás. El talento solo se intuye, pero es evidente. El genio detrás de la máquina es Demis Hassabis, fundador y máximo responsable de la empresa DeepMind, comprada por Google en 2014 por una bagatela, cerca de 500 millones de dólares.

El documental no lo cuenta, pero Hassabis es todo un personaje, un jugador polivalente y único, que ha ganado 27 medallas de oro, 13 de plata y 9 de bronce en las Olimpiadas de Juegos Mentales. En este enlace se pueden ver todos los juegos que domina. En ajedrez solo ha ganado cuatro medallas. Abandondó este juego a los 14 años, cuando estaba entre los mejores del mundo de su edad. Visto en retrospectiva, pudo ser una buena decisión.

El juego de los ladrillos

En una de sus conferencias, Hassabis explica que uno de los primeros retos que le plantearon a su juguete era el clásico juego del muro de ladrillos y la pelotita (breakout). Al principio le ponen a jugar sin explicarle siquiera las reglas, pero estas son tan sencillas que las va entendiendo. Después de cien partidas todavía es un paquete, pero al menos comprende qué debe hacer. Después de 300 ya tiene un nivel humano y después de 500 descubre un método óptimo que ninguno de los programadores conocía. Es decir, en unas horas pasó de no saber nada en absoluto a permitirse el lujo de dar lecciones en una materia en la que nunca tuvo profesor.

Demis Hassabis explica cómo aprendió su programa el juego del muro (breakout)

El documental nos habla entonces del go, el juego de tablero más antiguo que no ha dejado de jugarse nunca. Se practica sobre un tablero en el que se pueden dar aún más posiciones posibles que en el ajedrez, que a su vez ofrece más combinaciones que átomos el universo. (La conclusión necesaria a todo esto es que el universo es bastante decepcionante, al menos en su número de átomos). El juego oriental tiene además un componente místico, practicarlo es como situarse «ante un espejo».

El objetivo primero de Deep Mind era «entender la inteligencia y recrearla artificialmente». Necesitaban imitar la intuición humana. «Queríamos que fuese como el proyecto Apolo de la IA». Para ello eligieron una actividad tan compleja que los mejores programas no podían competir contra los jugadores expertos, como ocurría con el ajedrez en los años ochenta. De hecho, la primera reacción de los profesionales cuando se les ofrece jugar contra Alpha Go es de una ridícula superioridad: «Por supuesto que creo que ganaría, porque es solo un programa». Una clave para entender esto es que, al contrario de lo que suele ocurrir en ajedrez, un buen jugador de go no siempre sabe explicar sus movimientos. Suele responder cosas como: «Me parecía la jugada correcta».

Experimentos 

Fan Hui, campeón de Europa, es el primer conejillo de indias. Llega a las oficinas de DeepMind dispuesto a ayudar y sale de allí hundido después de perder las cinco partidas. «Ya no me entendía a mi mismo», admite, aunque luego lo supera y sigue colaborando con el equipo. La suya es la primera derrota de un jugador profesional de go contra un programa. Se consuela como puede y se declara «contento de jugar para la historia».

Fan Hui, excampeón de Europa de go, primer rival serio de Alpha Go

Es interesante resaltar la diferente forma de afrontar el problema entre Alpha Go y Deep Blue, la máquina que derrotó a Kasparov. La primera fue programada paso a paso, explicándole a través de miles de patrones sus ventajas y desventajas, por qué es bueno tener una torre en séptima o la pareja de alfiles. A la segunda le enseñan 100.000 partidas de grandes jugadores, descargadas de internet, y que aprenda. «Primero conseguimos que el programa imitara a los jugadores humanos y después, con el autojuego, se entrenaba contra distintas versiones de sí misma millones de veces».

La diferencia es que aprende de sus propios errores, por lo que no siempre responde igual ante el mismo problema. Por primera vez, estamos ante una inteligencia artificial, no una potente pero simple calculadora. Se ha construido con redes complejas que imitan la red de neuronas de nuestro cerebro. Aprender es la clave.

Alpha Go es capaz de combinar estudio, probabilidad y cálculo. En ese sentido es como un buen jugador de póker, juega lo que cree que maximiza sus probabilidades, sin necesidad de calcularlo todo hasta el final. Incluso para las máquinas sería una labor todavía excesiva. Es más humana que los humanos, en algunos aspectos.

El mejor jugador de go de la historia, Lee Sedol, en el enfrentamiento más duro de su vida. Foto: Reuters

Duelo definitivo

La prueba definitiva es un duelo a seis partidas contra el multicampeón mundial, el coreano Lee Sedol, quien pese a conocer lo que le pasó a Fan Hui llega confiado y afirma que espera ganar 5-0 o 4-1. «Creo que la intuición humana todavía es demasiado avanzada», explica.

Es mejor que el espectador vea lo que pasó después, en un duelo que fue seguido por unos 80 millones de espectadores y que en Corea acaparó portadas. Se puede adelantar que hay lágrimas y esperanza. Lee Sedol acaba confesando que lo que más le sorprendió es «que las jugadas que los humanos creen que son creativas son convencionales». Aprendió a ver el juego de su vida de otra forma.

Tenemos suerte de que una criatura así haya mostrado lo que sabe hacer en el go y el ajedrez. En realidad, son solo un primer paso. «Creemos que podría ser utilizado en economía y para lograr avances biológicos, entre otras actividades», aseguran desde DeepMind. Quién sabe si dentro de poco seremos todos prescindibles y la magnanimidad que mostrarán entonces las máquinas.

Entradas relacionadas

AlphaZero, un programa de ajedrez de ciencia ficción

Histórica victoria de la inteligencia artificial en las mesas de póker

La fortaleza, ¿último reducto de la inteligencia humana?

Libratus, un robot de póker a punto de derrotar a los humanos

Crean el robot de ajedrez perfecto, capaz de aprender por sí mismo

El primer gran robot del póker claudica ante los humanos

Los frikis que enseñaron a las máquinas a jugar al ajedrez

La máquina que hacía trampas: Rybka, campeón del mundo, descalificado

El problema de ajedrez que demuestra la superioridad de la mente humana

Compartir

ABC.es

Jugar con Cabeza © DIARIO ABC, S.L. 2018

Además del fútbol, hay otros juegos que se practican con la cabeza. Son buenos para prevenir el alzheimer y el riesgo de lesión disminuye. Ajedrez y poker ocupan un lugar preferente en este blog. Más sobre «Jugar con Cabeza»

Calendario
agosto 2018
M T W T F S S
« Jul    
 12345
6789101112
13141516171819
20212223242526
2728293031