ABC
| Registro
ABCABC de SevillaLa Voz de CádizABC
Blogs Jugar con Cabeza por Federico Marín Bellón

La máquina que prefiere la poesía a las matemáticas

La máquina que prefiere la poesía a las matemáticas
Federico Marín Bellón el

Lo más sorprendente es que juega bonito. AlphaZero, la máquina de DeepMind que ha revolucionado el ajedrez, el go y el shogi, es un paso más en la evolución. La revista «Science» le dedica la portada en su último número y desvela algunos detalles nuevos. Para los ajedrecistas, es más importante aún la posibilidad de estudiar sus partidas. Más de 200 han sido «liberadas» por fin. Esto ocurre justo cuando muchos sospechaban que la cercanía a la perfección nos asomaba a un ajedrez maquinal y aburrido, con doce tablas en un mundial exquisito pero inerte, hasta que les obligaron a correr. De pronto, el ajedrez es un arte impredecible, donde el materialismo pierde. De nuevo, el mayor espectáculo del mundo.

Foto: Deep Mind Technologies Limited

AlphaZero es la primera máquina de ajedrez que no ha aprendido del hombre y que, por tanto, carece de prejuicios inculcados. Quién sabe si desarrollará los suyos propios. Es un robot (casi) sin dios, que aprende de sí mismo y de la observación, de su propia e insustituible experiencia. Nadie le ha dicho que la Tierra es plana y, sin ideas preconcebidas, descubre más pronto que nosotros que es redonda.

Ningún maestro le contó a AlphaZero que la torre vale más que el alfil. Por eso no duda en preferir el segundo si su intuición, nacida de la experiencia, le dice que en determinadas circunstancias eso es lo más práctico. El jugador humano también lo comprende a veces, pero tiene que luchar más contra sí mismo y, por inercia, solo se atreve a romper las reglas a veces, cuando la recompensa es evidente o inmediata. AlphaZero no tiene reglas que romper y por tanto esos arrebatos contra las enseñanzas le salen de manera más natural.

Demis Hassabis, lo más parecido a un dios que conoce la máquina, lo explica con elocuencia: «AlphaZero puede evaluar las posiciones en su contexto. Sabe evaluar cuánto vale su caballo en esa situación concreta. Las máquinas de ajedrez tradicionales, como Stockfish, consisten básicamente en una enorme base de datos de reglas. AlphaZero no tiene ninguna regla. Aprende de la experiencia».

Es la vieja victoria, también entre los ordenadores, de la práctica sobre la teoría.

Hasta ahora, en efecto, los ordenadores recibían millares de consejos de algunos hombres más o menos sabios. A eso le sumaban su inagotable y velocísima capacidad de cálculo. Cuando esta se hizo brutal, más importante que la intuición, entendieron que eso les bastaba para derrotarnos, quizá también derrocanos. Y se conformaron con ser mejores que nosotros, sin buscar la perfección ahora anhelada.

AlphaZero es una vuelta a la intuición, al arte y la poesía por encima de las matemáticas. Consciente de que el número de posiciones posibles es inabarcable, considera absurdo contar de forma obsesiva las estrellas a la vista y prefiere escribir poemas sobre ellas. De algún modo, tener un telescopio más limitado mejora su comprensión del universo. Es una paradoja maravillosa.

Dicho de otro modo, sin tanta metáfora cursi, el tablero es finito. Es evidente. Son pocas piezas en un mundo limitado, de solo 8×8. Pero en la práctica, como demostraron los granos de trigo, no hay cabeza humana en la que quepan sus posibilidades. Ni siquiera los ordenadores más potentes conocen con seguridad el final de la partida en cuanto se juntan sobre el tablero más de ocho piezas. No digamos cuando aún están activas las 32 del principio.

AlphaZero asume esa incapacidad y se aplica en su verdadera fuerza, que no es el cálculo, sino su infatigable obsesión por aventurarse en todos los caminos posibles y aprender de la experiencia. Recorre el comienzo de cada ruta una y otra vez, como una rata en un laberinto, y unos pocos metros le bastan para extraer conclusiones sobre cuáles son los más prometedores. De algún modo, juega al póker. De hecho, usa un método conocido como Montecarlo para tomar decisiones.

Garry Kasparov asegura en «Science» que AlphaZero tiene un estilo de juego «dinámico y abierto», parecido al suyo. «Da prioridad a la actividad de las piezas frente al material y prefiere posiciones que a mí me parecen arriesgadas y agresivas. Los programas suelen reflejar las preferencias y prejuicios de los programadores, pero como AlphaZero se programa a sí misma, diría que su estilo refleja la verdad. Su superior entendimiento permite superar a los mejores programas tradicionales del mundo a pesar de calcular muchas menos posiciones por segundo. Es la encarnación del cliché, “trabaja de forma más inteligente, no más dura”».

Nuevos detalles sobre el monstruo

Por lo demás, en el artículo de los desarrolladores hemos conocido interesantes detalles sobre AlphaZero. Resumiré los que me parecen más interesantes o desconocidos:

–AlphaZero sí perdió algunas partidas contra Stockfish. En uno de sus duelos, en mil partidas ganó 155 y perdió 6. Matthew Sadler incluye alguna de etas derrotas en su selección.

–Para verificar su fuerza, obligaron a la máquina a jugar partidas con las aperturas humanas más habituales. AlphaZero derrotó a Stockfish en cada apertura, lo que probaba su versatilidad en todo tipo de posiciones.

–AlphaZero descubrió las aperturas «humanas» por sí mismo. En unas pocas horas, llegó a las mismas conclusiones que a los grandes maestros les había llevado siglos.

–Los progamadores también organizaron duelos añadidos con las aperturas que se utilizan en el campeonato del mundo de programas TCEC. Asimismo, recurrieron a una versión más reciente de Stockfish, al que permitieron usar su libro de aperturas. No le sirvió de nada.

 

–AlphaZero «solo» analiza 60.000 posiciones por segundo, frente a los 60 millones de Stockfish. Su especialidad es centrarse en las más «prometedoras», como hace un maesro humano.

–Los programadores también enfrentaron a AlphaZero contra su rival en partidas en las que el primero tenía la décima parte de tiempo, lo que acentuaba la diferencia de cálculo. Incluso en esas condiciones salió airoso un buen porcentaje de las veces.

–El aprendizaje de la máquina se basa en el viejo sistema de ensayo y error. Al principio juega completamente al azar, pero luego el sistema empieza a entender por qué gana, empata o pierde y ajusta los parámetros de su red neuronal para elegir cada vez mejores movimientos. Dependiendo de la complejidad del juego, necesita más o menos horas para alcanzar su nivel máximo. El ajedrez le llevó nueve horas, el shogi doce y el go 13 días. Este último es el más complejo de todos debido al tamaño de su tablero, de 19×19.

Demis Hassabis, en el último vídeo presentado por DeepMind, empresa copmprada por Google

 

Entre los firmantes del trabajo de explicación de cómo funciona AlphaZero figuran David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, Timothy Lillicrap, Karen Simonyan y Demis Hassabis.

Los lectores pueden ver también el último vídeo (en inglés) en el que se cuenta de forma muy amena todo esto.

Participan el GM Matthew Sadler y la MI femenina Natasha Regan, que han analizado miles de partidas de la máquina y que publicarán sus conclusiones en el libro «Game Changer», que New in Chess tiene previsto publicar en enero de 2019. «Ha sido como descubrir los cuadernos secretos de algunos grandes jugadores del pasado», asegura Sadler.

Se pueden descargar más de 200 partidas y material adicional en este enlace.

 

Ajedrez

Tags

Federico Marín Bellón el

Entradas más recientes