Inicio Actualidad Un modelo de inteligencia artificial logra un nivel de gran maestro de...

Un modelo de inteligencia artificial logra un nivel de gran maestro de ajedrez sin usar búsqueda

0

Un hito histórico en el campo del ajedrez y la inteligencia artificial

Un equipo de investigadores de Google DeepMind ha publicado un documento en el que demuestran que es posible entrenar un modelo de inteligencia artificial capaz de jugar al ajedrez a un nivel de gran maestro sin usar ningún algoritmo de búsqueda. El modelo, basado en la arquitectura transformador, aprende a partir de un conjunto de datos de 10 millones de partidas de ajedrez anotadas con los valores de acción del motor Stockfish 16, uno de los más potentes del mundo.

El modelo, que tiene 270 millones de parámetros, alcanza un Elo de blitz de Lichess de 2895 contra humanos, lo que lo sitúa entre los mejores jugadores del mundo. Además, el modelo es capaz de resolver una serie de rompecabezas de ajedrez muy difíciles, que requieren una gran visión táctica y estratégica. Los autores afirman que su modelo no utiliza ningún ajuste específico del dominio o heurística de ajedrez, sino que solo se basa en el aprendizaje supervisado y la atención.

El documento también compara el modelo con otros sistemas de inteligencia artificial que han sido diseñados para el ajedrez, como AlphaZero y GPT-3.5-turbo-instruct. Los resultados muestran que el modelo supera a las redes de política y valor de AlphaZero (sin el algoritmo de búsqueda Monte Carlo Tree Search) y a GPT-3.5-turbo-instruct, que es una versión especializada de GPT-3 para generar instrucciones de ajedrez. Los autores destacan que su modelo es más general y flexible que estos sistemas, ya que puede adaptarse a diferentes formatos de entrada y salida.

Los autores también analizan el impacto del tamaño del modelo y del conjunto de datos en el rendimiento del ajedrez. Según sus experimentos, el rendimiento solo mejora significativamente cuando se alcanza una escala suficiente, tanto en el número de parámetros como en el número de partidas. Los autores sugieren que esto se debe a que el ajedrez es un juego muy complejo y que se necesita una gran capacidad de representación y de generalización para capturar sus patrones y principios.

El documento, titulado “Grandmaster-Level Chess Without Search”, está disponible en la página de arXiv, donde se puede acceder al documento completo, las referencias y los comentarios. El documento ha sido presentado como candidato al premio Best Paper Award de la conferencia International Conference on Machine Learning (ICML) 2024, que se celebrará en julio en Nueva York. El documento ha recibido elogios de la comunidad científica y de los aficionados al ajedrez, que han calificado el trabajo de “impresionante”, “revolucionario” y “fascinante”.

¿Cómo funciona el modelo de inteligencia artificial?

El modelo de inteligencia artificial que han desarrollado los investigadores de Google DeepMind se basa en la arquitectura transformador, que es una de las más utilizadas en el campo del procesamiento del lenguaje natural. El transformador se compone de dos partes principales: el codificador y el decodificador. El codificador procesa la entrada, que en este caso es una representación del tablero de ajedrez, y genera una serie de vectores de atención que capturan las relaciones entre las piezas y las casillas. El decodificador usa estos vectores de atención y una capa de salida para generar la salida, que en este caso es una distribución de probabilidad sobre las posibles acciones a realizar.

El modelo se entrena con aprendizaje supervisado, es decir, usando ejemplos de entradas y salidas correctas. Los investigadores usan un conjunto de datos de 10 millones de partidas de ajedrez, que obtienen de la base de datos Lichess. Para cada tablero del conjunto de datos, los investigadores usan el motor Stockfish 16 para calcular los valores de acción de cada movimiento legal, es decir, la probabilidad de ganar, perder o empatar si se realiza ese movimiento. Estos valores de acción se usan como etiquetas para entrenar al modelo a imitar al motor Stockfish 16.

Dos componentes de entrenamiento

El modelo se entrena con una función de pérdida que combina dos componentes: la pérdida de entropía cruzada y la pérdida de error cuadrático medio. La pérdida de entropía cruzada mide la diferencia entre la distribución de probabilidad generada por el modelo y la distribución de probabilidad objetivo, que se obtiene normalizando los valores de acción. La pérdida de error cuadrático medio mide la diferencia entre el valor esperado de la acción generada por el modelo y el valor esperado de la acción objetivo, que se obtiene ponderando los valores de acción por sus probabilidades. Los investigadores usan un optimizador basado en el gradiente descendente estocástico para minimizar la función de pérdida y ajustar los parámetros del modelo.

¿Qué ventajas tiene el modelo de inteligencia artificial?

El modelo de inteligencia artificial que han creado los investigadores de Google DeepMind tiene varias ventajas respecto a los motores de ajedrez tradicionales y a otros sistemas de inteligencia artificial que han sido diseñados para el ajedrez. Algunas de estas ventajas son:

  • El modelo no usa ningún algoritmo de búsqueda, lo que le permite generar acciones rápidamente y sin consumir muchos recursos computacionales. Los motores de ajedrez tradicionales y AlphaZero usan algoritmos de búsqueda que exploran el árbol de posibilidades y evalúan las posiciones resultantes, lo que requiere mucho tiempo y memoria. El modelo solo usa la información del tablero actual y la atención para generar la acción más probable.
  • El modelo no usa ningún conocimiento o heurística de ajedrez, lo que le permite ser más general y adaptable. Los motores de ajedrez tradicionales usan una gran cantidad de reglas y principios de ajedrez que han sido codificados por expertos humanos, lo que limita su capacidad de aprendizaje y de innovación. El modelo solo usa los datos de las partidas de ajedrez y los valores de acción proporcionados por Stockfish 16, lo que le permite aprender de forma autónoma y descubrir nuevos conceptos y estrategias.
  • El modelo es más flexible y versátil que otros sistemas de inteligencia artificial, ya que puede adaptarse a diferentes formatos de entrada y salida. El modelo puede recibir como entrada una representación del tablero de ajedrez en formato FEN, PGN, SAN, LAN o UCI, y puede generar como salida una acción en cualquiera de estos formatos, o incluso en formato de instrucción natural, como “mueve el caballo de g1 a f3”. El modelo también puede responder a preguntas específicas sobre el tablero de ajedrez, como “qué pieza está amenazando al rey blanco” o “cuál es el mejor movimiento para las negras”. Estas capacidades hacen que el modelo sea más interactivo y accesible para los usuarios humanos.

¿Qué desafíos y limitaciones tiene el modelo de inteligencia artificial?

El modelo de inteligencia artificial que han desarrollado los investigadores de Google DeepMind también tiene algunos desafíos y limitaciones que podrían ser objeto de futuras investigaciones. Algunos de estos desafíos y limitaciones son:

  • El modelo depende de la calidad y la cantidad de los datos de entrenamiento, lo que puede afectar a su rendimiento y a su generalización. Los investigadores usan un conjunto de datos de 10 millones de partidas de ajedrez, que es muy grande pero no representa toda la diversidad y la complejidad del juego. Además, los investigadores usan los valores de acción proporcionados por Stockfish 16, que es un motor muy fuerte pero no infalible. Estos factores pueden hacer que el modelo aprenda algunos sesgos o errores que podrían perjudicar su capacidad de jugar al ajedrez de forma óptima o creativa.
  • El modelo no usa ningún mecanismo de exploración o de refuerzo, lo que puede limitar su capacidad de aprendizaje y de mejora. Los investigadores usan el aprendizaje supervisado, que es un método eficaz para imitar el comportamiento de un experto, pero no para superarlo o para descubrir nuevas soluciones. El modelo no tiene ninguna forma de evaluar su propio rendimiento o de recibir feedback de sus acciones, lo que dificulta su adaptación y su progreso. Un posible camino para mejorar el modelo sería usar el aprendizaje por refuerzo, que es un método que permite al modelo aprender de sus propias experiencias y recompensas. De esta forma, el modelo podría explorar nuevas estrategias y adaptarse a diferentes oponentes y situaciones. Este es el método que usó AlphaZero, que logró superar a Stockfish 16 después de jugar millones de partidas contra sí mismo.
Soy el autor del libro de ajedrez más vendido en Amazon en 2016 y 2017: El Método Zugzwang. INSTRUCTOR FIDE (FI) He jugado algunas partidas buenas y bastantes malas. Director de la Escuela Internacional The Zugzwang Members y jugador en activo que encuentra analogías en la vida con el ajedrez cada día. Sigo en continuo aprendizaje. Actualmente divulgo mis ideas en artículos aquí y en mi canal de Youtube.

DEJA UNA RESPUESTA

¡Por favor, escribe tu comentario!
Por favor ingrese su nombre aquí

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.