Autoaprendizaxe automática

O modelo Alpha Zero aprendeu a xogar ao xadrez partindo de non coñecer nada máis que as regras do xogo. En poucas horas o seu nivel superaba o de calquera persoa no mundo. Alpha Zero empregou, iso si, un proceso preestablecido para mellorar a competencia do programa a partir de estratexias de aprendizaxe por reforzo que penalizan as malas decisións do modelo e premian as boas. É dicir, os movementos no taboleiro que acaban por evidenciarse como errados son penalizados e resultará menos probable que se repitan, e o contrario acontece cos acertados. Por outra banda, o acerto ou desacerto dun movemento pode chegar a comprobarse ás veces despois de moitas xogadas, e isto debe telo en conta o programa; é, de feito, o máis difícil de tratar desde o punto de vista computacional.

Fuente