A differenza di AlphaGo, l’algoritmo di Pathak ottiene una ricompensa quando aumenta la sua comprensione dell’ambiente.

 

La parola francese flâneur, resa famosa da Baudelaire, indica l’individuo che vaga spensierato per le vie cittadine in un’esplorazione non affrettata e libera da programmi. Ecco, immaginate di dotare un algoritmo di un qualche modulo che abiliti la flânerie, cioè un’esplorazione curiosa − e soprattutto senza obiettivi particolari − dell’ambiente. Un qualcosa del genere è stato realizzato da un team di ricercatori guidati da Deepak Pathak dell’Università di Berkeley, che hanno pubblicato lo scorso 15 maggio i principali risultati dell’interessante esperimento su arXiv.

Perché parlare di curiosità in ambito di intelligenza artificiale? Perché nell’articolo citato − «Curiosity-driven Exploration by Self-supervised Prediction» – il team di ricercatori presenta i risultati ottenuti integrando in un algoritmo IA un modulo che mima la «curiosità» tipicamente umana e ne testa le funzionalità facendolo «giocare» a Super Mario Bros.

Con quali risultati? A differenza di AlphaGo, che utilizza schemi standard di reinforcement learning, cioè schemi di apprendimento e adattamento alle mutazioni dell’ambiente basati sulla distribuzione di «ricompense» − dette reinforcement – in caso di raggiungimento dell’obiettivo prefissato, l’algoritmo di Pathak ottiene una ricompensa quando aumenta la sua comprensione dell’ambiente. Secondo Max Jaderberg di DeepMind, la startup acquistata da Google nel 2014, tale approccio può accelerare i tempi di apprendimento e migliorare l’efficienza degli algoritmi. DeepMind ha adottato una strategia simile lo scorso anno per un algoritmo IA in grado di esplorare un labirinto virtuale.

Fonte: arXiv