Le vendite proseguono nel nuovo sito https://www.deeplearningitalia.com/
Negli ultimi anni l'intelligenza artificiale ha fatto passi da gigante. Dal Go a StarCraft II, dal riconoscimento di immagini alla salute pubblica, dall'arte alla guida autonoma, i progressi dell'ultimo decennio sono sotto gli occhi di tutti. Le cause di tutto questo sono molteplici, e certamente non riassumibili in una singola eclatante scoperta. Ma sicuramente uno dei paradigmi più di successo dal 2013 ad oggi è il Deep Reinforcement Learning, ovvero la sinergia tra Deep Learning e Reinforcement Learning: non a caso la rivista "MIT Technology Review" ha inserito DL e RL tra le "10 Breakthrough Technologies" nel 2013 e nel 2017, rispettivamente.
In questa serie di mini degree impariamo le basi del Reinforcement Learning, ovvero le tecniche che permettono alle macchine di imparare a prendere decisioni. Queste tecniche sono tanto potenti quanto naturali - non a caso sono nate più di 100 anni fa nell'ambito della psicologia!
In breve: qualunque problema che richieda una successione di azioni per essere risolto - uscire da un labirinto, vincere a un gioco, determinare una strategia di investimento, guidare un veicolo - può essere affrontato da una macchina con queste tecniche, purché la macchina sia in grado di eseguire queste azioni e "capire" quanto una successione di azioni sia "giusta". Questa comprensione si ottiene associando a ogni azione una ricompensa, e dicendo alla macchina che deve fare le azioni in modo da avere una ricompensa totale il più alta possibile: "più ricompensa ottieni, più giusto è quello che stai facendo", questa è l'unica cosa che diciamo alla macchina.
Questo mini degree tratta il RL nel caso tabellare per problemi dei quali si ha una completa descrizione del modello. Tabellare vuol dire che è possibile descrivere gli stati e le azioni tramite tabelle, e questo accade quando il problema presenta relativamente pochi stati; completa descrizione del modello vuol dire che sappiamo in anticipo le conseguenze delle nostre azioni: per esempio, se io tiro un dado non truccato so in anticipo che uscirà 1,2,3,4,5 o 6 con probabilità 1/6, mentre questa stessa cosa non si può dire se il dado è truccato.
Il caso tabellare con modello può essere considerato il caso base, e la sua comprensione è fondamentale per i successivi mini degree: quello model-free, in cui non supporremo più di conoscere il modello; quelli con approssimazione, in cui gli stati e le azioni saranno così tanti da dover essere ridotti a un numero più piccolo tramite tecniche di approssimazione. Questi sono vero e proprio RL, mentre al caso base ci si riferisce spesso come "programmazione dinamica".
Lezione 1. Introduzione, 3 parti. Qui diamo una panoramica a tutto campo del RL.
Lezione 2. Markov Decision Processes, 4 parti. In questa lezione spieghiamo in dettaglio cosa sono i "processi di decisione di Markov", ovvero dei grafi con nodi stato e nodi azione che formalizzano i problemi che vogliamo risolvere. Inoltre, introduciamo gli attori, ovvero l'agente, che vuole risolvere il problema tramite azioni successive, e l'ambiente, che fa parte del problema e alle azioni dell'agente risponde con uno stato e una ricompensa.
Lezione 3. Programmazione dinamica, 4 parti. Qui finalmente risolviamo i problemi, nel caso base in cui sappiamo esattamente come ragiona l'ambiente.
Per quanto possibile, le lezioni cercano di essere interattive: vengono proposti in continuazione esercizi, e viene richiesto al discente di mettere in pausa la riproduzione e provare a fare l'esercizio, prima di ascoltare la soluzione. Si raccomanda di seguire questo suggerimento.
Infine: nonostante l'ingente base teorica necessaria, questo corso comprende una forte componente applicativa, che viene svolta nelle esercitazioni associate a ogni lezione. Le esercitazioni sono in Python, pertanto è altamente consigliato il "Corso Propedeutico: Programmazione in Python per il Deep Learning".
Inoltre, Fondamenti di Reinforcement Learning e Reinforcement Learning e metodi Model-Free inizialmente è stato pensato come un corso unico, ma per l'esigenza di rilesciare CFU, ci ha costretto a dividerlo in due parti.