Ementa de Disciplina

×

ELE2364

APRENDIZADO POR REFORCO

3 créditos

Ementa

Teoria de decisões sequenciais; processos de decisão Markovianos; programação dinâmica: iteração de políticas e iteração de valores; aprendizado por reforço: exploração/exploitação, on-policy e off-policy, on-line e batch, com modelo e sem modelo; métodos básicos: Monte Carlo, Diferenças Temporais, Q-Learning e SARSA; eligibility traces; representações aproximadas: lineares e não-lineares; métodos avançados: Experience Replay, Fitted Q-Iteration, Dyna; métodos baseados em políticas: ator-crítico e busca direta de políticas; métodos para MDPs parcialmente observáveis; métodos para espaços de estados grandes.

Pré-requisitos

Nenhum pre-requisito encontrado para ELE2364

Co-requisitos

Nenhum co-requisito encontrado para ELE2364

Última atualização da ementa: 10/03/2023