The goal of the Inverse Reinforcement Learning problem is to obtain, on the basis of an agent's behavior, a reward function which represents its objectives. In a multi-agent context, it is possible to compare the reward functions of different agents and to separate them, i.e. with clustering techniques, into categories, each consisting of agents which share a similar reward function. The goal of this thesis is to propose an approach which combines IRL techniques – specifically, the Gradient Inverse Reinforcement Learning (GIRL) algorithm – with clustering methods in order to categorize the users of a service on the basis of their interests and objectives. The two phases are separate: first, using GIRL, we find out the agents' reward functions; then, using a clustering algorithm, we find out the categories of users. Our specific case study, which considers real data, is the modelization and categorization of residential users on the basis of the characteristics of their water consumption. We use a reward function which aims to model the users' habits, and we compare its results with those of a previous similar study based on the same data as ours. We show that the categories found by our procedure are characterized by consumption habits well distinguished from one another, and can be described using their reward functions.
L'obiettivo del problema di Inverse Reinforcement Learning è individuare, a partire dal comportamento di un agente, una rappresentazione sotto forma di funzione premio degli obiettivi da esso perseguiti. In un contesto multiagente, è possibile confrontare le funzioni premio dei vari agenti e suddividerli, ad esempio mediante tecniche di clustering, in categorie, ognuna delle quali è costituita da agenti che condividono funzioni premio simili. Lo scopo di questa tesi è proporre un approccio che combina tecniche IRL – nello specifico, l'algoritmo Gradient Inverse Reinforcement Learning (GIRL) – con metodi di clustering per categorizzare gli utenti di un servizio sulla base dei loro interessi ed obiettivi. Le due fasi sono separate: prima, mediante GIRL, individuiamo le funzioni premio degli agenti; poi, mediante un algoritmo di clustering, individuiamo le categorie di utenti. Il nostro caso di studio specifico, che considera dati reali, è la modellizzazione e la categorizzazione di utenti residenziali sulla base delle caratteristiche dei loro consumi idrici. Impieghiamo una funzione premio che punta a modellizzare le abitudini degli utenti, e compariamo i risultati da essa ottenuti con quelli di uno studio precedente simile al nostro ed effettuato sui nostri stessi dati. Dimostriamo che le categorie di utenti individuate dal nostro procedimento sono caratterizzate da abitudini di consumo ben distinguibili l'una dall'altra e descrivibili per mezzo delle proprie funzioni premio.
Inverse reinforcement learning e categorizzazione di utenti. Analisi di consumi idrici in ambiente domestico
GALLESIO, MATTEO
2015/2016
Abstract
The goal of the Inverse Reinforcement Learning problem is to obtain, on the basis of an agent's behavior, a reward function which represents its objectives. In a multi-agent context, it is possible to compare the reward functions of different agents and to separate them, i.e. with clustering techniques, into categories, each consisting of agents which share a similar reward function. The goal of this thesis is to propose an approach which combines IRL techniques – specifically, the Gradient Inverse Reinforcement Learning (GIRL) algorithm – with clustering methods in order to categorize the users of a service on the basis of their interests and objectives. The two phases are separate: first, using GIRL, we find out the agents' reward functions; then, using a clustering algorithm, we find out the categories of users. Our specific case study, which considers real data, is the modelization and categorization of residential users on the basis of the characteristics of their water consumption. We use a reward function which aims to model the users' habits, and we compare its results with those of a previous similar study based on the same data as ours. We show that the categories found by our procedure are characterized by consumption habits well distinguished from one another, and can be described using their reward functions.File | Dimensione | Formato | |
---|---|---|---|
2016_09_Gallesio.pdf
accessibile in internet per tutti
Descrizione: Testo della tesi
Dimensione
1.01 MB
Formato
Adobe PDF
|
1.01 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/126861