INFORMATICA

INFORMATICA
Intelligenza artificiale, big data, Data mining, IoT

BIG DATA
Big data vuol dire letteralmente grandi dati, che presi insieme occupano molto spazio di archiviazione
nell’ordine dei Terabyte (1.048.576 gigabyte, simbolo TB).
Un primo grosso problema dei Terabyte è dove andarli a memorizzare, perché si utilizzano sistemi specifici
per raccoglierli. Ovviamente non è una cosa casuale, ma i Big Data può aprire diversi versanti, come
l’intelligenza artificiale.
Da dove provengono i Big Data? Sicuramente dal web e dai social. Infatti, ogni 60 secondi su Facebook
vengono generati 350GB tra post, foto e video. Ma non solo sui social, anche ad esempio negli archivi di
documenti scannerizzati (Marc21), documenti elettronici, Media, Web (Wikipedia), applicazioni di business
(portali intranet), data storage (Hadoop), log di sistema (dispositivi mobili), data da sensori (pubblici e
privati).
Immaginate gli utenti che accedono al portale Ryanair e immaginate quanti data vengono generati dai
database alla base di questa applicazione.
I big data possono essere anche raccolti da applicazioni che riguardano gli Internet of things (?): tutte quelle
applicazioni e oggetti che non sono cellulari o computer ma oggetti in grado di collegarsi alla rete per
condividere informazioni (es. Alexa, telecamere stradali di videosorveglianza, blackbox quelle che
raccolgono i dati di volo ogni secondo, ecc …)
Il termine Big Data è venuto fuori da Laney intorno agli anni 2000 che lo modellò con le cosiddette V:
- Valore: in quello che noi vogliamo fare nell’analizzare una quantità così grande di dati; infatti non ha
senso raccogliere i Big Data a caso, perché ha dei costi
- Velocità: con la quale i dati crescono; ad esempio, in circa 60 secondi vengono generati circa 350
GB su Facebook
- Volume: la dimensione che riguarda di almeno qualche MB, perché per archiviarli ho bisogno di altri
strumenti per memorizzarli
Si aggiunsero poi:
- Veracità: quanto sono veri i dati che vengono raccolti, è quindi necessario eliminare le informazioni
che potrebbero essere false
- Varietà: molte informazioni posso raccoglierle dalle base strutturali, mentre altre da dati non
strutturali
Un'altra definizione di Big Data è a Rich untamed Data perché dati così grandi e complessi necessitano
di strumenti particolari. Ci sono delle sfide da affrontare:
- Analisi
- Acquisizione
- Gestione dei dati
- Ricerca
- Condivisione
- Archiviazione
- Trasferimento
- Visualizzazione
- Interrogazione
- Aggiornamento
- Riservatezza delle informazioni (anche in via legale)
Un esempio generale di Big Data:
Dati raccolti dal social Facebook. Facebook raccoglie migliaia di terabyte (TB) di dati ogni giorno. I dati
raccolti possono essere immagini, video, post, aggiornamenti, ecc… I dati variano da strutturati (un like, uno
share  ne conosciamo la struttura) a non strutturati (il post in sé, un video  non seguono una struttura
specifica)
Esistono vari tipi di Big Data:
Black box data: è un componente di elicotteri, aerei e jet. Cattura voci dell’equipaggio di condotta, le
registrazioni di microfoni e auricolari e le informazioni sulle prestazioni dell’aeromobile
Dati sui social media: i social media come Facebook e Twitter contengono le informazioni e le opinioni
pubblicate da milioni di persone in tutto il mondo.
Dati di borsa: i dati di borsa contengono informazioni sulle decisioni di acquisto e vendita di una quota di
diverse società effettuate dai clienti.
Dati power grid: i dati della griglia di alimentazione contengono informazioni consumate da un nodo
particolare rispetto a una stazione base.
Dati di trasporto: i dati di trasporto includono il modello, la capacità, la distanza e la disponibilità di un
veicolo.
Dati del motore di ricerca: i motori di ricerca recuperano molti dati da diversi database.
Dati sensore: dati provenienti da diversi dispositivi che lavorano su sensori, ad esempio: dati meteorologici
(meteo e climatici), dati sismici (terremoti), dati oceanici (maree, tsunami ecc.).
Dati strutturali:
Si riferiscono a tutti i dati che risiedono in un campo fisso all’interno di un record o di un file. Qualsiasi dato
inseriamo in un database è di tipo strutturale, perché andiamo a inserire nome, cognome, persona (ad
esempio nella rubrica telefonica). Un altro sono i fogli Excel perché se io vado a mettere il nome sulla prima
riga, anche quella è una forma di dato strutturato.
I dati strutturati permettono alle applicazioni più comuni di poterle leggere e di poter eseguire elaborazioni in
maniera rapida e con strumenti tradizionali. Il linguaggio SQL ci permette di interrogare qualsiasi tipologia
di dato strutturato.
I dati strutturati derivano soprattutto da applicazioni, ma possono essere generati anche dalle persone. Nella
stragrande maggioranza di siti web, qualsiasi nostra azione sul sito viene memorizzata all’interno del
database. Questo è per analizzare cosa la persona va a fare sul sito e per mettere in evidenza i problemi dello
stesso (clic, mouse, ecc)
Dati non strutturati:
Sono tutte le informazioni che non possono essere inserite in una struttura definita. Il contenuto di un audio,
di un video, sono dati che non posso catalogare né definire.
Da una ricerca viene fuori che nonostante esistano tantissime applicazioni, la maggior parte di dati con cui ci
si affaccia ogni giorno sono rappresentati dai dati non strutturati e per questo motivo è necessario che
vengano predisposti dei tool che permettano di poter gestire ed elaborare anche dei dati non strutturati. La
mancanza di struttura è però più difficile da analizzare, infatti ormai serve l’aiuto dell’intelligenza artificiale.
Un'altra applicazione molto utilizzata per memorizzare i big data è Hadoop che permette di integrare,
archiviare e monitorare le informazioni aziendali da dati non strutturati grezzi.
Un caso di uso è l’analisi dei clienti. Quando le aziende sono in grado di integrare dati non strutturati da una
varietà di fonti utilizzano l’intelligenza artificiale per individuare degli schemi.
I dati non strutturati possono essere generati da applicazioni come i satelliti, ma anche da persone come i
social media.
Dati semi-strutturati:
Un esempio sono le pagine web, perché sono scritte con html che da una sorta di struttura alla pagina anche
se ogni pagina web è diversa dall’altra, ma possiamo definirlo il linguaggio che va a definire una sorta di
scrittura del sito web. Altro esempio sono i pacchetti TCP/IP (?)
DATA MINING
IL data mining è ciò per cui noi riusciamo a estrarre i pattern e le ricorrenze all’interno dei dati. Questi
pattern sono molto importanti. Il primo esempio di data mining è quello delle regole associative. Se vado ad
analizzare le transazioni di un supermercato e ciò che hanno comprato, posso analizzare le regole associative
che mi permettono di organizzarle. Durante uno studio si è visto che chi compra i pannolini il venerdì sera
compra anche la birra.
Per avviare questa procedura bisogna
1. Dai dati bisogna estrarre quelli di interesse, eliminando gli altri
2. Attuare le tecniche per estrarre le ricorrenze
3. Interpretazione e valutazione del risultato
Il pattern è una rappresentazione sintetica e ricca di semantica di un insieme di dati ma può anche esprimere
un modello eccezionale.
Tipi di pattern sono:
- Regole associative: implicazione logica alla base dei dati
- Classificatore: insieme di classi assegnate a priori
- Clustering: che racchiude i dati in classi non assegnate a priori
- Alberi decisionali: identificano in ordine di importanza le cause
- Serie temporali: individuazione di pattern ricorrenti
Sistemi di predizione: data set di training necessario per estrarre un modello che viene poi applicato ai
nuovi dati. Un esempio è il classificatore, perché ho bisogno di dati grazie ai quali vado a estrarre un
modello che mi permette di poterlo utilizzare nel mio classificatore nel momento in cui si presentano
nuovi dati
Sistemi di descrizione: ho già dei dati, applico solo un algoritmo per dividerli in classi come il
Clustering. Ad esempio, quando inserisco dei libri di testo e li catalogo in base al genere.
Attività tipiche del data mining:
- Classificazione (predittiva)
- Clustering (descrittiva)
- Ricerca di regole associative (descrittiva)
- Ricerca di pattern sequenziali (descrittiva)
- Regressione (predittiva)
- Individuazione di deviazioni (predittiva)
Classificazione: nei classificatori abbiamo dei modelli che vengono applicati poi per i nuovi dati. Un
esempio è l’individuazione di frodi; prendo un dataset con le transazioni in un record di tempo, di queste
transazioni devo dire quelle fraudolenti. E’ importante come dato già averlo chiaro e questa informazione
(quali sono le fraudolenti) sono attributo di classificazione e quindi l’algoritmo mi dice quali sono
fraudolenti e quali no.
Clustering: è uno dei problemi che i machine learning risolvono. Una volta applicato il clustering si
identificano gli insiemi ed ogni punto degli insieme ha una caratteristica simile alle altre che sono all’interno
degli insiemi stessi. Un esempio è la segmentazione del mercato, quindi dividendo i clienti in sottoinsiemi
distinti da utilizzare come target di specifiche attività di marketing.
Regole associative: trovare le regole di dipendenza che predicono l’occorrenza. L’esempio è come quello dei
pannolini e delle birre al supermercato. Oppure la disposizione della merce per identificare i prodotti
comprati assieme da un numero sufficientemente alto di clienti.
INTELLIGENZA ARTIFICIALE
Sono tute quelle applicazioni il cui comportamento è molto simile al ragionamento umano. Un’applicazione
AI riesce a trovare una soluzione anche nel caso in cui si verifichino delle condizioni mai viste. Questo è
possibile soprattutto alla Machine Learning, dal quale è possibile estrarre sempre un modello da poter
utilizzare nelle nuove condizioni che si verificano; quindi, dai dati storici applicando il Machine Learning
ottengo questo modello da riapplicare per potermi comportare in situazioni non previste.
Le più recenti applicazioni utilizzano le tecniche di Reti Neurali Artificiali che è molto simile al nostro
cervello, dove abbiamo neuroni collegati alle sinapsi. Abbiamo un primo strato detto Input da cui passato i
dati da analizzare. L’analisi però avviene a metà in uno strato detto “hidden” ossia nascosto. Il peso che viene
dato a questo strato nascosto è il modello che viene tirato fuori dalla fase di machine learning. Poi si passa
all’output, quindi far uscire i dati. E’ importante sapere che l’elaborazione dello stato intermedio e i pesi
vengono generati sempre dalla machine learning. Importanti sono anche le “deep learning” dove non
abbiamo più uno strato intermedio, ma più livelli con delle operazioni specifiche. Un esempio è quando
nell’input metto la foto di Washington. Ogni strato intermedio segue operazioni diverse. Il primo strato
analizza i contorni della foto, l’altro le combinazioni dei contorni e l’ultimo strato le caratteristiche, che sono
associate all’output, che ha più uscite, tipo escono Washington, Biden, ecc, ma la selezione che identifica il
personaggio avviene grazie all’elaborazione degli strati precedenti. Quindi a differenza delle reti neurali
semplici costituite da uno strato, in quelle di deep learning abbiamo più strati. La richiesta di calcolo
computazionale è davvero complessa e prima non c’erano abbastanza strumenti per analizzare questi big
data.
Applicazioni per la Rete neurale semplice: Google Leans
Applicazioni per la Deep Learning: computer vision  il riconoscimento di oggetti; tipo le macchine che si
guidano da sole (es. la tesla)
Natural Language processing: puoi dialogare con esse; ad esempio ChatGPT. La differenza tra Chatbot e
ChatGPT è che Chatbot si limita a rispondere solo ad alcune determinate domande.
AI Debole: determinate solo ad alcune aree o settori
AI Forte: poter svolgere qualsiasi compito che un essere umano può fare
INTERNET OF THINGS
Capacità degli smart objects di comunicare e condividere informazioni. Esempi sono le sveglie intelligenti, i
frigoriferi intelligenti che mi dicono cosa manca quando vado al supermercato.
La diffusione di questi oggetti è possibile grazie a sensori economici, grande capacità di connessione, basso
consumo di energia e proliferazione dei dispositivi.
Alcune applicazioni di internet of things possono essere in ambito ospedaliero, come macchine per
monitorare le condizioni mediche o in ambito utilitario il tracciamento dei dispositivi.
BUZZWORDS
 Big data è il termine per descrivere una raccolta di dataset così grande e complessa da richiedere
strumenti differenti da quelli tradizionali, in tutte le fasi del processo: dall'acquisizione, alla curation,
passando per condivisione, analisi e visualizzazione.
 Artificial Intelligence è una disciplina appartenente all'informatica che studia i fondamenti teorici, le
metodologie e le tecniche che consentono la progettazione di sistemi hardware e sistemi di
programmi software capaci di fornire all'elaboratore elettronico prestazioni che, a un osservatore
comune, sembrerebbero essere di pertinenza esclusiva dell’intelligenza umana.
 Machine Learning è una branca dell'intelligenza artificiale che raccoglie metodi sviluppati negli
ultimi decenni del XX secolo in varie comunità scientifiche, sotto diversi nomi quali: statistica
computazionale, riconoscimento di pattern, reti neurali artificiali, filtraggio adattivo, teoria dei
sistemi dinamici, elaborazione delle immagini, data mining, algoritmi adattivi, ecc; che utilizza
metodi statistici per migliorare la performance di un algoritmo nell'identificare pattern nei dati.
 IoT nelle telecomunicazioni è un neologismo riferito all'estensione di Internet al mondo degli oggetti
e dei luoghi concreti.

INFORMATICA

Caricato da

Copyright:

Formati disponibili

INFORMATICA

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

INFORMATICA

Caricato da

Copyright:

Formati disponibili

INFORMATICA

Intelligenza artificiale, big data, Data mining, IoT

Potrebbero piacerti anche