• Non ci sono risultati.

Big Data

N/A
N/A
Protected

Academic year: 2021

Condividi "Big Data"

Copied!
11
0
0

Testo completo

(1)

Data Base and Data Mining Group of Politecnico di Torino

DB M G

Business Intelligence per Big Data

Progetti di analisi di dati

AA 2020-2021 - Politecnico di Torino

(2)

DB M G

2

Datasets

Campioni della collezione di tweet a tema COVID-19

mantenuta dal Panacea Lab di Georgia State

La collezione originale copre quasi un anno di tweet raccolti

è la più grande collezione Open Data di tweet su questo tema.

Ciascun gruppo dovrà analizzare solo un

sotto-campione di questi dati

(3)

DB M G

3

Datasets

Caratteristiche di ogni dataset:

4000 tweet circa

unico file CSV, in cui ad ogni riga corrisponde un tweet;

per ogni tweet sono presenti le seguenti informazioni:

“favorite_count”, “source”, “text”, “is_retweet”,

“created_at”, “retweet_count”.

Il campo “source” identifica il dispositivo da cui è stato prodotto il tweet. I restanti campi sono auto-esplicativi.

(4)

DB M G

4

Datasets

Lingue presenti nel dataset

Inglese

Francese

Spagnolo.

I tweet sono campionati in periodi temporali diversi

l’evoluzione della pandemia è stata significativamente diversa.

I dati sono protetti da copyright e di

proprietà di DBDMG, per cui non sono

modificabili o ridistribuibili.

(5)

DB M G

5

Utilizzo di una (o più di una) tecnica di data mining per analizzare un dataset reale

Analisi del dataset per caratterizzare la distribuzione dei dati

Analisi esplorativa dei dati

Tecniche di analisi di dati

Regole di associazione

Effettuare più sessioni di analisi

Variare gli indici di qualità (e.g., supporto, confidenza, lift)

Clustering

Effettuare più sessioni di analisi con uno o più algoritmi(e.g., K- Means, DBSCAN)

Variare i parametri di input (analisi di sensitività)

Valutare i diversi espergli indici di qualità (e.g., SSE)

Obiettivo

(6)

DB M G

6

Regole

Gruppi di due persone

Registrarsi sul google sheet

https://docs.google.com/spreadsheets/d/1q6QAnzCEajo4 CT85SKVwLmPqWpnDmB_jwQNvAzQQXGk/edit?usp=shar ing

Ogni gruppo deve

Caratterizzare il dataset

Effettuare diverse sessioni di analisi su un dataset

utilizzando il tool RapidMiner e/o altri tools noti al gruppo di studenti

Analizzare i risultati e sintetizzarli in grafici

Discutere come sfruttare la conoscenza estratta in un’applicazione di business

(7)

DB M G

7

Regole

Preparare una breve ma completa presentazione sulle attività svolte

Caratterizzazione del dataset

Analisi effettuata (e.g., configurazione ottimale dell’algoritmo selezionato)

Risultati migliori ottenuti e comparativa (di

performance e qualità della conoscenza) tra algoritmi diversi

Presentare i risultati in 15 minuti

5 minuti di presentazione a testa e 5 di domande

(8)

DB M G

8

Consulenze per il progetto

Consulenza

3-4 slot da 1,5h

Da definire negli slot delle prossime lezioni e/o

fuori orario se necessario

(9)

DB M G

9

Materiale da consegnare

Preparare il materiale

Processo di rapid miner e file memorizzati nel repository

Insieme di lucidi

Sorgenti dei grafici (e.g., file excel)

(10)

DB M G

10

Date importanti

Consegnare i lucidi via mail a Tania Cerquitelli

Entro il 6 giugno 2021

Discussione durante le lezioni del 8/6 e 10/6

entro il giorno precedente la prova scritta

Le presentazioni saranno svolte a partire dal giorno successivo alla prova scritta

Primo e secondo appello (Giugno-Luglio)

Consegnare tutto il materiale tramite link ad

una cartella condivisa

(11)

DB M G

11

Valutazione

Ogni studente del gruppo sarà valutato con un punteggio in trentesimi

In caso di lode, viene considerato 32 (per calcolare il voto finale)

Il voto della tesina sarà mediato con il seguente punteggio

Voto conseguito all’esame scritto incrementato di

1/30 se lo studente ha consegnato l’esercitazione sulle tecniche di classificazione

1/30 se lo studente ha consegnato l’esercitazione su MapReduce/MongoDB

La lode viene riconosciuta se il voto finale è >=31

Riferimenti

Documenti correlati

Considering only the statistics related to May 2018, the application must select only the pairs (VSID, hour) for which the average of CPUUsage% for that pair is

The students will learn, and practice, advanced query processing techniques for relational databases as well as alternative data models and languages (XML databases).. Moreover,

Each edition of a course is characterized by a starting date, an ending date, a duration, a venue, a set of teachers (one or more), and a set of attendees (employees of the

• Each film is characterized by the title, the year during which it has been released, the production country, the producer, the film maker, the actors, and the actresses.. The set

• Each show is identified by a number, which univocally identifies it within the artistic event it belongs to (the first show of event E27, the second show of event E27, and so on),

Let every film be univocally identified by a code and characterized by a title, a filmmaker, and the year when it has been released.. For the sake of simplicity, let as assume each

Let every film be univocally identified by a code and characterized by a title, a filmmaker, and the year when it has been released.. For the sake of simplicity, let us assume each

For the sake of simplicity, let us assume each film to be directed by a single filmmaker and each filmmaker to be univocally identified by his/her surname.. Let us consider