Valutazione di metodi alternativi per effettuare gene editing mediante metodica CRISPR/Cas9

(1)

Facoltà di Scienze Matematiche, Fisiche e Naturali

Corso di Laurea Magistrale in Biologia Molecolare e Cellulare

Tesi di Laurea Magistrale

“

Valutazione di metodi alternativi per effettuare

gene editing mediante metodica

RELATORE

Prof. Stefano Landi Simona Miglietta

Anno accademico 2015

Università di Pisa

Facoltà di Scienze Matematiche, Fisiche e Naturali

Corso di Laurea Magistrale in Biologia Molecolare e Cellulare

Tesi di Laurea Magistrale

Valutazione di metodi alternativi per effettuare

gene editing mediante metodica CRISPR/Cas9”

CANDIDATA

Prof. Stefano Landi Simona Miglietta

Anno accademico 2015-2016

Facoltà di Scienze Matematiche, Fisiche e Naturali

Corso di Laurea Magistrale in Biologia Molecolare e Cellulare

Valutazione di metodi alternativi per effettuare

CRISPR/Cas9”

CANDIDATA

(2)

(3)

INDICE

RIASSUNTO ... 1

ABSTRACT... 3

CAPITOLO 1: Il genome editing e i sistemi CRISPR/Cas ... 4 4

1.1 Il genome editing ... 4

1.2 I sistemi CRISPR/Cas ... 7

1.3 Il sistema CRISPR/Cas di tipo I (Cascade) ... 10

1.3.1 Struttura biologica del sistema CRISPR/Cas di tipo I-E ... 10

1.3.2 Struttura biologica del sistema CRISPR/Cas di tipo I-A ... ... 10

1.3.3 Struttura biologica del sistema CRISPR/Cas di tipo I-B ... 11

1.3.4 Struttura biologica del sistema CRISPR/Cas di tipo I-C ... 11

1.3.5 Struttura biologica del sistema CRISPR/Cas di tipo I-D ... 11

1.3.6 Struttura biologica del sistema CRISPR/Cas di tipo I-F ... 12

1.4 Il sistema CRISPR/Cas di tipo III ... 14

1.4.1 Struttura biologica del sistema CRISPR/Cas di tipo III-A ... 14

1.4.2 Struttura biologica del sistema CRISPR/Cas di tipo III-B ... 14

1.5 Il sistema CRISPR/Cas9 di tipo II ... 15

1.5.1 I sottotipi del sistema CRISPR/Cas9 di tipo II (II-A,II-B,II-C) ... 18

1.5.2 Problemi del sistema CRISPR/Cas9 ... 19

1.5.3 Risoluzioni dei problemi del sistema CRISPR/Cas9 ... 20

1.5.4 Il sistema CRISPR/Cas9 vs TALENs e ZFNs ... 21

CAPITOLO 2: Tumore tiroideo ... 23

2.1. Generalità ... 23

2.2 Istotipi del tumore tiroideo ... 24

2.3 Epidemiologia ... 26

CAPITOLO 3: La galectina-3... 27

3.1 La struttura della galectina-3 e del gene LGALS3 ... 27

(4)

3.2.1 La galectina-3: fattore anti-apoptotico ... 28

3.2.2 La galectina-3: regolatore della proliferazione cellulare ... 29

3.2.3 La galectina-3 e le metastasi ... 31

3.3 La galectina-3 e la progressione tumorale tiroidea ... 34

3.4 La galectina-3 e la progressione del carcinoma colon-rettale ... 35

3.5 Studio funzionale della variante genetica (rs4644) del gene LGALS3 ... 36

CAPITOLO 4: Scopo della tesi ... 38

CAPITOLO 5: Materiali e metodi ... 39

5.1 Linea cellulare: Nthy-Ori ... 39

5.2 Linea cellulare: HCT 116 +/+ ... 39

5.3 Primo metodo: trasfezione del vettore pSpCas9nD10A-sgRNA e ssODN ... 39

5.3.1 Costruzione del vettore pSpCas9nD10A-sgRNA ... 40

5.3.2 Disegno del ssODN ... 49

5.3.3 Trasfezione delle linee cellulari ... 50

5.3.4 Estrazione del DNA ... 52

5.3.5 SURVEYOR nuclease assay ... 54

5.3.6 NESTED PCR ... 57

5.4 Secondo metodo: co-trasfezione del vettore pSpCas9nD10A-sgRNA e il vettore HR410PA-1 ... 59

5.4.1 Costruzione del vettore HR410PA-1 ... 59

5.4.2 Mutagenesi sito-specifica ... 66

5.4.3 Co-trasfezione dei plasmidi pSpCas9nD10A-sgRNA e HR410PA-1 nelle linee cellulari... 70

5.4.4 Fluorescence-activated cell sorting (FACS) ... 72

5.5 Terzo metodo: co-trasfezione dei vettori pCW-Cas9 e pLX-sgRNA e HR410PA-1/ssODN ... 74

5.5.1 Costruzione del vettore pCW-Cas9 ... 74

5.5.2 Trasduzione del vettore pCW-Cas9 ... 78

5.5.3 Valutazione dell’espressione del gene Cas9 presente nel vettore pCW-Cas9 tramite induzione con doxyciclina ... 78

(5)

5.5.5 Trasduzione del vettore pLX-sgRNA ... 85

5.5.6 Trasfezione del vettore HR410PA-1 e del singolo filamento ssODN in cellule trasdotte dal lentivirus ... 86

CAPITOLO 6: Risultati ... 89

6.1 Risultati colony PCR e Miniprep del vettore pSpCas9nD10A-sgRNA ... 89

6.2 Risultati del SURVEYOR nuclease assay ... 90

6.3 Risultati NESTED PCR ... 91

6.4 Risultati PCR con Q5 High-Fidelity DNA Polymerase: i due inserti MCS1 e MCS2 ... 92

6.5 Risultati della digestione e del clonaggio sia di MCS1 che di MCS2 in HR410PA-1 ... 94

6.6 Verifica della mutagenesi sito-specifica del vettore HR410PA-1 ... 95

6.7 Valutazione dell’azione della puromicina in cellule co-trasfettate pSpCas9nD10A-HR410PA-1 ... 96

6.8 Risultati della tecnica Real-Time PCR ... 98

6.9 Risultati delle tre PCR nella costruzione del vettore pLX-sgRNA ... 100

6.10 Risultato RFLP della trasfezione del vettore HR410PA-1 per la terza tecnica in Nthy-Ori ... 101

6.11 Selezione con il FACS della linea cellulare Nthy-Ori trasdotte e trasfettate con HR410PA-1 ... 102

CAPITOLO 7: Discussioni ... 103

(6)

P a g in a

1

RIASSUNTO

Il sistema Clustered Regularly Interspaced Short Palindromic Repeats/Cas si è evoluto nei Procarioti come sistema immunitario di carattere adattativo permettendo ai batteri di difendersi dagli attacchi infettivi dei batteriofagi. L’interesse scientifico si è focalizzato principalmente sul sistema CRISPR/Cas9 di tipo II, identificato per la prima volta nello

Streptococcus Pyogenes, che è in grado di produrre taglio a doppio filamento (DSB) nel

gene d’interesse. Il sistema è formato da una ribonucleoproteina, costituita dall’endonucleasi Cas9 seguita da un RNA guida di 20-nt (sgRNA). La ribonucleoproteina è in grado di identificare nel genoma la sequenza PAM (Protospacer

Adjacent Motifs), sequenza trinucleotidica altamente rappresentata (5’-NGG-3’),

preceduta da una sequenza complementare al sgRNA realizzando quindi il DSB. Quest’ultimo verrà riparato dalla cellula con i meccanismi di ricombinazione non omologa (NHEJ), che introduce mutazioni indel, o tramite ricombinazione omologa (HDR), che viceversa ripara il DSB senza inserire alcuna mutazione.

La presente tesi si propone di individuare principalmente i metodi per effettuare il “gene editing” mediante CRISPR/Cas9 su linee cellulari immortalizzate, con lo scopo ultimo di “creare” linee isogeniche che differiranno per il solo nucleotide dello SNP di nostro interesse (rs4644 del gene LGALS3).

La prima tecnica impiega l’agente chimico trasfettante Lipofectamine 3000 per la trasfezione in cellule immortalizzate del plasmide SpCas9D10a esprimente il gene Cas9 ligato alla migliore sgRNA predetta in silico. Una volta trasfettato, il plasmide produrrà un singolo taglio a livello dell’allele variante C che verrà riparato da una sequenza a singolo filamento (ssODN) avente l’allele protettivo (A) e sequenze fiancheggianti (lunghe 40 bp) omologhe al sito target. Nella costruzione della sequenza a singolo filamento (ssODN) sono state riportate tre mutazioni silenti, poiché le triplette originarie rappresentavano nuove e possibili sequenze PAM.

La seconda tecnica permette di compiere una co-trasfezione, con l’uso sempre dell’agente Lipofectamine 3000, del plasmide SpCas9D10a e il vettore donor HR410PA munito di marcatore cellulare EGFP-Puromicina fiancheggiato da due siti Lox-P, costruito tramite un doppio clonaggio sia della porzione dell’esone (a genotipo noto A/A per lo SNP di nostro interesse) del gene LGALS3 e sia di una porzione dell’introne del gene LGALS3. Come per il singolo filamento, anche nella porzione esonica clonata

(7)

P a g in a

2

bisognerà apportare delle mutazioni silenti con una mutagenesi sito diretta per “eliminare” le originarie sequenze PAM.

La terza tecnica utilizza il sistema lentivirale come “veicolo” di trasfezione del plasmide pCW-Cas9 (con Cas9 inducibile da doxyciclina e resistenza alla puromicina) e del vettore pLX-sgRNA (con sgRNA target e con resistenza alla blasticidina).

Dai primi risultati ottenuti, due tecniche ci permetteranno di individuare e di creare nel miglior modo possibile e nel minor tempo possibile linee isogeniche di nostro interesse. La prima è quella che prevede l’impiego del plasmide HR, in quanto presente un marcatore di selezione per le cellule che hanno subito ricombinazione omologa. La seconda è quella che utilizza i vettori lentivirali poiché viene ridotto al minimo il problema dell’efficienza di trasfezione: solo le cellule che sono state infettate presenteranno resistenza al farmaco di selezione.

(8)

P a g in a

3

ABSTRACT

The Clustered Regularly Interspaced Short Palindromic Repeats/Cas (CRISPR/Cas) system has evolved in the Prokaryotes as immune system.

The system CRISPR/Cas9 of type II, discovered for the first time in Streptococcus

Pyogenes, is able to break DNA sequence in exact points (genes or portion of them)

choose by the researchers.

The CRISPR/Cas9 has a rybonucleoprotein, that is constituted by the endonuclease Cas9 and sgRNA of 20nt. The rybonucleoprotein Cas9-sgRNA recognizes the sequence in the genome and then sgRNA binds. Summarized, Cas9 cuts the sequence only when sgRNA fitts exactly with the sequence and after PAM identification, producing a double strand break (DBS). DBS will be repaired or by non-homologous end joining (NHEJ) or by homologous-directed repair (HDR).

This thesis has the aim to identify the best method of transfection to “gene-edit” immortalized human cell lines by CRISPR/Cas9 system in only one single nucleotide polymorphism (SNP rs4644) within LGALS3 gene.

The first assay uses the chemical agent Lipofectamine 3000 for the transfection both of the plasmid SpCas9D10a, that expresses the Cas9-sgRNA, and of single-strand (ssODN) with allele “A” at the 191 nucleotide position. In the construction of ssODN, three synonymous substitutions have been introduced to “cover” the other possible PAM sequences.

The second technique is based on the co-transfection of vector SpCas9D10a and vector donor HR410PA-1 (providing two selection markers flanked into two sites LoxP) using the chemical agent Lipofectamine 3000.

The vector HR410PA-1 has the same synonymous substitutions of the single ssODN. In the third assay, it has been adopted the transduction’s method of vector pCW-Cas9 (with doxycyclina inducible Cas9 and blasticidina resistance).

The first results show that the second and the third methods are the best to edit “perfectly” cell lines obtaining in a few time the isogenic lines. In fact, the presence of selection markers and the use of lentivirus improve the results in terms of characterization and/or transfection efficiency of the cell lines.

(9)

P a g in a

4

Capitolo 1: Il genome editing e i sistemi CRISPR/Cas

1.1 Il genome editing

Il genome editing è un tipo di ingegneria genetica che permette di ingegnerizzare nucleasi (definite anche“forbici molecolari”), capaci di modificare il DNA genomico. Infatti, il taglio a doppio filamento (Double Strand Break, DSB), creato da parte delle proteine nucleasiche a livello di un sito specifico del genoma, attiva i sistemi di riparazione cellulari: non-homologous end joining (NHEJ), che ripara introducendo mutazioni di tipo inserzioni o delezioni (indel), e l’homology-directed repair (HDR), che ripara il DSB grazie all’ausilio di un homology recombination donor che porta alla riparazione del danno senza inserire alcuna mutazione.

Tanti sono stati gli approcci che avevano come scopo quello di modificare, inserire o eliminare una o più coppie di nucleotidi nella sequenza genomica di studio, introducendovi nuovi geni all’interno del codice genetico.

Le prime tecniche, tra cui la mutagenesi sito-diretta o la ricombinazione omologa, non prevedevano l’utilizzo delle nucleasi ingegnerizzate, mentre, le tecniche più innovative hanno portato ad un grande avanzamento della tecnologia ed ingegneria nel campo della genetica.

I metodi che hanno portato a questa grande “rivoluzione” sono (Gaj et al., 2013):

• Zinc-finger nucleases (ZFNs): sono composte dal dominio endonucleasico costituito dall’enzima di restrizione FokI e il dominio di legame al DNA, formato da motivi con struttura a “dita di zinco” (Urnov et al., 2010). Questi motivi sono capaci di legare in una prima approssimazione tre o quattro nucleotidi adiacenti e il legame avviene attraverso alcuni residui amminoacidici ‘chiave’, che contattano direttamente il solco maggiore del DNA. Sostituendo tali amminoacidi, è possibile modificare la specificità del singolo motivo. Tali modifiche hanno permesso la creazione di motivi sintetici che riconoscono quasi tutte le 64 possibili triplette nucleotidiche, e la loro naturale modularità permette la fusione in serie di moduli con differente specificità, al fine di creare domini di legame al DNA capaci di legare sequenze di DNA a scelta. Poiché FokI è un enzima dimerico, affinché il taglio possa avvenire, devono essere create due nucleasi in modo da legare sequenze di DNA separate da un adeguato spaziatore,

(10)

P a g in a

5

all’interno del quale il dominio di taglio può dimerizzare e tagliare il DNA. Tuttavia, nella pratica, creare dei domini di legame a dita di zinco che riconoscano efficientemente una sequenza di DNA prescelta è un processo lungo e laborioso, in quanto ogni modulo mantiene le sue caratteristiche di legame solo nel contesto dei moduli adiacenti. Quindi la specificità di un modulo può cambiare a seconda dei moduli che ad esso sono fusi e questo fenomeno può portare alla formazione di nucleasi non specifiche per la sequenza desiderata, ma che possono tagliare il genoma anche in sequenze diverse. Inoltre, non tutte le eventuali triplette di nucleotidi possono essere riconosciute da moduli a dita di zinco e questo rende difficile ulteriormente il disegno di ZFN con nuove specificità di sequenza;

Figura 1. Meccanismo dei sistemi ZNFs. Immagine tratta da articolo “Expanding the genetic editing tool kit: ZFNs, TALENs and CRISPR/Cas9” del JCI.

• Transcriptor activator-like effector nucleases (TALENs): in batteri del genere

Xanthomonas sono stati scoperti nuovi domini di legame al DNA, conosciuti

come transcription activator-like effectors (TALE) (Boch et al., 2010; Moscou and Bogdanove, 2009). Questo dominio di legame al DNA è modulare, ma ogni singolo blocco è capace di riconoscere un singolo nucleotide; pertanto esistono soltanto quattro diversi moduli TALE capaci di riconoscere i rispettivi quattro nucleotidi (Boch, 2010; Mussolino and Cathomen, 2012). Così come per le ZFNs, anche i singoli moduli TALE possono essere legati in serie per formare domini di legame al DNA, in grado di riconoscere la sequenza di DNA di interesse, ed inoltre domini di taglio di FokI (Mussolino and Cathomen, 2012). A differenza dei moduli a dita di zinco, l’interazione con il DNA dei singoli moduli TALE non è ostacolata dai domini vicini e quindi generare nuove nucleasi artificiali basate su struttura TALE (TALENs) con diverse specificità è semplice e veloce e può essere fatto in ogni laboratorio, utilizzando tecniche di clonaggio standard (Engler et al., 2008);

(11)

P a g in a

6

Figura 2. Meccanismo dei sistemi TALENs. Immagine tratta da articolo “Expanding the genetic editing tool kit: ZFNs, TALENs and CRISPR/Cas9” del JCI.

• Il sistema CRISPR/Cas9: è il sistema più recente sbarcato nel campo del gene editing. E’ stato scoperto per la prima volta nel 1987 nei batteri Streptococcus

Pyogenes, i quali adottavano tale sistema come protezione da attacchi fagici e

trasferimenti di plasmidi. Nel settore dell’ingegneria genetica è stato simulato e creato il sistema CRISPR/Cas9 di tipo II, composto da una endonucleasi Cas9 unita ad un RNA-guida (sgRNA), capace quest’ultima di identificare il DNA target attraverso una sequenza PAM (5’-NGG-3’) e successivamente tagliare la sequenza genomica bersaglio attraverso l’azione della proteina Cas9, la quale solitamente è un mutante D10A capace di compiere un singolo nick e favorire un meccanismo di riparazione HDR (Jiang et al., 2015; Pellagatti et al., 2015). Il taglio viene poi riparato o da un singolo filamento (ssODN), nel caso in cui si debba effettuare la correzione di un singolo nucleotide, o da un vettore Donor (HDR Donor), che tramite ricombinazione omologa inserisce la sequenza giusta a livello del nick, o attraverso l’utilizzo dei “veicoli” lentivirali, i quali inseriscono nella cellula bersaglio la sequenza di interesse sottoforma di vettore HDR Donor (Ran et al.,2013).

(12)

P a g in a

7

Tanti sono stati i passi in avanti che queste tecniche hanno portato nel campo scientifico, soprattutto nel settore della genetica. Basti pensare alle varie terapie geniche (“gene-therapy”) che sfruttano queste tipo di nucleasi ingegnerizzate, per curare pazienti affetti da malattie causate da fattori genetici o anche malattie multifattoriali.

Infatti nell’anno 2014, è stato adottato il sistema CRISPR/Cas9 a livello del gene mutato della distrofina (Dmd), responsabile della Distrofia Muscolare di Duchenne (DMD), agendo sul gene della distrofina della linea germinale di topolini (mdx) (Long et al., 2014). Intorno al 2011, è stato utilizzato il sistema ZFNs a livello dei geni dell’α-sinucleina, proteina che a seguito di mutazioni o denaturazioni produce un aggregato proteico responsabile del morbo di Parkinson (Soldner et al., 2011).

1.2 I Sistemi CRISPR/Cas

Il sistema Clustered Regularly Interspaced Short Palindromic Repeats/Cas (CRISPR/Cas) si evolve nei Procarioti come sistema immunitario a carattere adattativo nella difesa contro gli attacchi infettivi dei batteriofagi e contro eventuali trasferimenti di plasmidi. È stato identificato per la prima volte intorno al 1987 nel batterio

Streptococcus Pyogenes e successivamente, e solo intorno al 2012, utilizzato come

possibile metodo nel campo del genome editing (Doudna et al., 2012; Jiang et al., 2015).

Simile all’ RNA interference eucariotico, una volta che un batterio si mette a contatto con un batteriofago acquisisce ed eredita sequenze di circa 30 paia di basi di DNA esogeno, chiamate “spacers”, i quali separati da piccole sequenze ripetute costituiscono i loci CRISPR. La selezione dei protospacers è determinata da uno specifico trinucleotide, Protospacer Adjacent Motifs (PAM). I loci CRISPR sono preceduti da una serie di geni associati Cas, che codificano per un’ampia varietà di proteine aventi domini con funzioni di elicasi, nucleasi, polimerasi e leganti acidi nucleici (Jiang et al., 2015).

Ad una successiva infezione da parte dello stesso batteriofago si avvia la fase “CRISPR-Cas biogenesis” in cui l’intero locus CRISPR viene trascritto in una lunga sequenza, pre-crRNA (precursore del trascritto), processata da endonucleasi in piccole sequenze di circa 60 paia di basi, crRNA (CRISPR RNA), mentre i geni Cas codificano per le rispettive proteine. I crRNAs maturi complessano in una ribonucleoproteina con le proteine Cas, prevenendo una possibile propagazione del fago o del plasmide attraverso

(13)

P a g in a

8

un’ interferenza tra il complesso CRISPR/Cas e il DNA esogeno target, che infine viene degradato.

Figura 4.Maturazione e attacco del sgRNA al DNA complementare. . Immgaine tratta da “Nature Reviews-Microbiology”.

I sistemi CRISPR/Cas sono classificati in tre tipi (I, II, III), suddivisi a loro volta in undici sottotipi (I-A alla I-F, II-A alla II-C, III-A e III-B). Sebbene i tre sistemi CRISPR/Cas sembrino avere uguali funzioni a livello del sistema immunitario a carattere adattativo, presentano diversi locus CRISPR e geni Cas ma soprattutto differenti processi di biogenesi del crRNA e degradazione del DNA esterno. Infatti sia il sistema di tipo I che di tipo III utilizzano la famiglia delle nucleasi Cas6 per effettuare tagli endoribonucleotidici nel precursore del trascritto, pre-crRNA, così da generare la sequenza matura crRNA. Mentre il sistema di tipo II utilizza una piccola sequenza di crRNA transattivatore (trans-activating crRNA, tracrRNA) che si appaia a livello di basi complementari di regioni ripetute del crRNA, seguita da tagli endoribonucleotidici da parte di una RNAsi III endogena.

Oltre a ciò, anche il processo di interferenza CRISPR-Cas/ DNA esogeno presenta disuguaglianze. Il sistema di tipo I aggrega crRNA maturo con proteine multiple Cas fino a formare CRISPR-associated complex per le difese antivirali (Cascade), e tale complesso lega il DNA target complementare e recluta nucleasi ed elicasi transattivatori (Cas3) che srotolano e tagliano il DNA; il sistema di tipo III, similarmente al sistema di tipo I, utilizza una varietà di proteine conosciute come Csm (III-A) e Cmr (III-B) complex, che marcano il DNA o l’ RNA con l’ausilio dei crRNAs maturi; il sistema di tipo II, invece, sfrutta una singola proteina multifunzionale Cas9, che con l’intervento di un dual-RNA heteroduplex crRNA:tracrRNA, si appaia e degrada il DNA esogeno (Jiang et al.,2015).

(14)

Figura 5. I meccanismi di difesa dei tre sistemi CRISPR/Cas

Figura 5. I meccanismi di difesa dei tre sistemi CRISPR/Cas. Immagine tratta dal sito “biosinthesis”. P a g in a

9

(15)

P a g in a

1

0

1.3 Il sistema CRISPR/Cas di tipo I (Cascade)

1.3.1 Struttura biologica del sistema CRISPR/Cas di tipo I-E

Il meccanismo più studiato nel sistema CRISPR/Cas di tipo I è quello di tipo I-E, comunemente chiamato Cascade. È stato originariamente scoperto in Eschericchia Coli, da cui deriva il nome I-E. Il complesso CRISPR-Cas, chiamato crRNP, che interferisce e degrada il DNA estraneo è composto da un crRNA maturo di 61 nucleotidi e differenti proteine Cas: (Cse1)1-(Cse2)2-(Cas5)1-(Cas7)6-(Cas6e)1. Il crRNA maturo di 61

nucleotidi è generato da specifici tagli ad opera della endoribonucleasi Cas6e (riconosciuta anche come CasE) a livello delle sequenze ripetute del trascritto pre-crRNA, ossia Cas6e si lega all’ 8° nucleotide all’estremità 5’ tramite un gruppo idrossilico, a 32 nucleotidi e a 21 nucleotidi sulla struttura a forcina all’ estremità 3’ attraverso gruppi fosfato 2’-3’ ciclico. Successivamente al taglio, Cas6e rimane legata alla struttura a forcina in 3’ e si assemblano ad essa Cas5 (conosciuto come Cas5e o CasD) a livello dell’ estremità 5’ e sei copie di Cas7 (anche detto Cse4 o CasC) legate ai protospacers del crRNA. A questa struttura si associano la proteina Cse1 (o CasA) e la proteina dimerica Cse2 (o CasB), definite rispettivamente come la larga subunità e la piccola subunità del sistema Cascade. Entrambe le subunità si legano al DNA ma soprattutto Cse1 riconosce la sequenza del DNA target grazie alla sequenza PAM, un trinucleotide (5’-CAT-3’) che affianca una sequenza del protospacer di 32 nucleotidi. Nella fase finale in cui il complesso Cascade interferisce con il DNA esogeno interviene l’elicasi-endonucleasi Cas3, che recluta e scinde il DNA target (Plagens et al., 2015). 1.3.2 Struttura biologica del sistema CRISPR/Cas di tipo I-A

La tipologia I-A è stata principalmente riconosciuta negli archeobatteri, specie termofili. A differenza del Cas6e del sistema I-E, il Cas6 del sistema di tipo I-A presenta una struttura dimerica insieme a sequenze ripetute e destrutturate di RNA e catalizza una serie di reazioni che generano crRNA maturi liberi. I crRNA sono formati da lunghe catene di 60-70 nucleotidi circa ed in base alla specie queste tendono a variare: dai 38 nucleotidi ai 44 nucleotidi nel Sulfolobus solfataricuse 37 nucleotidi o 57 nucleotidi nel

Thermoproteus tenax. L’ estremità 3’ del crRNA è spesso privo di proteine e ciò

dimostra la debole interazione del Cas6 con il complesso crRNP diversamente dalla Cascade del sistema di tipo I-E. Molto probabilmente il core del Cascade del tipo I-A è rappresentato dalla multimerizzazione delle unità del Cas7 che formano una struttura ad elica lungo i crRNA e interagiscono con Cas5. Le subunità grandi e piccole del sistema

(16)

P a g in a

1

di tipo I-A coincidono rispettivamente con Cas8a e Cas5, il quale nei Thermoproteus

tenaxlega preferibilmente DNA a singolo filamento (ssDNA). Cas3, in questo sistema, è

composto da due proteine, contenenti otto elicasi (Cas3’) e un dominio nucleasico (Cas3”) implicate nel riconoscimento del DNA esogeno da eliminare (Plagens et al., 2015).

1.3.3 Struttura biologica del sistema CRISPR/Cas di tipo I-B

Il sistema di tipo I-B è presente sia negli archeobatteri e sia negli eubatteri e mostrano alcune caratteristiche simili ai sistemi di tipo I-A e I-C. I crRNA vengono maturati da endonucleasi Cas6b a livello del nucleotide 8 all’ estremità 5’, 36-40 nucleotide dello spacer e all’ estremità 3’attraverso un tag di minimo 2 nucleotidi. Questo sistema contiene, inoltre, Cas7 e Cas5 che interagiscono con Cas6b per formare il complesso Cascade. La subunità grande è composta da una proteina sottotipo specifica Cas8b, avente una piccola subunità fusa all’ estremità C-terminale. Anche in questo processo vi è la elicasi-nucleasi Cas3, che occasionalmente si riarrangia in due discrete subunità (Plagens et al., 2015).

1.3.4 Struttura biologica del sistema CRISPR/Cas di tipo I-C

Il sistema di tipo I-C è stato ritrovato in varie specie batteriche, principalmente nel gruppo dei Firmicutes. A differenza del sistema di tipo I-E e I-A, il sistema I-C utilizza Cas5 (conosciuto anche come Cas5d) nel taglio dei pre-crRNA e genera crRNA maturi, che continuano ad aver legato Cas5d all’estremità 3’ a forcina. Il complesso Cascade di tipo I-C contiene anche tutte le unità di Cas7 (dette Csd2) e una larga subunità Cas8 (conosciuta come Cas8c o Csd1). Un’analisi computazionale predice una fusione tra la subunità larga e piccola della proteina Cas8 a livello della sua estremità C-terminale omologa alla subunità piccola Cse2 del tipo I-E. Come ultimo step, interviene sempre Cas3 (Plagens et al., 2015).

1.3.5 Struttura biologica del sistema CRISPR/Cas di tipo I-D

Il sistema di tipo I-D è stato riscoperto maggiormente nei cyanobatteri e nelle specie eu-archeobatteri. Nei cyanobatteri la proteina Cas3, come in tutti i sottotipi del sitema di tipo I, è presente anche in questo meccanismo di tipo I-D ma è accompagnata anche dalla proteina Cas10, presente nel sistema CRISPR-Cas di tipo III-B. Come nei tipi I-A e I-B vi è Cas6 che taglia i pre-crRNA affinché maturino in crRNA e resta legata all’estremità 3’ del pre-crRNA fino alla fine del taglio. Dalla cristallizzazione delle proteine Cas7 del sistema I-D della specie Thermofilum pendens sembrano che esse abbiano uguale struttura a tutte le altre proteine Cas7, implicati nei sistemi degli altri

(17)

P a g in a

1

2

sottotipi, ed inoltre presenta un’attività legante ssRNA. Esiste un’altra proteina Csc1, raggruppata recentemente nella famiglia delle Cas5. La grande subunità nel complesso a Cascade del sottotipo I-D è associata alla proteina Cas10d, la quale presenta un dominio endonucleasico simile a quello di Cas3 (Cas 3”) e elicasico simile a Cas3’ (Plagens et al., 2015).

1.3.6 Struttura biologica del sistema CRISPR/Cas di tipo I-F

Il sistema CRISPR/Cas di tipo I-F è presente in pochi organismi batterici, tra cui i Gammaproteobatteri. La maturazione del crRNA è realizzata da una endoribonucleoproteina sito-specifica Cas6f (conosciuta come Csy4) che lega all’ estremità 3’ della crRNA, affinché sia protetta e si formi il complesso crRNP Cascade del sottotipo I-F. Il Cascade consiste in quattro proteine Cas: (Csy1)1-(Cas5)1-(Cas7)6

-(Cas6f)1. La struttura di crRNA è formata dalle sei copie di Cas7 (conosciute come

Csy3), all’ estremità 5’ è legata Cas5, all’estremità 3’vi è Cas6f. Si presume che Csy1 abbia il ruolo della grande e della piccola subunità per riconoscere e legare il DNA esogeno. Infine Cas3 sembrerebbe avere un dominio simile alla proteina Cas2 fusa all’estremità N-terminale, formando così un complesso Cas2-Cas3 che lega Csy1, mostrando i tipici domini di nucleasi e di elicasi (Plagens et al., 2015).

(18)

P a g in a

1

3

Figura 6. Strutture dei sottotipi del sistema CRISPR/Cas di tipo I. Immagine tratta da “FEMS Microbiology Reviews”.

(19)

P a g in a

1

4

1.4 Il sistema CRISPR/Cas di tipo III

1.4.1 Struttura biologica del sistema CRISPR/Cas di tipo III-A

Simile al sistema CRISPR/Cas di tipo I, il tipo III è presente in un’ampia varietà di batteri filogeneticamente diversi. La composizione del complesso del sistema di tipo III presenta una serie di proteine Cas, avente un motivo conservato che riconosce RNA target (RRM). I crRNA di tipo III sono processati inizialmente da un Cas6, generalmente presente a livello del nucletotide 8 all’ estremità 5’. A differenza del sistema di tipo I e II, non c’è la presenza della tripletta PAM durante l’ associazione tra il complesso crRNP e il DNA. Il sistema di tipo III-A propone il complesso Csm, derivante da Sulfolobus Solfataricus, composto da otto diverse proteine (Csm2)3

-(Csm3.1)1-(Csm3.2)4-(Csm3.3)1-(Cas10)1-(Csm3.4)1-(Csm4)1-(Csm3.5)1. Le subunità

di Csm3 insieme alla subunità di Csm4 forma il complesso legante crRNA. Si pensa che Cas10 e il trimero Csm2 svolgano il ruolo della grande e piccola subunità (Plagens et al., 2015).

In Thermus Thermophilus ci sono sei Csm3, due Csm4 e una proteina Csm5 a formare il complesso crRNP. Questo complesso è molto particolare poiché si lega sia in vivo che

in vitro a sequenze complementari di ssRNA, affinché si effettui il taglio (Staals et al.,

2014). Mentre in Staphylococcus epidermidis, il sistema di tipo III-A mostra come target un DNA plasmidico di fagi termolabili in condizioni trascrizione-dipendente (Marraffini and Sontheimer, 2008; Goldberg et al., 2014).

1.4.2 Struttura biologica del sistema CRISPR/Cas di tipo III-B

Il complesso Cmr del sistema III-B è stato analizzato del batterio Thermus thermophilus e mostra una stechiometria di (Cmr1)1-(Cas10)1-(Cmr3)1-(Cmr4)4-(Cmr5)3-(Cmr6)1. La

composizione di crRNP è fatta da Cmr3 e molteplici copie di Cmr4. La subunità grande e piccola è formata da Cas10 e tre subunità di Cmr5. Il sistema di tipo III-B ha come target esclusivamente ssRNA e non sequenze di DNA complementari a crRNA (Plagens et al., 2015).

Figura 7. Il sistema CRISPR/Cas di tipo III. Immagine tratta da “Nature Reviews Microbiology”

(20)

P a g in a

1

5

1.5 Il sistema CRISPR/Cas9 di tipo II

Il sistema CRISPR associato alla proteina Cas9 è tra i sistemi più studiati e più utilizzati nel campo del “gene editing” poiché sembra essere il più semplice ed economico rispetto agli altri tipi di sistemi adottati nel genome editing. I vantaggi che il sistema CRISPR/Cas9 ha portato nell’ingegneria genetica sono dati dalla capacità di comprendere le diverse funzioni che il gene d’interesse svolge poiché questo metodo è in grado di reprimere/attivare l’espressione del gene, modificare triplette o singole basi del gene, effettuare knock-out di un gene, modificare più geni alla volta. Modificazioni a livello del gene di interesse fornisce potenziali applicazioni terapeutiche. Nonostante gli innumerevoli benefici, il sistema CRISPR/Cas9 presenta due problemi: valutare il miglior metodo di trasfezione del sistema all’interno di linee cellulari di studio e disegnare in modo specifico sgRNA per il gene d’interesse evitando eventuali off-targets.

Il sistema CRISPR/Cas9 di tipo II è costituito dai loci CRISPR (ricordiamo che sono dei protospacers distanziati da piccole sequenze ripetute) e i gene Cas: Cas1-Cas2-Csn2-Cas9 (Plangens et al., 2015). I geni Cas1 e Cas2 esprimono nucleasi capaci di acquisire nuovi spacers (una volta che il batterio viene a contatto con un nuovo batteriofago o plasmide). Cas1 è una endonucleasi metallo-dipendente che catalizza il taglio di un DNA a doppio filamento (dsDNA), o di un DNA a singolo filamento (ssDNA) (John van der Oost et al., 2014). La struttura cristallografica della proteina omodimerica Cas1 permette di identificare una porzione ammino-terminale a forma di foglietto β mentre una porzione carbossi-terminale ad α-elica. Il dominio C-terminale contiene un sito legante ioni metallici bivalenti contenente residui basici carichi positivamente, responsabili nella degradazione del DNA in vitro e nell’acquisizione dei nuovi spacers

in vivo (John van der Oost et al., 2014). Cas2 è una nucleasi metallo-dipendente, avente

una struttura β1α1β2β3α2β4, in cui due α-eliche sono posizionate insieme su una faccia

dei quattro foglietti β. Differenti loops presenti nella struttura dimostrerebbero diverse preferenze di substrato: il loop che connette α2 a β4 lega RNA, il loop che unisce β1 a α1

lega DNA. Recenti studi hanno rivelato che Cas1-Cas2 formano un complesso che interagisce con il locus CRISPR, poiché permette l’acquisizione di nuovi protospacers (John van der Oost et al., 2014). Anche il gene Csn2 esprime una proteina tetramerica che lega frammenti di DNA all’interno di una cavità centrale carica positivamente. Molto probabilmente, Csn2 svolge un ruolo accessorio durante l’acquisizione di nuovi

(21)

P a g in a

1

6

spacers: stabilizza il DSB durante l’integrazione del protospacer. Adiacente ai geni Cas, compare un’atipica famiglia di small non-coding RNA, trans-activating RNAs (tracrRNAs), le quali reclutano i crRNA prodotti dai loci CRISPR e finemente processati da RNAsi endogene (RNAsi III) fino a formare un ibrido tracrRNA:crRNA chiamato sgRNA (single-guide RNA), pronto ad appaiarsi in modo complementare al DNA target, silenziandolo. Infatti l’estremità 5’ della tracrRNA si appaia all’estremità 3’ del crRNA dando vita al sgRNA, che riconosce a livello del DNA esogeno una tripletta specifica, la sequenza PAM (5’-NGG-3’) adiacente ad una sequenza di 20nucleotidi complementare al crRNA. A questo punto interviene la proteina Cas9 (ruolo di elicasi e endonucleasi), che insieme al sgRNA produce una ribonucleoproteina capace di effettuare un taglio a doppio filamento a livello della sequenza target.

Analizzando dei saggi per la competizione del taglio, si è notato che esiste una perfetta complementarietà tra sgRNA e DNA a livello di 12 nucleotidi (verso l’estremità 5’) presenti nella PAM-prossimale, all’interno dei quali vi è la “seed region” in cui

Figura 8.Processo del sistema CRISPR/Cas9 di tipo II. Immagine tratta dal sito “Addgene”.

avviene il taglio mentre nei rimanenti 8 nucleotidi (verso l’estremità 3’) vi sono dei mismatches presenti nella zona della PAM-distale. Dopo il riconoscimento della sequenza PAM, Cas9 inizia la formazione di un R-loop all’ estremità 3’ del sgRNA immediatamente adiacente al sito PAM permettendo lo srotolamento del DNA esogeno (Jiang et al., 2015).

La proteina Cas9 contiene due domini nucleasici RuvC e HNH, implicati rispettivamente nel taglio del DNA non complementare e del DNA complementare del sito target. Il dominio RuvC è strutturato in tre sottodomini mentre il dominio HNH presenta un singolo dominio. L’ architettura della proteina Cas9 è bilobata, ossia il lobo

(22)

nucleasico (NUC) rappresentato dai domini HNH e RuvC e il lobo ad alfa

Prima che il Cas9 leghi o il DNA target o il sgRNA presenta il sito attivo del dominio HNH inibito dal dominio RuvC e posizionato lontano dal

dell’heteroduplex RNA

bloccando l’azione della proteina Cas9. Una volta che crRNA si lega al Cas9, si ha un cambio conformazionale delle nucleasi che si attivano, creando u

il legame tra DNA:RNA. Il dominio HNH utilizza uno ione metallico durante il taglio del DNA target complementare grazie al

utilizza due ioni metallici nel momento del taglio (Jiang et al.,

In generale, Cas9 e sgRNA rappresentano le componenti essenziali del sistema CRISPR/Cas9 coinvolto nel genome editing: sgRNA contribuisce nel riconoscimento della sequenza PAM (5’

endonucleasico, principalmente 3nucleotidi prima della sequenza PAM (GN GGN15-18NGG).

Successivamente al taglio, la cellula tenta di riparare il DSB tramite due metodiche: NHEJ, ossia il nonhomologous end joining, è un meccanismo error

delle mutazioni indel (inserzioni e/o delezioni) a livello del taglio oppure il metodo HDR, homology-directed repair, che viceversa corregge il DSB

di inserimento di nuove mutazioni

Figura 9.Il sistema CRISPR/Cas9 di tipo II

nucleasico (NUC) rappresentato dai domini HNH e RuvC e il lobo ad alfa

Prima che il Cas9 leghi o il DNA target o il sgRNA presenta il sito attivo del dominio HNH inibito dal dominio RuvC e posizionato lontano dal lobo NUC, inoltre il legame dell’heteroduplex RNA-DNA è inibito stericamente dall’estremità C

bloccando l’azione della proteina Cas9. Una volta che crRNA si lega al Cas9, si ha un cambio conformazionale delle nucleasi che si attivano, creando un canale che permette il legame tra DNA:RNA. Il dominio HNH utilizza uno ione metallico durante il taglio del DNA target complementare grazie al ββα-metal ion motifs, mentre il dominio RuvC utilizza due ioni metallici nel momento del taglio (Jiang et al., 2015).

In generale, Cas9 e sgRNA rappresentano le componenti essenziali del sistema CRISPR/Cas9 coinvolto nel genome editing: sgRNA contribuisce nel riconoscimento della sequenza PAM (5’-NGG-3’) mentre la proteina Cas9 permette il taglio

rincipalmente 3nucleotidi prima della sequenza PAM (GN

Successivamente al taglio, la cellula tenta di riparare il DSB tramite due metodiche: NHEJ, ossia il nonhomologous end joining, è un meccanismo

error-mutazioni indel (inserzioni e/o delezioni) a livello del taglio oppure il metodo directed repair, che viceversa corregge il DSB riducendo la probabilità di inserimento di nuove mutazioni.

Figura 9.Il sistema CRISPR/Cas9 di tipo II. Immagine tratta dal sito “parts.igem.org”.

P a g in a

1

7

nucleasico (NUC) rappresentato dai domini HNH e RuvC e il lobo ad alfa-elica (REC). Prima che il Cas9 leghi o il DNA target o il sgRNA presenta il sito attivo del dominio lobo NUC, inoltre il legame DNA è inibito stericamente dall’estremità C-terminale, bloccando l’azione della proteina Cas9. Una volta che crRNA si lega al Cas9, si ha un n canale che permette il legame tra DNA:RNA. Il dominio HNH utilizza uno ione metallico durante il taglio metal ion motifs, mentre il dominio RuvC

2015).

In generale, Cas9 e sgRNA rappresentano le componenti essenziali del sistema CRISPR/Cas9 coinvolto nel genome editing: sgRNA contribuisce nel riconoscimento 3’) mentre la proteina Cas9 permette il taglio rincipalmente 3nucleotidi prima della sequenza PAM (GN16-19NGG o

Successivamente al taglio, la cellula tenta di riparare il DSB tramite due metodiche: -prone che inserisce mutazioni indel (inserzioni e/o delezioni) a livello del taglio oppure il metodo riducendo la probabilità

(23)

Figura 10.I sistemi di riparazione cellulare:

1.5.1 I sottotipi del sistema CRISPR/Cas9 di tipo II (II

Il sistema CRISPR/Cas9 di tipo II è modulato da tre sottotipi II

Strutturalmente sembrano avere tutte e tre il dominio nucleasico HNH, il dominio nucleasico RuvC e un motivo ricco di arginina, che permettono all’ intero complesso di assumere una conformazione di tipo globulare (Makarova et al., 2006, 2011; Chylinski, Le Rhun and Charpentier 2013; Koonin and Makarova 2013; Sampson et al., 2013). Sebbene siano presenti queste similarità, le principali differenze sono rappresentate dalla presenza o assenza a livello genomico dei geni

A possiede il gene Csn2 non contiene né il gene

delle piccole diversità: attraverso degli studi strutturali l’ enzima Cas9 del sottotipo II A, ricavato da Streptococcus Py

amminoacidi circa, mentre il Cas9 del sottot

(nominato AnaCas9) è costituito da 1000 amminoacidi circa. Nonostante ciò sia SpyCas9 che AnaCas9, prima di legare il sito target o sgRNA, mostrano la tipica architettura bilobata, il lobo nucleasico (NUC) rappresentato

C-terminale e il lobo ad alfa

Figura 10.I sistemi di riparazione cellulare: NHEJ&HDR. Immagine tratta dall’articolo del “Nature Protocols”.

1.5.1 I sottotipi del sistema CRISPR/Cas9 di tipo II (II-A,II-B,II-C) Il sistema CRISPR/Cas9 di tipo II è modulato da tre sottotipi II

Strutturalmente sembrano avere tutte e tre il dominio nucleasico HNH, il dominio nucleasico RuvC e un motivo ricco di arginina, che permettono all’ intero complesso di una conformazione di tipo globulare (Makarova et al., 2006, 2011; Chylinski, Le Rhun and Charpentier 2013; Koonin and Makarova 2013; Sampson et al., 2013). Sebbene siano presenti queste similarità, le principali differenze sono rappresentate a o assenza a livello genomico dei geni Cas4 e Csn2. Infatti, il sottotipo II

Csn2, il sottotipo II-B contiene il gene Cas4 mentre il sottotipo II

non contiene né il gene Cas4 e né il gene Csn2. Inoltre, anche la proteina Cas9 mostra delle piccole diversità: attraverso degli studi strutturali l’ enzima Cas9 del sottotipo II

Streptococcus Pyogenes (nominato SpyCas9), è costituita da 1400

amminoacidi circa, mentre il Cas9 del sottotipo II-C del Actinomyces Naeslundii (nominato AnaCas9) è costituito da 1000 amminoacidi circa. Nonostante ciò sia SpyCas9 che AnaCas9, prima di legare il sito target o sgRNA, mostrano la tipica architettura bilobata, il lobo nucleasico (NUC) rappresentato dai domini HNH e RuvC e

terminale e il lobo ad alfa-elica (REC), agendo similarmente (Jiang et al., 2015).

P a g in a

1

8

. Immagine tratta dall’articolo

C)

Il sistema CRISPR/Cas9 di tipo II è modulato da tre sottotipi II-A, II-B, II-C. Strutturalmente sembrano avere tutte e tre il dominio nucleasico HNH, il dominio nucleasico RuvC e un motivo ricco di arginina, che permettono all’ intero complesso di una conformazione di tipo globulare (Makarova et al., 2006, 2011; Chylinski, Le Rhun and Charpentier 2013; Koonin and Makarova 2013; Sampson et al., 2013). Sebbene siano presenti queste similarità, le principali differenze sono rappresentate Infatti, il sottotipo II-mentre il sottotipo II-C . Inoltre, anche la proteina Cas9 mostra delle piccole diversità: attraverso degli studi strutturali l’ enzima Cas9 del sottotipo

II-s (nominato SpyCaII-s9), è coII-stituita da 1400

Actinomyces Naeslundii

(nominato AnaCas9) è costituito da 1000 amminoacidi circa. Nonostante ciò sia SpyCas9 che AnaCas9, prima di legare il sito target o sgRNA, mostrano la tipica dai domini HNH e RuvC e elica (REC), agendo similarmente (Jiang et al., 2015).

(24)

Figura 11. Struttura genica dei tre sottotipo del sistema CRISPR/Cas9 di tipo II

Figura 12. Struttura cristallografica di SpyCas9

1.5.2 Problemi del sistema CRISPR/Cas9

Nonostante il sistema CRISPR/Cas9 sia stato valutato come un sistema innovativo, semplice ed economico nel campo del gene editing presenta due problematiche importanti.

Primo problema: individuare e ottimizzare il miglior metodo di trasfezione del sistema CRISPR/Cas9 all’interno delle linee cellulari di studio.

Secondo problema: selezionare il sito target e disegnare nel miglior modo possibile il sgRNA in modo da evitare eventuali siti off

contenente la sequenza 5’

quindi legami aspecifici. Inoltre i siti off

Cas9 tollera i vari mismatches nella sequenza del sgRNA: i mismatches presenti al 5’

Figura 11. Struttura genica dei tre sottotipo del sistema CRISPR/Cas9 di tipo II tratta dall’articolo del “MMBR”.

Struttura cristallografica di SpyCas9. Immagine tratta dall’ articolo sul sito “sciencemag.org”.

sistema CRISPR/Cas9

Nonostante il sistema CRISPR/Cas9 sia stato valutato come un sistema innovativo, semplice ed economico nel campo del gene editing presenta due problematiche

: individuare e ottimizzare il miglior metodo di trasfezione del sistema CRISPR/Cas9 all’interno delle linee cellulari di studio.

: selezionare il sito target e disegnare nel miglior modo possibile il sgRNA in modo da evitare eventuali siti off-target, poiché qualsiasi sequenza di DNA contenente la sequenza 5’-NGG-3’potrebbe essere un possibile sito target, producendo quindi legami aspecifici. Inoltre i siti off-targets dipendono anche da quanto la proteina

Cas9 tollera i vari mismatches nella sequenza del sgRNA: i mismatches presenti al 5’ Pa

g

in

a

1

9

Figura 11. Struttura genica dei tre sottotipo del sistema CRISPR/Cas9 di tipo II. Immagine

. Immagine tratta dall’ articolo sul sito

Nonostante il sistema CRISPR/Cas9 sia stato valutato come un sistema innovativo, semplice ed economico nel campo del gene editing presenta due problematiche

: individuare e ottimizzare il miglior metodo di trasfezione del sistema

: selezionare il sito target e disegnare nel miglior modo possibile il target, poiché qualsiasi sequenza di DNA 3’potrebbe essere un possibile sito target, producendo targets dipendono anche da quanto la proteina Cas9 tollera i vari mismatches nella sequenza del sgRNA: i mismatches presenti al 5’

(25)

P a g in a

2

0

del sgRNA sono tollerati meglio rispetto a quelli del 3’ del sgRNA, in cui vi è la “seed region” (Jiang et al., 2015).

1.5.3 Risoluzioni deiproblemi del sistema CRISPR/Cas9

Il primo problema può essere risolto identificando quale sia il miglior approccio, tra elettroporazione o utilizzo di agenti chimici o agenti virali, capace di rendere l’efficienza di trasfezione superiore al 70% (Grobarczyk et al., 2015).

All’ interno del nostro laboratorio del Dipartimento di Genetica del Prof. Landi e Prof.ssa Gemignani, abbiamo potuto determinare, tramite la tecnica del FACS (Fluorescence-activated cell sorting) la capacità dell’agente chimico Lipofectamine3000 della ditta Thermofisher Scientific (Lipofectamine® Transfection Reagent) di trasfettare le linee cellulari prese in esame con una resa di trasfezione maggiore anche dell’ 80% ed una vitalità cellulare abbastanza elevata (linea cellulare HCT 116+/+ una vitalità cellulare dell’84.7%; linea cellulare Nthy-Ori del 98.4%)

Il secondo problema, invece, è stato risolto grazie alla presenza di numerosi software che permettono di disegnare il miglior sgRNA per il sito target e, inoltre, innumerevoli tools che permettono di ricercare il numero e i possibili off-targets (Ma et al., 2014). WTSI Genome Editing (http://www.sanger.ac.uk/htgt/wge/), E-CRISPR ( http://www.e-crispr.org/E-CRISP), Genome engineering resources ( www.genome-engineering.org/crispr/), RGEN tools (http://www.rgenome.net/), ZiFiT TARGETER software (http://zifit.partners.org/ZiFiT/) , GT-SCAN ( http://gt-scan.braembl.org.au/gt-scan/), e CHOPCHOP (http://chopchop.rc.fas.harvard.edu) sono solo alcuni esempi di tools bioinformatici open source messi a disposizione per la predizione in silico delle migliori gRNA.

Inoltre sono state proposte ulteriori strategie per ridurre gli off-targets (Ma et al., 2014):

• utilizzare una versione mutata del Cas9 che è in grado di produrre un singolo taglio (SSB). In questo caso si possono sviluppare due varianti: o utilizzare un Cas9 mutato (D10A) capace direttamente di tagliare un solo filamento di DNA o utilizzare due Cas9 mutati (Cas9 nickase) aventi due sgRNA per creare un nick su un filamento e uno sul filamento opposto, i quali se abbastanza ravvicinati producono un DSB. Da quest’ultima variante si otterrebbe sempre la normale alterazione del genoma, sfruttando però come sistema di riparazione HDR e diminuendo gli off-targets e le possibili mutazioni indel.

(26)

P a g in a

2

1

È stata stimata che questa strategia del doppio nick aumenti di 1500 volte circa la specificità sito target;

• selezionare un buon sito bersaglio, aumentando coppie di basi GC (fino al 70%) si potrebbe migliorare l’ibridazione e tollerare di più i mismatches;

• ridurre il numero di sgRNA e Cas9;

• troncare al 3’ il tracrRNA e aggiungere GG al 5’;

• creare sgRNA privo di 2/3 nucleotidi al 5’, riducendo il numero di mismatches tollerati;

• usare Cas9 mRNA/proteina e sgRNA invece di vettori di espressione di Cas9 e sgRNA potrebbero ridurre le interazioni random e aspecifiche del sgRNA con il DNA genomico poiché Cas9 mRNA/proteina e sgRNA hanno una vita più breve all’interno della cellula;

• utilizzare un CRISPR dimerico, guidato anche dalla nucleasi FokI (nucleasi presente nei sistemi ZFNs e TALENs), poiché la fusione di dCas9 a FokI permette di ottenere la proteina fCas9 che, sfruttando due sgRNA, sembri funzionare come il Cas9 nickase.

1.5.4 Il sistema CRISPR/Cas9 vs TALENs e ZFNs

Ancor prima di intraprendere la strada del sistema CRISPR/Cas9, l’ingegneria genetica tentava di modificare il genoma umano tramite due metodiche: Zinc-finger nuleases (ZFN) e Transcription activator-like effector nucleases (TALEN).

Le Zinc-finger nucleasi sono formate da due domini proteici: un dominio zinc-finger che permette il legame del fattore di trascrizione (avente il tipico motivo zinc-finger: un atomo di Zn coordinato da due residui di cisteina e due residui di istidina) con il DNA target avente 9-18 paia di basi, e un dominio nucleasico composto dall’enzima di restrizione FokI che dimerizza e taglia uno specifico sito di restrizione.

Il sistema TALEN consiste in un dominio endonucleasico (FokI) fuso al dominio dei transattivatori dei fattori di trascrizione, composto quest’ultimo dai 33 ai 35 amminoacidi e a livello del 12° e 13° amminoacido vi sono dei residui variabili ripetuti (repeats-variable diresidues, RVDs) che permettono di riconoscere anche un singolo nucleotide della sequenza target da tagliare (Boch et al., 2010). Nonostante la presenza e l’utilizzo pregresso di queste due tecniche, il sistema CRISPR/Cas9 tende a prendere sempre più il sopravvento poiché presenta molti più vantaggi. Prima di tutto è molto più economico rispetto al sistema TALENs e ZFNs, che invece sembrano essere molto più

(27)

P a g in a

2

costosi e più scrupolosi nella produzione. Mentre il sistema CRISPR/Cas9 è più semplice da programmare, molto più efficiente e per ultima cosa, ma più importante, permette di effettuare contemporaneamente un gene editing multiplo costruendo più sgRNAs per l’unica proteina Cas9. L’unico problema che il sistema CRISPR/Cas9 potrebbe causare rispetto alle metodiche TALENs e ZFNs è la presenza dei siti off-targets dettati da un

sgRNA molto più piccolo rispetto ai fattori di trascrizione degli altri due sistemi, aumentando quindi la probabilità legami aspecifici a livello del DNA (Perkel 2013).

(28)

P a g in a

2

3

Capitolo 2: Tumore tiroideo

2.1 Generalità

La tiroide è una piccola ghiandola a forma di farfalla, impari, localizzata nella regione anteriore del collo. È costituita da due lobi connessi fra loro da uno stretto ponte chiamato istmo.

Figura 13. Anatomia della tiroide. Immagine tratta dal sito della “Dott.ssa Daniela Visconti”.

La tiroide è una ghiandola con una struttura follicolare che secerne due componenti endocrine: la prima produce ormoni tiroidei (Triiodotironina T3 e Tiroxina T4), immagazzinati all’ interno dei follicoli; mentre le cellule C o parafollicolari, posizionati all’ esterno dei follicoli, producono la calcitonina. La funzione di questa ghiandola è regolata dall’ipofisi, piccola ghiandola situata nel cranio, che agisce sulla tiroide mediante l’ormone TSH (thyroid stimulating hormone). L’ esatta funzionalità della ghiandola richiede un appropriato apporto di iodio, la cui carenza è sintomo della comparsa del gozzo normale o nodulare.

Il carcinoma tiroideo è considerata una neoplasia rara, in quanto costituisce il 2% di tutti i tumori.

(29)

P a g in a

2

4

Si può manifestare a tutte le età, con una massima incidenza tra i 25 e i 60 anni e con una maggiore prevalenza nel sesso femminile (12.5/100000 donne; 4.1/100000 uomini)(AIRC 2014).

I possibili fattori di rischio per lo sviluppo del tumore sono:

• L’esposizione a radiazioni ionizzanti soprattutto durante l’infanzia e la fase adolescenziale;

• La suscettibilità genetica è responsabile di circa 1/4 dei carcinomi tiroidei;

• Patologia benigna della tiroide (ad esempio gozzo nodulare o multinodulare);

• Ormoni sessuali: data la maggiore prevalenza di questa tipologia di tumore nelle donne, ci potrebbero essere delle cause ormonali;

• Dieta: la mancanza cronica di iodio potrebbe essere responsabile dell’ insorgenza del carcinoma follicolare della tiroide, mentre un eccesso di iodio potrebbe portare alla manifestazione del carcinoma papillifero tiroideo.

Solo il 3-5% dei noduli tiroidei isolati rappresentano forme tumorali.

I trattamenti, che possono essere adottati affinché si possa completamente eliminare il tumore, possono essere:

- di natura chirurgica: si esegue una totale asportazione della tiroide tramite la tiroidectomia, a volte si può ricorrere ad una tiroidectomia parziale nei casi in cui vi sono piccoli carcinomi papilliferi solitari (< 1cm);

- di natura non chirurgica: solitamente dopo l’intervento di tiroidectomia viene consigliata una particolare radioterapia, definita ablazione, con radioiodio (Iodio-131).

Per particolari carcinomi aggressivi, oltre alla terapia radiante, viene consigliata una chemioterapia.

2.2 Istotipi del tumore tiroideo

La forma più comune di adenocarcinoma tiroideo si genera sia a carico delle cellule follicolari che ricoprono il ruolo di storage degli ormoni tiroidei e sia a livello di mutazioni del recettore dell’ormone TSH.

Nel caso della tiroide, l’adenocarcinoma più diffuso è quello ad istotipo papillare-PTC (oltre il 75% dei casi) e poi quello follicolare-FTC (circa il 15% dei casi).

Vi sono altre forme tumorali a livello delle cellule parafollicolari, definite carcinoma midollare della tiroide MTC (meno del 5% dei casi).

(30)

P a g in a

2

5

Una forma di neoplasia tiroidea molto aggressiva, in grado di generare metastasi a distanza è il carcinoma anaplastico della tiroide ATC (meno dell’1% dei carcinomi tiroidei).

Dal punto di vista molecolare, i diversi istotipi del tumore tiroideo sono generati principalmente da mutazioni presenti in quei geni implicati nell’espressione di tirosin-chinasi, coinvolte nelle reazioni a cascata di fosforilazione del pathway delle MAPK (mitogen-activated protein kinase). Come è mostrato nella tabella 1, è possibile associare una particolare mutazione di un gene all’insorgenza di una neoplasia tiroidea (Handkiewicz-Junaka et al., 2010):

Gene Istotipo neoplastico tiroideo

RET/PTC PTC e linfomi

BRAF (proto-oncogene)

promuove e regola la proliferazione tumorale di tipo PTC e ATC

RAS è coinvolta nel 50% dei casi in FTC, tra 0-15% dei casi in PTC e nel 19% dei casi in adenomi follicolari (FA) tiroidei

MEK-ERK ½ PTC

PI3K/AKT FTC e FA

PAX8/PPARγ FTC nel 35-47% dei casi,

FA nel 13% dei casi

PTEN FTC nel 7% dei casi,

ATC nel 12-50 % dei casi, PTC nel 2% dei casi

β-catenina ATC

P53 ATC nel 55-88% dei casi

MET proto-oncogene

PTC circa nel 50% dei casi

EGFR PTC

E-caderina PTC e FTC

permette la transizione PTC->ATC

(31)

P a g in a

2

6

2.3 Epidemiologia

Il carcinoma tiroideo è l’unico dei pochi tumori la cui incidenza è aumentata notevolmente negli ultimi anni. Nel 2012 sono stati diagnosticati in tutto il mondo più di 200.000 casi di tumore alla tiroide di cui ben 56.000 nei soli Stati Uniti. Il tumore tiroideo è 2-4 volte più frequente nelle donne (7 su 10 con una prognosi di cancro sono donne) e la fascia di età in cui appare questo tipo di carcinoma è tra i 20-55 anni (Cancro della tiroide Nozioni di base, www.thyca.org).

Tramite l’agenzia IARC (International Agency for Research on Cancer), appartenente all’organizzazione WHO (World Health Organization), sono stati approssimativamente registrati i nuovi casi di tumore tiroideo rispetto ad altri tipi di tumore in tutto il mondo sia tra donne e sia tra uomini, in un intervallo di tempo di 2003-2007 (IARC 2014):

Tabella 2. Incidenza del tumore tiroideo nel periodo 2003-2007 (x100.000)

Come si evince dal grafico, nel sesso femminile è più frequente il tumore alla tiroide mentre nell’uomo è meno presente. Inoltre dal 2003 all’anno 2007 vi è stato un incremento circa dello 0.01%, ciò sta a significare che il tumore alla tiroide diventa una neoplasia sempre più diagnosticata, nonostante i livelli di mortalità tendono a rimanere molto bassi.

È stata riscontrata una maggiore frequenza in paesi come l'Islanda, le isole Hawaii, le Filippine e il Giappone rispetto all'Europa del Nord, agli Stati Uniti o al Canada; così come anche nelle persone caucasiche rispetto alle persone africane.

Pertanto il carcinoma tiroideo viene considerata una patologia multifattoriale, influenzata sia da fattori genetici che ambientali.

0 20 40 60 80 100 120 2003 2004 2005 2006 2007 In c id e n z a Anno Uomini Donne Uomini&Donne

(32)

P a g in a

2

7

Capitolo 3: La galectina-3

3.1 La struttura della galectina-3 e del gene LGALS3

Le galectine sono una famiglia di lectine, che riconoscono e legano zuccheri contenenti unità β-galattosidiche coniugate a proteine o lipidi di membrana. Sono stati identificati 14 membri nella famiglia delle galectine, clonati e classificati in tre sottogruppi in base alle loro proprietà strutturali e al numero di sequenze CRD (carbohydrate recognition domain): proto-type (galectina-1,-2,-5,-7,-10,-11,-13 e -14); chimera-type (galectina-3); tandem repeat-type (galectina-6,-8,-9 e -12). È stato indicato che tutti questi membri potrebbero avere differenti ruoli nei vari pathway biologici (Nakahara et al., 2005). La galectina-3 è l’unica glicoproteina a struttura chimera-type di 31KDa codificata dal gene LGALS3, che mappa sul braccio lungo del cromosoma 14 (14q21-22) ed è costituita da tre domini strutturali (Nakahara et al., 2005):

• un dominio N-terminale di 12 amminoacidi, che contiene un sito di fosforilazione a livello di una Serina-6, che regola il target cellulare della molecola;

• una sequenza collagene-like ripetuta, ricca di residui amminoacidici di glicina, tirosina e prolina, utilizzati come substrato per le metalloproteinasi della matrice cellulare (MMPs). Questa sequenza è compresa nel dominio N-terminale generando così un dominio ammino-terminale di circa 100-150 amminoacidi;

• un dominio C-terminale di 130 amminoacidi, che contiene una singola sequenza di CRD, responsabile del legame della galectina-3 al suo specifico carboidrato (Brewer et al., 2004).

È stato dimostrato che la modifica post-traduzionale, fosfo/defosforilazione, a livello della Serina-6 gioca un ruolo di “switch on/off” nel riconoscere il suo zucchero specifico e nel modulare l’interazione proteina-carboidrato. Infatti, la forma fosforilata della galectina-3 esibisce una notevole riduzione di affinità con il suo ligando, mentre la forma defosforilata recupera la capacità di legame della galectina-3 con il ligando (Nakahara et al., 2005).

Il gene LGALS3 rappresenta in ugual modo la struttura multi-dominio della proteina codificata ed è costituito da 6 esoni e 5 introni. L’ esone I codifica la porzione non tradotta 5’ UTR dell’mRNA, l’esone II codifica per la porzione rimanente 5’UTR, il sito di inizio traduzione con i primi sei amminoacidi inclusa la metionina iniziale. La

(33)

P a g in a

2

8

porzione N-terminale della proteina è codificata dall’esone III, mentre l’esone IV,V e VI codifica per la porzione C-terminale, in cui è presente il motivo CRD.

Figura 14. mRNA del gene LGALS3 e struttura della proteina galectina-3

3.2 Localizzazione e funzioni della galectina-3

La galectina-3 (Gal-3)è una glicoproteina implicata in diverse attività cellulari, quali crescita cellulare, differenziamento e adesione cellulare, splicing di mRNA, apoptosi, cancerogenesi, angiogenesi e metastasi (Takenaka et al., 2004). Questa lectina svolge la sua funzione sia in condizioni normali cellulari e sia in condizioni patologiche.

In condizioni normali, viene secreta da diversi tipi cellulari, tra cui macrofagi, monociti, cellule dell’epitelio gastrointestinale, cellule dell’epitelio respiratorio e renale, mentre in condizioni patologiche viene espressa nel tumore al pancreas, al colon, alla mammella, alla prostata, al cervello e a livello di carcinomi tiroidei (Krzeslak and Lipinska 2004). 3.2.1 La galectina-3: fattore anti-apoptotico

La galectina-3 è localizzata sia a livello intracellulare che extracellulare, svolgendo così diverse funzioni in base al ligando “bersaglio”.

In particolare, la proteina viene sintetizzata dai ribosomi liberi nel citoplasma, luogo in cui ha principalmente sede. Essa sembra interagire con la proteina anti-apoptotica Bcl2, permettendo la traslocazione di quest’ultima verso la membrana esterna mitocondriale, l’inibizione del rilascio del citocromo c e, di conseguenza, l’inibizione delle caspasi effettrici. In realtà questa interazione è straordinariamente sorprendente poiché Bcl2 non è una glicoproteina. Infatti, la lectina esibisce un motivo di quattro amminoacidi Asn-Trp-Gly-Arg (NWGR) nel dominio C-terminale, condivisa anche dai membri della famiglia Bcl2 (Liu and Rabinovich, 2005). Il motivo NWGR è simile al motivo

anti-death che si trova nel dominio BH-1 di Bcl2. È perciò possibile che questa sequenza

(34)

P a g in a

2

9

interazione con Bcl2. Ma è stato dimostrato che, in alcuni casi, il legame della galectina-3 con molecole di lattosio, comporta un cambio di conformazione di regioni funzionali della galectina-3, prevenendo l’interazione con il fattore anti-apoptotico. Quindi, stanno proseguendo degli studi più approfonditi affinché possano comprendere al meglio questa possibile interazione. Ad ogni modo, la lectina potrebbe sostituire o mimare la proteina anti-apoptotica grazie alla presenza del motivo NWGR.

Inoltre, la galectina-3 si lega anche ad un’altra proteina citoplasmatica, la sinexina, favorendo la sua attività anti-apoptotica poiché asseconda sempre l’inibizione del rilascio del citocromo c (Nakahara et al., 2005).

A livello intracellulare, la galectina-3 lega proteine associate alla membrana lisosomiale (LAMP 1 e LAMP 2), le quali tendono ad esprimersi prevalentemente in cellule tumorali (Krzeslak and Lipinska 2004).

È stato identificato anche un legame tra galectina-3 e Alix/AIP1, il quale molto probabilmente, blocca una forma di morte cellulare programmata chiamata parapoptosi. Infine, è stato recentemente dimostrato il legame tra galectina-3 e K-Ras. K-Ras è una piccola GTPasi che controlla il signalling apoptotico, quindi il link che si crea tra la galectina-3 e questa piccola proteina potrebbe vedere coinvolta la galectina-3 nell’arresto dell’apoptosi (Nakahara et al., 2005).

3.2.2 La galectina-3: regolatore della proliferazione cellulare

E’ stata identificata una diretta interazione Gal-3/integrina, che potrebbe negativamente o positivamente modulare l’attivazione delle integrine (proteine di membrana).

E’ stato infatti dimostrato che la galectina-3 è in grado di interagire, tramite un cross-linker interno, all’antigene CD98, che regola l’attivazione delle integrine. CD98 interagisce a livello delle subunità β delle integrine e dimerizzando promuove il loro signalling citoplasmatico. Quindi, il ruolo della galectina-3 è quello di promuovere la dimerizzazione di CD98, nel momento in cui si crea il link tra i due, e attivare anche indirettamente le integrine, le quali sono coinvolte nel movimento cellulare, differenziamento cellulare, proliferazione cellulare.

Alternativamente, la galectina-3 è localizzata anche a livello del nucleo, dove è in grado di interferire con la regolazione del ciclo cellulare e quindi la proliferazione cellulare. Si pensa che questa glicoproteina si comporti da shuttle tra il nucleo e il citoplasma, tramite delle sequenze segnale riconosciute dalle importine ed esportine (Haudek et al., 2010).

(35)

P a g in a

3

0

La galectina-3 interagisce con il fattore TTF-1 (thyroid-specific transcription factor), stimolando l’attività trascrizionale di TTF-1 e di conseguenza la proliferazione delle cellule tiroidee. A livello nucleare, questa lectina lega degli elementi SP1 e CRE siti nel promotore della ciclina D1 (un regolatore del ciclo cellulare nella fase G1 inziale) promuovendo la proliferazione e arrestando l’apoptosi (Nakahara et al., 2005). A tal proposito, contemporaneamente all’attivazione della ciclina D1, la galectina-3 attiva delle proteine inibitrici dei complessi ciclina-chinasi: p21 e p27 (membri della famiglia CIP), le quali inibiscono le cicline E-A arrestando la fase G1 tardiva del ciclo cellulare e modulando la proliferazione cellulare (Krzeslak and Lipinska 2004).

Figura 15. Attività intracellulare della galectina-3. Immagine tratta dall’articolo “On the role of galectin-3 in cancer apoptosis”.

Inoltre, è stata scoperta un’interazione tra le due lectine galectina-3 e CBP70 (carbhohydrate binding protein70) a livello nucleare, stimolando le cellule sia tumorali che che non nel differenziamento (Hadj Saharaoui et al., 1996).

Inoltre, la galectina-3 interagisce con Gemin-4, componente di un complesso macromolecolare di 15 polipeptidi, implicato sia direttamente che indirettamente nei processi relativi lo splicing di pre-mRNA (Krzeslak and Lipinska 2004).

La Galectina-3 presenta all’estremità ammino-terminale una piccola sequenza segnale, che favorisce un meccanismo non-classico di secrezione della proteina a livello extracellulare, deviando quindi la sua traslocazione all’interno del reticolo endoplasmatico/apparato del Golgi. Questa piccola sequenza segnale comprende i

(36)

P a g in a

3

1

residui amminoacidici 89-96 (Tyr-Pro-Ser-Ala-Pro-Gly-Ala-Tyr) che si fondono con una proteina normalmente citosolica CAT (chloramphenicol acetyltransferase), inducendo la galectina-3 ad uscire dalla cellula (Krzeslak and Lipinska 2004).

Una volta secreta, la proteina lega le componenti glicosilate della matrice extracellulare, includendo laminina, fibronectina, tenascina e proteine leganti Mac-2.

Essa è in grado di svolgere sia un’attivazione che una inibizione del ligando laminina e probabilmente ciò può dipendere o dalla sua concentrazione o dai livelli di glicosilazione delle molecole leganti la matrice cellulare (Krzeslak and Lipinska 2004). La presenza della glicoproteina galectina-3 a livello della superficie cellulare è presumibilmente implicata nel mediare le interazioni cellula-cellula e/o cellula-matrice

(Sawangareetrakul et al., 2008).

3.2.3 La galectina-3 e le metastasi

La formazione di metastasi a partire da un tumore primario è un meccanismo molecolare multigenico e multistep, in cui sono coinvolti interazioni cellula-cellula e cellula-matrice.

Il processo viene articolato, come riportato da Takenaka e collaboratori(2004), in otto fasi:

1. crescita di cellule tumorali nel sito primario 2. sviluppo di angiogenesi nel sito primario 3. distacco di cellule maligne dal sito primario 4. invasione della matrice extracellulare

5. disseminazione di cellule tumorali attraverso vie ematiche o linfonoidali 6. formazione di embolia a livello di capillari

7. processi extravasali