Reverse Engineering al codului sursă al vaccinului SARS-CoV-2 BioNTech/Pfizer

Nota traducătorului

Bună. Înainte de orice, mulțumesc Florinei Raicu pentru răspunsuri la întrebările din chimie și genetică. Dacă aveți observații referitoare la corectitudinea traducerii - în principal legat de chimie și biologie, trimiteți un mesaj autorului original. Titlul original este Reverse Engineering the source code of the BioNTech/Pfizer SARS-CoV-2 Vaccine, autorul fiind Bert Hubert.

Ultima modificare: 2021-01-03 18:00:00

Timp necesar: 20 de minute

TLDR: nu avem

Bun venit! În această postare vom vedea codul sursă al vaccinului BioNTech/Pfizer SARS-CoV-2 bazat pe ARNm.


Doresc să mulțumesc unui mare număr de persoane care au citit acest articol pentru a asigura corectitudinea științifică și lizibilitatea. Toate greșelile mi se datorează, dar le-aș dori corectate cât mai rapid, așa că mă puteți contacta la bert@hubertnet.nl sau @PowerDNS_Bert.


Această abordare ar putea părea greșită - vaccinul este un lichid injectat în braț. Cum putem totuși vorbi despre cod sursă?

Este o întrebare legitimă, deci să începem prin a vedea o mică parte a codului vaccinului BioNTech/Pfizer cunoscut sub numele de BNT162b2, zis și Tozinameran, zis și Comirnaty.

Primele 500 de caractere ale BNT162b2 (WHO)

Vaccinul BNT162b este bazat pe acest cod care poate fi considerat digital, numeric. Are o lungime de 4284 caractere, astfel încât ar avea loc în câteva ciripituri (pe Twitter). La începutul procesului de producție al vaccinului, cineva a încărcat acest cod într-o imprimantă de ADN (da, există), care a convertit aceșți bytes în molecule de ADN.

[N. specialistului: imprimanta ADN din text este de fapt un sintetizator de oligonucleotide. Există și imprimantă pentru ADN, însă ea nu creează fragmente ci le depune pe o membrană de nylon. Este modalitatea prin care rezultă stripurile pentru testare reverse dot-blot.]

O imprimantă de ADN Codex BioXp 3200

Dintr-o asemenea mașinărie rezultă mici fragmente de ADN, care după mai multe procese biologice și chimice sfârșesc ca ARN (mai multe mai târziu) în flacoanele folosite pentru vaccinare. O doză de 30 de micrograme conține 30 de micrograme de ARN. Pe lângă ARN, vaccinul conține și un sistem de împachetare al ARN bazat pe lipide, scopul său fiind să ducă ARNm în celule

ARN este memoria volatilă, 'memoria de lucru' a ADN. ADN în biologie este precum memoria flash. ADN stochează informație pe o perioadă mare de timp, este sigur și are redundanță. Și, asemenea calculatoarelor, codul nu se rulează de pe memoria de stocare (flash) - înainte de orice operație, codul este copiat într-un sistem mai rapid, mai versatil dar în același timp mai fragil.

În cazul calculatoarelor, aceasta este memoria RAM; în biologie aceasta este ARN. Asemănarea este surprinzătoare. Spre deosebire de memoria flash, conținutul memoriei RAM se degradează rapid dacă nu este administrată. Motivul pentru care vaccinul Pfizer/BioNTech trebuie păstrat la temperatură atât de joasă este același - și ARNm este fragil.

Fiecare caracter ARNm are o masă de 0.53·10⁻²¹ grame, ceea ce înseamnă că există 6·10¹⁶ caractere într-o doză de 30 de micrograme. Exprimat în bytes reprezintă aproximativ 14 petabytes, dar trebuie specificat faptul că de fapt sunt ~13000 de miliarde de copii ale acelorași 4284 de caractere. Conținutul vaccinului, din punct de vedere al informației, este de puțin peste 1 KByte. Virusul SARS-CoV-2 are doar 7.5 KBytes.


Actualizare: în versiunea originală numerele erau greșite. Aici se găsește un spreadsheet (.xlsx) cu calculele corecte.

ADN este un cod digital. Spre deosebire de calculatoare, care folosesc 0 și 1, viața folosește A, C, G, și U/T ('nucleotide' sau 'baze').

În calculatoare 0 și 1 sunt stocate ca prezența sau absența încărcăturii electrice, ca o stare magnetică, ca voltaj, ca o modulație a unui semnal sau ca o schimbare a reflexiei optice. Pe scurt, 0 și 1 nu sunt un concept abstract ci electroni (cel mai frecvent) sau alte reprezentări fizice.

În natură, A, C, G și U/T sunt molecule, stocate în ADN (sau ARN).

În calculatoare, 8 biți sunt grupați într-un byte și un byte este unitatea tipică procesată.

În natură sunt grupate 3 nucleotide într-un codon, acesta fiind unitatea de procesare în viață. Un codon conține 6 biți de informație (2 biți pe caracter ADN și 3 caractere înseamnă 6 biți). Aceasta înseamnă 2⁶ = 64 posibile valori pentru un codon.

Asemănător cu calculatoarele, nu? Dacă aveți dubii, puteți consulta și documentul WHO cu codul digital.


Mai multe informații sunt disponibile aici - acest link ('What is life') v-ar putea ajuta să înțelegeți restul informațiilor. Sau, dacă preferați varianta video, există și cea, cu un film de două ore.

Scopul unui vaccin este de a învăța sistemul imunitar cum să lupte cu un patogen, fără ca noi să ne îmbolnăvim. Istoric, aceasta se realizează prin injectarea unui virus atenuat și un adjuvant care să treacă sistemul imunitar în modul de acțiune. Aceasta era o tehnică asemănătoare cu tehnologia analogică, implicând milioane de ouă. La care se adăuga un factor aleator - norocul și un timp lung. Uneori era folosit chiar un alt virus.

Vaccinul bazat pe ARNm obține același efect (educarea sistemului imunitar), dar într-un mod comparabil cu un laser - puternic și concentrat într-un punct.

Iată deci cum funcționează. Injecția conține material genetic volatil care descrie faimoasa proteină 'Spike' a SARS-CoV-2. Prin reacții chimice, materialul genetic al vaccinului este transportat în celule.

Acestea, conform instrucțiunilor, produc proteine Spike SARS-CoV-2 în cantități suficient de mari încât sistemul imunitar intră în acțiune. Confruntat cu proteinele Spike și semnalele că celulele au fost deturnate, sistemul imunitar dezvoltă un răspuns împotriva proteinelor Spike și a procesului de producție a lor.

Astfel vaccinul are o eficiență de 95%.

Începem cu începutul, care este un loc bun pentru începerea călătoriei. Documentul WHO are o imagine care ajută în această călătorie:

Această imagine poate fi considerată un fel de cuprins. Vom începe cu zona numită 'cap' (engl cap - capac, șapcă, bască), reprezentată chiar ca o șapcă. [N. specialistului: În limba română se folosește tot termenul 'cap' sau 'bonetă'. Probabil putem folosi chiar și termenul 'bască', dacă vrem.] Această zonă este o parte funcțională extrem de importantă în stabilizarea și protecția moleculei.

Așa cum nu se pot pune instrucțiuni într-un fișier care apoi să fie rulat, la fel și sistemul de operare biologic are nevoie de un început și conține convenții pentru apelare.

Codul vaccinului începe cu două nucleotide:

GA

Acestea pot fi comparate cu executabilele DOS sau Windows (care încep cu MZ) sau scripturile Unix (care încep cu #!). Aceste două caractere nu sunt executate nici în viață și nici de sistemele de operare. Dar trebuie să fie acolo, altfel nu se va întâmpla nimic.

Începutul secvenței ARNm are mai multe funcții; între altele marchează codul ca având ca sursă nucleul. În cazul nostru nu este așa, sursa fiind vaccinul dar celula nu are nevoie să cunoască acest lucru. Acest mod de identificare anunță celula că acest cod este legitim și împiedică distrugerea lui.

Cele două nucleotide GA fac ca acest ARNm să fie ușor diferit chimic de restul ARN. Astfel, putem considera că nucleotidele GA conțin și informații de semnalizare.

Urmează câteva aspecte tehnice. Moleculele de ARN pot fi citite într-o singură direcție. Deși pare ciudat, partea de unde începe citirea se numește 5'. Citirea se încheie la 3'.

Viața este construită pe proteine (sau pe substanțe rezultate din proteine). Proteinele sunt descrise de ARN. Transformarea ARN în proteine poartă numele de translație (engl translation); pentru acest proces se mai folosește termenul 'traducere', transcripția fiind trecerea informației din ADN genomic în ARN.

Iată cum arată regiunea 5' netranslatată (engl UTR - untranslated region), aceasta nefiind convertită în proteină:

GAAΨAAACΨAGΨAΨΨCΨΨCΨGGΨCCCCACAGACΨCAGAGAGAACCCGCCACC

Aici întâlnim prim asurpriză. Caracterele care descriu ARN sunt A, C, G, U (în cazul ADN, U este înlocuit de T). Dar aici găsim un Ψ, deci se întâmplă ceva.

Acesta este unul din aspectele geniale ale vaccinului. Corpul uman are un antivirus extrem de puternic. Din acest motiv celulele umane nu sunt foarte dornice să primească ARN străin și fac tot ce le stă în putință pentru a îl distruge înainte de a fi interpretat.

Aceasta este o problemă a vaccinului bazat pe ARNm - trebuie să treacă de sistemul imunitar. După ani de cercetare și experimente s-a determinat că dacă U din ARN este înlocuit cu o moleculă ușor diferită, sistemul imunitar nu mai este interesat de ARN-ul străin.

Deci în vaccinul BioNTech/Pfizer U a fost înlocuit de 1-metil-3’-pseudouridil (engl 1-methyl-3’-pseudouridylyl), notat Ψ. Această moleculă Ψ liniștește sistemul imunitar și este acceptată ca o moleculă normală de diversele părți ale celulei.

În telecomunicații se poate uneori transmite o versiune ușor coruptă a mesajului care poate trece de firewalluri, fiind acceptată de servere, care pot fi compromise din punct de vedere al securității.

Iată deci beneficiile cercetării fundamentale efectuată până acum. Cei care au descoperit tehnica Ψ au luptat pentru a primi finanțare și a fi acceptate rezultatele. Cu toții ar trebui să le mulțumim și sunt sigur că un premiu Nobel va ajunge la ei.


Multe persoane s-au întrebat dacă și virusurile ar putea folosi tehnica Ψ pentru a păcăli sistemul nostru imunitar. Pe scurt, este extrem de improbabil. Viața nu are mecanismele de a construi nucleotidele Ψ. Virușii se bazează pe componente ale celulei pentru a se reproduce iar acest mecanism nu există. Vaccinul ARNm se degradează rapid în corp și nu există posibilitatea ca ARN-ul modificat cu Ψ să se multiplice folosind tot Ψ. O lectură interesantă este și 'No, Really, mRNA Vaccines Are Not Going To Affect Your DNA'.


Să ne întoarcem la 5’ UTR. Ce fac aceste 51 de caractere? Așa cum se întâmplă în natură, nimic nu are o funcție clară prestabilită.

Când celulele încep translatarea ARN în proteine, aceasta se realizează folosind un agregat numit ribozom. Acesta poate fi asemănată unei imprimante 3D pentru proteine. Primește la intrare ARN-ul și pe baza lui generează o serie de aminoacizi care vor forma o proteină.

Sursa Wikipedia user Bensaccount

Acest proces se poate vedea în filmul de mai sus. Banda neagră din partea de jos este ARN. Banda din zona verde este proteina care este construită. Ceea ce intră și iese sunt aminoacizi și adaptori care se potrivesc cu ARN-ul.

Ribozomul trebuie să aibă contact fizic cu ARN-ul pentru ca mecanismul să funcționeze. Odată realizat contactul, se pot genera proteine pe baza ARN care trece prin ribozom. De aici se vede că nu se pot genera proteine începând cu zona de contact; aceasta este, deci, una din funcțiile UTR: să asigure contactul inițial cu ribozomul.

În plus, UTR conține și metadate: când să înceapă translația? Cât să dureze? Pentru vaccin a fost folosit cel mai urgent semnal descoperit în UTR - cel din gena alfa globinei, această genă producând o serie de proteine. În ultimii ani oamenii de știință au găsit, de asemenea, o mulțime de modalități de optimizare a UTR deci de fapt nu este UTR originală, a alfa globinei. Este, mai degrabă, un upgarde.

Așa cum am scris mai sus, scopul vaccinului este de a convinge celulele să producă mari cantități de proteină Spike a virusului SARS-CoV-2. Până acum am întâlnit metadate și convenții de apelare (engl calling convention) în codul sursă al vaccinului. Intrăm acum pe teritoriul proteinei virale.

Dar mai avem un nivel de metadate de parcurs. Odată ce ribozomul a construit o proteină, ea trebuie să meargă undeva. Destinația este scrisă în peptida semnal a glicoproteinei S/spike (engl S glycoprotein signal peptide - extended leader sequence). Această peptidă are legătură cu transferul și exprimarea proteinei Spike, după sinteză.

Începutul proteinei poate fi văzut ca o etichetă cu adresa destinatarului, introdusă ca parte a proteinei. În acest caz, peptida semnal spune că proteina trebuie să părăsească celula prin reticulul endoplasmatic. Mai interesant chiar și decât jargonul tehnic din Star Trek! :)

Peptida semnal nu are un cod foarte lung, dar dacă îl privim vedem diferențe între ARN viral și cel al vaccinului (pentru o comparație corectă a fost înlocuit Ψ cu U):

           3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3
Virus:   AUG UUU GUU UUU CUU GUU UUA UUG CCA CUA GUC UCU AGU CAG UGU GUU
Vaccin:  AUG UUC GUG UUC CUG GUG CUG CUG CCU CUG GUG UCC AGC CAG UGU GUU
               !   !   !   !   ! ! ! !     !   !   !   !   !

Totuși, ce se întâmplă aici? ARN nu a fost accidental organizat în grupuri de 3 litere. Aceste 3 caractere care aparțin ARN formează un codon iar fiecare codon conține informații despre un anume aminoacid. Peptida semnal a vaccinului constă în aceiași aminoacizi ca ai virusului.

Dar totuși de ce este diferit ARN-ul?

Există 4³=64 codoni diferiți deoarece sunt doar patru caractere pentru ARN și fiecare codon are câte trei. Dar există numai 20 de aminoacizi. Aceasta înseamnă că mai mulți codoni pot genera același aminoacid.

Viața folosește acest tabel universal pentru corespondența codon - aminoacizi:

Tabela de codoni ARN (Wikipedia)

În acest tabel se poate vedea că modificările din vaccin sunt sinonime (de exemplu UUU și UUC). Codul ARN al vaccinului este diferit dar rezultatul este asamblarea aceleiași proteine.

Dacă ne uităm cu atenție putem vedea că majoritatea schimbărilor au loc pe a treia poziție a codonului, notată cu '3'. Dacă verificăm tabela codonilor, vedem că a treia poziție în general nu contează pentru aminoacidul produs.

Deci, dacă schimbările sunt sinonime, de ce sunt acolo? Dacă studiem cu atenție, vedem că toate schimbările, cu excepția uneia, conțin mai multe C și G.

De ce ar face cineva asta? Așa cum s-a văzut mai sus, sistemul nostru imunitar privește rapid ARN-ul și determină dacă acel cod ARN provine din exterior. Pentru a evita detecția, U a fost înlocuit cu Ψ.

Dar, s-a observat că ARN-ul cu mai multe C și G este convertit mai eficient în proteine.

Creșterea eficienței a fost realizată și în vaccinul ARN prin înlocuirea cât mai multor caractere cu C și G, oriunde a fost posibil.


Sunt fascinat de una din schimbările care nu au dus la un C sau G adițional, modificarea CCA -> CCU. Dacă este cineva care cunoaște motivul, mi-aș dori să îl aflu. Rețineți că știu faptul că unii codoni sunt mult mai frecvenți în genomul uman, dar din lecturile de până acum nu a rezultat că această modificare ar crește viteza de translatare.

Următoarele 3777 de caractere ale vaccinului sunt de asemenea codoni optimizați prin adăugarea unui număr mare de C și G. Din motive de spațiu nu va fi inclus tot codul mai jos ci ne vom concentra pe o porțiune specială. Aceasta este de fapt partea care face ca vaccinul să funcționeze, care ne va permite să ne întoarcem la viața normală:

                  *   *
          L   D   K   V   E   A   E   V   Q   I   D   R   L   I   T   G
Virus:   CUU GAC AAA GUU GAG GCU GAA GUG CAA AUU GAU AGG UUG AUC ACA GGC
Vaccin:  CUG GAC CCU CCU GAG GCC GAG GUG CAG AUC GAC AGA CUG AUC ACA GGC
          L   D   P   P   E   A   E   V   Q   I   D   R   L   I   T   G
           !     !!! !!        !   !       !   !   !   ! !

Observăm modificările de ARN sinonime. De exemplu, vedem că în primul codon CUU este înlocuit cu CUG. Acesta adaugă un G la vaccin, care știm că ajută la creșterea producției de proteine. Atât CUU cât și CUG sunt folosite pentru aminoacidul 'L', deci nu este nici o schimbare în proteină.

Dar când comparăm întreaga proteină din vaccin, toate schimbările sunt sinonime... mai puțin două și acestea pot fi văzute mai sus.

Al treilea și al patrulea codon reprezintă modificări reale. Aminoacizii K și V sunt înlocuiți cu 'P' sau Proline. 'K' necesită trei schimbări ('!!!') și 'V' necesită doar două ('!!').

Se pare că aceste modificări cresc eficiența vaccinului.

Deci, ce se întâmplă? Dacă ne uităm la particula SARS-CoV-2 se poate vedea proteina Spike și un număr de asemelea proteine:

Particule virus SARS (Wikipedia)

Aceste cârlige se află pe corpul virusului (nucleocapsida). Dar vaccinul generează doar cârlige care nu se vor atașa de corpul nici unui virus.

Cercetarea a arătat că în cazul în care nu este modificată, proteina Spike se transformă într-o proteină cu o altă structură. Dacă este injectată ca vaccin, corpul nostru ar dezvolta imunitate... însă pentru proteina modificată.

În cazul în care apoi ar apărea SARS-CoV-2 real, vaccinul cu ar fi extrem de eficient.

Deci ce e de făcut? În 2017 a fost prezentat modul în care substituția dublă Proline la locul potrivit ar face ca proteinele SARS-CoV-1 și MERS S să păstreze configurația anterioară fuziunii, chiar și fără a fi parte a virusului. Funcționează pentru că Proline este un aminoacid extrem de rigid. El acționează ca un schelet, stabilizând proteina în starea în care este prezentată sistemului imunitar.

Cei care au făcut această descoperire ar trebui să se felicite singuri, constant. Ar trebui să fie aroganți și ar avea și motive pentru atitudine.

Actualizare! Am fost contactat de laboratorul McLellan, unul din grupurile care au descoperit Proline. Mi-au spus că au amânat 'bătutul palmei' din cauza pandemiei, dar sunt mulțumiți pentru contribuția avută la vaccin. Au insistat asupra importanței altor grupuri de cercetători și voluntari.

Dacă vom continua să analizăm ce mai conține codul sursă, vom mai găsi câteva schimbări la finalul proteinei Spike:

          V   L   K   G   V   K   L   H   Y   T   s
Virus:   GUG CUC AAA GGA GUC AAA UUA CAU UAC ACA UAA
Vaccin:  GUG CUG AAG GGC GUG AAA CUG CAC UAC ACA UGA UGA
          V   L   K   G   V   K   L   H   Y   T   s   s
               !   !   !   !     ! !   !          !

La finalul proteinei găsim un codon 'stop', notat cu litera 's'. Acesta este un mod politicos de a anunța că acela este finalul proteinei. Virusul folosește codonul UAA, vaccinul folosește codonul de stop UGA, fără a se cunoaște un motiv pentru această substituție.

Așa cum ribozomul are nevoie de o secțiune de început la finalul 5', unde găsim 5' UTR, la finalul proteinei se găsește o construcție similară numită 3' UTR.

Se poate scrie mult despre regiunea 3' netranslatată, dar un citat din Wikipedia spune că '3'-UTR joacă un rol crucial în expresia genelor prin influența localizării, stabilității, exportului și eficiența translației ARNm .. în ciuda înțelegerii actuale a zonelor 3'-UTR, ele rămân încă un mister'.

Ceea ce știm cu siguranță este că anumite regiuni 3'-UTR au influență în expresia proteinelor. Conform documentului WHO, vaccinul BioNTech/Pfizer are o zonă 3'-UTR care a fost aleasă din 'the amino-terminal enhancer of split (AES) mRNA and the mitochondrial encoded 12S ribosomal RNA to confer RNA stability and high total protein expression'. În română, s-au inspirat din 3'-UTR al ARN-ului ribozomal 12S din mitocondrii și din 3'-UTR al ARNm al AES, aceste regiuni având o structură mai eficientă în promovarea sintezei proteice. Zic că e bine jucat.

Capătul ARN mesager este poliadenilat (are un număr mare de Adenine). Acesta este un mod de a spune că se încheie cu un număr mare de AAAAAAAAAAAAAAAAAAA.

ARNm poate fi refolosit de mai multe ori, dar pe măsură ce este folosit pierde A de la final. Odată ce ARNm nu mai are A la final, ARNm nu mai este funcțional și este distrus. În acest fel, finalul poly-A este de fapt o protecție la degradare.

Au fost făcute studii pentru a se determina numărul optim de A de la finalul ARNm. Acesta a fost găsit ca fiind aproximativ 120.

VAccinul BNT162b2 se încheie cu:

                                     ****** ****
UAGCAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAGCAUAU GACUAAAAAA AAAAAAAAAA
AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAA

Conține 30 de A, 10 nucleotide de legătură (GCAUAUGACU), urmate de alte 70 de A.

Presupun că ceea ce vedem aici este rezultatul unei optimizări proprietar pentru a crește (din nou) expresia proteinelor.

Cu acestea, știm acum exact ceea ce conține vaccinul BNT162b2 și înțelegem de ce aceste părți sunt acolo:

  • Basca (CAP) se asigură că ARNm se aseamănă cu ARNm obișnuit;
  • O regiune 5' netranslatată (UTR) optimizată;
  • O peptidă semnal pentru a trimite proteina Spike la destinație (copiată în întregime din virusul original);
  • O versiune a proteinei Spike originală, cu două substituții 'Proline' pentru a asigura forma proteinei;
  • O regiune 3' netranslatată (UTR) optimizată și îmbunătățită;
  • un final misterios poly-A cu o zonă de legătură neexplicată;
  • Optimizarea codonilor adaugă o mulține de G și C la ARNm;
  • Folosirea Ψ (1-metil-3’-pseudouridil) în locul U ajută la înșelarea sistemului imunitar, astfel încât ARNm rămâne suficient în celulă pentru a permite sistemului imunitar să învețe.

În 2017 an avut o prezentare de două ore despre ADN, care poate fi urmărită aici. Asemenea acestei pagini, audiența sunt cei din domneiul calculatoarelor.

În plus, întrețin și o pagină despre 'ADN pentru programatori' din 2001.

Ați putea fi interesați și de această prezentare a sistemului imunitar.

Și, în sfârșit, în lista postărilor de pe blog găsiți material legat de ADN, COVID și SARS-CoV-2.

Această secțiune nu este inclusă în articolul original.

Mai jos este redat 'codul sursă' complet al vaccinului Pfizer/BioNTech.

GAGAAΨAAAC ΨAGΨAΨΨCΨΨ CΨGGΨCCCCA CAGACΨCAGA GAGAACCCGC   50
CACCAΨGΨΨC GΨGΨΨCCΨGG ΨGCΨGCΨGCC ΨCΨGGΨGΨCC AGCCAGΨGΨG  100
ΨGAACCΨGAC CACCAGAACA CAGCΨGCCΨC CAGCCΨACAC CAACAGCΨΨΨ  150
ACCAGAGGCG ΨGΨACΨACCC CGACAAGGΨG ΨΨCAGAΨCCA GCGΨGCΨGCA  200
CΨCΨACCCAG GACCΨGΨΨCC ΨGCCΨΨΨCΨΨ CAGCAACGΨG ACCΨGGΨΨCC  250
ACGCCAΨCCA CGΨGΨCCGGC ACCAAΨGGCA CCAAGAGAΨΨ CGACAACCCC  300
GΨGCΨGCCCΨ ΨCAACGACGG GGΨGΨACΨΨΨ GCCAGCACCG AGAAGΨCCAA  350
CAΨCAΨCAGA GGCΨGGAΨCΨ ΨCGGCACCAC ACΨGGACAGC AAGACCCAGA  400
GCCΨGCΨGAΨ CGΨGAACAAC GCCACCAACG ΨGGΨCAΨCAA AGΨGΨGCGAG  450
ΨΨCCAGΨΨCΨ GCAACGACCC CΨΨCCΨGGGC GΨCΨACΨACC ACAAGAACAA  500
CAAGAGCΨGG AΨGGAAAGCG AGΨΨCCGGGΨ GΨACAGCAGC GCCAACAACΨ  550
GCACCΨΨCGA GΨACGΨGΨCC CAGCCΨΨΨCC ΨGAΨGGACCΨ GGAAGGCAAG  600
CAGGGCAACΨ ΨCAAGAACCΨ GCGCGAGΨΨC GΨGΨΨΨAAGA ACAΨCGACGG  650
CΨACΨΨCAAG AΨCΨACAGCA AGCACACCCC ΨAΨCAACCΨC GΨGCGGGAΨC  700
ΨGCCΨCAGGG CΨΨCΨCΨGCΨ CΨGGAACCCC ΨGGΨGGAΨCΨ GCCCAΨCGGC  750
AΨCAACAΨCA CCCGGΨΨΨCA GACACΨGCΨG GCCCΨGCACA GAAGCΨACCΨ  800
GACACCΨGGC GAΨAGCAGCA GCGGAΨGGAC AGCΨGGΨGCC GCCGCΨΨACΨ  850
AΨGΨGGGCΨA CCΨGCAGCCΨ AGAACCΨΨCC ΨGCΨGAAGΨA CAACGAGAAC  900
GGCACCAΨCA CCGACGCCGΨ GGAΨΨGΨGCΨ CΨGGAΨCCΨC ΨGAGCGAGAC  950
AAAGΨGCACC CΨGAAGΨCCΨ ΨCACCGΨGGA AAAGGGCAΨC ΨACCAGACCA 1000
GCAACΨΨCCG GGΨGCAGCCC ACCGAAΨCCA ΨCGΨGCGGΨΨ CCCCAAΨAΨC 1050
ACCAAΨCΨGΨ GCCCCΨΨCGG CGAGGΨGΨΨC AAΨGCCACCA GAΨΨCGCCΨC 1100
ΨGΨGΨACGCC ΨGGAACCGGA AGCGGAΨCAG CAAΨΨGCGΨG GCCGACΨACΨ 1150
CCGΨGCΨGΨA CAACΨCCGCC AGCΨΨCAGCA CCΨΨCAAGΨG CΨACGGCGΨG 1200
ΨCCCCΨACCA AGCΨGAACGA CCΨGΨGCΨΨC ACAAACGΨGΨ ACGCCGACAG 1250
CΨΨCGΨGAΨC CGGGGAGAΨG AAGΨGCGGCA GAΨΨGCCCCΨ GGACAGACAG 1300
GCAAGAΨCGC CGACΨACAAC ΨACAAGCΨGC CCGACGACΨΨ CACCGGCΨGΨ 1350
GΨGAΨΨGCCΨ GGAACAGCAA CAACCΨGGAC ΨCCAAAGΨCG GCGGCAACΨA 1400
CAAΨΨACCΨG ΨACCGGCΨGΨ ΨCCGGAAGΨC CAAΨCΨGAAG CCCΨΨCGAGC 1450
GGGACAΨCΨC CACCGAGAΨC ΨAΨCAGGCCG GCAGCACCCC ΨΨGΨAACGGC 1500
GΨGGAAGGCΨ ΨCAACΨGCΨA CΨΨCCCACΨG CAGΨCCΨACG GCΨΨΨCAGCC 1550
CACAAAΨGGC GΨGGGCΨAΨC AGCCCΨACAG AGΨGGΨGGΨG CΨGAGCΨΨCG 1600
AACΨGCΨGCA ΨGCCCCΨGCC ACAGΨGΨGCG GCCCΨAAGAA AAGCACCAAΨ 1650
CΨCGΨGAAGA ACAAAΨGCGΨ GAACΨΨCAAC ΨΨCAACGGCC ΨGACCGGCAC 1700
CGGCGΨGCΨG ACAGAGAGCA ACAAGAAGΨΨ CCΨGCCAΨΨC CAGCAGΨΨΨG 1750
GCCGGGAΨAΨ CGCCGAΨACC ACAGACGCCG ΨΨAGAGAΨCC CCAGACACΨG 1800
GAAAΨCCΨGG ACAΨCACCCC ΨΨGCAGCΨΨC GGCGGAGΨGΨ CΨGΨGAΨCAC 1850
CCCΨGGCACC AACACCAGCA AΨCAGGΨGGC AGΨGCΨGΨAC CAGGACGΨGA 1900
ACΨGΨACCGA AGΨGCCCGΨG GCCAΨΨCACG CCGAΨCAGCΨ GACACCΨACA 1950
ΨGGCGGGΨGΨ ACΨCCACCGG CAGCAAΨGΨG ΨΨΨCAGACCA GAGCCGGCΨG 2000
ΨCΨGAΨCGGA GCCGAGCACG ΨGAACAAΨAG CΨACGAGΨGC GACAΨCCCCA 2050
ΨCGGCGCΨGG AAΨCΨGCGCC AGCΨACCAGA CACAGACAAA CAGCCCΨCGG 2100
AGAGCCAGAA GCGΨGGCCAG CCAGAGCAΨC AΨΨGCCΨACA CAAΨGΨCΨCΨ 2150
GGGCGCCGAG AACAGCGΨGG CCΨACΨCCAA CAACΨCΨAΨC GCΨAΨCCCCA 2200
CCAACΨΨCAC CAΨCAGCGΨG ACCACAGAGA ΨCCΨGCCΨGΨ GΨCCAΨGACC 2250
AAGACCAGCG ΨGGACΨGCAC CAΨGΨACAΨC ΨGCGGCGAΨΨ CCACCGAGΨG 2300
CΨCCAACCΨG CΨGCΨGCAGΨ ACGGCAGCΨΨ CΨGCACCCAG CΨGAAΨAGAG 2350
CCCΨGACAGG GAΨCGCCGΨG GAACAGGACA AGAACACCCA AGAGGΨGΨΨC 2400
GCCCAAGΨGA AGCAGAΨCΨA CAAGACCCCΨ CCΨAΨCAAGG ACΨΨCGGCGG 2450
CΨΨCAAΨΨΨC AGCCAGAΨΨC ΨGCCCGAΨCC ΨAGCAAGCCC AGCAAGCGGA 2500
GCΨΨCAΨCGA GGACCΨGCΨG ΨΨCAACAAAG ΨGACACΨGGC CGACGCCGGC 2550
ΨΨCAΨCAAGC AGΨAΨGGCGA ΨΨGΨCΨGGGC GACAΨΨGCCG CCAGGGAΨCΨ 2600
GAΨΨΨGCGCC CAGAAGΨΨΨA ACGGACΨGAC AGΨGCΨGCCΨ CCΨCΨGCΨGA 2650
CCGAΨGAGAΨ GAΨCGCCCAG ΨACACAΨCΨG CCCΨGCΨGGC CGGCACAAΨC 2700
ACAAGCGGCΨ GGACAΨΨΨGG AGCAGGCGCC GCΨCΨGCAGA ΨCCCCΨΨΨGC 2750
ΨAΨGCAGAΨG GCCΨACCGGΨ ΨCAACGGCAΨ CGGAGΨGACC CAGAAΨGΨGC 2800
ΨGΨACGAGAA CCAGAAGCΨG AΨCGCCAACC AGΨΨCAACAG CGCCAΨCGGC 2850
AAGAΨCCAGG ACAGCCΨGAG CAGCACAGCA AGCGCCCΨGG GAAAGCΨGCA 2900
GGACGΨGGΨC AACCAGAAΨG CCCAGGCACΨ GAACACCCΨG GΨCAAGCAGC 2950
ΨGΨCCΨCCAA CΨΨCGGCGCC AΨCAGCΨCΨG ΨGCΨGAACGA ΨAΨCCΨGAGC 3000
AGACΨGGACC CΨCCΨGAGGC CGAGGΨGCAG AΨCGACAGAC ΨGAΨCACAGG 3050
CAGACΨGCAG AGCCΨCCAGA CAΨACGΨGAC CCAGCAGCΨG AΨCAGAGCCG 3100
CCGAGAΨΨAG AGCCΨCΨGCC AAΨCΨGGCCG CCACCAAGAΨ GΨCΨGAGΨGΨ 3150
GΨGCΨGGGCC AGAGCAAGAG AGΨGGACΨΨΨ ΨGCGGCAAGG GCΨACCACCΨ 3200
GAΨGAGCΨΨC CCΨCAGΨCΨG CCCCΨCACGG CGΨGGΨGΨΨΨ CΨGCACGΨGA 3250
CAΨAΨGΨGCC CGCΨCAAGAG AAGAAΨΨΨCA CCACCGCΨCC AGCCAΨCΨGC 3300
CACGACGGCA AAGCCCACΨΨ ΨCCΨAGAGAA GGCGΨGΨΨCG ΨGΨCCAACGG 3350
CACCCAΨΨGG ΨΨCGΨGACAC AGCGGAACΨΨ CΨACGAGCCC CAGAΨCAΨCA 3400
CCACCGACAA CACCΨΨCGΨG ΨCΨGGCAACΨ GCGACGΨCGΨ GAΨCGGCAΨΨ 3450
GΨGAACAAΨA CCGΨGΨACGA CCCΨCΨGCAG CCCGAGCΨGG ACAGCΨΨCAA 3500
AGAGGAACΨG GACAAGΨACΨ ΨΨAAGAACCA CACAAGCCCC GACGΨGGACC 3550
ΨGGGCGAΨAΨ CAGCGGAAΨC AAΨGCCAGCG ΨCGΨGAACAΨ CCAGAAAGAG 3600
AΨCGACCGGC ΨGAACGAGGΨ GGCCAAGAAΨ CΨGAACGAGA GCCΨGAΨCGA 3650
CCΨGCAAGAA CΨGGGGAAGΨ ACGAGCAGΨA CAΨCAAGΨGG CCCΨGGΨACA 3700
ΨCΨGGCΨGGG CΨΨΨAΨCGCC GGACΨGAΨΨG CCAΨCGΨGAΨ GGΨCACAAΨC 3750
AΨGCΨGΨGΨΨ GCAΨGACCAG CΨGCΨGΨAGC ΨGCCΨGAAGG GCΨGΨΨGΨAG 3800
CΨGΨGGCAGC ΨGCΨGCAAGΨ ΨCGACGAGGA CGAΨΨCΨGAG CCCGΨGCΨGA 3850
AGGGCGΨGAA ACΨGCACΨAC ACAΨGAΨGAC ΨCGAGCΨGGΨ ACΨGCAΨGCA 3900
CGCAAΨGCΨA GCΨGCCCCΨΨ ΨCCCGΨCCΨG GGΨACCCCGA GΨCΨCCCCCG 3950
ACCΨCGGGΨC CCAGGΨAΨGC ΨCCCACCΨCC ACCΨGCCCCA CΨCACCACCΨ 4000
CΨGCΨAGΨΨC CAGACACCΨC CCAAGCACGC AGCAAΨGCAG CΨCAAAACGC 4050
ΨΨAGCCΨAGC CACACCCCCA CGGGAAACAG CAGΨGAΨΨAA CCΨΨΨAGCAA 4100
ΨAAACGAAAG ΨΨΨAACΨAAG CΨAΨACΨAAC CCCAGGGΨΨG GΨCAAΨΨΨCG 4150
ΨGCCAGCCAC ACCCΨGGAGC ΨAGCAAAAAA AAAAAAAAAA AAAAAAAAAA 4200
AAAAGCAΨAΨ GACΨAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA 4250
AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAA                  4284