Doc. Ing. Zdeněk Sedláček, DrSc.
Univerzita Karlova v Praze, 2. LF a FN Motol, Ústav biologie a lékařské genetiky
Obr. 1 – Obálky speciálních čísel Nature a Science věnovaných genomu člověka
Klíčová slova
lidský genom • sekvenování DNA • exprese genů • genomika • individualizovaná medicína
Úvod
Dosud se během své historie lékařská genetika zabývala převážně syndromy podmíněnými poruchami počtu či struktury chromosomů a monogenními dědičnými chorobami (výrazy vytištěné tučně jsou uvedeny ve slovníčku – Tab. 1). Obě dvě tyto kategorie jsou populačně relativně vzácné. Genetici tuto skutečnost jen neradi připouštěli a lékaři ostatních specializací jí omlouvali svoji často velmi hlubokou neznalostí genetiky.
V současné době se ale situace mění. Je stále více zřejmé, že genetické faktory hrají významnou roli v naprosté většině populačně velmi běžných lidských chorob. A naše dnešní úroveň znalostí genetické informace člověka je příslibem toho, že molekulární mechanismy patogeneze těchto chorob budou brzy odhaleny. To umožní mnohem přesnější diagnostiku a především nahrazení dnešní, často empirické a málo efektivní léčby léčbou cílenou. Medicína se ale také stane mnohem více prediktivní a mnohem více preventivní. Lékařská genetika se proto stává nedílnou součástí všech medicínských oborů. Nastupuje doba, kdy se žádný specialista bez znalostí genetiky neobejde.
Historie a průběh projektu
analýzy lidského genomu
Účinné metody sekvenování DNA byly vyvinuty v druhé polovině 70. let dvacátého století. Záměr sekvenovat celý lidský genom byl poprvé formulován v letech 1985–1986 a již v roce 1990 bylo ve Spojených státech oficiálně zahájeno financování projektu „Human Genome Project“. Ten byl plánován na 15 let, ale technologický pokrok a zejména konkurenční tlak vyvolaný soukromou americkou firmou Celera Genomics vedly k jeho podstatnému urychlení. V červnu 2000 společně oznámili představitelé mezinárodního „veřejného“ konsorcia převážně akademických laboratoří a zástupci firmy Celera dokončení předběžné verze sekvence lidského genomu. A v únoru 2001 byly v časopisech Nature a Science (Obr. 1) zveřejněny články obou týmů s prvními analýzami této sekvence(1, 2) (jsou dostupné na internetu – Tab. 2). Tyto dvě klíčové publikace jsou někdy označovány za nejvýznamnější milníky biologie od popisu dvoušroubovicové struktury DNA v roce 1953.
Mezi daty získanými oběma týmy je několik rozdílů. Různé byly především cesty, kterými byla sekvence genomu získána, a dostupnost dat. Zatímco v mezinárodním projektu byl genom nejprve mapován a pak byly sekvenovány fragmenty DNA lokalizované na jednotlivých chromosomech, Celera použila strategii založenou na fragmentaci celého genomu a finálním počítačovém složení celé sekvence. Data mezinárodního projektu byla a jsou průběžně zveřejňována na internetu, ale sekvence Celery je dostupná pouze předplatitelům. Dnešní verze sekvence lidského genomu není definitivní, protože ještě obsahuje mnoho mezer a nepřesností. Úplná sekvence mezinárodního konsorcia bude známa nejpozději do roku 2003 a měla by obsahovat méně než jednu chybu na 10 000 bází.
===== Lidský genom: co víme =====
===== po prvním čtení =====
Dosavadní analýzy sekvence lidského genomu(1, 2) potvrdily, ale také poopravily řadu našich dosavadních znalostí. Velikost jedné haploidní sady lidských chromosomů je asi 3,2 miliardy párů bází. Jednotlivé chromosomy jsou tvořeny molekulami DNA dlouhými 50–250 miliónů párů bází. Část genomu, která obsahuje většinu genů a na kterou se sekvenování soustředilo, je dlouhá asi 2,95 miliard párů bází. Analýza sekvence ukazuje, že genom člověka obsahuje pouze asi 40 000 genů(3), což je jen 1/3 až 1/2 původně očekávaného a dlouho uváděného počtu (100 000) a také jen 2–3krát více než mají genomy jednodušších bezobratlých organismů, hlístice C. elegans a mušky octomilky (asi 18 000 a 14 000 genů). Komplexita lidského organismu musí být tedy podmíněna jinak, nikoliv pouze větším počtem genů. Podílí se na tom asi především schopnost produkovat více různých proteinů z jednoho genu, komplexní regulace exprese genů a neméně složité vzájemné interakce mezi geny a/nebo jejich proteinovými produkty.
Obsah genů na jednotlivých lidských chromosomech je velmi nerovnoměrný. Nejvyšší hustotu genů mají chromosomy 19 a 22 a nejnižší chromosomy 13 a Y. Absolutně nejvíce genů, asi 3000, je na největším lidském chromosomu 1, nejméně, 250, na chromosomu Y. Nerovnoměrné je i rozložení genů uvnitř chromosomů. S genovou hustotou souvisí také zastoupení jednotlivých bází v DNA: chromosomální úseky bohaté na báze G a C obsahují více genů a úseky bohaté na A a T méně. Největším lidským genem je gen pro svalový protein dystrofin, který je tvořen asi 80 exony a zabírá kolem 2,5 miliónu párů bází DNA krátkých ramének chromosomu X. Gen pro jiný svalový protein, titin, sestává z 23 exonů. Zatímco průměrná délka exonu je něco přes 100 párů bází, introny jsou většinou několik tisíc párů bází dlouhé a některé mohou dosahovat až stovek tisíc párů bází.
Informace pro vznik proteinů je tedy v genomu značně fragmentována a rozptýlena v nadbytku DNA, jejíž smysl není znám. Do RNA je přepisována asi jen třetina lidského genomu. Exony genů kódujících proteiny přitom ale tvoří méně než 1,5 % celkové DNA. Polovina z nekódující DNA, tedy ze zbývajících 98,5 % genomu, je tvořena různými typy opakujících se repetitivních sekvencí. Většina z nich je produktem reverzní transkripce, při níž je podle matrice nějaké RNA vyskytující se v buňce tvořena nová DNA, která se integruje do genomu. Reverzní transkripce tedy má naprosto zásadní vliv na strukturu genomu člověka i dalších organismů(4). Repetitivní sekvence zřejmě hrají důležitou úlohu v evoluci genů a genomů.
Genomy žádných dvou lidí kromě monozygotních dvojčat nejsou identické. Interindividuální variabilita sekvence DNA u člověka dosahuje asi 0,1 %(1, 2). Dnes je k dispozici rozsáhlý a stále rozšiřovaný katalog polymorfismů DNA typu SNP. Tyto a další varianty jsou nesmírně důležité pro další analýzu genomu a velmi pravděpodobně i pro interindividuální rozdíly v predispozici k různým chorobám.
Kromě genomu člověka byly dodnes sekvenovány genomy asi 600 druhů virů, více než 50 druhů baktérií a několika nižších eukaryontních organismů. Hustota genů v těchto studovaných genomech je mnohem vyšší a rovnoměrnější, ale schopnost vytvářet více různých proteinů z jednoho genu a podíl repetitivních sekvencí v genomu jsou u těchto organismů nižší. Funkce proteinového produktu je známa pouze asi u poloviny lidských genů. Celkový počet genových rodin je u člověka podobný jako u hlístice nebo octomilky, ale počet jednotlivých genů – členů genové rodiny – je v lidském genomu často značně zmnožen, zejména u genů hrajících roli v embryonálním vývoji nebo imunitě. Je i možné, že některé geny mohly být horizontálně přeneseny na člověka z baktérií(1, 2, 5).
Výzvy postgenomové éry
Získání sekvence lidského genomu je pouze prvním krůčkem k úplnému pochopení struktury naší genetické informace a přesných molekulárních mechanismů různých fyziologických a patologických procesů. To bude trvat ještě dlouhá desetiletí. Věda spjatá se získáváním sekvence a prvotní analýzou struktury genomů se někdy nazývá strukturní genomika. Ta tvoří východisko pro řadu dalších oborů, které bývají označovány jako funkční genomika, a jejichž cílem je pochopit funkci informace nesené sekvencí genomu. Transkriptomika a proteomika pak studují soubory všech RNA a proteinů, transkriptom a proteom. Uspořádání, analýze a zpřístupnění množství dat plynoucího z těchto oborů se věnuje bioinformatika (Tab. 2).
Před námi je například identifikace kompletní sady všech lidských genů, sestavení katalogu všech variant v genomu a identifikace regulačních sekvencí a pochopení jejich funkce. Klíčem k pochopení funkce genomu je pochopení složitých mechanismů exprese genů. Zatímco kompletní sada genů je až na několik výjimek přítomna v každé buňce lidského těla, v určitém buněčném typu a v určitém okamžiku (vývojové stadium, vnější podmínky atd.) se exprimují pouze některé geny. Ty jsou nejdříve přepsány z DNA do RNA a pak přeloženy z RNA do proteinu. Tyto procesy podléhají složitým regulacím. Exprese lidských genů je doprovázena alternativním sestřihem RNA nebo modifikacemi vzniklých proteinů. Právě tyto mechanismy umožňují tvorbu většího počtu různých proteinů z jednoho genu. Počet možných proteinů tak možná až desetinásobně převyšuje počet lidských genů. Žádný gen ani protein navíc neexistují v buňce osamoceně, ale dále interagují s dalšími geny a proteiny a vnějším prostředím. Konečným projevem exprese genů a interakce genů a jejich proteinových produktů s prostředím pak je určitý fenotyp.
V dlouhodobém horizontu může vést porozumění struktuře genetické informace a procesům exprese genů k zodpovězení tak složitých a fascinujících otázek, jako jsou vznik a evoluce života na naší planetě, minimální počet genů nutný pro fungování živých buněk, řízení a zákonitosti vývoje organismu od oplozeného vajíčka přes bouřlivou embryonální periodu až k senescenci a smrti, mechanismus vzniku a fungování vědomí a podobně. Srovnání genomů člověka a šimpanze může vypovědět o samé podstatě lidské jedinečnosti a studium variability genomu v rámci našeho druhu může přispět k odhalení dávné historie lidského rodu.
Funkční genomika nestojí tváří v tvář řešení uvedených úkolů s prázdnýma rukama. Bouřlivý vývoj biologie a technologický pokrok v mnoha dalších oborech včetně informatiky vybavily dnešní genetiky řadou zcela nových a velmi účinných nástrojů od automatického sekvenování a DNA čipů přes počítačové programy pro analýzu sekvencí až po transgenní zvířata nebo nové techniky přípravy mutant.
Ale nejsou to pouze metody, které se v současné době v biologii a genetice mění. Obrovský přerod prodělává sama strategie a taktika bádání. Dříve převládal takzvaný na hypotéze založený výzkum, kdy badatelé postulovali určitou hypotézu a snažili se ji sérií cílených experimentů potvrdit nebo vyvrátit, často detailním studiem jednoho nebo několika málo genů či jejich produktů. Postgenomová éra přináší nový fenomén automatizovaných experimentů velkého rozsahu, jejichž provádění neslouží k potvrzení žádné předem existující hypotézy, ale ke sběru co největšího objemu dat, která by po počítačové analýze mohla vést k odhalení netušených souvislostí.
===== Genom a výzkum v lékařské genetice =====
Postupně kompletizovaná sekvence lidského genomu způsobuje již několik let zásadní posun v lékařskogenetickém výzkumu(6). Analýza jednotlivých lidských genů začíná ustupovat analýze celých funkčních drah a komplexních systémů. Nesmírně se zjednodušila sama identifikace lidských genů, které jsou dnes již prakticky všechny uvedeny na genomové sekvenci a není nutno je vyhledávat komplikovanými molekulárně biologickými postupy. Od analýzy struktury genů se důraz přesouvá k analýze jejich regulace. Mnoho těchto experimentů je dnes též možno provést na obrazovce počítače, in silico. Těžiště zájmu se také posunuje od etiologie genetických chorob (mutací v genech) směrem k jejich patogenezi (mechanismům vzniku a průběhu chorob).
Hlavní posun v lidské genetice ale nastává od studia monogenních chorob směrem k chorobám multifaktoriálním, jako jsou nádorová onemocnění, srdeční choroby, psychiatrické poruchy, autoimunitní choroby nebo Alzheimerova choroba, které mají pro medicínu ve vyspělých zemích mnohem větší význam z důvodu jejich podstatně vyšší populační frekvence. U těchto chorob je klinický obraz podmíněn kombinací vlivů alel několika vzájemně interagujících genů a zevního prostředí (Obr. 2). Jednotlivé predisponující alely mohou být v populaci relativně časté, protože to nejsou klasické mutace vyřazující gen z funkce, ale spíše polymorfismy, podmiňující jen mírně odlišnou expresi příslušného genu. Identifikace a analýza genů působících v multifaktoriálních chorobách je složitým a obtížným úkolem současné lidské genetiky. Mimo jiné i proto, že multifaktoriální postižení jsou často geneticky heterogenní a ve hře je více různých polygenních systémů (Obr. 2).
Mění se ale i pohled na samotné monogenní choroby. Tam sice převažuje vliv řídící mutace v jednom určitém genu, ale každý gen a každá mutovaná alela se v buňce vyskytují vždy v kontextu s jinými geny a jejich produkty. A právě tento kontext, nazývaný poněkud mlhavě genové pozadí, zodpovídá za často pozorované rozdílné fenotypové projevy nosičů téže mutace, třeba i v rámci jedné rodiny. Výzkum se tedy soustřeďuje na odhalení jednotlivých modifikujících genů a jejich alel, které spolu ovlivňují fenotypový projev řídící mutace (Obr. 2).
Přínos analýzy genomu
pro medicínu
Genetická informace člověka hraje klíčovou roli ve zdraví a nemoci a pochopení role genů a jejich produktů v normálních životních procesech a patogenezi chorob a další znalosti získané genomikou proto zásadně ovlivňují celou medicínu(5, 7, 8).
Zjednodušená identifikace genů a jejich variant podmiňujících jednotlivé nemoci vede k přesné diagnostice chorob nebo k časnému stanovení individuální predispozice k chorobám presymptomaticky, ještě před projevem klinických příznaků a před větším poškozením pacienta chorobou. To umožňuje individualizaci medicíny a cílenou prevenci chorob, případně jejich cílenou terapii. V budoucnu bude u každé choroby možno na základě nalezených mutací nebo na základě profilu exprese genů určit přesný subtyp choroby, prognózu jejího průběhu a optimální léčbu. Identifikace kauzálních genů a pochopení mechanismů chorob současně také mohou pomoci ve vývoji nových léčiv(9) a nových terapeutických postupů včetně genové terapie. Odhalení molekulárních mechanismů chorob již dnes otevírá cesty k přípravě cílených terapií. Příkladem je látka STI571 vyvinutá pro léčbu chronické myeloidní leukémie na základě studia specifických inhibitorů fúzní tyrozinkinázy BCR-ABL přepisované z fúzního genu nově vzniklého na filadelfském chromosomu, translokovaném chromosomu specifickém pro tento typ leukémie(10).
Analýzou genotypu pacienta pro geny kódující proteiny metabolizující a transportující farmaka bude také možno stanovit také prognózu individuální odpovědi sledovaného jedince na různé léky, vybrat nejvhodnější a nejúčinnější medikaci, stanovit optimální dávku a vyhnout se nežádoucím účinkům léků(11). Je například známo, že variantní alely genu TPMT ovlivňují metabolismus, a tím účinnost 6-merkaptopurinu užívaného v léčbě dětských leukémií. Geneticky podmíněná nízká aktivita enzymu TPMT způsobuje toxicitu léku, a vysoká aktivita naopak vyžaduje vysoké dávky(12). Analýza genů a jejich exprese konečně také umožní monitorovat průběh a úspěšnost léčby. Vzhledem ke složitosti genové terapie to bude prostřednictvím individualizace farmakologické léčby pravděpodobně právě farmakogenomika, která jako první zásadně ovlivní terapii chorob.
Katalogizace a nové technické možnosti detekce interindividuální variability již dnes přinášejí revoluci do soudního lékařství a kriminalistiky a uplatňují se i v transplantační medicíně. Katalogy interindividuálních variant v lidském genomu typu SNP se s výhodou využívají také k odhalení genetické podstaty multifaktoriálních chorob. Tyto varianty buď mohou samy přímo představovat predisponující alely, nebo mohou být s těmito alelami v genetické vazbě nebo ve vazebné nerovnováze. Analýza variant v genomu vedla například k identifikaci rizikových alel genu NOD2 u multifaktoriálně podmíněné Crohnovy choroby(13).
Technologický pokrok přitom umožňuje posouvat diagnostiku do časnějších fází vývoje lidského jedince. Dnes už je možná nejen prenatální diagnostika, ale díky molekulárně genetickým technologiím umožňujícím provést vyšetření pouze z jedné buňky také diagnostika preimplantační či dokonce prekoncepční. Podobné citlivé postupy umožňují také monitorovat reziduální chorobu po léčbě leukémie detekcí leukemických buněk v mnohařádovém nadbytku buněk normálních.
Znalost sekvence a funkce virových a mikrobiálních genomů a jejich interakce s hostitelem dovolí stanovit susceptibilitu jedince k nákaze, jak je tomu například u nositelů různých alel chemokinového receptoru CCR5 a infekce HIV, a umožní časnou, citlivou a specifickou diagnostiku infekčních chorob, přípravu nových farmak zasahujících klíčové životní funkce patogenů a také vývoj nových vakcín(14).
Studium genomů nebude mít vliv na kvalitu života lidské populace na naší planetě pouze prostřednictvím medicíny, ale dříve či později snad také přispěje k řešení problémů výživy, biopaliv, likvidace odpadů, stabilizace ekosystémů a boji proti bioterorismu.
===== Potenciální problémy a rizika =====
Jako vše nové přináší s sebou i genomika a zejména na genomice založená individualizovaná medicína řadu problémů(15). Již dnes je velkým problémem časová prodleva mezi možností chorobu diagnostikovat a možností efektivně ji terapeuticky ovlivnit. Na úrovni DNA dokážeme velmi spolehlivě presymptomaticky diagnostikovat například dědičnou predispozici k některým nádorům, ale protože přesně nerozumíme mechanismu vzniku choroby, teprve hledáme nejvhodnější preventivní postupy a kauzální terapie také stále není k dispozici. Dalším problémem genetiky je nízká genetická gramotnost společnosti, ať už pacientů, nebo lékařů, kterou je nutno pro co nejefektivnější využití nových možností pro a odstranění strachu či naopak falešných očekávání dále kultivovat. Genetické otázky jsou velmi citlivé a často se týkají více osob v rodině nebo i ve vzdálenějším příbuzenstvu. Otázkou proto někdy je důvěrnost informací a to, jakým zájmům se má dát přednost. I přes řadu legislativních pokusů také trvá riziko možné diskriminace nositelů nepříznivých variant některých genů při hledání pracovního místa, uzavírání pojistek a podobně. Nové diagnostické a léčebné metody jsou také drahé a otázkou tedy je, komu mají být k dispozici, pokud zdroje nedostačují pro jejich plošné nasazení. Nedořešenou otázkou je i vlastnictví a patentování genetické informace. A konečně rizikem je i to, že ono v úvodu zmiňované nedocenění genetiky v nedávné minulosti může být nahrazeno slepým genetickým determinismem a škodlivým redukcionistickým přístupem k medicíně.
Literatura
1. LANDER, ES., LINTON, LM., BIRREN, B. et al.Initial sequencing and analysis of the genome. Nature, 2001, 409, p. 860–921.
2. VENTER, JC., ADAMS, MD., MYERS, EW. et al. The sequence of the human genome. Science, 2001, 291, p. 1304–1351.
3. HOGENESCH, JB., CHING, KA., BATALOV, S. et al.A comparison of the Celera and Ensembl predicted gene sets reveals little overlap in novel genes. Cell, 2001, 106, p. 413 –415.
4. BROSIUS, J. Genomes were forged by massive bombardments with retroelements and retrosequences. Genetica, 1999, 107, p. 209–238.
5. SUBRAMANIAN, G., ADAMS, MD., VENTER, JC. et al. Implications of the human genome for understanding human biology and medicine. JAMA, 2001, 286, p. 2296–2307.
6. PELTONEN, L., MCKUSICK, VA.Dissecting human disease in the postgenomic era. Science, 2001, 291, p. 1224–1229.
7. COLLINS, FS., MCKUSICK, VA. Implications of the Human Genome Project for medical science. JAMA, 2001, 285, p. 540–544.
8. OLLINS, FS. Shattuck lecture - Medical and societal consequences of the Human Genome Project. New Engl J Med, 1999, 341, p. 28–37.
9. HARRIS, T. Genetics, genomics and drug discovery. Med Res Rev, 2000, 20, p. 203–211.
10. DRUKER, BJ., TAMURA, S., BUCHDUNGER. E. et al.Effects of a selective inhibitor of the Abl tyrosine kinase on the growth of Bcr-Abl positive cells. Nat Med, 1996, 2, p. 561–566.
11. WOLF, CR., SMITH, G., SMITH, RL. Pharmacogenetics. Brit Med J, 2000, 320, p. 987–990.
12. KRINETSKI, EY., TAI, HL., YATES, CR. et al. Genetic polymorphism of thiopurine S-methyltransferase: clinical importance and molecular mechanisms. Pharmacogenetics 1996, 6, p. 279–290.
13. HUGOT, JP., CHAMAILLARD, M., ZOUALI, H., et al. Association of NOD2 leucine-rich repeat variants with susceptibility to Crohn’s disease. Nature, 2001, 411, p. 599–603.
14. BLACKWELL, JM. Genetics and genomics of infectious disease susceptibility. Trends Mol Med, 2001, 7, p. 521–526.
15. REILLY, PR. Public concern about genetics. Annu Rev Genomics Hum Genet, 2001, 1, p. 485–506.
e-mail: zdenek.sedlacek@lfmotol.cuni.cz
Obr. 2 – Monogenní a multifaktoriální choroby
a) Monogenní choroba
Srpkovitá anémie je autosomálně recesívní choroba způsobená jedním typem mutace (substitucí v 6. kodonu genu pro beta-globin)
b) Monogenní choroba – alelová heterogenita
Hemofilie A je X-vázaná choroba, která je u prakticky každého pacienta způsobována jinou mutací v genu pro faktor VIII. Různých mutací bylo popsáno několik stovek a mohou mít různou fenotypovou závažnost. Alelově heterogenní jsou téměř všechny dědičné choroby.
c) Monogenní choroba – modifikující geny
Cystická fibróza je autosomálně recesívní choroba se známým modifikujícím genem na chromosomu 9. Genů modifikujících fenotypový obraz choroby je více. Modifikátory mají pravděpodobně všechny dědičné choroby.
d) Monogenní choroba – lokusová heterogenita
Syndrom Li-Fraumeni je autosomálně dominantní choroba, kterou podmiňují mutace v genu TP53 na chromosomu 17 nebo v genu CHK2 na chromosomu 22. Lokusová heterogenita může být kombinována s alelovou heterogenitou a vlivem modifikátorů a vykazuje ji velké množství chorob.
e) Multifaktoriální choroba
Autismus je podmíněn nepříznivou kombinací alel několika genů. Alely genů přispívají k fenotypu různou měrou a ovlivňují různé příznaky. Složitě interagují navzájem a s faktory vnějšího prostředí (E). Ve hře je i alelová heterogenita a slabý vliv dalších modifikátorů. Žádný z genů podmiňujících autismus nebyl dodnes objeven.
f) Multifaktoriální choroba – heterogenita
Autismus je ve skutečnosti nejspíše podmíněn několika různými polygenními systémy, které mohou mít některé geny společné.