Como a bioinformática atua no sequenciamento de genomas da covid-19?

5 min de leitura
Imagem de: Como a bioinformática atua no sequenciamento de genomas da covid-19?
Imagem: Adobe Stock
Avatar do autor

Os avanços da biologia molecular após a descoberta da estrutura do DNA foram formidáveis e estão na base de muito do que sabemos sobre os seres vivos, suas células e seus sistemas. O sequenciamento do DNA foi descrito no final dos anos 1970 e, desde então, os métodos para determinar a ordem das quatro bases (as letras A, C, T, e G) evoluíram de forma surpreendente. Nos meus anos de pós-doutorado, no início da década de 1990, o sequenciamento era uma reação quase artesanal. Era uma grande alegria encerrar a semana com cerca de 500 bases (500 letras A, C, T e G) sequenciadas.

Entre os anos 1999 e 2001, fui um dos coordenadores do projeto genoma FAPESP/Instituto Ludwig no Brasil. Em 1 semana, o projeto sequenciou cerca de 3 milhões de bases, nos 10 centros de pesquisa envolvidos. Em um esforço mundial, levamos cerca de 1 década para publicar, em 2001, a sequência completa do genoma humano, que tem cerca de 3 bilhões de bases. O Brasil foi parte desse esforço e fez contribuições relevantes. Hoje, com o avanço tecnológico e da bioinformática, é possível sequenciar o genoma humano completo em 2 dias.

DNA

Para lembrar, o DNA é uma molécula de fita dupla formada por quatro bases, sendo uma complementar a outra (sempre pareando A com T, e C com G). O sequenciamento, seja pelos primeiros métodos, seja utilizando os equipamentos mais modernos, baseia-se em uma reação química para sintetizar uma fita complementar a partir de uma sequência de DNA já conhecida, que funciona como um molde.

Nos métodos mais modernos, cada uma das 4 bases é marcada por um reagente que, quando incorporado na síntese da nova fita, emite uma cor específica, que é lida pelo equipamento. Com isso, é possível determinar a sequência exata das bases da nova fita.

RNA

O RNA é uma molécula de fita simples, também formada por quatro bases: A, U, C e G. Com auxílio da enzima transcriptase reversa (descoberta nos retrovírus, como o HIV), podemos usar o RNA como molde para criar uma molécula de cDNA, e este poderá ser sequenciado como descrito acima. Assim, podemos também determinar a sequência das bases de RNA.

Hoje, o sequenciamento é uma commodity. As máquinas que fazem esse sequenciamento se tornaram obsoletas em uma velocidade muito grande, e o custo dos reagentes é inversamente proporcional ao volume de DNA sequenciado. O desafio não é sequenciar, mas sim transformar os dados “crus” que saem das máquinas em uma informação útil, que represente corretamente o DNA sequenciado.

Como a bioinformática atua?

É aqui que entram as competências de bioinformática e todo o esforço de softwares e computação. O valor do sequenciamento para a Medicina não está na informação gerada pelo sequenciamento, mas na transformação dos dados em conhecimento. Esse é nosso maior desafio.

Dentre as doenças humanas, talvez o câncer seja a que teve maior impacto positivo em decorrência dos avanços em sequenciamento genético. O entendimento sobre os tumores, suas causas, a possibilidade de diagnósticos mais precoces e, principalmente, o desenvolvimento de novas drogas, avançou de forma significativa nas 2 últimas décadas.

Nos dias atuais, conhecemos detalhes minuciosos do processo de transformação celular que dá origem ao câncer, à função de células, aos seus mecanismos de controle da divisão celular e de defesa que deram origem aos tratamentos mais modernos. Em paralelo, várias outras áreas da Biologia se aproveitaram das ferramentas de sequenciamento para também produzir avanços importantes. Uma delas foi o conhecimento completo do genoma de agentes patogênicos, como os vírus e as bactérias.

O Sars-CoV- 2, o coronavírus causador da covid-19, é um vírus cujo genoma é um RNA de fita simples. A sequência completa desse RNA foi publicada poucas semanas depois de sua identificação e isolamento. O genoma dele é composto de 29.838 bases (A, U, C e G) e guarda as informações de como o vírus torna a célula humana em uma fábrica de produção de 12 proteínas. Dessas proteínas, 4 são chamadas de estruturais: M, de membrana; E, de envelope; N, de nucleoproteína; S, de spike. As outras 8 proteínas participam do processo de replicação do vírus.

O conhecimento do genoma desse vírus foi crítico para o desenvolvimento dos métodos de diagnóstico, em especial, o método de RT-PCR, que se baseia na síntese, em grandes quantidades de cópias de pequenos fragmentos do RNA viral. Foi fundamental também ter a sequência completa da proteína S (spike), responsável pela entrada do vírus na célula. Essa proteína se liga de forma específica à outra, a ACE2 (enzima conversora de angiotensina 2), existente na superfície de células localizadas no pulmão, artérias, rim e intestino.

É essa ligação entre S (do vírus) e ACE2 (das células) que permite a entrada do Sars-CoV-2 nas células para iniciar o seu ciclo de multiplicação, que, por consequência, causa a covid-19. O conhecimento da sequência de bases do RNA que instrui as células a produzir a proteína S permitiu o desenvolvimento de várias das vacinas que, hoje, estão no mercado ou em diferentes fases de estudo para o combate ao Sars-CoV-2.

Colhendo os frutos do avanço tecnológico

Atualmente, fica claro que os avanços dos últimos 40 anos, que nos permitiu não só sequenciar genomas como também colher conhecimento a partir dessas informações, foram fundamentais para o necessário esforço que permitiu o diagnóstico do vírus, a criação de vacinas e a constante vigilância genômica para monitorar o aparecimento das variantes do novo coronavírus. Sabemos que o processo de replicação do genoma, seja ele DNA ou RNA, não é perfeito e, mesmo com sofisticados mecanismos de correção existentes nas células, alguns erros acabam se acumulando no genoma.

Felizmente, a maioria desses erros são inertes e acabam diluindo em meio à enorme quantidade de células ou vírus que se multiplicam. Porém, às vezes, esses erros podem conferir uma vantagem seletiva para as células ou vírus e, assim, acabam prevalecendo e se fixando naquela população. Esse é o princípio fundamental do aparecimento do câncer e, da mesma forma, do surgimento de variantes do Sars-CoV-2 com maior poder de transmissibilidade.

***

Dr. Luiz Fernando Reis, colunista quinzenal no TecMundo, é diretor de Ensino e Pesquisa do Hospital Sírio-Libanês, área responsável pela geração, aplicação e disseminação de conhecimento, que traz valor para a sociedade brasileira e fomenta uma melhor prática de assistência à saúde. Formado em Bioquímica pela Universidade Federal de Juiz de Fora (UFJF), em Minas Gerais, Luiz é doutor em Microbiologia e Imunologia pela New York University School of Medicine (Estados Unidos) e pós-doutor em Biologia Molecular pela Universidade de Zurique (Suíça).