Como a bioinformática atua no sequenciamento de genomas do COVID

5 min de leitura
Imagem de: Como a bioinformática atua no sequenciamento de genomas do COVID
Imagem: Adobe Stock
Avatar do autor

Os avanços da biologia molecular após a descoberta da estrutura do DNA foram formidáveis e estão na base de muito do que sabemos sobre os seres vivos, suas células e seus sistemas.  O sequenciamento do DNA foi descrito no final dos anos 70 e, desde então, os métodos para determinar a ordem das quatro bases (as letras A, C, T, e G) evoluíram de forma surpreendente. Nos meus anos de pós-doutorado, no início da década de 90, o sequenciamento era uma reação quase artesanal. Era uma grande alegria encerrar a semana com cerca de 500 bases (500 letras A, C, T e G) sequenciadas.

Entre os anos 1999 e 2001, fui um dos coordenadores do projeto genoma FAPESP/Instituto Ludwig no Brasil. Em uma semana, o projeto sequenciou cerca de 3 milhões de bases, nos 10 centros de pesquisa envolvidos. Num esforço mundial, levamos cerca de uma década para publicar, em 2001, a sequência completa do genoma humano, que possui cerca de 3 bilhões de bases. O Brasil foi parte desse esforço e fez contribuições relevantes. Hoje, com o avanço tecnológico e da bioinformática, é possível sequenciar o genoma humano completo em dois dias.

DNA

Para lembrar, o DNA é uma molécula de fita dupla formada por quatro bases, sendo uma complementar a outra (sempre pareando A com T, e C com G).  O sequenciamento, seja pelos primeiros métodos ou utilizando os equipamentos mais modernos, se baseia numa reação química para sintetizar uma fita complementar a partir de uma sequência de DNA já conhecida, que funciona como um molde.

Nos métodos mais modernos, cada uma das 4 bases é marcada por um reagente que, quando incorporado na síntese da nova fita, emite uma cor específica, que é lida pelo equipamento.  Com isso, é possível determinar a sequência exata das bases da nova fita.

RNA

O RNA é uma molécula de fita simples, também formada por quatro bases, A, U, C e  G. Com auxílio da enzima transcriptase reversa (descoberta nos retrovírus, como o HIV), podemos usar o RNA como molde para criar uma molécula de cDNA, e este cDNA poderá ser sequenciado como descrito acima.  Assim, podemos também determinar a sequência das bases de RNA.

Hoje, o sequenciamento é uma commodity.  As máquinas que fazem esse sequenciamento se tornam obsoletas numa velocidade muito grande e o custo dos reagentes é inversamente proporcional ao volume de DNA sequenciado. O desafio não é sequenciar, mas sim transformar os dados “crus” que saem das máquinas numa informação útil, que represente corretamente o DNA sequenciado.

Como a bioinformática atua

É aqui que entram as competências de bioinformática e todo o esforço de softwares e computação.  O valor do sequenciamento para a medicina não está na informação gerada pelo sequenciamento, mas na transformação dos dados em conhecimento. Esse é nosso maior desafio.

Dentre as doenças humanas, talvez o câncer seja a que teve maior impacto positivo em decorrência dos avanços em sequenciamento genético. O entendimento sobre os tumores, suas causas, a possibilidade de diagnósticos mais precoces e, principalmente, o desenvolvimento de novas drogas, avançou de forma significativa nas duas últimas décadas.

Nos dias atuais conhecemos detalhes minuciosos do processo de transformação celular que dá origem ao câncer, a função de células, seus mecanismos de controle da divisão celular e dos mecanismos de defesa que deram origem aos tratamentos mais modernos. Em paralelo, várias outras áreas da biologia se aproveitaram das ferramentas de sequenciamento para, também, produzir avanços importantes.  Uma delas foi o conhecimento completo do genoma de agentes patogênicos, como os vírus e bactérias.

O SARS-Cov 2, o coronavírus causador da COVID-19, é um vírus cujo genoma é um RNA de fita simples. A sequência completa desse RNA foi publicada poucas semanas depois de sua identificação e isolamento. Seu genoma é composto por 29.838 bases (A, U, C e G) e guarda as informações de como o vírus torna a célula humana em uma fábrica de produção de 12 proteínas. Quatro dessas proteínas são chamadas de estruturais: M, de membrana; E, de envelope; N, de nucleoproteína; e S, de spike. As outras oito proteínas participam do processo de replicação do vírus.

O conhecimento do genoma deste vírus foi crítico para o desenvolvimento dos métodos de diagnóstico, em especial, o método de RT-PCR, que se baseia na síntese, em grandes quantidades, de cópias de pequenos fragmentos do RNA viral. Foi fundamental também ter a sequência completa da proteína S (spike), responsável pela entrada do vírus na célula. Essa proteína se liga de forma específica a uma outra proteína, a ACE2 (enzima conversora de angiotensina 2), existente na superfície de células localizadas no pulmão, artérias, rim e intestino.

É essa ligação entre S (do vírus) e ACE2 (das células) que permite a entrada do SARS-CoV 2 nas células para iniciar seu ciclo de multiplicação que, por consequência, causa a COVID-19. O conhecimento da sequência de bases do RNA que instrui as células a produzirem a proteína S permitiu o desenvolvimento de várias das vacinas que, hoje, estão no mercado ou em diferentes fases de estudo para o combate à SARS-Cov 2.

Colhendo os frutos do avanço tecnológico

Atualmente fica claro que os avanços dos últimos 40 anos, que nos permitiu não só sequenciar genomas como também colher conhecimento a partir dessas informações, foram fundamentais para o necessário esforço que permitiram o diagnóstico do vírus, a criação de vacinas e a constante vigilância genômica, para monitorar o aparecimento das variantes do SARS-CoV 2. Sabemos que o processo de replicação do genoma, seja ele DNA ou RNA, não é perfeito e, mesmo com sofisticados mecanismos de correção existentes nas células, alguns erros acabam se acumulando no genoma.

Felizmente, a maioria desses erros são inertes e acabam por se diluir em meio à enorme quantidade de células ou vírus que se multiplicam.  Mas, às vezes, esses erros podem conferir uma vantagem seletiva para as células ou vírus e, assim, acabam por prevalecer e se fixar naquela população. Esse é o princípio fundamental do aparecimento do câncer e, da mesma forma, do surgimento de variantes do SARS-CoV 2 com maior poder de transmissibilidade.

***

Dr. Luiz Fernando Reis, colunista quinzenal no TecMundo, é diretor de Ensino e Pesquisa do Hospital Sírio-Libanês, área responsável pela geração, aplicação e disseminação de conhecimento que traz valor para a sociedade brasileira e fomenta uma melhor prática de assistência à saúde. Formado em Bioquímica pela Universidade Federal de Juiz de Fora (UFJF), em Minas Gerais, Luiz é doutor em Microbiologia e Imunologia pela New York University School of Medicine (Estados Unidos) e pós-doutor em Biologia Molecular pela Universidade de Zurique (Suíça).

Como a bioinformática atua no sequenciamento de genomas do COVID