Bom dia e bem-vindos e bem-vindas ao episódio de número 1813 do Spin de Notícias em formato de texto. Aqui é o Marcel Ribeiro-Dantas, falando de Natal, e hoje falaremos sobre compartilhamento de dados de saúde, privacidade e ciência.

O cerne dessa questão, de acordo com pesquisadores autores de um estudo intitulado “Global healthcare fairness: We should be sharing more, not less, data”, publicado na revista PLoS Digital Health, é que a maior disponibilidade de dados anonimizados de saúde de pacientes contribui para o desenvolvimento de melhores tratamentos e diagnósticos.

Ué, mas se são anonimizados, qual o problema disso? Por que alguém seria contra isso!?

Ao longo dos anos, temos visto diversas discussões sobre a capacidade de re-identificar indivíduos através de seus dados anonimizados. Imagine que você tem a idade, o sexo e a cidade de um paciente com uma doença bastante rara. Torna-se trivial identificar esse paciente, dependendo das bases de dados que você tiver acesso. Em alguns casos, com bases com centenas de variáveis, você pode chegar até o CEP do indivíduo. Ou seja, embora dados anonimizados caminhem na direção correta de dificultar a identificação dos pacientes, em alguns casos essa identificação ainda é possível.

Durante o doutorado, eu solicitei acesso a uma base de dados de pacientes diagnosticados com câncer em várias regiões dos Estados Unidos desde 1973. Em parte da papelada que tive que assinar, me comprometi em não tentar re-identificar pacientes, dentre outras coisas.

Isso não é algo incomum, só para deixar claro. Cientes da possibilidade de re-identificação, indivíduos preocupados com questões de privacidade tem se colocado contra a distribuição de dados de pacientes, mesmo quando anonimizados.

O estudo dos autores mencionados no início desse texto, que inclui o Leo Ceni, professor do MIT e Harvard que tive o prazer de conhecer em uma das minhas visitas ao MIT, discorre sobre o perigo de dificultar o compartilhamento de dados devido à anonimização destes não ser perfeita.

Inclusive, isso se torna ainda mais grave para países em desenvolvimento que são pouco representados nas grandes bases de dados para estudos científicos. Esses vieses geram resultados que não são replicáveis nesses países, que geralmente carecem de investimento em ciência e são muito beneficiados por estudos realizados nos países ricos.

Durante o meu mestrado, eu investiguei uma doença chamada Sarcoma de Ewing.

Como vocês devem saber, o câncer é uma doença que geralmente necessita de um certo tempo para se desenvolver, razão pela qual é tão comum em indivíduos de idade avançada. Ainda que exista um número razoável de pacientes adultos, a maior parte concentra-se em idosos. Em raros casos, ocorre em crianças e adolescentes.

O Sarcoma de Ewing é um desses tipos de câncer, portanto raro, só que ele é raro mesmo entre os tipos de câncer pediátrico. Raro duas vezes!

Com muito esforço eu consegui encontrar dados de pacientes, com origem em três países: Estados Unidos, Finlândia e França. Como é uma doença rara, o número de amostras era bastante reduzido, e pouco representativo, já que não havia nenhum paciente sequer da América Latina, além de deixar a desejar em vários sentidos.

A geração desses dados por inúmeras razões seria inviável no Brasil, tanto pelo alto custo, quanto pela dificuldade em encontrar tantos pacientes com essa doença. Ainda assim, foi possível desenvolver o meu trabalho de mestrado, no qual consegui, com essas pouco mais de 100 amostras de pacientes com a doença, dentre outras coisas, identificar transcritos de reguladores de expressão gênica que estão relacionados a desfechos específicos da doença. Alguns destes, em pacientes com bom prognóstico. Outros, em pacientes com prognóstico ruim.

Fui capaz de inferir a primeira rede regulatória do Sarcoma de Ewing, o que me permitiu compreender bastante de uma doença que é repleta de dúvidas e poucas certezas. Sequer sabíamos a célula originária do câncer, por exemplo, o que traz diversas barreiras para sua investigação!

No doutorado, tive acesso a dados de 11 milhões de residentes nos Estados Unidos, diagnosticados com câncer entre 1973 e 2016. O subconjunto final foi de cerca de meio milhão de pacientes diagnosticados com câncer de mama entre 2010 e 2016. Uma base bastante rica, com centenas de variáveis nos mais diversos contextos: dados pessoais como data de nascimento e sexo, variáveis sócio-econômicas, geográficas, clínicas, biomoleculares, entre outras.

Nas palavras dos autores do estudo, “Ainda que o risco à privacidade do paciente deva ser minimizado, acreditamos que esse risco nunca será zero, e a sociedade tem que determinar um limiar de risco aceitável com o qual o compartilhamento de dados possa ocorrer — para o benefício do sistema global de conhecimento sobre a saúde.

E de acordo com os autores, os benefícios da disponibilidade desses dados para estudos científicos facilmente compensa os riscos à privacidade desses pacientes!