Reportagens






 
Sting Millennium Suite: ferramentas para análise estrutural de proteínas

Paula Kuser Falcão, Michel Yamagishi,
Roberto Higa e Goran Neshich

O uso da bioinformática é imprescindível para atender aos desafios científicos oriundos do gigantesco volume de dados produzidos pelos atuais projetos na área biológica. Nesta era pós-genômica, o desafio é determinar a função e o papel biológico de cada uma das seqüências de proteínas que foram determinadas. Se os genes são os portadores das instruções que permitem a "construção" de um determinado organismo, as proteínas são as responsáveis por sua estrutura e funcionamento. No homem, são essas moléculas que formam os ossos, músculos e os demais tecidos e comandam o metabolismo. Defeitos ou malfuncionamento delas podem causar várias doenças.

Um organismo vivo contém em torno de 50.000 diferentes tipos de proteínas. Cada proteína deve assumir sua conformação específica para ser capaz de exercer sua função biológica corretamente. Quando essa conformação não é atingida, a proteína assume uma estrutura que pode causar seu malfuncionamento. Algumas doenças como anemia falciforme, que ocorre quando há uma mudança de um aminoácido na proteína beta-globina; fibrose cística, onde a proteína reguladora de condutância transmembrana sofre uma alteração causando um transporte anormal de íons de cloro; a catarata, causada por uma alteração na proteína gama-cristalina; fenilcetonúria, um erro no metabolismo que causa retardo mental devido ao mau funcionamento da enzima fenilanina hidroxilase, são exemplos de doenças que estão relacionadas com o mal funcionamento de proteínas.

Como a função das proteínas está ligada à sua estrutura, o conhecimento detalhado desta estrutura ajuda a entender o papel de cada proteína. Mesmo depois de desvendar a estrutura das proteínas, é preciso entender suas interações, classificar as proteínas, encontrar relações entre elas, identificar padrões, estudar seu funcionamento. Quanto mais conhecermos sobre as proteínas e suas estruturas, mais dados teremos para saber como ocorrem determinadas doenças e até desenhar novas moléculas para medicamentos.

Sabendo que a informação bem organizada sobre seqüência, estrutura e função de proteínas é uma plataforma importante para entender os processos que ocorrem nos seres vivos, assim como para o desenho de novas substâncias, desenvolvemos um conjunto de ferramentas chamado STING Millennium Suite (Figura 1). A característica principal do STING Millennium é sua habilidade de combinar o fornecimento de dados através da web com ferramentas de análise estrutural, fazendo do SMS um instrumento completo para estudos de macromoléculas.

clique na imagem para ampliar
Página inicial do software SMS indicando a atual versão do softwaret SMS, a cidade e país do servidor e três opções de acesso: a) páginas ilustradas com imagens artísticas; b) páginas ilustradas com ilustrações de moléculas; c) páginas para usuários que têm monitores de baixa resolução e conexão lenta com a internet.

Ferramentas para visualização e análise de estruturas de proteínas
A visualização de dados é uma área de especial interesse no campo da bioinformática onde é feito um grande esforço para apresentar parâmetros medidos e calculados através do uso combinado de sistemas de coordenadas, números, palavras, linhas, pontos, quadrantes e cores. A representação gráfica é quase sempre a maneira mais efetiva de descrever, explorar e condensar um grande volume de informações numéricas, tornando os gráficos em instrumentos poderosos para a análise da informação quantitativa.

Juntos, os dados de seqüência, características físico-química, estrutura e função das proteínas, entre outros, fornecem uma multiplicidade de informações cruciais para entender os processos biológicos. Existem, atualmente, quase 22.000 estruturas de proteínas disponíveis no banco de dados Protein Data Bank (PDB) e este número está aumentando a cada ano. Uma maneira simples e rápida de acessar toda a informação contida nos bancos de dados de proteínas é fundamental para trabalhar com esse enorme volume de dados estruturais.

STING Millennium (SMS) é uma suíte de programas com ferramentas para a visualização e análise estrutural de proteínas. Estes programas (módulos) estão concentrados em um único pacote que visa oferecer um instrumento completo para estudos das macromoléculas, suas estruturas e as relações estrutura-função. Informações como posição dos aminoácidos na seqüência e na estrutura, busca de padrões, identificação de vizinhança, ligações de hidrogênio, ângulos e distâncias entre átomos, são facilmente obtidas. Além disso, dados sobre natureza e volume dos contatos atômicos inter e intra-cadeias, a conservação e relação entre os contatos intra-cadeia, e parâmetros funcionais, são questões que o usuário pode responder sobre sua proteína utilizando o SMS.

O STING Millennium, uma abreviatura de Sequence To and withIN Graphics, utiliza tanto bancos de dados públicos (PDB, HSSP, Prosite) como bancos de dados construídos localmente (contatos, contatos de interface, acessibilidade, alinhamento múltiplo de seqüências, regiões potenciais para interação com fármacos, cavidades, potencial eletrostático na superfície). Todo esse pacote de análise foi implementado em uma interface amigável ao usuário que pode ser acessada via web. Com a utilização do SMS é possível analisar a relação seqüência-estrutura-função, a qualidade da estrutura, a natureza e o volume dos contatos atômicos das cadeias intra e intermoleculares, a conservação relativa dos aminoácidos em posições específicas da seqüência baseados no alinhamento múltiplo das seqüências, indicar aminoácidos que podem ser essencias para a conformação da proteína baseando-se na relação da conservação dos resíduos envolvidos em contatos intra-cadeias, analisar a geometria das distâncias Ca - Ca and Cß - Cß, etc.

Os módulos do SMS fornecem uma combinação de ferramentas que permitem realizar uma excelente análise de uma determinada estrutura de proteína.

clique na imagem para ampliar
Exemplo de funcionamento do pacote SMS e alguns módulos: (A) janela da seqüência, de onde todos os módulos do SMS podem ser acessados. A seqüência é colorida de acordo com as características físico-químicas dos aminoácidos. A medida que o usuário passa o mouse sobre a seqüência, as informações vão aparecendo na caixa "residue info". Dois menus são também mostrados, demonstrando as escolhas do SMS. (B) Módulo Protein Dossier - fornece um sumário gráfico de várias características estruturais importantes de uma proteína. Protein Dossier mostra um cartoon da seqüência de aminoácidos acompanhados de vários parâmetros anotados com escalas de cores, representando cada aminoácido. O significado das cores estão na parte de cima da imagem. Os contatos internos e da interface da proteínas são mostrados acima da seqüência dos aminoácidos, coloridos de acordo com o tipo do contato. As outras linhas indicam vários outros parâmetros do aminoácidos da proteína, coloridos de acordo com seus valores e características, permitindo que em uma única olhada no dossier da proteína o usuário já consiga definir várias características da proteína em estudo. (C) representação tri-dimensional da estrutura em estudo. As duas superfícies representam a interface entre as cadeias E (branca) e cadeia I (rosa) da proteína.

 

clique na imagem para ampliar
Exemplo de alguns módulos do pacote SMS: (A) diagrama Java das distâncias entre os átomos carbono beta; (B) diagrama ConSSeq apresentando a seqüência de aminoácidos da proteína colorida de acordo com a conservação, barras com códigos de cores representando a entropia relativa, e informações sobre os aminoácidos presentes em outras seqüências homólogas, com sua respectiva freqüência; (C) tabela com a listagem dos contatos atômicos mostrando o nome do aminoácido, seu número, seu par no contato, o tipo de contato que ocorre, a distância entre átomos que estão fazendo contato e acessibilidade e entropia de dois aminoácidos que estão em contato; (D e E) representação gráfica dos contatos atômicos entre os aminoácidos da proteína; (F) representação gráfica do diagrama de Ramachandran utilizando todas as vantagens da linguagem de programação Java. Este programa permite uma interconexão dos dados dos ângulos diedrais com a estrutura tri-dimensional da molécula; (G) cálculo da freqüência dos aminoácidos que estão na vizinhança tridimensional.

Nas figuras 2 e 3 mostramos uma colagem de vários módulos do SMS durante a sessão de análise da proteína alfa-quimotripsina (cadeia E) em complexo com uma cadeia de aminoácidos denominada ovomucóide (cadeia I) da estrutura encontrada no banco de dados PDB com código 1cho.pdb.

O STING Millennium é composto de duas janelas principais. A "janela da seqüência" (Fig. 2,A) mostra a seqüência de aminoácidos da proteína e um menu com vários comandos, e a "janela da estrutura" que mostra a estrutura tri-dimensional da proteína. (Fig. 2C)

Cada aminoácidos da janela da seqüência pode ser "clicado" resultando na apresentação da sua posição na estrutura tri-dimensional da proteína na janela da estrutura.

Nosso mais recente produto, o Java Protein Dossier (JPD) é um banco de dados e ferramenta de visualização que leva em conta o novo conceito de comunicar muita informação através de um único gráfico. O JPD fornece aos usuários uma vasta coleção de parâmetros físico-químicos descrevendo a estrutura da proteína, estabilidade, função e interações com outras macromoléculas. JPD utiliza a tecnologia Java com um nível excepcional de interatividade cruzando referências com a estrutura da proteína. Ao mesmo tempo o JPD é um passo na direção de compilar uma base de dados diversificada de descritores de estrutura-função que podem ser usados como uma plataforma para a aquisição de novos conhecimentos. JPD pode mostrar e analisar, simultaneamente, todos os parâmetros físico-químicos de estruturas que tenham sido previamente superimpostas, permitindo uma comparação direta de parâmetros entre estruturas similares.


SMS como ferramenta didática

Essas ferramentas de análise estrutural de proteínas são desenvolvidas no Grupo de Bioinformática Estrutural da Embrapa/CNPTIA, localizado dentro do campus da UNICAMP em Campinas, SP, Brasil.

Nossas bases de dados são o resultado da análise computacional dos dados disponíveis em fontes públicas e são desenvolvidas para ajudar a entender a relação entre as seqüências, estruturas e funções da proteínas.

O software SMS está sendo espelhado desde 2001 em San Diego, no site do Protein Data Bank (PDB), o mais completo banco de dados de estruturas de proteínas. Além deste espelho, temos também versões do SMS espelhados na Universidade de Columbia em Nova Iorque; em Madrid, na Espanha; e em La Plata, na Argentina.

O Grupo de Bioinformática Estrutural desenvolve projetos em colaboração com alguns grupos de pesquisa no Brasil e no mundo, com o objetivo de aumentar o espectro de informações oferecidas através de nossos produtos e também para aplicar as ferramentas desenvolvidas adquirindo conhecimento em sistemas biológicos específicos.

O laboratório tem uma infraestrutura que permite a implementação de projetos de pesquisa que necessitam de uma quantidade significativa de CPU, com equipamentos computacionais de última geração, assim como uma infraestrutura que nos permite organizar cursos de bioinformática estrutural para estudantes.

STING Millennium Suite está descrito aqui como um pacote que engloba várias ferramentas de análise de estruturas de proteínas num único endereço. O usuário pode fazer o download e instalação do pacote completo do SMS em sua própria plataforma.

A partir do SMS também é possível acessar um grande número de links para outros bancos de dados de proteínas e também outros programas. Este extenso cruzamento de dados permite que o usuário tenha um ambiente completo e integrado para a análise seqüência/estrutura/função de uma proteína.

Paula Kuser Falcão, Michel Yamagishi, Roberto Higa e Goran Neshich são pesquisadores do Centro de Bioinformática Estrutural da Embrapa Informática Agropecuária

 
Anterior Proxima
Atualizado em 10/08/2003
http://www.comciencia.br
contato@comciencia.br

© 2003
SBPC/Labjor
Brasil