Implementação de pipeline de sequenciamento configurável

Implementação de pipeline de sequenciamento configurável
KASHIWABARA, AndréYoshiaki1; DURHAM, Alan Mitchell1 & GRUBER, Arthur2 - PIBIC - CNPq 1Departamento de Ciência da Computação, IME-USP 2Laboratório de Biologia Molecular, Departamento de Patologia, FMVZ–USP RESUMO O principal objetivo deste trabalho foi o desenvolvimento de dois bancos de dados para suporte a atividades de bioinformática: SCARdb e EGeneDB. SCARdb é um banco de dados para registro de marcadores genéticos do tipo SCAR (Sequence Characterized Amplified Regions). EGeneDB é um banco que visa dar suporte ao EGene, uma ferramenta de construção de pipelines de sequenciamento genético. Além do desenvolvimento desses dois bancos de dados também foi feita uma melhora do Co-Ed, um editor de configurações utilizado para configuração do sistema EGene. Uma reengenhara parcial do Co-Ed permitiu que os ícones, botões utilizados, bem como os componentes utilizados, possam ser especificados por um arquivo de configuração. SCARDB Banco SCARdb Interface de busca Resultados de algumas consultas O SCARdb vai dar apoio a qualquer pesquisa que visa desenvolver marcadores genéticos do tipo SCAR. Essa base de dados permite o registro dos experimentos, dos resultados, das pessoas que são responsáveis pelo experimento, dos fenótipos quando o marcador esta ligado a alguma característica genotípica e do próprio SCAR. O banco foi desenhado para facilitar a consulta dos fenótipos associados, evitando o uso de um único campo de texto para o seu registro. Os grupos de pesquisas devem registrar um grupo de fenótipos que serão usados no projeto, cada elemento desse grupo deve conter o nome e sua respectiva descrição. A abordagem resulta em consultas mais eficientes, ou seja, basta selecionar o nome do grupo e olhar a descrição de cada fenótipo, para então, selecionar aquele que interessa. Além disso, quando o banco combina informações de especificidade obtidas pelos experimentos com informações sobre as classes taxonômicas, é possível buscar dinamicamente pelos SCARs específicos a qualquer classe de seres vivos. O SCARdb fornece uma interface que permite a busca de SCARs, pelo nome, especificidade ou comandos SQL. Podemos olhar com detalhes informações de cada seqüência, possibilitando, até mesmo, consultar resultados de Blast que estão pré-processados. As atualizações são feitas numa parte com acesso restrito, por medida de segurança, essa página só pode ser vista no laboratório. EGENE e CO-ED EGeneDB – Breve descrição. O EGeneDB foi criado para armazenar os resultados de todas as operações efetuadas sobre a seqüência durante a execução de um pipeline, o que possibilita desenvolver novas consultas a estes resultados, facilitando a geração de novos relatórios visando aprimorar o sequenciamento. EGene e Co-Ed - Criação modular visual de pipelines As leituras de DNA geradas pelos projetos de sequenciamento devem ser processadas por diversos programas para serem analisadas. EGene[2] é um sistema de geração de pipelines para análise automática de seqüências de DNA. O usuário tem à sua disposição inúmeros componentes que podem ser conectados em qualquer ordem de maneira totalmente modular. Toda a configuração do sistema é feita utilzando Co-Ed um editor gráfico. A arquitetura do EGene determina que toda a manipulação das seqüências seja feita por um módulo separado, SequenceObject.pm, que garante a total independência dos seus vários componentes em relação ao mecanismo e ao formato de entrada e saída de dados. O banco de dados consiste nas entidades Sequence, Operation e Program. A aplicação da operação sobre a seqüência está sendo representada pelo relacionamento cujo atributo ordem guarda a ordem em que a operação foi executada. Para facilitar o rastreamento das operações, todos os parâmetros dos programas estão sendo armazenados. Cada operação representa o resultado obtido pela execução de algum programa. No momento, o pipeline contém apenas três tipos de operação, trimming, filtering e masking.. O EGene configurando o pipeline do projeto Eimeria Na primeira implementação de SequenceObject, toda a entrada e saída era feita através de uma flatfile, tendo como conseqüência a geração de um arquivo para cada placa processada pelo sequenciador. O problema dessa abordagem é que ela torna a análise global de dados de um projeto bem mais complexa, e cria a necessidade de uma estrutura de diretórios e arquivos para a armazenagem de resultados e relatórios Novas operações poderão ser adicionados ao EGene, assim, optamos pela utilização do conceito de especialização, deixando o banco mais completo Os próximos passos serão a criação de um conjunto de consultas pré-definidas, por web, para geração de relatórios e a ampliação do banco para incluir dados de anotação. Até o momento o banco foi utilizado para reprocessar seqüencias de um projeto de ESTs de Eimeria spp. Co-Ed Neste trabalho, esta componente passou por uma reengenharia, tornando possível a adição da especificação de novos módulos do pipeline simplesmente editando um arquivo de configuração onde são especificados quais parâmetros precisam ser de cada componente, eventuais valores default e os arquivos com imagens do botão e do ícone associados ao componente. O uso de padrões de projetos[1] foi utilizado para a implementação de várias funcionalidades, por exemplo, o padrão Observer esta presente na arquitetura MVC utilizado no trabalho. REFERÊNCIAS [1] GAMA, E.; HELLM, R.; JOHSON, R.; VLISSIDES, J. Design Patterns: Elements of Reusable Object-Oriented Software. Addinson-Wesley,1994 [2] GRUBER, A.; AHAGON P. H.; RAINONE F.; KASHIWABARA, A. Y. & DURHAM, A. M. EGene – A modular and configurable pipeline system for automatic DNA sequence analysis, ICOBICOBI, 2003.

Implementação de pipeline de sequenciamento configurável

Apresentações semelhantes

Apresentação em tema: "Implementação de pipeline de sequenciamento configurável"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Implementação de pipeline de sequenciamento configurável

Apresentações semelhantes

Apresentação em tema: "Implementação de pipeline de sequenciamento configurável"— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback