Anotación funcional de proteomas y transcriptomas completos al alcance de cualquiera utilizando la herramienta bioinformática Sma3s

 

Carlos S. Casimiro-Soriguer1, Antonio Muñoz-Mérida2, Antonio J. Pérez-Pulido1

1Centro Andaluz de Biología del Desarrollo (CABD-CSIC), Universidad Pablo de Olavide, Ctra. Utrera, Km. 1, 41013 Sevilla, Spain; 2CIBIO-InBIO, Research Network in Biodiversity and Evolutionary Biology, Universidade do Porto, Campus Agrário de Vairão, 4485-661 Vairão, Portugal

El abaratamiento de los costes de secuenciación a nivel genómico está permitiendo que los laboratorios de todo el mundo estén secuenciando los genomas de sus organismos de interés, e incluso está permitiendo la comparación de cepas, por ejemplo de microorganismos infecciosos aislados desde distintos pacientes. Pero una vez obtenida la secuencia, es necesaria la búsqueda de genes (anotación estructural) y la caracterización de proteínas codificantes de proteínas (anotación funcional) para sacarle todo el partido a la secuencia del genoma. Para llevar a cabo la anotación estructural existen actualmente herramientas muy fáciles de usar, como Prodigal (Hyatt et al., 2010) para genomas procariotas, o GeneMark (Lomsadze et al., 2005) para genomas eucariotas. Pero la anotación funcional es un paso más complejo, que requiere comparar todas las proteínas del proteoma frente a las bases de datos públicas, en un proceso lento y mayoritariamente poco automatizado.

El problema de la anotación funcional de proteínas puede entenderse fácilmente si pensamos en que de los 80,5 millones de proteínas de la base de datos más completa y mejor anotada en la actualidad, UniProtKB (http://www.uniprot.org), más de 30 millones están anotadas como no caracterizadas (Uncharacterized). Si tenemos en cuenta que muchos de los experimentos ómicos llevados a cabo en la actualidad tratan de analizar genes (o las proteínas a las que codifican) relacionados con un proceso biológico y unas condiciones determinadas, así como obtener nuevo conocimiento desde las anotaciones de dichos genes, en un porcentaje muy alto de los casos no se tendrán apenas datos para dar significación a los experimentos de partida, a menos que se puedan anotar funcionalmente sus secuencias de manera automatizada.

En este contexto nació Sma3s (Muñoz-Mérida, 2014), permitiendo la anotación de proteomas o transcriptomas a investigadores sin conocimientos en Bioinformática, y dando mejores resultados que las herramientas de anotación publicadas hasta entonces. Ahora, Sma3s ha sido actualizado a su versión 2 y publicado en la revista de proteómica Proteomics (Casimiro-Soriguer, 2017), manteniendo la calidad de sus resultados e incluyendo todas las mejoras sugeridas por los usuarios. Este anotador funcional de referencia es ahora aún más fácil de usar y permite su ejecución desde cualquier sistema operativo, ofreciendo resultados de mayor utilidad, por ejemplo en proyectos de comparación de genomas. El programa puede ser descargado desde el portal web del grupo de Bioinformática UPO-Genetics de la Universidad Pablo de Olavide de Sevilla:http://www.bioinfocabd.upo.es/sma3s/

Puede ejecutarse para anotar cualquier proteoma en formato FASTA con la siguiente línea de ejecución, desde un terminal de comandos:

./sma3s.pl -i query_dataset.fasta -d uniref90.fasta -go -goslim

Añadiendo el parámetro ‘-nucl’ en caso de querer ejecutar un transcriptoma.

 

Figura 1. Número de proteínas anotadas por Sma3s en diferentes procesos biológicos para tres proteomas del género Bacillus. Se destaca el número de proteínas relacionadas con virulencia, el cual es mayor en B. anthracis (agente etiológico del antrax), algo menor en B. cereus (patógeno oportunista causante de intoxicaciones alimentarias), y menor aún en B. thuringiensis. Es esta última especie destaca el elevado número de proteínas relacionadas con esporulación, seguramente debido a proteínas formadoras de paraesporas denominadas cristales, las cuales presenta específicamente esta especie.

 

Los resultados son ofrecidos en un documento que puede visualizarse desde cualquier programa de hoja de cálculo. Este fichero contendrá una línea por cada secuencia anotada, junto con el nombre de proteína más probable y su descripción, además de otros términos funcionales tales como funciones moleculares, procesos biológicos o rutas metabólicas. El usuario dispondrá también de un resumen de la anotación, con el número total de secuencias anotadas, además del número de secuencias del organismo anotado que pertenecen a diferentes categorías funcionales. Esto último permite la comparación de diferentes anotaciones, para por ejemplo contrastar cepas o aislados, o comparar nuestro genoma de estudio frente a otro (Fig. 1).

Sma3s está permitiendo ya a muchos grupos de investigación sin experiencia en computación anotar funcionalmente sus propios proteomas y transcriptomas, sin necesidad de buscar ayuda externa y sin requerimientos importantes a nivel computacional, ya que permite anotar un proteoma de una bacteria en apenas 24 horas, utilizando un simple ordenador personal.

Referencia:

Casimiro-Soriguer CS, Muñoz-Mérida A, Pérez-Pulido AJ. Sma3s: A universal tool for easy functional annotation of proteomes and transcriptomes. Proteomics. 2017 Jun;17(12). doi: http://dx.doi.org/10.1002/pmic.201700071

Bibliografía:

Hyatt D, et al. Prodigal: prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics. 2010 Mar 8;11:119. doi: 10.1186/1471-2105-11-119.

Lomsadze A, et al. Gene identification in novel eukaryotic genomes by self-training algorithm. Nucleic Acids Res. 2005 Nov 28;33(20):6494-506. https://doi.org/10.1093/nar/gki937

Muñoz-Mérida A, et al. Sma3s: a three-step modular annotator for large sequence datasets. DNA Res. 2014 Aug;21(4):341-53. doi: http://dx.doi.org/10.1093/dnares/dsu001

Si te ha gustado el artículo, suscríbete ahora de forma gratuita a la Revista Genética Médica y recíbela cada 2 semanas.


Acepto el Aviso Legal

Deja un comentario