Campus

Anotación funcional de proteomas y transcriptomas completos al alcance de cualquiera utilizando la herramienta bioinformática Sma3s

 

Carlos S. Casimiro-Soriguer1, Antonio Muñoz-Mérida2, Antonio J. Pérez-Pulido1

1Centro Andaluz de Biología del Desarrollo (CABD-CSIC), Universidad Pablo de Olavide, Ctra. Utrera, Km. 1, 41013 Sevilla, Spain; 2CIBIO-InBIO, Research Network in Biodiversity and Evolutionary Biology, Universidade do Porto, Campus Agrário de Vairão, 4485-661 Vairão, Portugal

El abaratamiento de los costes de secuenciación a nivel genómico está permitiendo que los laboratorios de todo el mundo estén secuenciando los genomas de sus organismos de interés, e incluso está permitiendo la comparación de cepas, por ejemplo de microorganismos infecciosos aislados desde distintos pacientes. Pero una vez obtenida la secuencia, es necesaria la búsqueda de genes (anotación estructural) y la caracterización de proteínas codificantes de proteínas (anotación funcional) para sacarle todo el partido a la secuencia del genoma. Para llevar a cabo la anotación estructural existen actualmente herramientas muy fáciles de usar, como Prodigal (Hyatt et al., 2010) para genomas procariotas, o GeneMark (Lomsadze et al., 2005) para genomas eucariotas. Pero la anotación funcional es un paso más complejo, que requiere comparar todas las proteínas del proteoma frente a las bases de datos públicas, en un proceso lento y mayoritariamente poco automatizado.

El problema de la anotación funcional de proteínas puede entenderse fácilmente si pensamos en que de los 80,5 millones de proteínas de la base de datos más completa y mejor anotada en la actualidad, UniProtKB (http://www.uniprot.org), más de 30 millones están anotadas como no caracterizadas (Uncharacterized). Si tenemos en cuenta que muchos de los experimentos ómicos llevados a cabo en la actualidad tratan de analizar genes (o las proteínas a las que codifican) relacionados con un proceso biológico y unas condiciones determinadas, así como obtener nuevo conocimiento desde las anotaciones de dichos genes, en un porcentaje muy alto de los casos no se tendrán apenas datos para dar significación a los experimentos de partida, a menos que se puedan anotar funcionalmente sus secuencias de manera automatizada.

En este contexto nació Sma3s (Muñoz-Mérida, 2014), permitiendo la anotación de proteomas o transcriptomas a investigadores sin conocimientos en Bioinformática, y dando mejores resultados que las herramientas de anotación publicadas hasta entonces. Ahora, Sma3s ha sido actualizado a su versión 2 y publicado en la revista de proteómica Proteomics (Casimiro-Soriguer, 2017), manteniendo la calidad de sus resultados e incluyendo todas las mejoras sugeridas por los usuarios. Este anotador funcional de referencia es ahora aún más fácil de usar y permite su ejecución desde cualquier sistema operativo, ofreciendo resultados de mayor utilidad, por ejemplo en proyectos de comparación de genomas. El programa puede ser descargado desde el portal web del grupo de Bioinformática UPO-Genetics de la Universidad Pablo de Olavide de Sevilla:http://www.bioinfocabd.upo.es/sma3s/

Puede ejecutarse para anotar cualquier proteoma en formato FASTA con la siguiente línea de ejecución, desde un terminal de comandos:

./sma3s.pl -i query_dataset.fasta -d uniref90.fasta -go -goslim

Añadiendo el parámetro ‘-nucl’ en caso de querer ejecutar un transcriptoma.

 

Figura 1. Número de proteínas anotadas por Sma3s en diferentes procesos biológicos para tres proteomas del género Bacillus. Se destaca el número de proteínas relacionadas con virulencia, el cual es mayor en B. anthracis (agente etiológico del antrax), algo menor en B. cereus (patógeno oportunista causante de intoxicaciones alimentarias), y menor aún en B. thuringiensis. Es esta última especie destaca el elevado número de proteínas relacionadas con esporulación, seguramente debido a proteínas formadoras de paraesporas denominadas cristales, las cuales presenta específicamente esta especie.

 

Los resultados son ofrecidos en un documento que puede visualizarse desde cualquier programa de hoja de cálculo. Este fichero contendrá una línea por cada secuencia anotada, junto con el nombre de proteína más probable y su descripción, además de otros términos funcionales tales como funciones moleculares, procesos biológicos o rutas metabólicas. El usuario dispondrá también de un resumen de la anotación, con el número total de secuencias anotadas, además del número de secuencias del organismo anotado que pertenecen a diferentes categorías funcionales. Esto último permite la comparación de diferentes anotaciones, para por ejemplo contrastar cepas o aislados, o comparar nuestro genoma de estudio frente a otro (Fig. 1).

Sma3s está permitiendo ya a muchos grupos de investigación sin experiencia en computación anotar funcionalmente sus propios proteomas y transcriptomas, sin necesidad de buscar ayuda externa y sin requerimientos importantes a nivel computacional, ya que permite anotar un proteoma de una bacteria en apenas 24 horas, utilizando un simple ordenador personal.

Referencia:

Casimiro-Soriguer CS, Muñoz-Mérida A, Pérez-Pulido AJ. Sma3s: A universal tool for easy functional annotation of proteomes and transcriptomes. Proteomics. 2017 Jun;17(12). doi: http://dx.doi.org/10.1002/pmic.201700071

Bibliografía:

Hyatt D, et al. Prodigal: prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics. 2010 Mar 8;11:119. doi: 10.1186/1471-2105-11-119.

Lomsadze A, et al. Gene identification in novel eukaryotic genomes by self-training algorithm. Nucleic Acids Res. 2005 Nov 28;33(20):6494-506. https://doi.org/10.1093/nar/gki937

Muñoz-Mérida A, et al. Sma3s: a three-step modular annotator for large sequence datasets. DNA Res. 2014 Aug;21(4):341-53. doi: http://dx.doi.org/10.1093/dnares/dsu001

Si te ha gustado el artículo, suscríbete ahora de forma gratuita a la Revista Genética Médica y recíbela cada 2 semanas.


Acepto el Aviso Legal

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Normas de uso

La Revista Genética Médica permite realizar comentarios sobre su contenido para favorecer la participación de los lectores, con el objetivo de ofrecer una plataforma de debate y discusión sobre los temas tratados.

El contenido de Genética Médica es de carácter general y tiene una finalidad informativa. La mención de cualquier método, terapia, tratamiento o servicio no debe ser considerado una garantía para su utilización. Determinar el adecuado tratamiento para un paciente es responsabilidad de los médicos y facultativos. La información proporcionada en Revista Genética Médica ha sido diseñada para apoyar, y en ningún caso reemplazar, la relación que existe entre un paciente y su médico.

Para asegurar que todos los lectores tienen una buena experiencia, la Revista Genética Médica solicita que los comentarios sigan unas normas básicas. Los comentarios son evaluados antes de su publicación y moderados por los miembros de la Oficina Editorial de Revista Genética Médica diariamente. Cualquier comentario que no cumpla los principios indicados no será publicado.

Los comentarios están abiertos al público general por lo que los lectores deben considerar que su contenido no necesariamente ha sido realizado por un profesional médico.

Los usuarios tendrán en cuenta que los comentarios serán públicos y cualquier persona con acceso a internet podrá verlos. Los usuarios pueden publicar información personal propia (teniendo en cuenta que será pública) pero no la de otras personas. Los comentarios no podrán ser modificados.

Los principios seguidos para la publicación de comentarios serán:

  • Todos los comentarios que contribuyan a enriquecer el contenido y calidad de los contenidos de Revista Genética Médica serán bienvenidos. Los usuarios se comprometen a proporcionar información veraz y contrastable. Cada usuario proporcionará referencias y/o enlaces que justifiquen sus afirmaciones sobre medicina y salud, siempre que no se trate de una experiencia personal vivida por él mismo.
  • En caso de mencionar publicaciones científicas o datos específicos, se citarán las fuentes que en el comentario.
  • Sólo se aceptará la presencia de enlaces en los comentarios cuando su contenido cumpla los principios de publicación de comentarios y estén relacionados con el tema.
  • En caso de mencionar publicaciones científicas o datos específicos, se citarán las fuentes que en el comentario.
  • Sólo se aceptará la presencia de enlaces en los comentarios cuando su contenido cumpla los principios de publicación de comentarios y estén relacionados con el tema.
  • No se aceptarán comentarios difamatorios o falsos, insultos, amenazas, o ajenos al tema del que trate el artículo. En la misma línea no se aprobará la publicación de comentarios con contenido xenófobo, racista, sexista, homófobo o discriminatorio hacia cualquier religión o colectivo.
  • Los mensajes escritos al completo en mayúsculas no serán aceptados.
  • Mensajes publicitarios, o de cuestiones no relacionadas con el tema del artículo no serán aprobados para su publicación.

Si te ha gustado el artículo, suscríbete ahora de forma gratuita a la Revista Genética Médica y recíbela cada 2 semanas.

(function() { if (!window.mc4wp) { window.mc4wp = { listeners: [], forms : { on: function (event, callback) { window.mc4wp.listeners.push({ event : event, callback: callback }); } } } } })();


Acepto el Aviso Legal