Ficheros de secuencias génicas, peptídicas y de estructura de la apoDDC humana

Obtener de Internet ficheros representativos de secuencias génicas, secuencias peptídicas y estructura de la proteína asignada a partir de diferentes bases de datos. Comparar los formatos de los diferentes ficheros y localizar en ellos la secuencia primaria de la proteína asignada. Comprobar si, para cada origen, esta secuencia es idéntica o no en todos ellos y realizar un informe sobre las observaciones realizadas y su posible interpretación. Sugerencia: Para trabajar con los diferentes formatos, puede ser muy útil estudiar los recursos y documentos “online” de algunos de los portales clave del EMBL o del NCBI en Internet (www.ebi.ac.uk www.embl.heidelberg.de, www.ncbi.nlm.nih.gov y otros).


1. PDB

PDB (del inglés, Protein Data Bank) es una base de datos actualizada semanalmente que contiene información sobre la estructura tridimensional de grandes biomoléculas, como proteínas, ácidos nucleicos u otros ensamblajes complejos. El conocimiento de estas estructuras permite comprender y deducir su papel funcional in vivo, lo que puede ser de ayuda para el tratamiento de enfermedades en humanos mediante el desarrollo de fármacos que actúen específicamente sobre estas biomoléculas. Las estructuras almacenadas en esta base de datos abarcan desde pequeños péptidos o fragmentos de DNA hasta complejas máquinas moleculares como los ribosomas y estos datos se obtienen mediante técnicas biofísicas como la Resonancia Magnética Nuclear (NMR), la cristalografía de rayos X o la criomicroscopía electrónica [1].

Cada entrada de esta base de datos tiene un identificador formado por cuatro caracteres alfanuméricos. La proteína objeto de estudio de este cuaderno de actividades es la L-DOPA descarboxilasa humana en la forma de apoproteína (apoDDC humana). Esta proteína presenta una entrada específica en esta base de datos con el identificador 3RBL. No obstante, si buscamos en PDB los resultados asociados a “DOPA decarboxylase” se obtienen 8 entradas distintas. De estas 8 entradas, 3 se corresponden con la misma proteína en humanos. Dos de ellas solo se diferencian en la resolución con la que se ha obtenido la estructura de la proteína, mientras que la tercera presenta la estructura de la proteína en la forma apo-, pero con una molécula de LLP (ácido (2S)-2-amino-6[[3-hidroxi-2-metil-5-(fosfonooximetil)piridin-4-il]metilideneamino]hexanoico) y de PLP unida a la cadena A y B de la proteína, respectivamente. Las demás entradas contienen la estructura tridimensional de esta enzima en otras especies, por ejemplo, el cerdo, la mosca de la fruta o en especies vegetales, aisladas o con algún ligando unido como el PLP o algún inhibidor. Todas estas proteínas son diferentes entre sí, presentando un mayor o menor grado de homología, pero comparten la capacidad de transformar la L-DOPA en dopamina con la intervención del cofactor PLP.

La secuencia proteica en los ficheros en formato *.pdb puede encontrarse en el campo SEQRES, que presenta la siguiente estructura:
  • Desde la columna 1 a la 6 aparece el nombre del campo (SEQRES).
  • Desde la columna 9 a la 10 aparece la numeración correspondiente a cada línea del campo SEQRES.
  • En la columna 12 aparece el identificador de la subunidad con una letra en mayúscula.
  • Desde la columna 14 a la 17 aparece el número de residuos que contiene cada cadena.
  • En el resto de columnas aparece el nombre de cada residuo en código de 3 letras, separado por dos espacios en blanco.


Figura 1: Secuencia primaria de la DDC humana según el fichero 3RBL.pdb.

2. UniProtKB

UniProtKB (del inglés, The Universal Protein Resource Knowledge Base) es una base de datos que reúne información funcional de proteínas con anotaciones precisas, consistentes y extensas. Cada entrada de UniProtKB posee una serie de campos obligatorios que contienen el nombre de la proteína, su descripción, su secuencia primaria, datos taxonómicos y citas a artículos. Aparte, también puede incluir tantas anotaciones como sean posibles. Por ejemplo, puede incluir ontologías biológicas ampliamente aceptadas, clasificaciones y referencias cruzadas, así como indicaciones de la calidad de estas anotaciones en forma de evidencias experimentales o de datos computacionales. Más del 95% de las secuencias de proteínas presentes en esta base de datos proceden de la traducción de la secuencia codificante (CDS) del gen de estas proteínas presentes en bases de datos públicas de ácidos nucleicos como EMBL-Bank o GenBank [2].

Esta base de datos contiene dos secciones:
  • Una sección denominada UniProtKB/Swiss-Prot que contiene características anotadas manualmente con información extraída de la literatura disponible y análisis computacionales contrastados. Esta sección posee información de calidad y no redundante.
  • Una sección denominada UniProtKB/TrEMBL con características analizadas computacionalmente a gran escala y que son anotadas automáticamente que están a la espera de ser anotadas manualmente [2].
Para que la redundancia en la base de datos sea mínima y la fiabilidad de la secuencia proteica sea máxima, todas las secuencias proteicas codificadas por un mismo gen se almacenan en una misma entrada de UniProtKB/Swiss-Prot. Las diferencias encontradas entre distintas secuencias se analizan y se describen en una tabla de características, por ejemplo, distintas variantes de splicing, distintos polimorfismos o conflictos existentes. Una vez que una proteína está presente en UniProtKB/Swiss-Prot, su entrada en UniProtKB/TrEMBL es eliminada [2].


Cuando se busca en la sección UniProtKB/Swiss-Prot los resultados asociados a “L-DOPA decarboxylase” aparecen 25 entradas, mientras que en la sección UniProtKB/TrEMBL aparecen 137 entradas. Estas entradas se corresponden con enzimas que catalizan la transformación de la L-DOPA en dopamina en distintas especies, así como enzimas con actividades similares. En primer lugar, aparece la entrada correspondiente con la DDC en humano en la sección UniProtKB/Swiss-Prot, que tiene el identificador P20711. La secuencia de esta proteína aparece al final del documento en un campo titulado SQ   SEQUENCE, que consiste en una línea con el número de aminoácidos, el peso molecular de la enzima y el código CRC64, un código de detección de errores para que no se produzcan cambios en el archivo no deseados. El resto de líneas contienen la secuencia de esta proteína en código de 1 letra con un espacio cada 10 aminoácidos.

Figura 2: Secuencia primaria de la DDC humana según el fichero P20711 de UniProtKB/Swiss-Prot.

3. FASTA

El formato *.fasta se trata de un formato sencillo para representar la secuencia de proteínas o ácidos nucleicos que puede ser descargado prácticamente de cualquier base de datos con información sobre estas macromoléculas. Estos ficheros tienen un descriptor en la primera línea que siempre comienza con el símbolo > y el resto de líneas posee la secuencia de aminoácidos en código de una letra en el caso de las secuencias proteicas [3].

En un fichero *.fasta puede aparecer más de una secuencia completa, como es el caso de la DDC (Figura 3), en el que en un mismo fichero *.fasta aparece la secuencia de la cadena A y la cadena B. Cada secuencia tiene siempre antes una línea que comienza con el símbolo > y que contiene una descripción de esta secuencia.


Figura 3: Secuencia primaria de la DDC humana en formato FASTA.

4. NCBI

NCBI son las siglas de National Center for Biotechnology Information y consiste en un conjunto de bases de datos que poseen datos de todo tipo de interés biotecnológico, tales como datos de secuencias de proteínas o ácidos nucleicos o artículos científicos. Dentro de NCBI se encuentra la base de datos Protein, que posee información específica sobre proteínas [4]. La búsqueda en esta base de datos del término “L-DOPA decarboxylase” ofrece 88 resultados, cada uno correspondiente con una entrada de esta proteína, isoformas o proteínas relacionadas en humanos u otras especies. Cuando se selecciona una entrada puede obtenerse la información relativa a la proteína en distintos formatos. Uno de ellos es el formato FASTA, que hemos comentado en el apartado anterior. Sin embargo, por defecto aparece el formato GenPept. En este formato la secuencia primaria de la proteína aparece al final del fichero en un campo titulado ORIGIN. Los aminoácidos aparecen representados en código de una sola letra y separados por un espacio en blanco cada 10 aminoácidos.

Figura 4: Secuencia primaria de la DDC humana en formato GenPept.

La secuencia de aminoácidos de esta enzima también puede obtenerse a partir de bases de datos de NCBI con secuencias génicas, en concreto, a partir de la CDS del gen que la codifica. Para ello, puede buscarse “L-DOPA decarboxylase” en la base de datos Gene, obteniéndose tan solo 12 resultados. De estos resultados, solo uno se corresponde con el gen de esta enzima en humanos. Esta entrada tiene el identificador 1644 y aquí aparece la secuencia génica, los distintos mRNAs maduros que se generan de su traducción y enlaces a la secuencia proteica en distintas bases de datos como UniProtKB/Swiss-Prot o UniProtKB/TrEMBL.

Figura 5: Enlaces a entradas del gen de la DDC, el mRNA de la isoforma 1 o la secuencia proteica en distintas bases de datos.


5. Comparación de secuencias

Lo primero que llama la atención es que todos los ficheros comparten la misma secuencia salvo el fichero *.pdb.
  • En primer lugar, este fichero contiene la secuencia de ambas cadenas polipeptídicas (Figura 1), aunque esto también ocurre con el fichero *.fasta (Figura 3); mientras que los demás ficheros (exceptuando el fichero *.fasta) contienen la secuencia solo de una de las dos subunidades. Esto tiene sentido, dado que PDB es una base de datos especializada en la estructura tridimensional de biomoléculas tal y como se encuentran in vivo y en esta situación esta proteína se encuentra en forma de homodímero. No obstante, la estructura de la proteína no es tan importante en los otros ficheros y como ambas subunidades son idénticas solo aparece la de una de ellas.
  • Por otra parte, la secuencia contenida en el fichero *.pdb se encuentra incompleta, presenta una serie de huecos, tal y como aparece en la Figura 6 en amarillo. La secuencia del fichero 3RBL.pdb contiene 885 residuos, mientras que la del fichero 3RBL.fasta contiene 990. El motivo se explica en mayor profundidad en la actividad 6, pero una breve explicación consistiría en que estas posiciones se corresponden con aquellos residuos con átomos cuyas coordenadas atómicas no han podido esclarecerse debido al alto grado de incertidumbre. Esto ocurre con las regiones muy flexibles de las proteínas, lo que nos está indicando que estos residuos forman parte de regiones de la enzima muy flexibles sin una estructura secundaria definida [5].
  • Por último, en el fichero *.pdb aparece en la posición 17 un residuo de valina, mientras que en los demás ficheros evaluados aparece una metionina (Figura 6, en verde). Estos dos aminoácidos presentan una gran similitud. Es posible que estas diferencias en la secuencia de aminoácidos se deban a que la secuencia se haya obtenido a partir de dos variantes distintas de la proteína. Como esta sustitución se encuentra en una posición no crítica de la proteína y se ha producido la sustitución de un aminoácido por otro con un tamaño y carga similar, esta no resultará en ningún cambio fenotípico y su permanencia en la población se deberá a la deriva génica.


Figura 6: Alineamiento de la secuencia proteica de la DDC humana contenida en el fichero 3RBL.pdb y en el fichero 3RBL.fasta utilizando el programa de alineamiento de secuencias Water de EMBOSS [6]. En verde se ha subrayado el residuo 17 de la cadena A, que en el fichero 3RBL.pdb se corresponde con una valina y en el fichero 3RBL.fasta con una metionina. En amarillo se han representado aquellas secuencias que están presentes en el fichero 3RBL.fasta, pero no en el fichero 3RBL.pdb.


6. Bibliografía

  1. http://www.rcsb.org/pdb/static.do?p=general_information/about_pdb/index.html. Fecha de acceso: 20 de junio de 2019.
  2. https://www.uniprot.org/help/uniprotkb. Fecha de acceso: 20 de junio de 2019.
  3. https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=BlastHelp. Fecha de acceso: 20 de junio de 2019.
  4. https://www.ncbi.nlm.nih.gov/. Fecha de acceso: 20 de junio de 2019.
  5. Trueblood, K. N., Bürgi, H. B., Burzlaff, H., Dunitz, J. D., Gramaccioli, C. M., Schulz, H. H., ... & Abrahams, S. C. (1996). Atomic dispacement parameter nomenclature. Report of a subcommittee on atomic displacement parameter nomenclature. Acta Crystallographica Section A: Foundations of Crystallography52(5), 770-781.
  6. https://www.ebi.ac.uk/Tools/psa/emboss_water/. Fecha de acceso: 20 de junio de 2019.