Obtener de Internet ficheros representativos de
secuencias génicas, secuencias peptídicas y estructura de la proteína asignada
a partir de diferentes bases de datos. Comparar los formatos de los diferentes
ficheros y localizar en ellos la secuencia primaria de la proteína asignada.
Comprobar si, para cada origen, esta secuencia es idéntica o no en todos ellos
y realizar un informe sobre las observaciones realizadas y su posible
interpretación. Sugerencia: Para trabajar con los diferentes formatos, puede
ser muy útil estudiar los recursos y documentos “online” de algunos de los
portales clave del EMBL o del NCBI en Internet (www.ebi.ac.uk
www.embl.heidelberg.de, www.ncbi.nlm.nih.gov y otros).
1. PDB
PDB (del inglés, Protein
Data Bank) es una base de datos actualizada semanalmente que contiene
información sobre la estructura tridimensional de grandes biomoléculas, como
proteínas, ácidos nucleicos u otros ensamblajes complejos. El conocimiento de
estas estructuras permite comprender y deducir su papel funcional in vivo, lo que puede ser de ayuda para
el tratamiento de enfermedades en humanos mediante el desarrollo de fármacos
que actúen específicamente sobre estas biomoléculas. Las estructuras
almacenadas en esta base de datos abarcan desde pequeños péptidos o fragmentos
de DNA hasta complejas máquinas moleculares como los ribosomas y estos datos se
obtienen mediante técnicas biofísicas como la Resonancia Magnética Nuclear
(NMR), la cristalografía de rayos X o la criomicroscopía electrónica [1].
Cada entrada de esta base de datos tiene un identificador
formado por cuatro caracteres alfanuméricos. La proteína objeto de estudio de
este cuaderno de actividades es la L-DOPA descarboxilasa humana en la forma de
apoproteína (apoDDC humana). Esta proteína presenta una entrada específica en
esta base de datos con el identificador 3RBL. No obstante, si buscamos
en PDB los resultados asociados a “DOPA
decarboxylase” se obtienen 8 entradas distintas. De estas 8 entradas, 3 se
corresponden con la misma proteína en humanos. Dos de ellas solo se diferencian
en la resolución con la que se ha obtenido la estructura de la proteína,
mientras que la tercera presenta la estructura de la proteína en la forma apo-,
pero con una molécula de LLP (ácido (2S)-2-amino-6[[3-hidroxi-2-metil-5-(fosfonooximetil)piridin-4-il]metilideneamino]hexanoico)
y de PLP unida a la cadena A y B de la proteína, respectivamente. Las demás
entradas contienen la estructura tridimensional de esta enzima en otras
especies, por ejemplo, el cerdo, la mosca de la fruta o en especies vegetales,
aisladas o con algún ligando unido como el PLP o algún inhibidor. Todas estas
proteínas son diferentes entre sí, presentando un mayor o menor grado de
homología, pero comparten la capacidad de transformar la L-DOPA en dopamina con
la intervención del cofactor PLP.
La secuencia proteica en
los ficheros en formato *.pdb puede encontrarse en el campo SEQRES, que presenta la siguiente
estructura:- Desde la columna 1 a la 6 aparece el nombre del campo (SEQRES).
- Desde la columna 9 a la 10 aparece la numeración correspondiente a cada línea del campo SEQRES.
- En la columna 12 aparece el identificador de la subunidad con una letra en mayúscula.
- Desde la columna 14 a la 17 aparece el número de residuos que contiene cada cadena.
- En el resto de columnas aparece el nombre de cada residuo en código de 3 letras, separado por dos espacios en blanco.
Figura 1: Secuencia primaria de la DDC humana
según el fichero 3RBL.pdb.
2. UniProtKB
UniProtKB (del inglés, The
Universal Protein Resource Knowledge
Base) es una base de datos que reúne información funcional de proteínas con
anotaciones precisas, consistentes y extensas. Cada entrada de UniProtKB posee
una serie de campos obligatorios que contienen el nombre de la proteína, su
descripción, su secuencia primaria, datos taxonómicos y citas a artículos. Aparte,
también puede incluir tantas anotaciones como sean posibles. Por ejemplo, puede
incluir ontologías biológicas ampliamente aceptadas, clasificaciones y
referencias cruzadas, así como indicaciones de la calidad de estas anotaciones
en forma de evidencias experimentales o de datos computacionales. Más del 95%
de las secuencias de proteínas presentes en esta base de datos proceden de la
traducción de la secuencia codificante (CDS) del gen de estas proteínas
presentes en bases de datos públicas de ácidos nucleicos como EMBL-Bank o
GenBank [2].
Esta base de datos
contiene dos secciones:
- Una sección denominada UniProtKB/Swiss-Prot que contiene características anotadas manualmente con información extraída de la literatura disponible y análisis computacionales contrastados. Esta sección posee información de calidad y no redundante.
- Una sección denominada UniProtKB/TrEMBL con características analizadas computacionalmente a gran escala y que son anotadas automáticamente que están a la espera de ser anotadas manualmente [2].
Para que la redundancia en la base de datos sea mínima y la fiabilidad
de la secuencia proteica sea máxima, todas las secuencias proteicas codificadas
por un mismo gen se almacenan en una misma entrada de UniProtKB/Swiss-Prot. Las
diferencias encontradas entre distintas secuencias se analizan y se describen
en una tabla de características, por ejemplo, distintas variantes de splicing, distintos polimorfismos o
conflictos existentes. Una vez que una proteína está presente en
UniProtKB/Swiss-Prot, su entrada en UniProtKB/TrEMBL es eliminada [2].
Cuando se busca en la sección UniProtKB/Swiss-Prot los resultados
asociados a “L-DOPA decarboxylase”
aparecen 25 entradas, mientras que en la sección UniProtKB/TrEMBL aparecen 137
entradas. Estas entradas se corresponden con enzimas que catalizan la
transformación de la L-DOPA en dopamina en distintas especies, así como enzimas
con actividades similares. En primer lugar, aparece la entrada correspondiente
con la DDC en humano en la sección UniProtKB/Swiss-Prot, que tiene el
identificador P20711. La secuencia de esta proteína aparece al final del
documento en un campo titulado SQ SEQUENCE, que consiste en una línea con
el número de aminoácidos, el peso molecular de la enzima y el código CRC64, un
código de detección de errores para que no se produzcan cambios en el archivo no
deseados. El resto de líneas contienen la secuencia de esta proteína en código
de 1 letra con un espacio cada 10 aminoácidos.
![]() |
Figura 2: Secuencia primaria de la DDC humana
según el fichero P20711
de UniProtKB/Swiss-Prot.
|
3. FASTA
El formato *.fasta se trata de un formato sencillo
para representar la secuencia de proteínas o ácidos nucleicos que puede ser
descargado prácticamente de cualquier base de datos con información sobre estas
macromoléculas. Estos ficheros tienen un descriptor en la primera línea que
siempre comienza con el símbolo >
y el resto de líneas posee la secuencia de aminoácidos en código de una letra
en el caso de las secuencias proteicas [3].
En un fichero *.fasta puede aparecer más de una secuencia completa, como es el caso de la DDC (Figura 3), en el que en un mismo fichero *.fasta aparece la secuencia de la cadena A y la cadena B. Cada secuencia tiene siempre antes una línea que comienza con el símbolo > y que contiene una descripción de esta secuencia.
![]() |
Figura 3: Secuencia primaria de la DDC humana en
formato FASTA.
|
4. NCBI
NCBI son las siglas de National
Center for Biotechnology Information y consiste en un conjunto de bases de
datos que poseen datos de todo tipo de interés biotecnológico, tales como datos
de secuencias de proteínas o ácidos nucleicos o artículos científicos. Dentro
de NCBI se encuentra la base de datos Protein,
que posee información específica sobre proteínas [4]. La búsqueda en esta base
de datos del término “L-DOPA
decarboxylase” ofrece 88 resultados, cada uno correspondiente con una
entrada de esta proteína, isoformas o proteínas relacionadas en humanos u otras
especies. Cuando se selecciona una entrada puede obtenerse la información
relativa a la proteína en distintos formatos. Uno de ellos es el formato FASTA,
que hemos comentado en el apartado anterior. Sin embargo, por defecto aparece
el formato GenPept. En este formato
la secuencia primaria de la proteína aparece al final del fichero en un campo
titulado ORIGIN. Los aminoácidos
aparecen representados en código de una sola letra y separados por un espacio
en blanco cada 10 aminoácidos.
![]() |
Figura 4: Secuencia primaria de la DDC humana en
formato GenPept.
|
La secuencia de aminoácidos de esta enzima también puede obtenerse a
partir de bases de datos de NCBI con secuencias génicas, en concreto, a partir
de la CDS del gen que la codifica. Para ello, puede buscarse “L-DOPA decarboxylase” en la base de
datos Gene, obteniéndose tan solo 12
resultados. De estos resultados, solo uno se corresponde con el gen de esta
enzima en humanos. Esta entrada tiene el identificador 1644 y aquí aparece
la secuencia génica, los distintos mRNAs maduros que se generan de su
traducción y enlaces a la secuencia proteica en distintas bases de datos como
UniProtKB/Swiss-Prot o UniProtKB/TrEMBL.
![]() |
Figura 5: Enlaces a entradas del gen de la DDC, el mRNA de la isoforma 1 o la secuencia proteica en distintas bases de datos. |
5. Comparación de secuencias
Lo primero que llama la atención es que todos los ficheros comparten la
misma secuencia salvo el fichero *.pdb.
- En primer lugar, este fichero contiene la secuencia de ambas cadenas polipeptídicas (Figura 1), aunque esto también ocurre con el fichero *.fasta (Figura 3); mientras que los demás ficheros (exceptuando el fichero *.fasta) contienen la secuencia solo de una de las dos subunidades. Esto tiene sentido, dado que PDB es una base de datos especializada en la estructura tridimensional de biomoléculas tal y como se encuentran in vivo y en esta situación esta proteína se encuentra en forma de homodímero. No obstante, la estructura de la proteína no es tan importante en los otros ficheros y como ambas subunidades son idénticas solo aparece la de una de ellas.
- Por otra parte, la secuencia contenida en el fichero *.pdb se encuentra incompleta, presenta una serie de huecos, tal y como aparece en la Figura 6 en amarillo. La secuencia del fichero 3RBL.pdb contiene 885 residuos, mientras que la del fichero 3RBL.fasta contiene 990. El motivo se explica en mayor profundidad en la actividad 6, pero una breve explicación consistiría en que estas posiciones se corresponden con aquellos residuos con átomos cuyas coordenadas atómicas no han podido esclarecerse debido al alto grado de incertidumbre. Esto ocurre con las regiones muy flexibles de las proteínas, lo que nos está indicando que estos residuos forman parte de regiones de la enzima muy flexibles sin una estructura secundaria definida [5].
- Por último, en el fichero *.pdb aparece en la posición 17 un residuo de valina, mientras que en los demás ficheros evaluados aparece una metionina (Figura 6, en verde). Estos dos aminoácidos presentan una gran similitud. Es posible que estas diferencias en la secuencia de aminoácidos se deban a que la secuencia se haya obtenido a partir de dos variantes distintas de la proteína. Como esta sustitución se encuentra en una posición no crítica de la proteína y se ha producido la sustitución de un aminoácido por otro con un tamaño y carga similar, esta no resultará en ningún cambio fenotípico y su permanencia en la población se deberá a la deriva génica.
6. Bibliografía
- http://www.rcsb.org/pdb/static.do?p=general_information/about_pdb/index.html. Fecha de acceso: 20 de junio de 2019.
- https://www.uniprot.org/help/uniprotkb. Fecha de acceso: 20 de junio de 2019.
- https://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=BlastHelp. Fecha de acceso: 20 de junio de 2019.
- https://www.ncbi.nlm.nih.gov/. Fecha de acceso: 20 de junio de 2019.
- Trueblood, K. N., Bürgi, H. B., Burzlaff, H., Dunitz, J. D., Gramaccioli, C. M., Schulz, H. H., ... & Abrahams, S. C. (1996). Atomic dispacement parameter nomenclature. Report of a subcommittee on atomic displacement parameter nomenclature. Acta Crystallographica Section A: Foundations of Crystallography, 52(5), 770-781.
- https://www.ebi.ac.uk/Tools/psa/emboss_water/. Fecha de acceso: 20 de junio de 2019.