home  

 

Alineamiento de secuencias
Parte práctica




Primer ejercicio. Alineamiento de dos secuencias

Haz un alineamiento de estas dos secuencias usando el servidor del EMBL-EBI:

>ECH3937_v6b_ABF-0019265
MSGKHTLALALAWLALPVLAQTPPATSTPAQAIRHSGFVYCVNDVLSTFNPQMARSGLMVDTLAAQLYDRLLGVDPYTYR
LMPELAQHWDVTDNGSTYRFTLRRDVPFQQTSWFTPSRTMNADDVLFSFQRMLDKKHPFHDVNGGDYPYFDSLQLADNVQ
SIRKLGDYSIEIRLHSPDASFLWHLATHYAPILSAEYAQQLTRQDRRELLDRQPVGTGPYRLDEYRYGQYVRLKRNDDYW
RGQPRMEQVVVDLGSGGTGRLSKLLTGECDVLAYPAASQLTILRNDPRLRLSLRPGMNVAYLAFNVRKPPLDDSRVRHAI
ALAINNDRLMQSIYYGTAETAASILPRASWAYDNEAQITEYNPEKARQQLKELGIANLQLQLWVPSASQSYNPSPVKTAE
LIQADLAQVGIKVTIMPVEGRFQEARLMEMNHDLTLAGWATDSNDPDSVFRPLLSCAAIRSQTNYAHWCDPGFDQVLQDA
LSSQQLSRRMEYYRVAHHILAAQLPVLPLASSLRMQAYRYDMKGLVLSPFGNASFAGVYRDDGSEEKNEEKPDGSAVDPS
SSAPIQGEQP*
 

>MG1655_m56_ABE-0011576
MRISLKKSGMLKLGLSLVAMTVAASVQAKTLVYCSEGSPEGFNPQLFTSGTTYDASSVPLYNRLVEFKIGTTEVIPGLAE
KWEVSEDGKTYTFHLRKGVKWHDNKEFKPTRELNADDVVFSFDRQKNAQNPYHKVSGGSYEYFEGMGLPELISEVKKVDD
NTVQFVLTRPEAPFLADLAMDFASILSKEYADAMMKAGTPEKLDLNPIGTGPFQLQQYQKDSRIRYKAFDGYWGTKPQID
TLVFSITPDASVRYAKLQKNECQVMPYPNPADIARMKQDKSINLMEMPGLNVGYLSYNVQKKPLDDVKVRQALTYAVNKD
AIIKAVYQGAGVSAKNLIPPTMWGYNDDVQDYTYDPEKAKALLKEAGLEKGFSIDLWAMPVQRPYNPNARRMAEMIQADW
AKVGVQAKIVTYEWGEYLKRAKDGEHQTVMMGWTGDNGDPDNFFATLFSCAASEQGSNYSKWCYKPFEDLIQPARATDDH
NKRVELYKQAQVVMHDQAPALIIAHSTVFEPVRKEVKGYVVDPLGKHHFENVSIE*
 

Prueba a hacer un alineamiento global (opción "needle") y uno local (opción "water"). ¿Observas diferencias? ¿Crees que estas dos secuencias están relacionadas?

Prueba a obtener el alineamiento utilizando distintas matrices de sustitución y distintas penalizaciones para la apertura y extensión de gaps. Por ejemplo, prueba con BLOSUM62 y BLOSUM40. ¿Observas diferencias?

¿Cómo podríamos estar más seguros de cuál es el mejor alineamiento? ¿cómo obtenerlo?
 

Segundo ejercicio. Búsqueda de parecidos en una base de datos. BLAST.

Haz una búsqueda BLAST de >ECH3937_v6b_ABF-0019265
Utiliza los servidores de BLAST del EMBL , ya que permite obtener más fácilmente las secuencias de las proteínas homólogas (más tarde las utilizaremos en otro ejercicio).

En BLAST-EMBL:

database=Swiss-Prot (nrdb95 es más completa, pero encontraríamos demasiados homólogos que complicarían el análisis).
filter=none
descriptions=250
alignments=250
Si pinchamos en "Get selected sequences" obtendremos la secuencia de las proteínas que hemos marcado (por defecto vienen marcadas las que tienen mejores p-values).

Podéis probar a utilizar el BLAST del NCBI (el del EMBL es la versión WU-BLAST, que es un poco distinta) y ver qué os sale.

Respecto a las dos proteínas que alineamos anteriormente, ¿qué e-value tienen? ¿es significativo?
 

Tercer ejercicio. Busca más información sobre las secuencias que analizas

Utilizando la información obtenida en el BLAST, ¿es posible identificar la primera de la secuencias? ¿Qué dice su anotación? ¿Puedes encontrar un trabajo publicado que aporte más información al respecto? Para esto último, puedes buscar en la base de datos Pubmed, dentro del  NCBI

Cuarto ejercicio. Uso de DOTPLOT para visualizar la similitud de secuencias

En este ejercicio aplicaremos el programa DOTLET a los dos secuencias anteriores. Este programa ha sido desarrollado por el:

ISREC (Swiss Institute for Experimental Cancer Research).

Seguramente, será necesario instalar el plugin de java en el ordenador local antes de poder utilizar el programa DOTLET

Tienes que entrar en la ventana "input" y pegar cada una de las secuencias. Después puedes ejecutar el programa y observar los resultados. Observa qué ocurre cuando se utilizan diferentes matrices BLOSUM

Repite ahora el ejercicio empleando secuencias de nucleótidos en vez de aminoácidos

>ECH3937_v6b_ABF-0019265
ATGTCCGGAAAACACACTCTCGCACTGGCGCTGGCCTGGCTGGCGCTGCCGGTTCTGGCACAAACGCCGCCCGCCACGTC
GACGCCGGCGCAAGCCATCCGCCACAGCGGTTTTGTCTATTGCGTCAATGACGTGCTCAGCACCTTTAATCCCCAGATGG
CCCGCAGCGGGCTGATGGTGGATACGCTGGCCGCCCAGCTCTACGATCGCCTGCTGGGCGTCGATCCGTACACTTACCGG
TTGATGCCGGAACTGGCGCAGCACTGGGACGTCACCGACAATGGCTCCACTTATCGATTCACCCTGCGCCGCGATGTGCC
GTTCCAGCAAACCAGTTGGTTTACCCCCAGCCGCACGATGAACGCCGACGACGTGCTGTTTAGCTTCCAGCGCATGCTGG
ACAAAAAGCACCCGTTCCATGACGTCAACGGCGGCGACTACCCTTATTTCGATAGTTTGCAGTTGGCGGACAACGTACAG
AGCATCCGCAAACTGGGCGATTACAGCATCGAGATCCGCCTGCACAGCCCCGATGCCTCGTTTCTGTGGCATCTGGCTAC
CCACTACGCGCCGATCCTGTCGGCGGAATACGCCCAACAGCTAACCCGTCAGGATCGACGCGAACTGCTCGACCGTCAGC
CGGTAGGCACCGGTCCTTACCGGCTGGATGAATACCGTTACGGGCAGTATGTGCGGCTGAAACGCAATGATGATTATTGG
CGCGGCCAGCCGCGCATGGAACAGGTGGTGGTCGATCTCGGCTCCGGCGGCACCGGCCGTCTGTCCAAACTGTTGACCGG
CGAGTGCGACGTGCTGGCCTACCCGGCCGCCAGCCAACTGACCATTCTGCGCAACGACCCGCGCCTGCGGCTGTCGCTGC
GGCCGGGGATGAATGTCGCTTATCTGGCGTTCAACGTGCGCAAACCGCCGCTGGACGATTCCCGCGTGCGCCACGCCATC
GCGCTGGCGATCAACAATGACCGCCTGATGCAGTCGATTTACTACGGCACCGCGGAAACCGCCGCCTCGATCCTGCCGCG
CGCCTCCTGGGCCTACGACAACGAAGCGCAGATCACCGAATACAATCCGGAGAAAGCGCGCCAGCAATTGAAAGAACTGG
GGATTGCCAACCTGCAACTGCAACTGTGGGTGCCGAGCGCCTCGCAGTCCTACAACCCCAGCCCGGTGAAAACCGCCGAA
CTGATTCAGGCCGATCTGGCGCAGGTGGGGATCAAAGTGACCATCATGCCGGTGGAAGGGCGTTTTCAGGAAGCTCGCCT
GATGGAGATGAATCACGACCTGACGCTGGCGGGCTGGGCTACCGACAGCAATGACCCGGACAGCGTGTTCCGGCCGCTGC
TGAGCTGCGCCGCCATCCGCTCCCAGACCAATTACGCCCACTGGTGCGACCCCGGTTTCGATCAGGTGCTACAGGATGCG
CTCTCTTCCCAGCAACTCTCCCGACGCATGGAATACTATCGCGTGGCGCACCACATTCTGGCCGCGCAGTTGCCGGTACT
GCCGCTGGCTTCATCGTTACGGATGCAGGCCTATCGCTACGACATGAAAGGACTGGTGCTCAGCCCGTTCGGCAATGCTT
CCTTCGCTGGCGTCTATCGCGATGACGGCAGTGAAGAGAAGAATGAGGAAAAACCGGATGGCTCCGCCGTAGACCCGTCC
TCCAGCGCGCCGATCCAGGGAGAACAACCGTGA

>MG1655_m56_ABE-0011576
ATGCGTATTTCCTTGAAAAAGTCAGGGATGCTGAAGCTTGGTCTCAGCCTGGTGGCTATGACCGTCGCAGCAAGTGTTCA
GGCTAAAACTCTGGTTTATTGCTCAGAAGGATCTCCGGAAGGGTTTAACCCGCAGCTGTTTACCTCCGGCACCACCTATG
ACGCCTCTTCCGTCCCGCTTTATAACCGTCTGGTTGAATTTAAAATCGGCACCACCGAAGTGATCCCGGGCCTCGCTGAA
AAGTGGGAAGTCAGCGAAGACGGTAAAACCTATACCTTCCATCTGCGTAAAGGTGTGAAGTGGCACGACAATAAAGAATT
CAAACCGACGCGTGAACTGAACGCCGATGATGTGGTGTTCTCGTTCGATCGTCAGAAAAACGCGCAAAACCCGTACCATA
AAGTTTCTGGCGGCAGCTACGAATACTTCGAAGGCATGGGCTTGCCAGAGCTGATCAGTGAAGTGAAAAAGGTGGACGAC
AACACCGTTCAGTTTGTGCTGACTCGCCCGGAAGCGCCGTTCCTCGCTGACCTGGCAATGGACTTCGCCTCTATTCTGTC
AAAAGAATATGCTGATGCGATGATGAAAGCCGGTACACCGGAAAAACTGGACCTCAACCCAATCGGAACCGGTCCGTTCC
AGTTACAGCAGTATCAAAAAGATTCCCGTATCCGCTACAAAGCGTTTGATGGCTACTGGGGCACCAAACCGCAGATCGAT
ACGCTGGTTTTCTCTATTACCCCTGACGCTTCCGTGCGTTACGCGAAATTGCAGAAGAATGAATGCCAGGTGATGCCGTA
CCCGAACCCGGCAGATATCGCTCGCATGAAGCAGGATAAATCCATCAATCTGATGGAAATGCCGGGGCTGAACGTCGGTT
ATCTCTCGTATAACGTGCAGAAAAAACCACTCGATGACGTGAAAGTTCGCCAGGCTCTGACCTACGCGGTGAACAAAGAC
GCGATCATCAAAGCGGTTTATCAGGGCGCGGGCGTATCAGCGAAAAACCTGATCCCGCCAACCATGTGGGGCTATAACGA
CGACGTTCAGGACTACACCTACGATCCTGAAAAAGCGAAAGCCTTGCTGAAAGAAGCGGGTCTGGAAAAAGGTTTCTCCA
TCGACCTGTGGGCGATGCCGGTACAACGTCCGTATAACCCGAACGCTCGCCGCATGGCGGAGATGATTCAGGCAGACTGG
GCGAAAGTCGGCGTGCAGGCCAAAATTGTCACCTACGAATGGGGTGAGTACCTCAAGCGTGCGAAAGATGGCGAGCACCA
GACGGTAATGATGGGCTGGACTGGCGATAACGGGGATCCGGATAACTTCTTCGCCACCCTGTTCAGCTGCGCCGCCTCTG
AACAAGGCTCCAACTACTCAAAATGGTGCTACAAACCGTTTGAAGATCTGATTCAACCGGCGCGTGCTACCGACGACCAC
AATAAACGCGTTGAACTGTACAAACAAGCGCAGGTGGTGATGCACGATCAGGCTCCGGCACTGATCATCGCTCACTCCAC
CGTGTTTGAACCGGTACGTAAAGAAGTTAAAGGCTATGTGGTTGATCCATTAGGCAAACATCACTTCGAAAACGTCTCTA
TCGAATAA

¿En cuál de los dos casos se ve más clara la similitud de secuencias? ¿Por qué?

Utiliza el apartado "aprender con ejemplos" para aprender a interpretar los resultados de un DOTPLOT

Quinto ejercicio. De nuevo BLAST

Repite la búsqueda empleando el algoritmo blast, pero ahora utiliza la secuencia de nucleótidos de los genes que estamos analizando

NCBI

¿Qué diferencias se observan entre emplear ADN o proteína?

 


home