Capítulo 6. Encontrar la distancia de Hamming: Contar las mutaciones puntuales
Este trabajo se ha traducido utilizando IA. Agradecemos tus opiniones y comentarios: translation-feedback@oreilly.com
La distancia de Hamming, llamada así por el mismo Richard Hamming mencionado en el Prefacio, es el número de ediciones necesarias para cambiar una cadena por otra.Es una métrica para calibrar la similitud de secuencias. He escrito un par de métricas más para ello, empezando en el Capítulo 1 con la frecuencia de tetranucleótidos y continuando en el Capítulo 5 con el contenido de GC. Aunque esta última puede ser prácticamente informativa, ya que las regiones codificantes tienden a ser ricas en GC, la frecuencia de tetranucleótidos se queda bastante corta en cuanto a su utilidad. Por ejemplo, las secuencias AAACCCGGGTTT y CGACGATATGTC son tremendamente diferentes y, sin embargo, producen las mismas frecuencias de bases:
$ ./dna.py AAACCCGGGTTT 3 3 3 3 $ ./dna.py CGACGATATGTC 3 3 3 3
Por sí solas, la frecuencia de tetranucleótidos hace que estas secuencias parezcan idénticas, pero es bastante obvio que producirían secuencias proteicas totalmente diferentes y, por tanto, serían funcionalmente distintas.La figura 6-1 muestra una alineación de las 2 secuencias que indica que sólo comparten 3 de las 12 bases, lo que significa que sólo son similares en un 25%.
Get Dominar Python para Bioinformática now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.