sábado, 25 de mayo de 2019

SECUENCIACIÓN AUTOMÁTICA DEL GENOMA HUMANO

OBJETIVO

En esta práctica, leímos varias secuencias de ADN obtenidos a partir de técnicas de secuenciación automáticas de ADN. Los datos se analizaron utilizando las bases de datos disponibles al público para identificar los genes y productos genéticos. El impacto de la genómica se discutirá en el contexto de la sociedad actual.

  • Material necesario:
  • Fragmentos de secuencias de ADN
  • Ordenador con acceso a Internet.



DESCRIPCIÓN DEL EXPERIMENTO

Se pueden usar cualquier base de datos de secuencias del Genoma Humano para llevar a cabo la práctica. Para la realización de este protocolo se ha utilizado la base de datos ofrecida por el Centro Nacional de Información Biotecnológica, NCBI (National Center for Biotechnology Information).

PRÁCTICA

Como ya estamos familiarizados a la página web debido a la práctica anterior realizamos directamente los ejercicios, ya que sabíamos como fuenciona.

Ejercicio 1 

Primero leímos el análisis de la secuencia de ADN de la copia impresa del gel (cualquier carril) y encontramos el gen que identifica esta huella. 

Para hacer esto realizamos los siguientes pasos:

Identificar la secuencia de nucleótidos (nucleótidos 100-200) a partir de la lectura de la secuencia de ADN.
Escribir al menos 70 bases en el cuadro de consulta del programa BLAST en la página web del NCBI. Las bases pueden ser de cualquier región de la secuencia, pero deben ser contiguas. 
Examinar el informe de búsqueda BLASTN, identificar un gen probable, y examinar la identificación de genes para obtener información detallada. 

Estos fueron los resultados:








Una vez que el gen ha sido identificado, responda a las siguientes preguntas:

¿Cuál es el nombre de este gen?

 Ciclo de división celular 42 (proteína de unión a GTP) o CDC42 La CDC42 es una molécula reguladora intracelular clave que está implicada en la forma de la célula. En células de mamíferos, la proteína CDC42 regula el citoesqueleto de actina (el andamiaje de una célula) para producir una estructura filamentosa llamada filopodio, que están implicadas en la detección de otras células y el movimiento celular. Las mutaciones en CDC42 y sus proteínas asociadas se correlacionan con ciertos tipos de cáncer.


En comparación con la entrada GenBank, ¿qué cadena has leído?

La primera

 ¿Se puede encontrar algún artículo escrito sobre este gen? Anote el nombre de uno de los autores que han contribuido.

La proteína codificada por este gen es una pequeña GTPasa de la subfamilia Rho, que regula las vías de señalización que controlan diversas funciones celulares, incluida la morfología celular, la migración, la endocitosis y la progresión del ciclo celular. Esta proteína es muy similar a Saccharomyces cerevisiae Cdc 42, y es capaz de complementar el mutante cdc42-1 de la levadura. Se informó que el producto del oncogén Dbl cataliza específicamente la disociación del PIB de esta proteína. Esta proteína podría regular la polimerización de la actina a través de su unión directa a la proteína del síndrome de Wiskott-Aldrich neural (N-WASP), que posteriormente activa el complejo Arp2 / 3. El empalme alternativo de este gen da como resultado múltiples variantes de transcripción. Se han identificado pseudogenes de este gen en los cromosomas 3, 4, 5, 7, 8 y 20. 

Miguel Estravís Sastre


Al identificar una enfermedad causada por mutaciones en este gen. ¿Cuáles serían los motivos de un médico para realizar una búsqueda para esta enfermedad? ¿Y si quien realiza la búsqueda es una compañía de seguros?

Diagnóstico para la discapacidad intelectual 


Ejercicio 2

Luego intercambiamos la copia de secuencia automática con otro grupo y enviar la secuencia de análisis BLAST. Anotamos el gen. Seleccionamos una secuencia asociada a un documento publicado, grabar el título y el primer autor del artículo.






¿Qué es la bioinformática?


La bioinformática es un área emergente interdisciplinaria que se ocupa de la aplicación de la informótica a la recopilación, almacenamiento, organización, análisis, manipulación, presentación y distribución de información relativa a los datos biológicos o médicos, tales como macromoléculas (por ejemplo DNA o proteínas).

Ha evolucionado para servir de puente entre las observaciones (datos) y el conocimiento que se deriva (información) sobre, por ejemplo, la función de los procesos y, posteriormente, la aplicación (conocimiento).

¿Cómo han avanzado en la tecnología de secuenciación en este campo?


La metodología de secuenciación masiva, junto al desarrollo bioinformático, está permitiendo obtener grandes avances en el diagnóstico genético orientado a la clínica, mediante el estudio de paneles de genes.

La evolución tecnológica acontecida en los últimos años ha permitido cambiar el paradigma de la ciencia. La incorporación de recursos como los microarrays en el estudio transcriptómico o la proteómica en el mundo proteico ha abierto la puerta al análisis masivo y sistémico de la biología y sus aplicaciones a diferentes campos como la biomedicina. Esta evolución tecnológica por sí sola ha permitido aumentar la cantidad de datos de manera exponencial; sin embargo, no ha elevado en la misma proporción el conocimiento científico.

Un ejemplo de dicha afirmación se puede apreciar en el proyecto de la secuenciación del genoma humano, donde se ha demostrado que el conocimiento de la secuencia del genoma es sólo el inicio para la comprensión de la idiosincrasia del ser humano. Por tanto, junto a esta evolución tecnológica, está siendo necesaria una coevolución sinérgica de diferentes ramas de la ciencia, donde se engloba la bioinformática, ciencia multidisciplinar que trata de procesar, estandarizar, ordenar e integrar esa ingente cantidad de datos procedente de la tecnología para traducirla en información biológica útil y aplicable a diferentes campos de la ciencia.

Nombre dos métodos de secuenciación y describir el compromiso entre la velocidad de producción y la longitud de las secuencias producidas. 


El de Sanger y el de Maxam y Gilbert

En la secuenciación de Sanger, el ADN blanco es copiado muchas veces y se hacen fragmentos de diferentes longitudes. Nucleótidos fluorescentes que actúan como "terminadores de cadena" marcan los extremos de los fragmentos y permiten la determinación de la secuencia.

Un fragmento de ADN se marca radiactivamente en sus extremos con gamma 32P ó gamma 32S dATP por acción de la polinucleótido quinasa. La técnica consiste en romper estas moléculas marcadas con reacciones químicas específicas para cada una de las cuatro bases. Cuatro alícuotas de la misma muestra se tratan bajo condiciones distintas, posteriormente el tratamiento con piperidina rompe la molécula de ADN a nivel de la base modificada. Los productos de estas cuatro reacciones se resuelven en función de su tamaño en geles de poliacrilamida donde la secuencia puefe leerse en base al patrón de bandas radiactivas obtenidas. Esta técnica permite la lectura de unas 100 bases de secuencia.


¿Qué suposición hace BLAST? ¿Cuáles son las ventajas y desventajas de hacer esta suposición? 

Es importante entender que son simplemente suposiciones y que existen muchos casos en que sean falsos, pero constituye un buen punto de partida.
Se usa para encontrar similitudes locales. Para la utilización de BLAST se tienen en cuenta los siguientes supuestos: Los genes homólogos comparten similitud de secuencia, los genes ortologos tienen un gran nivel de similitud entre múltiples especies y los genes ortologos tienen con alta probabilidad funciones similares.

A pesar de que BLAST es un programa muy poderoso y casi siempre podemos confiar en sus resultados, se debe recordar que el programa es heurístico y por lo tanto puede que no encuentre la solución óptima. En la actualidad, el abuso y la pobre interpretación de los resultados de BLAST ha llevado a múltiples errores de anotación. Una cosa a tener en cuenta al usar BLAST es que cuanta más evidencia externa se pueda obtener para corroborar un alineamiento (fisiológica, filogenética, genética, etc.) es mejor.
El programa de BLAST NO garantiza que las secuencias que alinea sean homólogas y mucho menos que tengan la misma función, simplemente provee posibles candidatos. Se necesitan más análisis para anotar correctamente una secuencia.
La puntuación del BLAST depende del largo de la secuencia, una secuencia muy corta tendrá una puntuación menor que una grande simplemente por la cantidad de caracteres que tiene. Así que siempre se debe interpretar la puntuación con respecto al largo de la secuencia.
El e-valor depende del tamaño de la base de datos. Para bases de datos muy pequeñas, e-valores altos son más significativos que para bases de datos muy grandes. Para la base de datos no redundante (NR) de NCBI por lo general valores de 0.01 o menos son considerados como significativos, pero esto puede depender de la secuencia que se esté analizando.
Se debe tener cuidado con los errores de anotación; es común que alguna secuencia que se anotó mal (ya sea porque se anotó automáticamente o por error humano) sea utilizada como referencia para anotar otras secuencias similares, por lo que los errores de anotación se pueden propagar rápidamente. Siempre debemos especificar que la función de nuestra secuencia es posible o probable si fue asignada usando identidad con otras secuencias. Asimismo debemos tener en cuenta que la gran mayoría de las funciones asignadas en la actualidad son putativas y que pueden no ser una buena referencia para una asignación funcional.

OTROS DATOS:

Tambien realizamos la lectura de secuencia 3.

Secuencia 3

Línea 1:
TGNNNNNNTGNNNNNNNGNNANAACGAAGTGCAGACTCAAAAGTGCCATCTCCCTCCCGAC CATTGGAGGATCCCAAGCTCTATGTTGCCCTTATTGTCACCAGTGACATTTAATTCCAAACAGGAGTCCTTCGGGCCAGCAA







Resultado:
Proteína efectora CDC42 (Rho GTPasa vinculante) 3 o CDC42EP3
La CDC42 (secuencia 1) regula la formación de estructuras que contienen F-actina,mediante su interacción con diferentes proteínas efectoras. La CDC42EP3, una de estas proteínas efectoras, está implicada en la unión a la proteína CDC42, provocando cambios en la forma de una célula. Una célula detecta señales del ambiente externo mediante la creación de redes de moléculas de transmisión que indican a la célula cómo responder a dichas señales externas. Los defectos en estas moléculas de transmisión están implicados en muchas enfermedades, incluyendo cáncer.


Preguntas de debate

1. ¿Hay que hacer pruebas prenatales para las enfermedades que son actualmente incurables?

Sí, si se deberían hacer pruebas prenatales en el caso de que exista riesgo de que el bebé padezca una enfermedad incurable, ya que aunque actualmente dichas enfermedades no tengan cura, una atención temprana del bebé y un tratamiento adecuado y personalizado puede ayudarle a tener una mejora considerable en su calidad de vida.

2. ¿Hay que hacerles pruebas a nuestros hijos para enfermedades de aparición en la edad de adulto? 

No sería recomendable realizarlas en el embarazo ya que hay técnicas como la amniocentesis que si conllevan un alto riesgo al feto, pero si podríamos realizarle pruebas en la infancia o adolescencia si existe riesgo de padecer una enfermedad en la edad adulta.

3. ¿Qué papel debe desempeñar el gobierno en el establecimiento de directrices o leyes que regulen las pruebas genéticas humanas? 

Debe desempeñar un papel que impulse unas leyes que aprueben ciertas pruebas genéticas humanas con el fin de la prevención, tratamiento, diagnósitco, pronóstico.... de ciertas enfermedades, y de esta forma ofrecer una mejora en la salud de las personas afectadas.

jueves, 23 de mayo de 2019

ADN BIOINFORMÁTICA

OBJETIVO

En esta práctica, experimentamos con la herramienta BLAST bioinformatics.
En donde leímos las autorradiografías de secuenciaciones automáticas de geles para su posterior análisis de los datos resultantes utilizando las bases de datos disponibles al público (BLAST) para identificar los genes y productos genéticos.


Material necesario
  • Ordenador con acceso a Internet
  • Caja de luz blanca
  • Autorradiografías de secuenciaciones automáticas de geles (3 grupos de 4 autorradiografías)

FUNDAMENTO

La tecnología de secuenciación del ADN permite el análisis del ADN a nivel de nucleótidos. 
Los nucleótidos son los bloques de construcción de monómeros de ADN.
Cada desoxinucleótido (dNTP) comprende tres partes básicas: un grupo fosfato, un azúcar desoxirribosa, y una base que contiene nitrógeno (adenina, citosina, guanina, o timina). El 3' grupo hidroxilo en el azúcar de un nucleótido forma un enlace covalente con el 5' grupo fosfato de su vecino. 
La naturaleza de esta unión resulta en cadenas muy estables con una polaridad distinta, haciendo del DNA una estructura ideal para almacenamiento de información genética.
Los métodos de secuenciación automatizados de alto rendimiento han hecho que la información obtenida en la generación de secuencias sea mucho más eficiente.
Uno de los principales objetivos en la bioinformática es el desarrollo de programas informáticos que permiten el acceso más eficiente y la gestión de grandes conjuntos de datos. 


PROCEDIMIENTO

Lo primero que hicimos fue aprender a utilizar la página web siguiendo las instrucciones detalladas en el protocolo que se nos proporcionó.
La página que usamos es BLASTN.


PRÁCTICA

Para ello realizamos varios ejercicios

EJERCICIO 1
  • El primero consistió en familiarizarse con la autorradiografía mediante la lectura de la secuencia de ADN de la muestra 1.
Autorradiografías

Para ello comenzamos en la flecha que había impresa en la autorradiografía  y leímos de abajo hacia arriba el gel durante 20 nucleótidos. (Es importante recordar que se debe realizar siempre la lectura de abajo a arriba). 
Acto seguido escribimos la secuencia de ADN en la página y se buscó la secuencia en la base de datos del NCBI utilizando el programa BLASTN.

Seguidamente realizamos otra lectura comenzando en la flecha y leer hacia arriba el gel durante 30 nucleótidos. Escribimos la secuencia de ADN y se volvió a buscar la secuencia en la base de datos del NCBI utilizando el programa BLASTN.


Con los resultados obtenidos de la autorradiografía responder a las siguientes preguntas:

¿Los resultados obtenidos con BLASTN para la primera y la segunda búsqueda se parecen entre sí? 

 Las secuencias encontradas fueon casi idénticas para la primera y segunda búsqueda, pero los valores más altos fueron para la segunda búsqueda.
Mus caroli y Mus pahari.

¿Cuál es el nombre de este gen?

Factor de replicación C.


Esta fue la secuencia de 20 nucleótidos:






Y esta fue la secuencia de 30 nucleótidos:








¿A qué organismo es probable que pertenezca la secuencia de ADN de este ejercicio?

 Mus musculus (Ratón doméstico). 

RECOMENDACIONES A TENER EN CUENTA:

  •  Se puede introducir la secuencia directamente en el cuadro de consulta o escribir la secuencia en un pedazo de papel y luego introducirla en el cuadro de busqueda, a preferencia del usuario.
  •  Es muy importante no confundir los carriles cuando lea la secuencia. El gel contiene los carriles A, C, G y T de izquierda a derecha.
  • La lectura de un gel de secuenciación requiere que leer los nucleótidos en la dirección 5’→3’. Esto se puede lograr mediante la lectura hacia "arriba" del gel (a partir de la parte inferior del gel a la parte superior).
  • Observar que la separación y la intensidad de la mayor parte de las bandas es bastante constante. Debemos ignorar las bandas de colores claros y elegir los sólo el de los más oscuros. Alguna vez, la secuencia será oscura y los cuatro carriles serán de intensidad relativamente similares. Esto se llama una compresión de la secuencia de ADN y es común cuando hay tramos de G y C. Este tipo de patrón debe ser tratado como una posición ambigua, ante esta situación puede introducirse una N que indica que podría ser cualquiera de las bases. 
EJERCICIO 2

A continuación realizamos otro ejercicio con la tira 2.
Para ello comenzamos a leer desde 6 cm desde la parte inferior de la tira.
Buscar la secuencia en la base de datos del NCBI utilizando el programa BLASTN, como en el ejercicio anterior.
Después de obtener los resultados fuimos hacia abajo a la sección de Alineamiento y observamos las entradas que tienen nucleótidos que coinciden con su secuencia de consulta.

Esto fue el resultado:




EJERCICIO 3

En este ejercicio leímos la secuencia de ADN de la muestra 3.
Igualmente comenzamos a leer desde la parte inferior de la banda y escribir la secuencia de ADN. 
Se buscó la secuencia en la base de datos del NCBI utilizando el programa BLASTN.
A continuación hicimos clic en el número de acceso de GenBank de la secuencia hit para acceder a más información sobre la secuencia de ADN.

Los resultados fueron los siguientes:






Con los resultados obtenidos de la autorradiografía responder a las siguientes preguntas: 

¿Cuál es el nombre de este gen?

Rho GTPasa activadora de la proteína 5 

¿Cuántas pares de bases, aproximadamente, tiene este gen? 

7933 pb.


EJERCICIO 4

En este caso se mostró la interacción de dos proteínas codificadas por dos genes. Las interacciones proteína-proteína desempeñan un papel fundamental en prácticamente todos los procesos en una célula viva.
Este proceso, llamado transducción de señales, es muy importancia en muchos procesos biológicos tales como la división celular y la formación del citoesqueleto celular.
En este ejercicio, usamos secuencias de ADN para caracterizar dos genes humanos
Lo primero que se realizó fue leer la secuencia de ADN obtenido de la muestra 4 y se comenzó desde la parte inferior de la banda y pusimos alrededor de 30 pares de bases de la secuencia de ADN.
A continuación, subimos alrededor de un tercio de la altura de la tira (aproximadamente 14 cm) y leímos una parte de esta sección de la secuencia de ADN.
Pero en este caso se limitó la búsqueda a la base de datos de genes humanos. Para ello cambiamos la opción de "Choose Search Set” (Elija conjunto de búsqueda) y seleccionamos "Human genomic + transcript” (Genóma humano + transcripción).
Buscar cada sección de la secuencia de forma individual en la base de datos del NCBI utilizando el programa BLASTN.

Resultados con 30 pares de bases






Resultados a partir de los 14 cm






A partir de los resultados obtenidos:

Este ejercicio contiene dos secuencias de ADN (desde la sección inferior y a partir de la sección central). ¿Cuáles son los nombres de los genes correspondientes a estas dos secuencias? 

La primera secuencia de ADN es la de Bai1.
La segunda secuencia es la de Rac1.

¿Cuáles son las funciones de las dos proteínas codificadas por estos genes? 

La secuencia Bai1 codifica BAI1, el cuál es un inhibidor de la angiogénesis específica del cerebro.
La angiogénesis implica el crecimiento de nuevos vasos sanguíneos a partir de vasos pre-existentes, es un proceso normal en el crecimiento, desarrollo y cicatrización de heridas.Pero, la angiogénesis también ha demostrado ser esencial para el crecimiento y la metástasis de tumores sólidos. Con el fin de obtener el suministro de sangre para su crecimiento, las células tumorales son potentemente angiogénicas. La BAI1 se cree que inhibe el nuevo crecimiento de las células de los vasos sanguíneos, por lo que suprime el crecimiento de los glioblastomas (tumores cerebrales malignos). La BAI1 también se cree que funciona en la adhesión celular y transducción de señales en el cerebro. La secuencia Rac1 codifica una pequeña GTPasa llamada RAC1. La RAC1 actúa como un interruptor molecular en las vías de señalización que pueden cambiar la transducción de señales hacia dentro y fuera de una célula. La RAC1 está activo u "ON" cuando se une a una GTP e inactiva u "OFF" cuando se une con a un PIB. La forma inactiva de RAC1 (PIB-forma) se activa mediante el intercambio de GDP por GTP por los factores de cambio de nucleótidos de guanosina (GEFs). La inactivación de la RAC1 se consigue mediante la activación de las proteínas GTPasa (GAP), que revierten la conformación de nuevo a la forma inactiva unida a GDP a través de la hidrólisis del GTP.

¿Cómo interactúan estas dos proteínas en una célula viva?

En una célula viva, después que la RAC1 se activa mediante la unión de GTP, interactúa con BAI1. Esta interacción en la membrana citoplasmática es crucial para la función de BAI1, ya que se cree que participa en el crecimiento neuronal. La BAI1 también se asocia con otros efectores derivados de las proteínas G Rho pequeñas, que se asocian con la formación de fibras y la citocinesis.


PREGUNTAS DE INTERÉS

¿Qué es una secuencia de ADN?


Es una sucesión de letras representando la estructura primaria de una molécula real o hipotética de ADN o banda, con la capacidad de transportar información.
Las letras son ACG, y T, que simbolizan las cuatro subunidades de nucleótidos de una banda ADN, adenina, timina, citosina y guanina. que son bases covalentemente ligadas a cadenas fosfóricas. En el típico caso, las secuencias se presentan pegadas unas a las otras, sin espacios, como en la secuencia AAAGTCTGAC, yendo de 5' a 3' de izquierda a derecha.

¿Qué representa cada banda en una autorradiografía? 

Representa los distintos nucleótidos que pueden ser, uno por banda, por ejemplo si en una banda pone A, significa que corresponde a la adenina.

¿Qué es el programa BLAST? ¿Por qué se le considera una herramienta bioinformática?

Es un programa informático de alineamiento de secuencias de tipo local, ya sea de ADN, ARN o de proteínas. El programa es capaz de comparar una secuencia problema (también denominada en la literatura secuencia query) contra una gran cantidad de secuencias que se encuentren en una base de datos. El algoritmo encuentra las secuencias de la base de datos que tienen mayor parecido a la secuencia problema. Es importante mencionar que BLAST usa un algoritmo heurístico por lo que no nos puede garantizar que ha encontrado la solución correcta. Sin embargo, BLAST es capaz de calcular la significación de sus resultados, por lo que nos provee de un parámetro para juzgar los resultados que se obtienen.

Se le considera una herramienta bioinformática porque nos permite utilizarla para comparar secuencias, ya que hacemos empleo de una herramienta informática para el análisis de datos biológicos.