Thursday, March 02, 2006

Caso 2: Datos faltantes en un analisis con moleculas

Este es un post a pedido de nuestro amigo Carlos
PREGUNTA: Manejo de datos en un analisis molecular
ANTECEDENTES: Son datos moleculares, tengo, por decir, 80 terminales para 5 genes, pero muchos de ellos solo tienen secuencias para 2 o 3 genes, y son muy poquitos (la mitad) los que tienen todos los genes secuenciados. Tonces quiero saber si hacer mis analisis solo debo usar terminales que tegan todos los caracteres completos o seria bueno incluir tambien terminales que no tienen secuencias para uno o mas genes.
CONSULTA: Es bueno incluir en los analisis filogeneticos terminales con muchos caracteres faltantes??

1 Comments:

At March 02, 2006 9:19 AM, Blogger Salva said...

Los interrogantes no son tan problemáticos como antes se creía... ese es un problema que era debido a los programas viejos (PUAP y Hennig86)... Para evitar cualquier inconveniente, simplemente hay que estar seguros que se colapsan las ramas que tienen soporte ambiguo (ya esta implementado en NONA y TNT ;) si usan PAUP hay que colapsar las ramas!)

Lo importante, no es la cantidad de info faltante, sino la calidad de la info presente. En morfología suele ser un problema pues las entradas faltantes generan ambigüedad (hay un procedimiento para eliminarlas que se invento Wilkinson creo, esta implementado en WinClada). En molecular si hay un buen esqueleto (en este caso la mitad) con casi todo, no creo que haya problema, a menos que los taxa con un solo gen, estén sesgados hacia un grupo particular, o que asi no estén sesgados la tasa de solapamiento de los datos sea muy baja (es decir, que hay muy pocos taxones compartidos al comparar dos genes) con lo cual cada matriz seria prácticamente independiente y solo meteriamos ambigüedad a los resultados.

Hay un par de ejercicios muy buenos que demuestran la utilidad de combinar muchos taxa, asi para cada uno de ellos en muchos casos solo tengamos una fuerte de datos. Creo que son de Gatesi, y están por ahí en los últimos 2 o 3 años de Systematic biology, uno es de cocodrilos y el otro de ballenas e hippos (palabra clave creo que es supermatix, están en las discuciones contra superarboles), en el librito de Giribet, DeSalle y Wheeler, esta uno de esos papers (el de las ballenas) reencauchado.

Temiendo ser repetitivo, si creemos que el conjunto de terminales causa sesgo en el resultado final, podemos hacer una evaluación como la que hicieron Rydin y Källesjö y Whiting y Siddall :D

 

Post a Comment

<< Home