Reporte de práctica de MG-RAST

Reporte de práctica de MG-RASTThe SEED surgió como parte de esfuerzos por apoyar el análisis comparativogenómico a raíz del número creciente de genomas disponibles. La curación de lassecuencias que aquí están disponibles se hace a través de la curación desubsistemas por un anotador experto entre varios genomas. A partir de éste sitiose puede tener acceso a MG-RAST que nos permite hacer análisis comparativosde metagenomas en un ambiente basado en SEED. A partir de estas secuenciascuradas se obtienen grupos de familias proteícas o FIGfams.GenBank es la base de datos de secuencias del NIH, es una colección anotadacon todas las secuencias de DNA públicas disponibles.IMG es una fuente de anotación y análisis de grupos de datos metagenómicosdisponibles para el público.InterPro provee el análisis funcional de proteínas al clasificarlas en familias ypredecir dominios y sitios importantes. Combina los beneficios y poderes de otrasbases de datos y las integra en una sola herramienta poderosa de búsqueda ydiagnóstico.KEGG es una base de datos para entender a un alto nivel las funciones yutilidades de los sistemas biológicos, desde células hasta ecosistemas, a partir deinformación molecular.M5NR integra diferentes bases de datos de secuencias en una sola. Es como unade las opciones que tiene el BLASTnr o non redundant, es decir, se evita repetirresultados de búsqueda.Patric es una base de datos en la que se reduce y refina los alcances de labúsqueda de datos filogenómicos bacterianos a partir de numerosas fuentesespecialmente de comunidades de búsqueda bacterianas con el propósito dereducir tiempo y esfuerzo durante el análisis comparativo de datos.RefSeq es un grupo de secuencias comprensibles, bien anotadas no redundantes,incluyendo DNA genómico, transcritos y proteínas con las que se puede obtenersecuencias de referencia para grupos taxonómicos de interés.SwissProt es una base de datos de proteínas. Se conoce la estructuratridimensional, función, modificaciones postraduccionales, etc. Su anotación esrealizada manualmente mientras que con trEMBL no.

abrirlo pero no es fácil de manejar. Lo hice con Wordpad aunque Word o Excelestará mejor. Aparece de la siguiente manera:Project project_name Catlin Arctic Survey 2010_FindlayProject mgrast_id mgp138Project firstname HelenProject PI_firstname HelenProject lastname FindlayProject email hefi@pml.ac.ukProject PI_lastname FindlayProject PI_email hefi@pml.ac.ukSample sample_name mgs29153Sample mgrast_id mgs29153Sample nitrate_plusnit 1.32Sample elevation unknownSample collection_date 3-17-10Sample ANONYMIZED_NAME unknownSample feature cold temperature marine habitatSample Chl 1.6Sample TAXON_ID 408172Sample latitude 78.7115Sample public ySample biome arctic oceanSample DIC 2009.132Sample temperature -1.642Sample assigned_from_geo ySample altitude unknownSample country CanadaSample longitude -104.8776667Sample depth unknownSample Sal_bottle 29.9038Sample TITLE C1.0mSample env_package sedimentSample DESCRIPTION Seawater sampleSample Alk 2138.706Sample #SampleID C1.0m.G3Sample material sea waterEnviromental Package: sediment mgrast_id mge57345Enviromental Package: sediment phosphate 0.87Enviromental Package: sediment env_package sedimentEnviromental Package: sediment nitrate 1.27Enviromental Package: sediment silicate 6.91Enviromental Package: sediment ammonium 0.4Enviromental Package: sediment nitrite 0.06Enviromental Package: sediment host_subject_id unknownEn submitted aparecen siete ligas con diferente datos contenidos en cada una deellas acerca del metagenoma que se subio a la página. En un par de esas ligas nome permite ver el contenido ya que mi computadora no tiene programas

compatibles para visualizar los datos. En las demás aparecen los datosdesplegados ahí mismo en la red. Aparecen los siguientes datos:# MG-RAST - preprocess v3.0.0 - ()# site : metagenomics.anl.gov# email: mg-rast@mcs.anl.govThe job was uploaded on 2011-07-26 at 11:02:36 with a file Catlin1-16Spool_110602_HWI-EAS137R_0375_s_3_2_sequence_C1.0m.G3_CTTAGCACATCA.fastq.fasta of 5986725bytes and having md5 checksum e3796048add5756716776701849fe311.The file contains 4747200 base-pairs with 31648 reads, with an averagelength of 150.000.All reads were the same length.The reads have an average of 0.081 ambiguous characters (non-ACGT).The average gc content of all the reads is 50.503.At the time the job was created, options were selected which are used toselect which processing steps get run and with which parameters.The uploaded data was labelled as containing RNA only, so some of theprocessing steps like gene calling will be skipped.The reads will be dynamically filtered based on Phred quality scores,allowing at most low quality bases per read, where a quality score ofwas selected as the cutoff to define the low quality bases.Aparecen de una manera muy incomoda de leer.En la segunda liga aparece lo siguiente:8.7 118.7 122.0 124.0 226.0 128.7 229.3 230.0 131.3 132.0 2432.7 1733.3 2634.0 2134.7 3435.3 1736.0 3336.7 4037.3 6138.0 3138.7 3039.3 3839.6 140.0 7240.7 12640.9 641.3 262

41.6 342.0 45342.2 242.3 842.6 242.7 71543.0 1643.3 57343.5 143.6 444.0 42344.3 744.7 62245.0 545.3 51545.5 145.6 445.8 146.0 34246.2 146.3 246.7 45246.8 146.9 247.0 347.2 147.3 43347.6 247.7 948.0 106248.3 948.6 148.7 103548.8 148.9 149.0 1049.2 149.3 176449.5 149.6 249.7 2850.0 559650.3 4550.7 249451.0 3151.1 151.3 203751.6 151.7 3351.8 252.0 173552.1 252.3 1752.5 152.7 170052.8 153.0 14

53.3 210553.7 2653.8 354.0 165954.4 1354.7 137354.8 155.0 1755.2 155.3 112055.7 1955.9 156.0 61856.1 156.4 756.7 38757.0 657.3 32057.7 557.9 158.0 37758.4 558.7 21459.1 359.3 11060.0 6860.3 160.4 160.7 3861.1 261.3 2762.0 1462.7 563.3 664.0 665.3 468.0 168.7 169.3 170.0 173.3 1Esto bien pudo haber sido visualizado en una tabla en Excel. Además le falta lasetiquetas o encabezados de cada columna.La tercera liga es la que no me permitió ver los datos.En la cuarta liga aparece solo esto:150 31648En la quinta:bp_count 4747200sequence_count 31648average_length 150.000standard_deviation_length 0.000

length_min 150length_max 150average_gc_content 50.503standard_deviation_gc_content 4.131average_gc_ratio 0.994standard_deviation_gc_ratio 0.189ambig_char_count 2568ambig_sequence_count 409average_ambig_chars 0.081Que de igual forma una tablita estaría mucho mejor y con más comodidad.La sexta liga tampoco la pude visualizar.En la última liga apareció solo la palabra AmpliconY En Analysis aparecen distintas ligas con cada uno de los análisis ya hechos conlas distintas opciones que la página nos ofrece. Sin embargo la forma en la que sevisualizan los datos no es muy cómoda.En Analysis del a página principal las opciones de Data Type, Representative HitClassification nos reporta la clasificación taxonómica de los resultados debúsqueda similares a los de la secuencia que estamos analizando. Best HitClassification ofrece solo los más parecidos. Lowest common ancestor reporta elancestro común más cercano de los best hits de búsqueda. Usaría la segunda yaque arroja solo aquellas secuencias que son más idénticas. La tercera para checarcoherencia en la filogenia.En Data selection decidí que sea RDP la fuente de anotación por lascaracterísticas de ésta base de datos que me ofrece para análisis taxonómicobasado en secuencias de 16S rRNA. El % mínimo de identidad lo dejé en 10%para que haya más cosas que se le parescan a las secuencias del metagenoma.En la tabla lo que nos permite ordenar es el rango taxonómico de las secuencias.No me apareció el plugin.En la Gráfica me apareció la resolución a nivel de dominio. Fue un metagenomade Bacteria. Si le aprieto la barra repetidas veces me va apareciendo mas graficashasta la cepa tipo más parecida. Este metagenoma fue dominado porCorinebacterium.En el árbol uno puede moverle las opciones de nivel taxonómico al cual queremosver las ramas, el color que nivel taxonómico nos define, además podemosrestringir el dominio taxonómico de las muestras. Las leaf weights nos visualiza dedos maneras diferentes unas barras que aparecen en cada rama.El Heat Map puede agruparse por Ward, single, complete, Maquitty, median ycentroid.Ward sugiere un procedimiento general de agrupamiento jerárquico aglomerativodónde el criterio para seleccionar el par de clusters a unir en cada paso estábasado en el valor óptimo de una función onjetivo. Single es un método paracalcular distancia entre clusters en el clustering jerárquico. Complete es unmétodo para calcular distancias entre clusters en el clustering aglomerativojerárquico. Median separa datos en distintos grupos basados en las diferenciasdentro de los datos. Centroide es un punto cuyos valores del parámetro son elpromedio de los valores de parámetro de todos los puntos en el cluster. El mapa

se visualiza mejor si se emplea la distancia máxima. El árbol vertical nos da lataxonomía de todas las secuencias. El horizontal nos da la similitud entre los tresdiferentes metagenomas. Si se pone a nivel de género se alarga el árbol vertical ycambian las graficas de caja.El Análisis de componentes principales es una técnica estadística que reducela dimensionalidad de los datos y sirve para hallar las causas de la variabilidad deun conjunto de datos y ordenarlas por importancia.Con la gráfica de rarefacción podemos ver que los 3 metagenomas hanmuestreado casi la totalidad de especies de la comunidad. La diversidad alfa es eltotal de especies de una comunidad. En este caso podemos calcularla como elmáximo o dónde se haga asíntota la gráfica.En la opción WGS, en la grafica, podemos desplegar graficas de barras hastaproteínas caracterizadas para una cepa tipo. En Workbench se puede descargar elarchivo fasta del metagenoma anotado por la base que se selecciono (SwissProten mi caso).

Reporte de práctica de MG-RAST

Create successful ePaper yourself

Delete template?

Save as template?