12.07.2015 Views

Reporte de práctica de MG-RAST

Reporte de práctica de MG-RAST

Reporte de práctica de MG-RAST

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Reporte</strong> <strong>de</strong> <strong>práctica</strong> <strong>de</strong> <strong>MG</strong>-<strong>RAST</strong>The SEED surgió como parte <strong>de</strong> esfuerzos por apoyar el análisis comparativogenómico a raíz <strong>de</strong>l número creciente <strong>de</strong> genomas disponibles. La curación <strong>de</strong> lassecuencias que aquí están disponibles se hace a través <strong>de</strong> la curación <strong>de</strong>subsistemas por un anotador experto entre varios genomas. A partir <strong>de</strong> éste sitiose pue<strong>de</strong> tener acceso a <strong>MG</strong>-<strong>RAST</strong> que nos permite hacer análisis comparativos<strong>de</strong> metagenomas en un ambiente basado en SEED. A partir <strong>de</strong> estas secuenciascuradas se obtienen grupos <strong>de</strong> familias proteícas o FIGfams.GenBank es la base <strong>de</strong> datos <strong>de</strong> secuencias <strong>de</strong>l NIH, es una colección anotadacon todas las secuencias <strong>de</strong> DNA públicas disponibles.I<strong>MG</strong> es una fuente <strong>de</strong> anotación y análisis <strong>de</strong> grupos <strong>de</strong> datos metagenómicosdisponibles para el público.InterPro provee el análisis funcional <strong>de</strong> proteínas al clasificarlas en familias ypre<strong>de</strong>cir dominios y sitios importantes. Combina los beneficios y po<strong>de</strong>res <strong>de</strong> otrasbases <strong>de</strong> datos y las integra en una sola herramienta po<strong>de</strong>rosa <strong>de</strong> búsqueda ydiagnóstico.KEGG es una base <strong>de</strong> datos para enten<strong>de</strong>r a un alto nivel las funciones yutilida<strong>de</strong>s <strong>de</strong> los sistemas biológicos, <strong>de</strong>s<strong>de</strong> células hasta ecosistemas, a partir <strong>de</strong>información molecular.M5NR integra diferentes bases <strong>de</strong> datos <strong>de</strong> secuencias en una sola. Es como una<strong>de</strong> las opciones que tiene el BLASTnr o non redundant, es <strong>de</strong>cir, se evita repetirresultados <strong>de</strong> búsqueda.Patric es una base <strong>de</strong> datos en la que se reduce y refina los alcances <strong>de</strong> labúsqueda <strong>de</strong> datos filogenómicos bacterianos a partir <strong>de</strong> numerosas fuentesespecialmente <strong>de</strong> comunida<strong>de</strong>s <strong>de</strong> búsqueda bacterianas con el propósito <strong>de</strong>reducir tiempo y esfuerzo durante el análisis comparativo <strong>de</strong> datos.RefSeq es un grupo <strong>de</strong> secuencias comprensibles, bien anotadas no redundantes,incluyendo DNA genómico, transcritos y proteínas con las que se pue<strong>de</strong> obtenersecuencias <strong>de</strong> referencia para grupos taxonómicos <strong>de</strong> interés.SwissProt es una base <strong>de</strong> datos <strong>de</strong> proteínas. Se conoce la estructuratridimensional, función, modificaciones postraduccionales, etc. Su anotación esrealizada manualmente mientras que con trEMBL no.


abrirlo pero no es fácil <strong>de</strong> manejar. Lo hice con Wordpad aunque Word o Excelestará mejor. Aparece <strong>de</strong> la siguiente manera:Project project_name Catlin Arctic Survey 2010_FindlayProject mgrast_id mgp138Project firstname HelenProject PI_firstname HelenProject lastname FindlayProject email hefi@pml.ac.ukProject PI_lastname FindlayProject PI_email hefi@pml.ac.ukSample sample_name mgs29153Sample mgrast_id mgs29153Sample nitrate_plusnit 1.32Sample elevation unknownSample collection_date 3-17-10Sample ANONYMIZED_NAME unknownSample feature cold temperature marine habitatSample Chl 1.6Sample TAXON_ID 408172Sample latitu<strong>de</strong> 78.7115Sample public ySample biome arctic oceanSample DIC 2009.132Sample temperature -1.642Sample assigned_from_geo ySample altitu<strong>de</strong> unknownSample country CanadaSample longitu<strong>de</strong> -104.8776667Sample <strong>de</strong>pth unknownSample Sal_bottle 29.9038Sample TITLE C1.0mSample env_package sedimentSample DESCRIPTION Seawater sampleSample Alk 2138.706Sample #SampleID C1.0m.G3Sample material sea waterEnviromental Package: sediment mgrast_id mge57345Enviromental Package: sediment phosphate 0.87Enviromental Package: sediment env_package sedimentEnviromental Package: sediment nitrate 1.27Enviromental Package: sediment silicate 6.91Enviromental Package: sediment ammonium 0.4Enviromental Package: sediment nitrite 0.06Enviromental Package: sediment host_subject_id unknownEn submitted aparecen siete ligas con diferente datos contenidos en cada una <strong>de</strong>ellas acerca <strong>de</strong>l metagenoma que se subio a la página. En un par <strong>de</strong> esas ligas nome permite ver el contenido ya que mi computadora no tiene programas


compatibles para visualizar los datos. En las <strong>de</strong>más aparecen los datos<strong>de</strong>splegados ahí mismo en la red. Aparecen los siguientes datos:# <strong>MG</strong>-<strong>RAST</strong> - preprocess v3.0.0 - ()# site : metagenomics.anl.gov# email: mg-rast@mcs.anl.govThe job was uploa<strong>de</strong>d on 2011-07-26 at 11:02:36 with a file Catlin1-16Spool_110602_HWI-EAS137R_0375_s_3_2_sequence_C1.0m.G3_CTTAGCACATCA.fastq.fasta of 5986725bytes and having md5 checksum e3796048add5756716776701849fe311.The file contains 4747200 base-pairs with 31648 reads, with an averagelength of 150.000.All reads were the same length.The reads have an average of 0.081 ambiguous characters (non-ACGT).The average gc content of all the reads is 50.503.At the time the job was created, options were selected which are used toselect which processing steps get run and with which parameters.The uploa<strong>de</strong>d data was labelled as containing RNA only, so some of theprocessing steps like gene calling will be skipped.The reads will be dynamically filtered based on Phred quality scores,allowing at most low quality bases per read, where a quality score ofwas selected as the cutoff to <strong>de</strong>fine the low quality bases.Aparecen <strong>de</strong> una manera muy incomoda <strong>de</strong> leer.En la segunda liga aparece lo siguiente:8.7 118.7 122.0 124.0 226.0 128.7 229.3 230.0 131.3 132.0 2432.7 1733.3 2634.0 2134.7 3435.3 1736.0 3336.7 4037.3 6138.0 3138.7 3039.3 3839.6 140.0 7240.7 12640.9 641.3 262


41.6 342.0 45342.2 242.3 842.6 242.7 71543.0 1643.3 57343.5 143.6 444.0 42344.3 744.7 62245.0 545.3 51545.5 145.6 445.8 146.0 34246.2 146.3 246.7 45246.8 146.9 247.0 347.2 147.3 43347.6 247.7 948.0 106248.3 948.6 148.7 103548.8 148.9 149.0 1049.2 149.3 176449.5 149.6 249.7 2850.0 559650.3 4550.7 249451.0 3151.1 151.3 203751.6 151.7 3351.8 252.0 173552.1 252.3 1752.5 152.7 170052.8 153.0 14


53.3 210553.7 2653.8 354.0 165954.4 1354.7 137354.8 155.0 1755.2 155.3 112055.7 1955.9 156.0 61856.1 156.4 756.7 38757.0 657.3 32057.7 557.9 158.0 37758.4 558.7 21459.1 359.3 11060.0 6860.3 160.4 160.7 3861.1 261.3 2762.0 1462.7 563.3 664.0 665.3 468.0 168.7 169.3 170.0 173.3 1Esto bien pudo haber sido visualizado en una tabla en Excel. A<strong>de</strong>más le falta lasetiquetas o encabezados <strong>de</strong> cada columna.La tercera liga es la que no me permitió ver los datos.En la cuarta liga aparece solo esto:150 31648En la quinta:bp_count 4747200sequence_count 31648average_length 150.000standard_<strong>de</strong>viation_length 0.000


length_min 150length_max 150average_gc_content 50.503standard_<strong>de</strong>viation_gc_content 4.131average_gc_ratio 0.994standard_<strong>de</strong>viation_gc_ratio 0.189ambig_char_count 2568ambig_sequence_count 409average_ambig_chars 0.081Que <strong>de</strong> igual forma una tablita estaría mucho mejor y con más comodidad.La sexta liga tampoco la pu<strong>de</strong> visualizar.En la última liga apareció solo la palabra AmpliconY En Analysis aparecen distintas ligas con cada uno <strong>de</strong> los análisis ya hechos conlas distintas opciones que la página nos ofrece. Sin embargo la forma en la que sevisualizan los datos no es muy cómoda.En Analysis <strong>de</strong>l a página principal las opciones <strong>de</strong> Data Type, Representative HitClassification nos reporta la clasificación taxonómica <strong>de</strong> los resultados <strong>de</strong>búsqueda similares a los <strong>de</strong> la secuencia que estamos analizando. Best HitClassification ofrece solo los más parecidos. Lowest common ancestor reporta elancestro común más cercano <strong>de</strong> los best hits <strong>de</strong> búsqueda. Usaría la segunda yaque arroja solo aquellas secuencias que son más idénticas. La tercera para checarcoherencia en la filogenia.En Data selection <strong>de</strong>cidí que sea RDP la fuente <strong>de</strong> anotación por lascaracterísticas <strong>de</strong> ésta base <strong>de</strong> datos que me ofrece para análisis taxonómicobasado en secuencias <strong>de</strong> 16S rRNA. El % mínimo <strong>de</strong> i<strong>de</strong>ntidad lo <strong>de</strong>jé en 10%para que haya más cosas que se le parescan a las secuencias <strong>de</strong>l metagenoma.En la tabla lo que nos permite or<strong>de</strong>nar es el rango taxonómico <strong>de</strong> las secuencias.No me apareció el plugin.En la Gráfica me apareció la resolución a nivel <strong>de</strong> dominio. Fue un metagenoma<strong>de</strong> Bacteria. Si le aprieto la barra repetidas veces me va apareciendo mas graficashasta la cepa tipo más parecida. Este metagenoma fue dominado porCorinebacterium.En el árbol uno pue<strong>de</strong> moverle las opciones <strong>de</strong> nivel taxonómico al cual queremosver las ramas, el color que nivel taxonómico nos <strong>de</strong>fine, a<strong>de</strong>más po<strong>de</strong>mosrestringir el dominio taxonómico <strong>de</strong> las muestras. Las leaf weights nos visualiza <strong>de</strong>dos maneras diferentes unas barras que aparecen en cada rama.El Heat Map pue<strong>de</strong> agruparse por Ward, single, complete, Maquitty, median ycentroid.Ward sugiere un procedimiento general <strong>de</strong> agrupamiento jerárquico aglomerativodón<strong>de</strong> el criterio para seleccionar el par <strong>de</strong> clusters a unir en cada paso estábasado en el valor óptimo <strong>de</strong> una función onjetivo. Single es un método paracalcular distancia entre clusters en el clustering jerárquico. Complete es unmétodo para calcular distancias entre clusters en el clustering aglomerativojerárquico. Median separa datos en distintos grupos basados en las diferencias<strong>de</strong>ntro <strong>de</strong> los datos. Centroi<strong>de</strong> es un punto cuyos valores <strong>de</strong>l parámetro son elpromedio <strong>de</strong> los valores <strong>de</strong> parámetro <strong>de</strong> todos los puntos en el cluster. El mapa


se visualiza mejor si se emplea la distancia máxima. El árbol vertical nos da lataxonomía <strong>de</strong> todas las secuencias. El horizontal nos da la similitud entre los tresdiferentes metagenomas. Si se pone a nivel <strong>de</strong> género se alarga el árbol vertical ycambian las graficas <strong>de</strong> caja.El Análisis <strong>de</strong> componentes principales es una técnica estadística que reducela dimensionalidad <strong>de</strong> los datos y sirve para hallar las causas <strong>de</strong> la variabilidad <strong>de</strong>un conjunto <strong>de</strong> datos y or<strong>de</strong>narlas por importancia.Con la gráfica <strong>de</strong> rarefacción po<strong>de</strong>mos ver que los 3 metagenomas hanmuestreado casi la totalidad <strong>de</strong> especies <strong>de</strong> la comunidad. La diversidad alfa es eltotal <strong>de</strong> especies <strong>de</strong> una comunidad. En este caso po<strong>de</strong>mos calcularla como elmáximo o dón<strong>de</strong> se haga asíntota la gráfica.En la opción WGS, en la grafica, po<strong>de</strong>mos <strong>de</strong>splegar graficas <strong>de</strong> barras hastaproteínas caracterizadas para una cepa tipo. En Workbench se pue<strong>de</strong> <strong>de</strong>scargar elarchivo fasta <strong>de</strong>l metagenoma anotado por la base que se selecciono (SwissProten mi caso).

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!