Analítica sobre Big Data

El análisis de grandes datos ha sustituido a la recolección de datos como nuevo "cuello de botella" en el proceso de toma de decisiones. Para extraer conocimiento de utilidad de grandes, heterogéneos y fluctuantes conjuntos de datos, se necesita de poderosos recursos computacionales y abstracciones...

Бүрэн тодорхойлолт

-д хадгалсан:

Номзүйн дэлгэрэнгүй
Үндсэн зохиолч:	Rodríguez Saredo, Juan Francisco (author)
Формат:	masterThesis
Хэл сонгох:	испани
Хэвлэсэн:	2018
Нөхцлүүд:	Big data Aprendizaje automático Clustering Arboles de decisión Map reduce
Онлайн хандалт:	http://hdl.handle.net/20.500.12008/20382
Шошгууд:	Шошго нэмэх Шошго байхгүй, Энэхүү баримтыг шошголох эхний хүн болох!

_version_	1868890179559751680
author	Rodríguez Saredo, Juan Francisco
author_browse	Rodríguez Saredo, Juan Francisco
author_facet	Rodríguez Saredo, Juan Francisco
author_role	author
collection	COLIBRI
dc.contributor.none.fl_str_mv	Rodríguez Saredo Juan Francisco, Universidad de la República (Uruguay). Facultad de Ingeniería
dc.creator.none.fl_str_mv	Rodríguez Saredo, Juan Francisco
dc.date.none.fl_str_mv	2018 2019-04-03T16:18:12Z 2019-04-03T16:18:12Z
dc.format.none.fl_str_mv	353 p. application/pdf
dc.identifier.none.fl_str_mv	Rodríguez Saredo, J. Analítica sobre Big Data [en línea] Tesis de maestría. Montevideo : UR.FI.INCO; PEDECIBA Area Informática, 2018. http://hdl.handle.net/20.500.12008/20382
dc.language.none.fl_str_mv	es spa
dc.publisher.none.fl_str_mv	UR.FI.INCO; PEDECIBA Area Informática
dc.rights.none.fl_str_mv	info:eu-repo/semantics/openAccess Licencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC - By-NC-ND)
dc.source.none.fl_str_mv	reponame:COLIBRI instname:Universidad de la República instacron:Universidad de la República
dc.subject.none.fl_str_mv	Big data Aprendizaje automático Clustering Arboles de decisión Map reduce
dc.title.none.fl_str_mv	Analítica sobre Big Data
dc.type.none.fl_str_mv	Tesis de maestría info:eu-repo/semantics/masterThesis info:eu-repo/semantics/acceptedVersion
description	El análisis de grandes datos ha sustituido a la recolección de datos como nuevo "cuello de botella" en el proceso de toma de decisiones. Para extraer conocimiento de utilidad de grandes, heterogéneos y fluctuantes conjuntos de datos, se necesita de poderosos recursos computacionales y abstracciones de programación, que sean efectivamente utilizados. Big Data surgió junto con la aparición en el mercado de computadoras con gran capacidad de cómputo las cuales actúan en forma distribuida, pero coordinadamente, aprovechando su potente capacidad de procesamiento. Para su tratamiento se debe tener en consideración las principales características en Big Data: volumen de los datos generados, su variabilidad y la velocidad con que ellos se originan. Su tratamiento implica tener que emplear algoritmos específicos que alternan el uso del disco y de la memoria, reducir las dimensiones de los modelos (para facilitar la interpretabilidad o para llegar a resultados válidos), adaptar algoritmos de propósito general (como el gradiente estocástico), generar nuevos algoritmos para el procesamiento de datos originados por streaming y distribuir los datos entre múltiples nodos, utilizando modelos computacionales que organizan los cálculos (el más popular es MapReduce). Tal diversidad de abordajes es debido a las diferencias entre el Data Mining tradicional y la analítica aplicada a Big Data. Incluso el análisis estadístico debe modificarse debido a que luego del procesamiento de los datos, el análisis predictivo en Big Data emplea muestras que representan a la mayor a de la población, por lo que la significación estadística no es tan apreciable como lo es en la analítica tradicional. Este hecho da lugar a nuevos métodos estadísticos para obtener conocimientos de los modelos predictivos. En el presente documento se describen generalidades del proceso de analítica sobre Big Data y se presentan técnicas que pueden ser aplicadas a este tipo de problemas. A lo largo de ellas se exploran y analizan distintos algoritmos y su viabilidad para enfrentarse con datos masivos, presentándose, en algunos casos, sugerencias para su adaptación. Por otro lado se presenta un ordenamiento que incluye una clasificación y una taxonomía de los términos de minería de datos y modelos computacionales adaptados a Big Data. Al estudiarse los algoritmos actuales, se identifican posibles modificaciones planteadas como casos de estudio cuya viabilidad podría ser analizada en el futuro. A su vez se presenta un caso de estudio donde algunas de las técnicas estudiadas son aplicadas al Plan Ceibal, basándose en los datos obtenidos de los usuarios, a través del análisis de una red modelada por un grafo, cuyos nodos son los centros de estudio y sus aristas están representadas por la hora en que esos centros están conectados.
eu_rights_str_mv	openAccess
format	masterThesis
id	anni_be5a67e1870d340d4ae361df1f67d8bf
identifier_str_mv	Rodríguez Saredo, J. Analítica sobre Big Data [en línea] Tesis de maestría. Montevideo : UR.FI.INCO; PEDECIBA Area Informática, 2018.
instacron_str	Universidad de la República
institution	Universidad de la República
instname_str	Universidad de la República
language	spa
language_invalid_str_mv	es
network_acronym_str	anni
network_name_str	oai-lr-anni
oai_identifier_str	oai:colibri.udelar.edu.uy:20.500.12008/20382
publishDate	2018
publishDateSort	2018
publisher.none.fl_str_mv	UR.FI.INCO; PEDECIBA Area Informática
reponame_str	COLIBRI
repository.mail.fl_str_mv
repository.name.fl_str_mv
repository_id_str
rights_invalid_str_mv	Licencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC - By-NC-ND)
spelling	Analítica sobre Big DataRodríguez Saredo, Juan FranciscoBig dataAprendizaje automáticoClusteringArboles de decisiónMap reduceEl análisis de grandes datos ha sustituido a la recolección de datos como nuevo "cuello de botella" en el proceso de toma de decisiones. Para extraer conocimiento de utilidad de grandes, heterogéneos y fluctuantes conjuntos de datos, se necesita de poderosos recursos computacionales y abstracciones de programación, que sean efectivamente utilizados. Big Data surgió junto con la aparición en el mercado de computadoras con gran capacidad de cómputo las cuales actúan en forma distribuida, pero coordinadamente, aprovechando su potente capacidad de procesamiento. Para su tratamiento se debe tener en consideración las principales características en Big Data: volumen de los datos generados, su variabilidad y la velocidad con que ellos se originan. Su tratamiento implica tener que emplear algoritmos específicos que alternan el uso del disco y de la memoria, reducir las dimensiones de los modelos (para facilitar la interpretabilidad o para llegar a resultados válidos), adaptar algoritmos de propósito general (como el gradiente estocástico), generar nuevos algoritmos para el procesamiento de datos originados por streaming y distribuir los datos entre múltiples nodos, utilizando modelos computacionales que organizan los cálculos (el más popular es MapReduce). Tal diversidad de abordajes es debido a las diferencias entre el Data Mining tradicional y la analítica aplicada a Big Data. Incluso el análisis estadístico debe modificarse debido a que luego del procesamiento de los datos, el análisis predictivo en Big Data emplea muestras que representan a la mayor a de la población, por lo que la significación estadística no es tan apreciable como lo es en la analítica tradicional. Este hecho da lugar a nuevos métodos estadísticos para obtener conocimientos de los modelos predictivos. En el presente documento se describen generalidades del proceso de analítica sobre Big Data y se presentan técnicas que pueden ser aplicadas a este tipo de problemas. A lo largo de ellas se exploran y analizan distintos algoritmos y su viabilidad para enfrentarse con datos masivos, presentándose, en algunos casos, sugerencias para su adaptación. Por otro lado se presenta un ordenamiento que incluye una clasificación y una taxonomía de los términos de minería de datos y modelos computacionales adaptados a Big Data. Al estudiarse los algoritmos actuales, se identifican posibles modificaciones planteadas como casos de estudio cuya viabilidad podría ser analizada en el futuro. A su vez se presenta un caso de estudio donde algunas de las técnicas estudiadas son aplicadas al Plan Ceibal, basándose en los datos obtenidos de los usuarios, a través del análisis de una red modelada por un grafo, cuyos nodos son los centros de estudio y sus aristas están representadas por la hora en que esos centros están conectados.UR.FI.INCO; PEDECIBA Area InformáticaRodríguez Saredo Juan Francisco, Universidad de la República (Uruguay). Facultad de Ingeniería2019-04-03T16:18:12Z2019-04-03T16:18:12Z2018Tesis de maestríainfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/acceptedVersion353 p.application/pdfRodríguez Saredo, J. Analítica sobre Big Data [en línea] Tesis de maestría. Montevideo : UR.FI.INCO; PEDECIBA Area Informática, 2018.http://hdl.handle.net/20.500.12008/20382reponame:COLIBRIinstname:Universidad de la Repúblicainstacron:Universidad de la RepúblicaesspaLas obras depositadas en el Repositorio se rigen por la Ordenanza de los Derechos de la Propiedad Intelectual de la Universidad de la República.(Res. Nº 91 de C.D.C. de 8/III/1994 – D.O. 7/IV/1994) y por la Ordenanza del Repositorio Abierto de la Universidad de la República (Res. Nº 16 de C.D.C. de 07/10/2014)info:eu-repo/semantics/openAccessLicencia Creative Commons Atribución – No Comercial – Sin Derivadas (CC - By-NC-ND)oai:colibri.udelar.edu.uy:20.500.12008/203822026-04-14T10:27:53Z
spellingShingle	Analítica sobre Big Data Rodríguez Saredo, Juan Francisco Big data Aprendizaje automático Clustering Arboles de decisión Map reduce
status_str	acceptedVersion
title	Analítica sobre Big Data
title_full	Analítica sobre Big Data
title_fullStr	Analítica sobre Big Data
title_full_unstemmed	Analítica sobre Big Data
title_short	Analítica sobre Big Data
title_sort	Analítica sobre Big Data
topic	Big data Aprendizaje automático Clustering Arboles de decisión Map reduce
url	http://hdl.handle.net/20.500.12008/20382

Analítica sobre Big Data

Ижил төстэй зүйлс