25.10.2014 Views

Dados Estruturados x Dados Semi-Estruturados x ... - Rede DCC

Dados Estruturados x Dados Semi-Estruturados x ... - Rede DCC

Dados Estruturados x Dados Semi-Estruturados x ... - Rede DCC

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Prof. Daniela Barreiro Claro


Estes dados vem<br />

dos diversos<br />

dispositivos<br />

<strong>Dados</strong> estão crescendo…<br />

90% dos dados foram gerados há 2 anos<br />

<strong>Dados</strong> gerados<br />

10%<br />

Há 2 anos atrás<br />

Desde o início<br />

90%<br />

Prof. Daniela Barreiro Claro


Grande quantidade de dados<br />

Não se trata de um simples gargalo de um<br />

SGBD<br />

Efetivamente, são capacidades de<br />

armazenamento e processamento sendo<br />

esgotadas.<br />

SGBD<br />

Prof. Daniela Barreiro Claro


Qual a forma de se escolher um filme no cinema?<br />

Sinopse:<br />

Detroit - in the future - is crime-ridden, and run by a<br />

massive company. The company have developed a huge<br />

crime-fighting robot, which unfortunately develops a rather<br />

dangerous glitch. The company sees a way to get back in<br />

favour with the public when a cop called Alex Murphy is killed<br />

by a street gang. Murphy's body is reconstructed within a<br />

steel shell and named Robocop. The Robocop is very<br />

successful against criminals, and becomes a target of<br />

supervillian Boddicker.<br />

Trailer<br />

<br />

http://youtu.be/clqK5OC3BWE<br />

Prof. Daniela Barreiro Claro


Quais os tipos de dados que<br />

temos hoje?<br />

◦ <strong>Dados</strong> <strong>Estruturados</strong><br />

◦ <strong>Dados</strong> <strong>Semi</strong>-<strong>Estruturados</strong><br />

◦ <strong>Dados</strong> não-estruturados<br />

Prof. Daniela Barreiro Claro


Relacionados a um SGBD<br />

SGBD<br />

Prof. Daniela Barreiro Claro


<strong>Dados</strong> organizados em blocos semânticos<br />

(relações)<br />

<strong>Dados</strong> de um mesmo grupo possuem as<br />

mesmas descrições (atributos)<br />

Descrições para todas as classes de um grupo<br />

possuem o mesmo formato (esquema)<br />

<strong>Dados</strong> mantidos em um SGBD sao chamados<br />

de <strong>Dados</strong> <strong>Estruturados</strong> por manterem a<br />

mesma estrutura de representação (rígida),<br />

previamente projetada (esquema)<br />

Prof. Daniela Barreiro Claro


Atualmente, muitos dados não são mantidos<br />

no SGBD<br />

<strong>Dados</strong> Web, por exemplo, apresentam uma<br />

organização bastante heterogênea.<br />

A alta heterogeneidade dificulta as consultas<br />

a estes dados<br />

Assim, estes dados sao classificados como<br />

semi-estruturados<br />

◦ Não são estritamente tipados<br />

◦ Não são complementamente não-estruturados<br />

Prof. Daniela Barreiro Claro


Os dados semi-estruturados são dados onde<br />

o esquema de representação está presente<br />

(de forma explícita ou implícita)<br />

Auto-descritivo<br />

Uma análise do dado deve ser feita para que<br />

a sua estrutura possa ser identificada e<br />

extraída<br />

Prof. Daniela Barreiro Claro


Características principais<br />

◦ Definição à posteriori<br />

• Esquemas são definidos após a existência dos dados<br />

• Investigação de suas estruturas particulares<br />

◦ Estrutura irregular<br />

• Não existe um esquema padrão para os dados<br />

• Coleções de dados são definidos de maneiras<br />

diferentes, contendo informações incompletas<br />

◦ Estrutura implícita<br />

• Muitas vezes existe uma estrutura implícita<br />

◦ Estrutura parcial<br />

• Apenas parte dos dados disponíveis podem ter uma<br />

estrutura<br />

Prof. Daniela Barreiro Claro


<strong>Dados</strong> <strong>Estruturados</strong><br />

Esquema pré-definido<br />

Estrutura regular<br />

Estrutura independente dos dados<br />

Estrutura reduzida<br />

Fracamente evolutiva<br />

Prescritiva (esquemas fechados e<br />

restrições de integridade)<br />

Distinção entre estrutura e dados é<br />

clara<br />

<strong>Dados</strong> <strong>Semi</strong><strong>Estruturados</strong><br />

Nem sempre há um esquema<br />

Estrutura irregular<br />

Estrutura embutida nos dados<br />

Estrutura extensa (particularidades<br />

de cada dado, visto que cada um<br />

pode ter uma organização própria)<br />

Fortemente evolutiva (estrutura<br />

modifica-se com frequencia)<br />

Estrutura descritiva<br />

Distinção entre estrutura e dados<br />

não é clara<br />

Prof. Daniela Barreiro Claro


Exemplos<br />

◦ XML – eXtensible Markup Language<br />

◦ RDF – Resource Description Framework<br />

◦ OWL – Web Ontology Language<br />

Prof. Daniela Barreiro Claro


Sao os dados que não possuem uma<br />

estrutura definida.<br />

Normalmente caracterizados por documentos<br />

textos, imagens, videos, etc<br />

Nem as estruturas sao descritas<br />

implicitamente<br />

Grande maioria dos dados atuais na Web e<br />

nas empresas seguem este formato.<br />

Prof. Daniela Barreiro Claro


Crescimento diferenciado dos tipos de dados<br />

Preferem<br />

RICH DATA<br />

80<br />

60<br />

40<br />

20<br />

0<br />

Filmes,<br />

figuras,<br />

documentos<br />

Word<br />

Textos<br />

simples, HTML<br />

1996<br />

2012<br />

Prof. Daniela Barreiro Claro


Atualmente, devido a variedade de<br />

dispositivos, os dados também são variados<br />

Diversos dispositivos<br />

◦ Explosão de sensores, dispositivos inteligentes,<br />

tecnologias de colaboração, redes sociais<br />

<strong>Dados</strong> não são mais relacionais, mas<br />

diversificados de paginas web, emails,<br />

documentos, dados de sensores, etc<br />

Sistemas tradicionais estão em colapso para<br />

processar estes dados<br />

Prof. Daniela Barreiro Claro


<strong>Dados</strong> disponíveis x Processamento dos <strong>Dados</strong><br />

<strong>Dados</strong> disponíveis<br />

Processamento dos<br />

dados<br />

Prof. Daniela Barreiro Claro


Volume de <strong>Dados</strong><br />

No ano 2000, eram armazenados no mundo<br />

◦ 800.000 Petabytes (PB)<br />

IDC: Expectativa para 2020<br />

◦ 35 zetabytes (ZB)<br />

<br />

<br />

Twitter sozinho gera mais de 7 terabytes<br />

de dados TODOS OS DIAS<br />

Facebook 10TB<br />

Prof. Daniela Barreiro Claro


Isso deu origem ao BIG DATA<br />

Prof. Daniela Barreiro Claro


É ideal:<br />

◦ Analisar dados semi-estruturados e nãoestruturados<br />

de uma variedade de fontes<br />

◦ Quando todos os dados ou quase todos devem ser<br />

analisados<br />

◦ Para analises interativas e exploratórias<br />

Big Data releva as formalidades e restrições<br />

do Data Warehouse<br />

Preserva a fidelidade dos dados<br />

Prof. Daniela Barreiro Claro

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!