ICY - Infocom Year Book 2013

More documents

Info

72 big data .........................................................................................................................The Big Data Theory κλήσεις στη διαχείριση Big Data εφαρμογών και τις ευκαιρίες που υπάρχουν σε τομείς όπως η εκπαίδευση, η υγειονομική περίθαλψη, η ενέργεια, οι μεταφορές, ο αστικός σχεδιασμός κ.ά. Οι εφαρμογές αναπτύσσονται σε 5 κύριες φάσεις, ενώ σε κάθε φάση υπάρχουν παρούσες 4 προκλήσεις . Η Εικόνα 3 δείχνει τις φάσεις (πάνω σειρά) και τις προκλήσεις σε κάθε φάση (κάτω σειρά). Εικόνα 3: Φάσεις και προκλήσεις σε εφαρμογές Big Data (πηγή: «Challenges and Opportunities with Big Data») 4. Big Data: Τεχνολογίες 4.1. MapReduce, Hadoop και Οικοσύστημα Το MapReduce είναι ένα προγραμματιστικό παράδειγμα (programming paradigm) που επιτρέπει με σχετικά εύκολο τρόπο την έκφραση διαδικασιών που μπορούν να εκτελεστούν με καταναμεμημένο και fault-tolerant τρόπο. Ο προγραμματιστής ορίζει σε μία γλώσσα προγραμματισμού (π.χ. Java) δύο συναρτήσεις, τη Map και τη Reduce. H πρώτη συνάρτηση (Map) συσχετίζει μία τιμή με ένα κλειδί, δημιουργώντας ένα ζεύγος κλειδί-τιμή (key-value pair), συνήθως διαβάζοντας κάποιο αρχείο, δημιουργώντας έτσι λίστες τιμών ανά κλειδί. Η δεύτερη συνάρτηση (Reduce) ορίζει με ποιον τρόπο «διατρέχονται» αυτές οι λίστες τιμών. Όλες οι λεπτομέρειες της καταναμεμημένης επεξεργασίας είναι κρυμμένες από τον προγραμματιστή. Το MapReduce προτάθηκε αρχικά από την Google [2] και απαιτεί ένα κατανεμημένο σύστημα διαχείρισης αρχείων για να λειτουργεί, όπως το Google File System (GFS). Δεδομένου ότι αυτό έχει αναπτυχθεί από την Google και είναι κλειστό, η κοινότητα ανοιχτού λογισμικού ανέπτυξε το HDFS (Hadoop Distributed File System) και υλοποίησε το MapReduce πάνω σε αυτό. Αυτό βοήθησε στο να αναπτυχθεί ένα οικοσύστημα εργαλειών (π.χ. Pig, Hive) και εταιρειών (π.χ. Cloudera, Hadapt) που χρησιμοποιούν το Hadoop σαν τη βάση της τεχνολογίας τους. 4.2. NoSQL Συστήματα Τα Συστήματα NoSQL είναι απλές πλατφόρμες διαχείρισης δεδομένων που δεν ακολουθούν το σχεσιακό μοντέλο και δεν υποστηρίζουν SQL ερωτήματα. Δημιουργήθηκαν για τις ανάγκες διαχείρισης δεδομένων των Web 2.0 εταιρειών κοινωνικής δικτύωσης, όπως το facebook, LinkedIn, Twitter, αλλά και της Google, Amazon κ.ά. Αυτές οι εταιρείες δεν ήθελαν/μπορούσαν να βασιστούν στα υπάρχοντα εμπορικά ή ανοιχτού κώδικα συστήματα βάσεων δεδομένων, λόγω είτε κόστους, είτε ειδικών απαιτήσεων επεξεργασίας δεδομένων. Οι κύριες απαίτησεις σε αυτά τα συστήματα ήταν υψηλή διαθεσιμότητα (availability) και εύκολη και γρήγορη επεκτασιμότητα με οικονομικούς servers (scalability, commodity servers), ιδιότητες που δεν υποστήριζαν εύκολα και οικονομικά τα ΣΔΒΔ εκείνης της εποχής. Ταυτόχρονα, οι εταιρίες αυτές είχαν ένα συγκεκριμένο τρόπο πρόσβασης/ανάκτησης δεδομένων (πολύ απλά read/writes βασισμένα σε ένα κλειδί) και δεν ενδιαφέρονταν για πολύπλοκα SQL ερωτήματα και ιδιότητες ACID (Atomicity, Consistency, Isolation, Durability). Σαν αποτέλεσμα, αναπτύχθηκαν συστήματα που επιτρέπουν την αποθήκευση ζευγών κλειδιού-τιμής επιτρέποντας πολύ γρήγορη αναζήτηση τιμής με βάση το κλειδί, προσφέροντας ταυτόχρονα fault-tolerance και υψηλή διαθεσιμότητα μέσω πολλαπλών αντιγράφων των key-value ζευγών στους κόμβους του συστήματος. Η διαχείριση των ζευγών από τους χρήστες γίνεται με απλά API (π,χ. set(key, value), get(key)) που διατίθενται για διάφορες γλώσσες προγραμματισμού. Τα NoSQL συστήματα συνήθως κατηγοριοποιούνται σε: (α) απλά key-value συστήματα, (β) document stores (όταν το value έχει κάποια δομή, π.χ. JSON μορφή), (γ) column-oriented stores όταν η μορφή του value προσομοιάζει στη γραμμή ενός πίνακα, και (δ) graph databases, όταν το σύστημα χρησιμοποιείται για την αποθήκευση γράφων, που είναι συχνοί σε εφαρμογές κοινωνικών δικτύων. Αντιπροσωπευτικά συστήματα είναι τα: Cassandra, Riak, MongoDB, Couchbase, Hbase, Neo4j, κ.ά. Ο ενδιαφερόμενος αναγνώστης μπορεί να ανατρέξει στο [3] για μία εξαιρετική σύντομη τεχνική περιγραφή του χώρου. 4.3. Data Mining & Predictive Analytics Οι τεχνικές εξόρυξης γνώσης είναι γνωστές εδώ και πολλά χρόνια, και αφορούν στατιστικές μεθόδους και τεχνικές machine learning σε προβλήματα εξαγωγής προτύπων, όπως κατηγοριοποίηση (classification), συσταδοποίηση (clustering), κανόνων συσχέτισης (association rules), ανάλυση τάσεων (trend analysis), κ.ά. Ο όρος predictive analytics έχει εμφανιστεί τα τελευταία λίγα
73 The Big Data Theory................................................................................................................................. big data χρόνια και δεν είναι ξεκάθαρο ποιες από τις παραπάνω λειτουργίες αφορά. Υπάρχει μία έμφαση σε σε προβλήματα κατηγοριοποίησης με τη χρήση στατιστικών κυρίως μεθόδων. 4.4. Ροές Δεδομένων και Συστήματα Διαχείρισης τους Η ανάπτυξη του web, των ασύρματων επικοινωνιών και της τεχνολογίας των αισθητήρων οδήγησε σε μία νέα γενιά εφαρμογών, οι οποίες χαρακτηρίζονται από ροές δεδομένων (data streams) και ανάλυση πραγματικού χρόνου (real-time monitoring/ analytics), σε αντιδιαστολή με τα στατικά δεδομένα των παραδοσιακών εφαρμογών. Όπως το θέτουν αρκετοί ειδικοί του χώρου, κινούμαστε προς την επιχείρηση πραγματικού χρόνου (real-time enterprise) και σε άμεσες αποφάσεις (tactical decision-making) και απομακρυνόμαστε από την “off-line”, “one-time” ανάλυση (strategic decision making). Χρήσεις και εφαρμογές ροών δεδομένων μπορούμε να βρούμε σήμερα όχι μόνο στα «γνωστά» περιβάλλοντα δεδομένων πραγματικού χρόνου, όπως χρηματοοικονομικά και τηλεπικοινωνίες, αλλά σε ένα μεγάλο εύρος περιοχών, όπως εφοδιαστική αλυσίδα (μέσω αισθητήρων RFID), διαχείριση ενέργειας (μέσω έξυπνων μετρητών), κοινωνικά δίκτυα (μέσω status updates) και πολλές ακόμη. Με την περαιτέρω ανάπτυξη και εγκατάσταση των αισθητήρων σε κάθε σπίτι, συσκευή, ακόμα και μέσα στο ανθρώπινο σώμα για ιατρικούς λόγους, οι εφαρμογές και η διαχείριση των δεδομένων θα αλλάξουν δραματικά. Τα δεδομένα που θα παράγονται θα είναι ασύλληπτου όγκου και θα «κουβαλάνε» εξαιρετικά πλούσια πληροφορία (χώρος, χρόνος, μετρήσεις). Οι σημερινοί όγκοι δεδομένων θα θεωρούνται «μικροί». Τα βασικά ερωτήματα βρίσκονται στη μοντελοποίηση των ροών δεδομένων, στις γλώσσες ερωτημάτων που θα είναι κατάλληλες και τους οn-line αλγόριθμους που θα απαιτούνται. Έχουν αναπτυχθεί αρκετά ερευνητικά πρωτότυπα για τη διαχείριση ροών δεδομένων (π.χ. το STREAM, από το πανεπιστήμιο Stanford, το TelegraphCQ από το πανεπιστήμιο Berkeley, το Aurora από τα πανεπιστήμια MIT/Brown/Brandeis), ενώ εμπορικά συστήματα προσφέρουν η Oracle (χρησιμοποιώντας μία παραλλαγή της SQL, τη CQL - Continuous Query Language- και μία μηχανή αναγνώρισης πολύπλοκων γεγονότων- Complex Event Processing), η Microsoft (StreamInsight) και η StreamBase. Οι κύριες προσεγγίσεις βασίζονται στη χρήση τεχνικών επεξεργασίας φυσικής γλώσσας (natural language processing.) Με την ανάπτυξη των κοινωνικών δικτύων, στα οποία το περιεχόμενο είναι κυρίως σε μορφή κειμένου (posts, blogs, messages), οι τεχνικές επεξεργασίας κειμένου απέκτησαν ιδιαίτερο ενδιαφέρον. Η πιο συχνή διαδικασία είναι η ανάλυση διάθεσης (sentiment analysis), κατά την οποία εξάγεται η διάθεση του κειμένου (θετική, αρνητική, ουδέτερη) ως προς την οντότητα στην οποία αναφέρεται. Βασιζόμενη σε αυτή, ο αναλυτής μπορεί να βγάλει συμπεράσματα (και τάσεις) για τη γνώμη που έχει ένα δείγμα κοινού ως προς πρόσωπα, εταιρίες, προϊόντα, κ.λπ. Επίσης, χρησιμοποιείται από αυτοματοποιημένα συστήματα στη λήψη αποφάσεων. Για παράδειγμα, στη Wall Street, οι μεγάλες εταιρείες παροχής ειδήσεων (Bloomberg, Dow Jones) προσφέρουν τα νέα τους σε μία μορφή που μπορούν να αναλυθούν από ΑΙ προγράμματα, τα οποία αποφασίζουν και πραγματοποιούν χρηματιστηριακές συναλλαγές (algorithmic trading). Ο ενδιαφερόμενος αναγνώστης μπορεί να ανατρέξει στο [4] για μία εξαιρετική περιγραφή των τεχνικών του χώρου των text analytics. 4.6. Main-memory, Column-Oriented Βάσεις Δεδομένων Η διαθέσιμη μνήμη στα σημερινά συστήματα έχει αυξηθεί εκθετικά τα τελευταία χρόνια, με αποτέλεσμα να είναι πλέον δυνατή η αποθήκευση όλων των δεδομένων ενός οργανισμού στην κύρια μνήμη των συστημάτων του. Για παράδειγμα, υπάρχουν στο εμπόριο μηχανήματα με 2ΤΒs κύρια μνήμη. Αυτό αλλάζει όλες τις βασικές παραμέτρους στο πως επεξεργάζονται τα ερωτήματα SQL σε ένα σύστημα. Για παράδειγμα, τα μοντέλα κόστους που είχαν αναπτυχθεί για την επεξεργασία ερωτημάτων και σχετίζονται με τους χρόνους ανάκτησης δεδομένων από δίσκους δεν υφίστανται πλέον. Επίσης τα joins μεταξύ πινάκων δεν πραγματοποιούνται, διότι είναι ήδη υλοποιημένα μέσω pointers στη μνήμη (π.χ. στις πληροφορίες ενός υπάλληλου, το τμήμα στο οποίο ανήκει δεν αναπαριστάται με τον κωδικό του τμήματος, αλλά με τη θέση μνήμης στην οποία βρίσκονται οι πληροφορίες για αυτό τμήμα.) Επίσης δίνει ώθηση σε νέες πλατφόρμες επιχειρηματικής ευφυΐας, οι οποίες βασίζονται σε in-memory δεδομένα, όπως η Oracle Exalytics, SAP Hana, QlikView κ.ά. 4.5. Text Analytics Ο τομέας του text mining υπάρχει πολλά χρόνια στο χώρο της τεχνητής νοημοσύνης και αφορά την ανάλυση ενός κειμένου με σκοπό τα: text categorization, text clustering, concept/entity extraction, sentiment analysis, document summarization, κ.ά. Ταυτόχρονα, παράλληλα με τα main-memory DBMS, αναπτύσσονται οι column-oriented βάσεις δεδομένων, στις οποίες η αποθήκευση των δεδομένων δε γίνεται γρααμμή-γραμμή, αλλά ανά στήλη. Αυτή η προσέγγιση έχει πολλά πλεονεκτήματα, όταν τα ερωτήματα αφορούν κυρίως ανάγνωση δεδομένων (read-only)
Page 1:
2 0 1 3
Page 5 and 6:
Tech view 96 VDSL2 Vectoring: o μ
Page 8:
6 editorial .......................
Page 11 and 12:
Deloitte 9 online Μέσα Μαζ
Page 13 and 14:
11 Eltrun online Κατηγορί
Page 15 and 16:
Μιχάλης Παπαδόπουλ
Page 17 and 18:
15 Μιχάλης Παπαδόπο
Page 19 and 20:
Κωνσταντίνος Λουρό
Page 21 and 22:
19 Κωνσταντίνος Λου
Page 23 and 24: 21 Κωνσταντίνος Λου
Page 25 and 26: Κωνσταντίνος Λουρό
Page 27 and 28: 25 Συνέδριο InfoCom Apps 20
Page 36 and 37: 34 m2m - green 5ο Συνέδρι
Page 44: 42 m2m - green 5ο Συνέδρι
Page 47 and 48: 45 Συνέδριο Social Media Wo
Page 54 and 55: 52 infocom world InfoCom World 201
Page 64 and 65: 62 infocom cy 5ο Διεθνές
Page 66 and 67: 64 infocom cy 5ο Διεθνές
Page 68 and 69: 66 infocom al 4ο Infocom Albanian
Page 70 and 71: 68 infocom al 4ο Infocom Albanian
Page 72 and 73: 70 big data .......................
Page 76 and 77: 74 big data .......................
Page 78 and 79: 76 big data .......................
Page 80 and 81: 78 big data .......................
Page 82 and 83: 80 trends .........................
Page 84 and 85: 82 trends .........................
Page 86 and 87: 84 trends .........................
Page 88 and 89: 86 trends .........................
Page 90 and 91: 88 trends Έρευνα για το
Page 92: 90 trends Έρευνα για το
Page 95 and 96: 93 Η ρύθμιση του παγ
Page 98 and 99: 96 tech view ......................
Page 100 and 101: 98 tech view ......................
Page 102 and 103: 100 tech view .....................
Page 104 and 105: 102 tech view Premium SMS Premium
Page 106 and 107: 104 tech view Premium SMS ή κα
Page 108 and 109: 106 tech view Premium SMS • να
Page 110 and 111: 108 digital europe ................
Page 112: 110 digital europe ................
Page 115 and 116: 113 Cloud in Europe................
Page 117 and 118: 115 Digital Agenda 2020 digital eu
Page 119 and 120: 117 Digital Agenda 2020 digital eu
Page 121 and 122: Εξελίξτε την επιχε
Page 123 and 124: 121 Venture Capitals global view
Page 125 and 126:
iPad is trademark of Apple Inc., re
Page 127 and 128:
Δείκτης Παγκόσμιας
Page 130 and 131:
128 global view ...................
Page 132 and 133:
130 global view ...................
Page 134 and 135:
132 local view WiFi Greece Wi-Fi
Page 136 and 137:
134 local view Φάκελος Info
Page 138 and 139:
Page 140 and 141:
Page 142 and 143:
Page 144 and 145:
Page 146 and 147:
Page 148 and 149:
146 top500 Infocom Top500 Infocom
Page 150 and 151:
148 top500 Infocom Top500 νων
Page 152 and 153:
150 top500 Infocom Top500 αρκε
Page 154 and 155:
152 top500 Infocom Top500 Θεσ/
Page 156 and 157:
154 top500 Infocom Top500 Eται
Page 158 and 159:
156 top500 Infocom Top500 Κατ/
Page 160 and 161:
158 top500 Infocom Top500 Ενερ
Page 162 and 163:
160 top500 Infocom Top500 σουν
Page 164 and 165:
162 advertorial Internet of Everyth
Page 166 and 167:
164 advertorial Ελλάδα: Ο Ν
Page 168 and 169:
166 advertorial Χτίζοντας
Page 170 and 171:
168 advertorial Κορυφαίος
Page 172 and 173:
170 advertorial Θήκες για
Page 174 and 175:
172 advertorial Η TeleUnicom ιδ
Page 176 and 177:
174 advertorial Είναι όμορ
Page 178:
Index διαφημιζομένων
show all

ICY - Infocom Year Book 2013

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?