26.07.2022 Views

ΠΡΑΚΤΙΚΑ 4ου ΠΑΝΕΛΛΗΝΙΟΥ ΣΥΝΕΔΡΙΟΥ ΨΗΦΙΟΠΟΙΗΣΗΣ ΠΟΛΙΤΙΣΤΙΚΗΣ ΚΛΗΡΟΝΟΜΙΑΣ –EUROMED 2021

Το συνέδριο πραγματοποιήθηκε στην Ελλάδα 30 – 3 Οκτωβρίου 2021, στην Αθήνα, στις υπερσύγχρονες εγκαταστάσεις του Εργαστηρίου Μη - Καταστροφικών Ελέγχων και Μεθοδολογιών Διάγνωσης Συστημάτων, Πανεπιστημιούπολη 2-Αιγάλεω Αττικής. Copyright: Δίκτυο «ΠΕΡΡΑΙΒΙΑ» Α΄ Έκδοση: Ιούνιος 2022 Για την Ελληνική Γλώσσα: Δίκτυο «ΠΕΡΡΑΙΒΙΑ» Γλώσσες: Ελληνική (gre) Γλώσσα πρωτοτύπου: Ελληνική (gre) ISBN: 978-618-85119-1-0 Επιμέλεια- Υπεύθυνος: ΚΩΝ. ΣΚΡΙΑΠΑΣ-ΔΙΚΤΥΟ «ΠΕΡΡΑΙΒΙΑ» E-Mail: perrevianet@gmail.com ΤΗΛΕΦΩΝΑ ΕΠΙΚΟΙΝΩΝΙΑΣ: +30-6974-881944 FAX: +30-24210-71200 Διεύθυνση Αλληλογραφίας: Κωνσταντά 247-249 -ΒΟΛΟΣ (Τ.Κ. 38 222) E-Mail: euromed.greece@gmail.com

Το συνέδριο πραγματοποιήθηκε στην Ελλάδα 30 – 3 Οκτωβρίου 2021, στην Αθήνα, στις υπερσύγχρονες εγκαταστάσεις του Εργαστηρίου Μη - Καταστροφικών Ελέγχων και Μεθοδολογιών Διάγνωσης Συστημάτων, Πανεπιστημιούπολη 2-Αιγάλεω Αττικής.

Copyright: Δίκτυο «ΠΕΡΡΑΙΒΙΑ»
Α΄ Έκδοση: Ιούνιος 2022

Για την Ελληνική Γλώσσα: Δίκτυο «ΠΕΡΡΑΙΒΙΑ»
Γλώσσες: Ελληνική (gre)
Γλώσσα πρωτοτύπου: Ελληνική (gre)

ISBN: 978-618-85119-1-0

Επιμέλεια- Υπεύθυνος: ΚΩΝ. ΣΚΡΙΑΠΑΣ-ΔΙΚΤΥΟ «ΠΕΡΡΑΙΒΙΑ»
E-Mail: perrevianet@gmail.com
ΤΗΛΕΦΩΝΑ ΕΠΙΚΟΙΝΩΝΙΑΣ: +30-6974-881944 FAX: +30-24210-71200
Διεύθυνση Αλληλογραφίας: Κωνσταντά 247-249 -ΒΟΛΟΣ (Τ.Κ. 38 222)
E-Mail: euromed.greece@gmail.com

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

4 ο Πανελλήνιο Συνέδριο Ψηφιοποίησης Πολιτιστικής Κληρονομιάς

EUROMED 2021, 30/9 - 3/10/2021

4.1.1 Υποσύστημα Εξαγωγής Πληροφοριών

Παίρνει ως είσοδο μη-δομημένα κείμενα μυθολογίας και δημιουργεί τις συσχετίσεις μεταξύ των μύθων,

με βάση τις οντότητες που περιέχονται σε αυτά (πρόσωπα, τοποθεσίες, άλλες λέξεις-κλειδιά). Το

Υποσύστημα Εξαγωγής Πληροφοριών αποτελείται από:

COSMOS Document Store: Μία MongoDB 3 βάση δεδομένων, που περιλαμβάνει τα κείμενα της

Μυθολογίας σε Ελληνικά και Αγγλικά, καθώς και τις οντότητες (Πρόσωπα και Τόπους) που

περιέχονται σε αυτά.

Text Preprocessor: Λαμβάνει τα κείμενα και τις οντότητες που είναι αποθηκευμένα στο Document

Store και παράγει το σύνολα δεδομένων (training, test datasets) που θα χρησιμοποιηθούν για την

εκπαίδευση και την αξιολόγηση του NLP μοντέλου 4,5 .

Μοντέλο NLP: Αναπτύχθηκε χρησιμοποιώντας το NLP framework spaCy 6 . Ενώ το spaCy παρέχει

προ-εκπαιδευμένα μοντέλα για πολλές γλώσσες, η απόδοση του Named Entity Recogniser ήταν

χαμηλή. Το προ-εκπαιδευμένο αγγλικό μοντέλο εκπαιδεύτηκε περαιτέρω (Transfer Learning) και στη

συνέχεια αξιολογήθηκε χρησιμοποιώντας τα datasets που παρήχθησαν από τον Text Preprocessor. Ο

Πίνακας 1 δείχνει την απόδοση του μοντέλου.

COSMOS Graph Generator: Λαμβάνει τις οντότητες που εξάγονται από κάθε κείμενο από το

μοντέλο NLP και δημιουργεί μια βάση δεδομένων γράφου Neo4j 7 που περιέχει τις συνδέσεις μεταξύ

κάθε κειμένου μυθολογίας.

Όσον αφορά στη μεθοδολογία ανάπτυξης του μοντέλου, τα μισά από τα κείμενα της μυθολογίας που

περιλαμβάνονται στο COSMOS χρησιμοποιήθηκαν για την ανάπτυξη του μοντέλου NLP και τα άλλα

μισά επεξεργάστηκαν αυτόματα από το εκπαιδευμένο μοντέλο. Το πρώτο μισό των ακατέργαστων

κειμένων μυθολογίας υποβλήθηκε σε χειροκίνητη επεξεργασία, προκειμένου να εξαχθούν τα σχετικά

μεταδεδομένα (οντότητες, ετικέτες) και τα οποία στη συνέχεια χρησιμοποίησε ο Text Preprocessor, για

να παράξει το gold standard dataset στην μορφή που ορίζουν οι προδιαγραφές του spaCy. Από το gold

standard dataset, το 80% χρησιμοποιήθηκε για εκπαίδευση και το 20% για αξιολόγηση. Για

παράδειγμα, για να εκπαιδευτεί ο Named Entity Recognizer, το σύνολο δεδομένων πρέπει να έχει την

ακόλουθη μορφή:

(

'At a time when Minos was trying to establish himself as king of Crete, he asked Poseidon to send a sign

revealing that the gods favored Minos and his ascent to the throne.',

{'entities': [(15, 20, 'PERSON'), (64, 69, 'LOC'), (80, 88, 'PERSON'), (136, 141, 'PERSON')]}

)

Μετά από τη δημιουργία των συνόλων δεδομένων, πραγματοποιήθηκε η εκπαίδευση του μοντέλου

εφαρμόζοντας Transfer Learning. Ξεκινώντας από υπάρχοντα προ-εκπαιδευμένα μοντέλα, τα

εκπαιδεύουμε περεταίρω επάνω στα κείμενα ελληνικής μυθολογίας. Κατά την εκπαίδευση του

3

MongoDB homepage, https://www.mongodb.com/, τελευταία πρόσβαση 2020/10/2

4

Sang, E.: Introduction to the CoNLL-2002 Shared Task: Language - Independent Named Entity Recognition.

In: Dan Roth and Antal van den Bosch (eds.) Proceedings of CoNLL-2002, Taipei, Taiwan (2002). doi:

10.3115/1118853.1118877

5

Kapetanios, E., Tatar, D. & Sacarea, C. Natural Language Processing: Semantic Aspects (2013). doi:

10.1201/b15472

6

spaCy homepage, https://spacy.io/, τελευταία πρόσβαση 2020/10/26.

7

Neo4j Graph Database, https://neo4j.com/neo4j-graph-database/, τελευταία πρόσβαση 2020/10/26

858

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!