Από το χαρτί στην οθόνη: Καινοτομίες στην ανάλυση αρχειακού κειμένου

Η αναγνώριση και ανάλυση κειμένου, ο σημασιολογικός εμπλουτισμός κειμένου ή ο προσωπικός βοηθός έρευνας, προσφέρουν απίστευτες δυνατότητες ανάλυσης και ερμηνείας ιστορικών δεδομένων. Έτσι, οι ερευνητές έχουν πλέον στη διάθεσή τους μια σειρά από εργαλεία, που τους επιτρέπουν να ξεκλειδώσουν μυστικά αιώνων, καλά κρυμμένα σε έγγραφα.

Οι βιβλιοθήκες εντείνουν την ψηφιοποίηση αρχείων

Η ψηφιοποίηση, πέρα από τη δυνατότητα διατήρησης των φυσικών αρχείων, διευκολύνει την έρευνα και πλοήγηση σε πολύτιμες πληροφορίες. Για αυτό το λόγο, οι ψηφιακές ανθρωπιστικές επιστήμες (digital humanities) έχουν δημιουργήσει αξιόλογα προϊόντα, με τη χρήση «μεγάλων δεδομένων» και συνδυάζοντας τις μεθόδους «κοντινής» και «εξ αποστάσεως ανάγνωσης».

Οι εφημερίδες συλλέγουν πληροφορίες για πολιτιστικά, πολιτικά και κοινωνικά γεγονότα με πιο λεπτομερή τρόπο από οποιοδήποτε άλλο δημόσιο αρχείο. Από τις απαρχές τους τον 17ο αιώνα, έχουν καταγράψει δισεκατομμύρια γεγονότα, ιστορίες και ονόματα, σχεδόν σε κάθε γλώσσα, σε κάθε χώρα, καθημερινά.

Ακόμα, ήταν ανέκαθεν σημαντικό μέσο για τη διάδοση δημόσιων και πολιτικών απόψεων, λογοτεχνικών έργων, δοκιμίων και έργων τέχνης. Αυτός ο θεματικός πλούτος τις θέτει στο επίκεντρο, για όποιον ενδιαφέρεται για την ευρωπαϊκή πολιτιστική κληρονομιά.

Κατά τη διάρκεια των τελευταίων δεκαετιών, εκατομμύρια σελίδες εφημερίδων και αρχείων ψηφιοποιούνται, λόγω της μεγάλης ζήτησης για πρόσβαση σε ιστορικές πληροφορίες.

Νέα εργαλεία δίνουν πρόσβαση σε ιστορικές πληροφορίες

Τα τελευταία χρόνια έχει αναπτυχθεί ένα σύνολο εργαλείων και μεθόδων που επιτρέπει στους χρήστες να έχουν πρόσβαση και να αναλύουν ιστορικές εφημερίδες, χειρόγραφα έγγραφα, αλληλογραφίες και αρχεία.

Αναγνώριση κειμένου και διαχωρισμός άρθρων

Οι ιστορικές εφημερίδες περιέχουν πολλά άρθρα σε μία μόνο σελίδα, χωρίς σαφή διαχωρισμό μεταξύ τους. Με την τεχνολογία αναγνώρισης κειμένου και διαχωρισμού άρθρων (Text Recognition & Article Separation) γίνεται ευκολότερη η αναζήτηση και η πλοήγηση στην εφημερίδα και οι ερευνητές μπορούν να βρουν γρήγορα τις πληροφορίες που αναζητούν.

Η τεχνολογία OCR (Οπτική Αναγνώριση Χαρακτήρων) χρησιμοποιείται για τη μετατροπή της σαρωμένης σελίδας της εφημερίδας σε κείμενο αναγνώσιμο από μηχανήματα. Έτσι, το ψηφιακό κείμενο μπορεί να αναζητηθεί και να αναλυθεί.

Η OCR έχει βελτιωθεί σημαντικά με την πάροδο των ετών και το σύγχρονο λογισμικό είναι πολύ ακριβές, αναγνωρίζοντας μια μεγάλη ποικιλία γραμματοσειρών και γλωσσών.

Εμπλουτισμός σημασιολογικού κειμένου

Ο εμπλουτισμός σημασιολογικού κειμένου (Semantic text enrichment) περιλαμβάνει την ανάλυση του κειμένου και την προσθήκη πληροφοριών σε αυτό. Τέτοιες είναι οι ονομαστικές οντότητες, λέξεις-κλειδιά ή άλλα μεταδεδομένα. Έτσι, παρέχεται μια πιο πλούσια και πιο πλαισιωμένη κατανόηση του περιεχομένου.

Η αναγνώριση ονομαστικών οντοτήτων (Named-entity Recognition- NER) είναι μια κοινή τεχνική που χρησιμοποιείται στον σημασιολογικό εμπλουτισμό κειμένου. Περιλαμβάνει τον εντοπισμό και την κατηγοριοποίηση συγκεκριμένων οντοτήτων που αναφέρονται στο κείμενο, όπως άνθρωποι, τόποι και οργανισμοί. Αυτό μπορεί να βοηθήσει τους ερευνητές να εντοπίσουν γρήγορα σημαντικά στοιχεία ή τοποθεσίες που αναφέρονται στην εφημερίδα.

Από την άλλη, ο εντοπισμός των λέξεων-κλειδιών, επιτρέπει την κατηγοριοποίηση και την οργάνωση των άρθρων, διευκολύνοντας την αναζήτηση και περιήγηση στην εφημερίδα. Τέλος, στον σημασιολογικό εμπλουτισμό κειμένου περιλαμβάνεται η χρήση της μοντελοποίησης θεμάτων.

Πρόκειται για τον εντοπισμό των κύριων θεμάτων, που συζητούνται στην εφημερίδα ή σε ένα έγγραφο. Αυτό μπορεί να βοηθήσει τους ερευνητές να εντοπίσουν γρήγορα σημεία που σχετίζονται με ένα συγκεκριμένο θέμα.

Πηγή: Taylor Flowe/ Unsplash-min

Δυναμική ανάλυση κειμένου

Η δυναμική ανάλυση κειμένου (Dynamic text analysis) αφορά στην εφαρμογή προηγμένων υπολογιστικών τεχνικών σε μεγάλες συλλογές ψηφιοποιημένων κειμένων, για την αποκάλυψη μοτίβων, τάσεων, απόψεων κ.α..

Μία από τις κύριες τεχνικές που χρησιμοποιούνται στη δυναμική ανάλυση κειμένου είναι η επεξεργασία φυσικής γλώσσας (Natural Language Processing). Αυτή περιλαμβάνει τη χρήση αλγορίθμων υπολογιστών, για την ανάλυση της δομής και του νοήματος του κειμένου, όπως ο εντοπισμός των μερών του λόγου, η ανάλυση της δομής των προτάσεων και η εξαγωγή ονομαστικών οντοτήτων.

Η NLP μπορεί να βοηθήσει στον εντοπισμό σημαντικών θεμάτων σε μια εφημερίδα για παράδειγμα, καθώς και στην παρακολούθηση της εξέλιξης της γλώσσας και των γλωσσικών τάσεων με την πάροδο του χρόνου.

Μια άλλη τεχνική που χρησιμοποιείται στη δυναμική ανάλυση κειμένου είναι η ανάλυση συναισθήματος. Αυτή περιλαμβάνει τη χρήση αλγορίθμων μηχανικής μάθησης για την ανάλυση του τόνου και του συναισθήματος του κειμένου.

Ένα παράδειγμα είναι ο εντοπισμός θετικού ή αρνητικού συναισθήματος απέναντι σε ένα συγκεκριμένο θέμα ή άτομο. Η ανάλυση συναισθήματος μπορεί να βοηθήσει στην αποκάλυψη της κοινής γνώμης και της στάσης του κοινού απέναντι σε διάφορα θέματα που συζητούνται σε έγγραφα.

Τέλος, η δυναμική ανάλυση κειμένου μπορεί επίσης να περιλαμβάνει τη χρήση ανάλυσης δικτύου, η οποία αφορά στη χαρτογράφηση των σχέσεων μεταξύ των διαφόρων οντοτήτων. Με αυτό τον τρόπο, επιτρέπεται ο εντοπισμός ατόμων ή οργανισμών με επιρροή, καθώς και η παρακολούθηση της διάδοσης ιδεών και πληροφοριών με την πάροδο του χρόνου.

Προσωπικός βοηθός έρευνας

Το συγκεκριμένο εργαλείο χρησιμοποιεί τα εμπλουτισμένα κείμενα και τα εργαλεία δυναμικής ανάλυσης κειμένου για να εκτελέσει μια σειρά από βήματα ανάλυσης και να εξηγήσει τα αποτελέσματα στους χρήστες.

Η τεχνολογία Personal Research Assistant χρησιμοποιεί συνήθως αλγορίθμους μηχανικής μάθησης για να αναλύσει το ιστορικό αναζήτησης του χρήστη, τις προτιμήσεις ανάγνωσης και άλλα δεδομένα του χρήστη. Έτσι, παρέχει συστάσεις για άρθρα και θέματα που είναι πιθανό να τον ενδιαφέρουν.

Παράλληλα, προσφέρει προηγμένες λειτουργίες αναζήτησης. Οι τελευταίες επιτρέπουν στους χρήστες να φιλτράρουν και να ταξινομούν τα αποτελέσματα αναζήτησης με βάση κριτήρια, όπως εύρος ημερομηνίας, γεωγραφική τοποθεσία ή θέμα.

Ψηφιακά εργαλεία για τη μελέτη πηγών

Υπάρχουν αρκετά έργα που χρησιμοποιούν τις τεχνολογίες και τα εργαλεία που μπορούν να βελτιώσουν την έρευνα, ανάλυση και την κατανόηση των ιστορικών εγγράφων. Ακολουθούν μερικά παραδείγματα:

Εφημερίδες της Europeana: Πρόκειται για ένα έργο που παρέχει πρόσβαση σε εκατομμύρια σελίδες ψηφιοποιημένων εφημερίδων από όλη την Ευρώπη. Χρησιμοποιεί αναγνώριση κειμένου και διαχωρισμό άρθρων, για να καταστήσει το περιεχόμενο αναζητήσιμο. Ακόμα, χρησιμοποιεί δυναμική ανάλυση κειμένου για τον εντοπισμό τάσεων και θεμάτων εντός του σώματος.

NewsEye: Το έργο αυτό παρέχει βελτιωμένη πρόσβαση σε ιστορικές εφημερίδες για ένα ευρύ φάσμα χρηστών. Αναπτύσσοντας τεχνολογίες αναγνώρισης και δυναμικής ανάλυσης κειμένου, διαχωρισμού άρθρων, σημασιολογικού εμπλουτισμού κειμένου και προσωπικό βοηθό έρευνας, στοχεύει να αλλάξει τον τρόπο με τον οποίο τα δεδομένα της ευρωπαϊκής ψηφιακής κληρονομιάς αναζητούνται και αναλύονται.

Transkribus: Πρόκειται για μια πλατφόρμα τεχνητής νοημοσύνης για την αναγνώριση κειμένου, τη μεταγραφή και την αναζήτηση ιστορικών εγγράφων, από οποιοδήποτε μέρος, οποιαδήποτε στιγμή και σε οποιαδήποτε γλώσσα. Παράλληλα, μπορεί να βοηθήσει όσον αφορά έγγραφα γραμμένα στα λατινικά και στην αναγνώριση πρώιμων δημοτικών γλωσσών.

SearchCulture: Η πλατφόρμα αυτή είναι ο εθνικός συσσωρευτής ψηφιακού πολιτιστικού περιεχομένου στην Ελλάδα, που χρησιμοποιεί προηγμένες δυνατότητες επεξεργασίας κειμένων. Για την αναζήτηση και πλοήγηση χρησιμοποιούνται σημασιολογικοί εμπλουτισμοί και μεταδεδομένα, ενώ τα λεξιλόγια προκύπτουν από διασυνδεδεμένα δεδομένα και tag clouds.

Τα εργαλεία αυτά παρέχουν ένα άνευ προηγουμένου επίπεδο κατανόησης των ιστορικών δεδομένων, επιτρέποντας στους επαγγελματίες του πολιτισμού να μελετούν και να ερμηνεύουν την πολιτιστική κληρονομιά με μεγαλύτερη ακρίβεια και βάθος. Έτσι, δύνανται να εξερευνήσουν τις τεράστιες αποθήκες δεδομένων που έχουν στη διάθεσή τους, αποκαλύπτοντας νέες γνώσεις και αφηγήσεις που προηγουμένως ήταν κρυφές.

Αφήστε ένα σχόλιο...

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *

Αυτός ο ιστότοπος χρησιμοποιεί το Akismet για να μειώσει τα ανεπιθύμητα σχόλια. Μάθετε πώς υφίστανται επεξεργασία τα δεδομένα των σχολίων σας.

Scroll to Top