30 Ιουλίου 2022

Τα Σώματα Κειμένων στην Γλωσσολογία

 

   Το Σώμα Κειμένων αποτελεί μία αντιπροσωπευτική συλλογή κειμένων, που μπορεί να περιέχει έως και πολλά εκατομμύρια λέξεων και χρησιμοποιείται ως δείγμα και πηγή δεδομένων για γλωσσολογικές αναλύσεις. Τα περιεχόμενα κείμενα είναι ολοκληρωμένα ή ενδεικτικά αποσπάσματα από γραπτά και ομιλίες που έχουν περατωθεί σε πραγματικές συνθήκες επικοινωνίας (π.χ. εφημερίδες, βιβλία, επίσημα πρακτικά, διαλόγους, διαλέξεις κ.α.). Κάθε κείμενο συνιστά μία κοινωνιογλωσσικά χαρακτηρισμένη και συνεκτική μονάδα νοήματος, ενταγμένη σε συγκεκριμένο επικοινωνιακό πλαίσιο. Μεταξύ των κειμένων ενός Σώματος, μπορεί να παρατηρείται διαφοροποίηση και διακύμανση στους τελεστές, τα γλωσσικά στοιχεία, το ύφος και το σημασιολογικό υπόβαθρο των χρησιμοποιούμενων λέξεων. Επομένως, ο ερευνητής δύναται να επισκοπήσει συγκεντρωτικά της εφαρμογές της γλώσσας όπως πραγματικά είναι και όχι μέσω δικών του υποθέσεων, ούτως ώστε να καταγράψει επιστημονικές (γλωσσολογικές και στατιστικές) παρατηρήσεις αναφορικά με την χρήση ενός λεκτικού τύπου, την συχνότητά του, την συσχέτιση αυτού (ως «κόμβου») με συμφραστική συνεκφορά άλλων λέξεων («παραθεμάτων»), το συμφραστικό περιβάλλον του, καθώς και την εννοιολογική του εξέλιξη, εάν ανήκει σε διαχρονικό Σώμα Κειμένων. Συγκεκριμένα κείμενα ή το Σώμα εν συνόλω συνδέονται με ενδογλωσσικά και εξωγλωσσικά μεταδεδομένα περιγραφής και χαρακτηρισμού, που συντελλούν στον ευρετηριασμό των μονάδων. Η ψηφιακή τεχνολογία έχει διευκολύνει αυτήν την διαδικασία, καθώς οι νέες βάσεις δεδομένων Υπολογιστικής Γλωσσολογίας προσφέρουν δυνατότητες άμεσης εύρεσης συγκεκριμένων τύπων, αυτοματοποιημένων συγκρίσεών τους και υπολογισμού των στατιστικών παραμέτρων τους.

   Τα Σώματα Κειμένων μπορεί να αφορούν γενικά την καθομιλούμενη γλώσσα (Σώματα Κειμένων αναφοράς) ή ειδικά συγκεκριμένες ορολογίες/κλάδους/θεματικές και διαλέκτους/ιδιώματα. Τα σπουδαιότερα ΣΚ αναφοράς για την νέα ελληνική γλώσσα είναι: το Σώμα Ελληνικών Κειμένων (ΣΕΚ), το οποίο δημιουργήθηκε από το Ε.Κ.Π.Α. σε συνεργασία με το Πανεπιστήμιο Κύπρου και καλύπτει όλον τον 20o αιώνα εμπλουτιζόμενο έως σήμερα, ο Εθνικός Θησαυρός Ελληνικής Γλώσσας (ΕΘΕΓ) και το Σώμα Νέων Ελληνικών Κειμένων της «Πύλης για την Ελληνική Γλώσσα».

   Ως προς την χρονική περίοδο αναφοράς, το ΣΚ μπορεί να είναι Συγχρονικό, αντιπροσωπεύοντας μία γλώσσα ή γλωσσική ποικιλία εντός ορισμένου εύρους χρονολογιών, ή Διαχρονικό, συμπεριλαμβάνοντας κείμενα αυτής της γλώσσας ή ποικιλίας σε εκτενέστερη χρονική περίοδο.

   Ως προς την δυνατότητα εμπλουτισμού τους με νέα δεδομένα, τα περισσότερα και ιδίως τα παλαιότερα ΣΚ είναι Στατικά, δηλαδή πεπερασμένου μεγέθους και αφορούν μία ορισμένη παρελθούσα χρονική περίοδο. Ωστόσο, υφίστανται και δυναμικές τράπεζες γλωσσικών δεδομένων που ονομάζονται Σώματα Κειμένων Υπό Παρακολούθηση και εξακολουθούν να δέχονται μέχρι τον παρόντα χρόνο συνεχή προσθήκη κειμένων, που πληρούν τα ίδια κριτήρια περιγραφής του ΣΚ.

    Στον χώρο των μεταφραστικών σπουδών, τα Σώματα Κειμένων μπορούν να είναι Παράλληλα, Συγκρίσιμα ή Μεικτά. Τα Παράλληλα ΣΚ περιέχουν κείμενα μίας φυσικής γλώσσας στοιχισμένα με την μετάφρασή τους σε μία ή περισσότερες άλλες φυσικές γλώσσες. Τα Συγκρίσιμα ΣΚ αποτελούνται από κείμενα μίας γλώσσας (ενδογλωσσικά) ή περισσότερων γλωσσών (διαγλωσσικά), στις οποίες όμως το συγκρίσιμο κείμενο δεν συνιστά απλή μετάφραση του αρχικού, αλλά έχει συντεθεί εκ του μηδενός με σκοπό να αποδώσει το ίδιο ή παραπλήσιο νόημα, χρησιμοποιώντας τα ιδιαίτερα γλωσσικά σχήματα των άλλων γλωσσών. Έτσι επιτρέπεται η αντιπαραβολή και σύγκριση μεταξύ των γλωσσικών σχημάτων των κειμένων ή υποσωμάτων τους. Τα Μεικτά ΣΚ εμπεριέχουν παράλληλα και συγκρίσιμα κείμενα.


Πηγές
Σαριδάκης Ιωάννης, "Σώματα Κειμένων και Μετάφραση: Θεωρία και Εφαρμογές", Παπαζήσης 2010.
Φραγκάκη Γεωργία, "Τα σώματα κειμένων στην ελληνική γλωσσολογική έρευνα", Πρακτικά της 40ής Ετήσιας Συνάντησης Εργασίας του Τομέα Γλωσσολογίας του Τμήματος Φιλολογίας του Α.Π.Θ., 2020.

© 2022 Φιλαλήθεια

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου