Το Σώμα Κειμένων αποτελεί μία αντιπροσωπευτική συλλογή κειμένων, που μπορεί να περιέχει έως και πολλά εκατομμύρια λέξεων και χρησιμοποιείται ως δείγμα και πηγή δεδομένων για γλωσσολογικές αναλύσεις. Τα περιεχόμενα κείμενα είναι ολοκληρωμένα ή ενδεικτικά αποσπάσματα από γραπτά και ομιλίες που έχουν περατωθεί σε πραγματικές συνθήκες επικοινωνίας (π.χ. εφημερίδες, βιβλία, επίσημα πρακτικά, διαλόγους, διαλέξεις κ.α.). Κάθε κείμενο συνιστά μία κοινωνιογλωσσικά χαρακτηρισμένη και συνεκτική μονάδα νοήματος, ενταγμένη σε συγκεκριμένο επικοινωνιακό πλαίσιο. Μεταξύ των κειμένων ενός Σώματος, μπορεί να παρατηρείται διαφοροποίηση και διακύμανση στους τελεστές, τα γλωσσικά στοιχεία, το ύφος και το σημασιολογικό υπόβαθρο των χρησιμοποιούμενων λέξεων. Επομένως, ο ερευνητής δύναται να επισκοπήσει συγκεντρωτικά της εφαρμογές της γλώσσας όπως πραγματικά είναι και όχι μέσω δικών του υποθέσεων, ούτως ώστε να καταγράψει επιστημονικές (γλωσσολογικές και στατιστικές) παρατηρήσεις αναφορικά με την χρήση ενός λεκτικού τύπου, την συχνότητά του, την συσχέτιση αυτού (ως «κόμβου») με συμφραστική συνεκφορά άλλων λέξεων («παραθεμάτων»), το συμφραστικό περιβάλλον του, καθώς και την εννοιολογική του εξέλιξη, εάν ανήκει σε διαχρονικό Σώμα Κειμένων. Συγκεκριμένα κείμενα ή το Σώμα εν συνόλω συνδέονται με ενδογλωσσικά και εξωγλωσσικά μεταδεδομένα περιγραφής και χαρακτηρισμού, που συντελλούν στον ευρετηριασμό των μονάδων. Η ψηφιακή τεχνολογία έχει διευκολύνει αυτήν την διαδικασία, καθώς οι νέες βάσεις δεδομένων Υπολογιστικής Γλωσσολογίας προσφέρουν δυνατότητες άμεσης εύρεσης συγκεκριμένων τύπων, αυτοματοποιημένων συγκρίσεών τους και υπολογισμού των στατιστικών παραμέτρων τους.