Κεφάλαιο 2 Υπολογιστικό Περιβάλλον Εργασίας
Σε αυτό το κεφάλαιο θα περιγράψουμε το υπολογιστικό περιβάλλον με το οποίο θα εργαστούμε για ανάλυση δεδομένων. Το περιβάλλον θα είναι η γλώσσα R σε συνδυασμό με το λογισμικό RStudio. Γι’ αυτό το λόγο, θα κάνουμε μια σύντομη εισαγωγή στη R και στο RStudio, την εγκατάστασή τους καθώς και μια γνωριμία με την γραφική διεπαφή του RStudio.
2.1 Λίγα λόγια για τη R
Η R είναι γλώσσα προγραμματισμού που αναπτύχθηκε ειδικά για στατιστική ανάλυση και επιστήμη δεδομένων. Επίσης, η γλώσσα R έχει γίνει πολύ δημοφιλής για τα παρακάτω χαρακτηριστικά της:
Η R είναι γλώσσα ανοιχτού λογισμικού και διατίθεται δωρεάν. Αυτό έχει σαν αποτέλεσμα να είναι προσβάσιμη σε όλους τους φοιτητές και ερευνητές.
Η R παρέχει ένα ισχυρό περιβάλλον για την επεξεργασία και την ανάλυση δεδομένων (από απλή ανάλυση μέχρι ανάλυση κειμένου και κοινωνικών δικτύων), την παραγωγή καλαίσθητων γραφικών απεικονίσεων καθώς και την συγγραφή επιστημονικών εργασιών και αναφορών.
Η R προσφέρει και υποστηρίζει ένα μεγάλο αριθμό έτοιμων πακέτων λογισμικού για διάφορες χρήσεις (όπως στατιστική μοντελοποίηση, μηχανική μάθηση, οπτικοποίηση δεδομένων, κ.λπ.) με καλογραμμμένα εγχειρίδια χρήσεως.
Η R παρέχει συμβατότητα με τα περισσότερα λειτουργικά συστήματα (όπως Windows, Linux, Mac OS).
Είναι εύκολη στην εκμάθησή της, λόγω ότι υπάρχουν στο Διαδίκτυο πολλά εγχειρίδια χρήσης, ηλεκτρονικά μαθήματα ακόμα και βιντεομαθήματα στο YouTube.
Η R έχει μεγάλη και αναπτυσσόμενη κοινότητα χρηστών η οποία μπορεί να βοηθήσει και να υποστηρίξει άλλους χρήστες.
Η R χρησιμοποιείται από τους περισσότερους ερευνητές σε όλους τους τομείς έρευνας μεταξύ αυτών και τις κοινωνικές επιστήμες.
2.1.1 Μεταφόρτωση και Εγκατάσταση R
Παρακάτω περιγράφεται σύντομα η διαδικασία της μεταφόρτωσης και της εγκατάστασης R στον υπολογιστή σας με λειτουργικό σύστημα Windows:
Επικεφτόμαστε στην ιστοσελίδα https://www.r-project.org/.
Επιλέγουμε Download R.
Επιλέγουμε ένα ελληνικό mirrors (ή μια πλησιέστερη τοποθεσία όπως η ελληνική), δηλαδή https://ftp.cc.uoc.gr/mirrors/CRAN/.
Επιλέγουμε Download R for Windows.
Επιλέγουμε base και κατόπιν επιλέγουμε Download R 4.2.2 for Windows.
Μόλις μεταφορτωθεί το εκτελέσιμο αρχείο .exe, κάνουμε κλικ και ακολουθούμε τις οδηγίες εγκατάστασης. Όπως παρατηρούμε η διαδικασία της εγκατάστασης είναι απλή.
2.2 Λίγα λόγια για το RStudio
Παρόλο τα καλά χαρακτηριστικά που έχει η R, το περιβάλλον της δεν είναι τόσο φιλικό για τους αργχάριους χρήστες και γι’ αυτό το λόγο χρησιμοποιούμε ένα δεύτερο λογισμικό που λέγεται RStudio. Το RStudio είναι και αυτό δωρέαν λογισμικό και παρέχει ένα ολοκληρωμένο περιβάλλον ανάπτυξης που παρέχει μια φιλική διεπαφή - επικοινωνίας μεταξύ R και χρήστη. Μεταφορικά, μπορούμε να πούμε ότι η R μοιάζει με κινητήρα αυτοκινήτου ενώ το R Studio μοιάζει με ταπλό αυτοκινήτου που καθιστά τη οδήγηση του αυτοκινήτου πιο φιλική και εύκολη. Με ανάλογο τρόπο, το RStudio καθιστά τη χρήση της R πολύ πιο φιλική και εύκολη.
2.2.1 Μεταφόρτωση και Εγκατάσταση RStudio
Σημειώνεται ότι για να λειτουργήσει το RStudio απαιτείται πρώτα η εγκατάσταση της R.
Παρακάτω περιγράφεται σύντομα η διαδικασία της μεταφόρτωσης και της εγκατάστασης RStudio στον υπολογιστή σας με λειτουργικό σύστημα Windows:
Επικεφτόμαστε στην ιστοσελίδα https://rstudio.com/products/rstudio/download/.
Eπιλέγουμε το πλήκτρο Download RStudio Desktop for Windows.
Μόλις μεταφορτωθεί το εκτελέσιμο αρχείο .exe, κάνουμε κλικ και ακολουθούμε τις οδηγίες εγκατάστασης. Η διαδικασίας της εγκατάστασης είναι απλή.
Παρόλα αυτά μπορείτε να χρησμοποιήσετε εναλλακτικά το περιβάλλον RStudio στο υπολογιστικό νέφος (Posit Cloud ή το πρώην RStudio Cloud) χωρίς να απαιτείται η εγκατάσταση της R και του RStudio στον υπολογιστή σας. Η πρόσβαση στο Posit Cloud γίνεται από το σύνδεσμο https://posit.cloud/.
2.3 Περιβάλλον και Διάταξη του RStudio
Μετά την εγκατάσταση της R και του RStudio στον υπολογιστή μας, θα έχουμε δύο νέα προγράμματα ή εφαρμογές που μπορούμε να ανοίξουμε. Εμείς θα ανοίγουμε πάντα την εφαρμογή RStudio και όχι την εφαρμογή R. Μετά την εκκίνηση της εφαρμογής RStudio, βλέπουμε τη παρακάτω διεπαφή όπως φαίνεται στο σχήμα 2.1.

Σχήμα 2.1: Διεπαφή RStudio
Aπό τη παραπάνω διεπαφή παρατηρούμε ότι υπάρχουν τέσσερα παράθυρα: το παράθυρο της κονσόλας, το παράθυρο κώδικα, το παράθυρο περιβάλλοντος και το παράθυρο αρχείων. Στην συνέχει θα εξηγήσουμε τη λειτουργία που εξυπηρετεί το καθένα από αυτά τα παράθυρα.
2.3.1 Παράθυρο Κονσόλας
Το παράθυρο κονσόλας εμφανίζεται συνήθως κάτω αριστερά της διεπαφής του Rstudio και είναι ο χώρος που αλληλεπιδρούμε με την γλώσσα R. Μετά τις εισαγωγικές γραμμές του παραθύρου εμφανίζεται το σύμβολο > και είναι το σύμβολο προτροπής. Αυτό το σύμβολο προτροπής σημαίνει ότι περιμένει από εμάς να εισάγουμε μια εντολή για να κάνει κάτι η R και έπειτα εμφανίζει τα αποτελέσματα της εντολής. Για παράδειγμα, αν θέλουμε η R να εκτελέσει μια αριθμητική πράξη (π.χ. 3 + 2), τότε εισάγουμε άμεσα στην κονσόλα την παρακάτω εντολή ως εξής:
3 + 2
## [1] 5
Στην συνέχεια μόλις πατήσουμε Enter, η R λαμβάνει την εντολή αυτή και προσπαθεί να την εκτελέσει και μας εμφανίζει το αποτέλεσμα της πρόσθεσης στην αμέσως επόμενη γραμμή. Μετά την εμφάνιση του αποτέλεσματος, η R εμφανίζει το σύμβολο προτροπής και περιμένει να εκτελέσει νέες εντολές.
Επίσης, το παράθυρο κονσόλας έχει την δυνατότητα ανάκτησης προηγούμενων εντολών. Πολλές φορές, όταν δουλέουμε με την R υπάρχει ανάγκη να εκτελέσουμε εκ νέου μια εντολή που έχουμε εισάγει προηγουμένως. Αυτή η ανάκληση της προηγούμενης εντολής μπορεί να γίνει με την βοήθεια των πλήκτρων πάνω και κάτω βέλους.
2.3.2 Παράθυρο Κώδικα
Είδαμε ότι το παράθυρο κονσόλας είναι χρήσιμο για την εκτέλεση ορισμένων εντολών. Όμως, υπάρχει πολλές φορές ανάγκη να αποθηκεύσουμε μια σειρά εντολών σε ένα αρχείο που λέγεται σενάριο προκειμένου να εκτελέσουμε πιο πολύπλοκες εργασίες ανάλυσης δεδομένων. Με αυτό το τρόπο, μπορούμε εύκολα να επανεκτελέσουμε το σενάριο αργότερα ή ακόμα να δείξουμε στους άλλους πως κάναμε μια ανάλυση. Σε αυτή την περίπτωση το παράθυρο κώδικα ή σενάριο εμφανίζεται όταν επιλέξουμε File / New File / R Script ή όταν χρησιμοποιήσουμε τα πλήκρα Ctrl + Shift + N. Mετά από την ενέργεια αυτή, το παράθυρο κώδικα εμφανίζεται επάνω αριστερά της διεπαφής RStudio. Επίσης, το παράθυρο κώδικα είναι κενός χώρος και εκεί εισάγουμε τις εντολές γραμμή προς γραμμή. Για να αφήσουμε νέα γραμμή πατάμε το πλήκτρο Enter. Για παράδειγμα, θέλουμε στο παράθυρο να γράψουμε 2 εντολές κώδικα για αριθμητικές πράξεις όπως:
3 + 2
10 + 2) * 10 (
Για να αποθηκεύσουμε το παραπάνω κώδικα ώστε να μπορέσουμε να το χρησιμοποιήσουμε αργότερα, επιλέγουμε File / Save ή πατάμε τα πλήκτρα Ctrl + S. Στην συνέχεια, εμφανίζεται ένα παράθυρο διάλογου και δίνουμε ένα όνομα (π.χ. demo.R). Τα αρχεία κώδικα R έχουν επέκταση .R.
Για να εκτελέσουμε το κώδικα που γράψαμε προηγουμένως υπάρχουν δύο τρόποι: Ο πρώτος τρόπος είναι να τοποθετήσουμε το δρομέα κάπου στην πρώτη γραμμή του κώδικα και στην συνέχεια πατάμε το εικονίδιο Run που βρίσκεται επάνω δεξιά του παραθύρου κώδικα ή τα πλήκτρα Ctrl + Enter. Αυτό έχει σαν αποτέλεσμα να εκτελεστεί η τρέχουσα εντολή, να εμφανίζεται το αποτέλεσμα της στο παράθυρο κονσόλας και τέλος μετακινείται ο δρομέας στην επόμενη εντολή του κώδικα. Έτσι για να εκτελεστούν όλες οι εντολές του κώδικα, πατάμε επαναληπτικά το εικονίδιο Run ή τα πλήκτρα Ctrl + Enter.
Ο δεύτερος τρόπος εκτέλεσης είναι να επιλέξουμε με το ποντίκι όλες τις γραμμές του κώδικα (ή τις γραμμές που μας ενδιαφέρει να εκτελέσουμε) και έπειτα πατάμε το εικονίδιο Run ή τα πλήκτρα Ctrl + Enter. Εναλλακτικά, μπορούμε να εκτελέσουμε όλο το κώδικα ή σενάριο απευθείας πατώντας τα πλήκρα Ctrl + Shift + Enter.
Εκτός από τις γραμμές κώδικα, στο παράθυρο κώδικα μπορούμε να γράψουμε σχόλια. Τα σχόλια είναι κείμενο που σχολιάζουν ή επεξηγούν την λειτουργία της κάθε γραμμής κώδικα. Έτσι για να προσθέσουμε σχόλια στο κώδικα, χρησιμοποιούμε το σύμβολο της δίεσης (#). Υπάρχουν δύο τρόποι τοποθέτησης σχολίων στο κώδικα: ο ένας είναι η γραμμή σχολίου, δηλαδή κάθε γραμμή ενός σχολίου ξεκινάει με ένα # και ο άλλος είναι η προσάρτηση σχολίου, δηλαδή προστίθεται σχόλιο στο τέλος κάθε γραμμής κώδικα. Παρακάτω παρουσιάζονται δύο παραδείγματα σχολίων:
# άθροισμα δυο αριθμών. Αυτό είναι γραμμή σχολίου
3 + 2
10 + 2) * 10 # υπολογισμός μιας έκφρασης. Αυτό είναι προσάρτηση σχολίου (
Όταν εκτελείται ένας κώδικας που περιέχει σχόλια, τα σχόλια αγνοούνται από τη R. Συνεπώς, τα σχόλια εξυπηρετούν περισσότερο το συντάκτη κώδικα για να θυμηθεί τι κάνει ο κώδικας όταν το ανοίξει μετά από πολύ καιρό ή τους άλλους χρήστες για να διαβάζουνε το κώδικα ευανάγνωστα.
Με βάση τα παραπάνω, το παράθυρο κώδικα είναι ένας χώρος που τοποθετούμε το κώδικα R που μας ενδιαφέρει για την ανάλυση δεδομένων. Μια καλή πρακτική είναι να πειραματιζόμαστε πρώτα τις εντολές - κώδικα στο παράθυρο κονσόλας και μόλις γράψουμε εντολές που λειτουργούν καλά και κάνουν αυτό που θέλουμε, τότε τοποθετούμε τις εντολές - κώδικα στο παράθυρο κώδικα.
2.3.3 Παράθυρο Περιβάλλοντος
To παράθυρο περιβάλλοντος εμφανίζεται επάνω δεξιά της διεπαφής RStudio και περιέχει τρεις καρτέλες: Environment, History και Connections. H καρτέλα Environment λειτουργεί ως ένα αποθετήριο αντικειμένων (σύνολα δεδομένων, συναρτήσεις) που έχουμε δημιουργήσει κατά την εργασία μας με την R. Ένα από τα βασικά χαρακτηριστικά της R όπως θα δούμε στην συνέχεια είναι ότι μας επιτρέπει να δημιουργήσουμε αντικείμενα τα οποία αποθηκεύουν τιμές. Ένας τρόπος για να δημιουργήσουμε ένα αντικείμενο στη R είναι να χρησιμοποιούμε το τελεστή ανάθεσης <-, έτσι ώστε να αποθηκεύουμε μια τιμή σε ένα αντικείμενο με κάποιο όνομα. Για παράδειγμα, αν πληκτρολογήσουμε την παρακάτω ανάθεση στην κονσόλα:
<- 2 a
τότε δημιουργείται ένα αντικείμενο με όνομα a
στην καρτέλα Environment το οποίο περιέχει την τιμή 2.
Η καρτέλα History περιέχει ένα κατάλογο εντολών που έχουμε χρησιμοποιήσει κατά την εργασία μας στο RStudio.
2.3.4 Παράθυρο Αρχείων
To παράθυρο αρχείων εμφανίζεται κάτω δεξιά της διεπαφής RStudio και περιέχει πέντε καρτέλες: Files, Plots, Packages, Help και Viewer.
2.3.4.1 Καρτέλα Files
H καρτέλα Files εμφανίζει ένα κατάλογο αρχείων τα οποία βρίσκονται στον τρέχοντα φάκελο εργασίας. Επίσης, η καρτέλα αυτή λειτουργεί ως ένας μικρός διαχειριστής αρχείων που μας επιτρέπει να εκτελέσουμε μια σειρά από εργασίες διαχείρισης αρχείων όπως δημιουργία φακέλου, διαγραφή αρχείου, μετονομασία αρχείου καθώς και αντιγραφή ή μεταφορά αρχείου.
2.3.4.2 Καρτέλα Plots
Η καρτέλα Plots εμφανίζει διαγράμματα ή γραφικά που δημιουργούμε καθώς εργαζόμαστε με τη R.
2.3.4.3 Καρτέλα Packages
H καρτέλα Packages εμφανίζει μια λίστα όλων των πακέτων R που είναι εγκατεστημένα στον υπολογιστή μας. Ένα πακέτο R ή αλλιώς βιβλιοθήκη είναι μια αυτόνομη μονάδα λογισμικού που επιτελεί ένα συγκεκριμένο σκοπό και επεκτείνει την λειτουργικότητα της R. Το πακέτο περιέχει συναρτήσεις, δεδομένα και τεκμηρίωση που περιγράφει την χρήση των συναρτήσεων και είναι συνήθως γραμμένα από μια κοινότητα έμπειρων χρηστών R. Τα πακέτα αυτά μπορούν να μεταφορτωθούν ελεύθερα από το Διαδίκτυο και κατόπιν να εγκατασταθούν στον υπολογιστή. Αυτή τη στιγμή που μιλάμε (το Μάρτιο 2020), υπάρχουν πάνω από 17,000 πακέτα R που είναι διαθέσιμα στο δίκτυο CRAN https://cran.rproject.org/web/packages/.
Σε αυτό το βιβλίο θα χρησιμοποιήσουμε ένα μικρό σύνολο πακέτων όπως το πακέτο tidyverse
. To πακέτο tidyverse
(https://www.tidyverse.org/) είναι μια
συλλογή πακέτων R που έχουν σχεδιαστεί για να κάνουν τις εργασίες της επιστήμης δεδομένων πιο παραγωγικές και εύκολες. Επίσης, όλα τα πακέτα του tidyverse
έχουν μια κοινή
φιλοσοφία και γραμματική όπως θα δούμε στα επόμενα κεφάλαια.
Όταν εγκαθιστούμε τη γλώσσα R για πρώτη φορά, αυτή έρχεται με ένα εγκατεστημένο σύνολο βασικών πακέτων. Αυτό το σύνολο βασικών πακέτων παρέχει τις βασικές λειτουργίες για να ξεκινήσει κάποιος να χρησιμoποιεί τη R. Όταν για κάποιο λόγο θέλουμε να χρησιμοποιήσουμε διαφορετικές συναρτήσεις ή στατιστικές μεθόδους που δεν υπάρχουν στα βασικά πακέτα, τότε μεταφορτώνουμε και εγκαθιστούμε πρόσθετα πακέτα. Για να χρησιμοποιήσουμε ένα πρόσθετο πακέτο στην R θα πρέπει πρώτα να το εγκαταστήσουμε και έπειτα να το φορτώσουμε. Η εγκατάσταση και η φόρτωση ενός πρόσθετου R μπορεί να γίνει εύκολα με την χρήση συγκεκριμένων συναρτήσεων στην κονσόλα. Για την εγκατάσταση ενός πρόσθετου πακέτου χρησιμοποιούμε τη συνάρτηση install.packages("name of package")
. Για παράδειγμα, αν θέλουμε να εγκαταστήσουμε το πακέτο tidyverse
γράφουμε στην κονσόλα ως εξής:
install.packages("tidyverse")
Aυτή η εγκατάσταση γίνεται μια φορά φορά στην αρχή και όχι κάθε φορά που ξεκινάμε το πρόγραμμα RStudio.
Μόλις εγκατασταθεί το πρόσθετο πακέτο, μετά πρέπει να το φορτώσουμε ώστε να το χρησιμοποιήσουμε. Η φόρτωση ενός πακέτου γίνεται με τη χρήση της συνάρτησης library(name of packages)
. Έτσι, για να φορτώσουμε το πακέτο tidyverse
που εγκαταστήσαμε προηγουμένως γράφουμε στην κονσόλα:
library(tidyverse)
Η φόρτωση του πακέτου απαιτείται κάθε φορά όταν ξεκινάμε εκ νέου το πρόγραμμα RStudio.
2.3.4.4 Καρτέλα Help
H καρτέλα Help παρέχει τεκμηρίωση ή πληροφορίες βοήθειας καθώς και εγχειρίδια γενικά για την γλώσσα R και RStudio. Επίσης, η καρτέλα δίνει πληροφορίες για οποιαδήποτε πακέτο R μας ενδιαφέρει. Για παράδειγμα, αν θέλουμε να πάρουμε περισσότερες πληροφορίες για το πακέτο tidyverse
δεν έχουμε παρά να γράψουμε τη λέξη tidyverse
στο κενό πλαίσιο που βρίσκεται επάνω δεξιά του παραθύρου αρχείων. Μόλις πατήσουμε Enter εμφανίζει τις αντίστοιχες πληροφορίες στο κάτω παράθυρο. Εναλλακτικά, μπορούμε να ζητήσουμε βοήθεια για το πακέτο tidyverse
από την κονσόλα πληκτρολογώντας το σύμβολο ?
ακολουθούμενο με το όνομα του πακέτου, δηλαδή ως εξής:
?tidyverse
Μόλις πατήσουμε Enter εμφανίζει τις πληροφορίες στην καρτέλα help του παραθύρου αρχείων. Με παρόμοιο τρόπο μπορούμε να ζητήσουμε βοήθεια για οποιαδήποτε συνάρτηση R μας ενδιαφέρει. Για παράδειγμα, μπορούμε να πληκτρολογήσουμε στην κονσόλα ?sqrt
για να δούμε περισσότερες πληροφορίες όπως η σύνταξη και παραδείγματα για τη συνάρτηση sqrt()
. Πρέπει να σημειωθεί ότι η βοήθεια είναι ένας σημαντικός πόρος για το χρήστη όταν εργάζεται με την R και μπορεί να το βοηθήσει να κατανοήσει τη λειτουργία των συναρτήσεων ή ακόμα όταν αντιμετωπίζει προβλήματα.