Κεφάλαιο 1 Εισαγωγή

1.1 Ροή Εργασίας Ανάλυσης Δεδομένων

O ερευνητής μετά την επιλογή του ερευνητικού θέματος προς μελέτη και τη διατύπωση ερευνητικών ερωτήσεων ή υποθέσεων, ξεκινάει μια ερευνητική διαδικασία ανάλυσης δεδομένων με σκοπό να απαντήσει τις ερωτήσεις με την βοήθεια υπολογιστικών μεθόδων και εργαλείων. Αυτή η ανάλυση δεδομένων ακολουθεί μια συγκεκριμένη ροή εργασίας και περιλαμβάνει τις παρακάτω εργασίες (Wickham and Grolemund 2017):

  1. Αναγνώριση πηγών δεδομένων
  2. Εισαγωγή δεδομένων
  3. Διαχείριση δεδομένων
  4. Οπτικοποίηση δεδομένων
  5. Μοντελοποίηση δεδομένων
  6. Παρουσίαση ερευνητικής εργασίας

Η ερευνητική διαδικασία ξεκινάει με την ανάγνωριση πηγών δεδομένων γύρω από το ερευνητικό πρόβλημα. Σε αυτή την εργασία, ο ερευνητής εντοπίζει δευτερογενείς πηγές ψηφιακών δεδομένων από διάφορες βάσεις δεδομένων ή αποθετήρια δεδομένων που διατίθενται δημόσια στο Διαδίκτυο και μάλιστα σε μεγάλο όγκο. Τα αποθετήρια δεδομένων περιλαμβάνουν συνήθως δεδομένα καιρού, δεδομένα τιμών μετοχών, δεδομένα στατιστικών υπηρεσιών π.χ. δημογραφικά δεδομένα, οικονομικά δεδομένα, δεδομένα υγείας, εκπαίδευσης, κ.λπ. Παραδείγματα τέτοιων αποθετήριων δεδομένων είναι η Ευρωπαϊκή Ένωση, η Παγκόσμια Τράπεζα, κ.λπ. Η επιλογή των κατάλληλων δεδομένων φυσικά εξαρτάται από το ερευνητικό θέμα. Μετά τον προσδιορισμό των κατάλληλων δεδομένων, ο ερευνητής φροντίζει να μεταφορτώσει τα δεδομένα σε μορφή αρχείων με χειροκίνητο τρόπο ή με αυτόματο τρόπο με την βοήθεια ενός ειδικού λογισμικού.

Μετά την συλλογή δεδομένων, ακολουθεί η εισαγωγή δεδομένων σε κάποιο λογισμικό ανάλυσης δεδομένων. Αυτό σημαίνει ότι το λογισμικό διαβάζει τα δεδομένα που είναι αποθηκευμένα σε αρχεία και έπειτα φορτώνονται σε κάποια εσωτερική και προσωρινή δομή αποθήκευσης του λογισμικού ανάλυσης (π.χ. τα δεδομένα φορτώνονται στην μνήμη του υπολογιστή).

Μετά την φόρτωση των δεδομένων στο λογισμικό, ο ερευνητής εκτελεί συνήθως την εργασία διαχείρισης δεδομένων. Σε αυτή την εργασία, ο ερευνητής προσπαθεί να φέρει τα δεδομένα σε μια συμβατή και αποδεκτή μορφή έτσι ώστε να επεξεργαστούν τα δεδομένα εύκολα από το λογισμικό ανάλυσης δεδομένων. Η πιο διαδεδομένη μορφή δεδομένων που είναι αποδεκτή από τα περισσότερα προγράμματα υπολογιστών είναι ότι τα δεδομένα αποθηκεύονται σε δομή πίνακα όπου κάθε γραμμή αφορά μια πειραματική μονάδα (ή μια παρατήρηση) και κάθε στήλη αφορά μια μεταβλητή. Συνεπώς, η διαχείριση δεδομένων αφορά ένα σύνολο εργασιών όπως ο καθαρισμός δεδομένων στην περίπτωση που ο πίνακας δεδομένων δεν είναι σε συμβατή μορφή ή περιέχει ανώμαλες τιμές, η μετατροπή του πίνακα δεδομένων από μια μορφή στην άλλη, η εστίαση ή η επιλογή σε ένα περιορισμένο σύνολο παρατηρήσεων ή/ και μεταβλητών του πίνακα δεδομένων, η δημιουργία νέων μεταβλητών, η μετονομασία μεταβλητών, ο υπολογισμός συνοπτικών στατιστικών στοιχείων, η συγχώνευση διαφορετικών πινάκων δεδομένων, κ.λπ.

Η εργασία οπτικοποίηση δεδομένων είναι η φάση της αναπαράστασης των δεδομένων σε μια γραφική ή οπτική μορφή έτσι ώστε να ερμηνεύονται εύκολα από τον ερευνητή. Επίσης, η οπτικοποίηση δεδομένων βοηθάει στον ερευνητή να ανακαλύψει άγνωστες σχέσεις μεταξύ μεταβλητών του πίνακα δεδομένων ή πρότυπα ή τάσεις που ενυπάρχουν στα δεδομένα αλλά που δεν είναι άμεσα εμφανή. Όπως θα δούμε στην συνέχεια υπάρχουν πολλοί τρόποι οπτικοποίησης δεδομένων ή διαγραμμάτων που η επιλογή τους εξαρτάται από το τύπο δεδομένων, το πλήθος των μεταβλητών καθώς και από το ερευνητικό ερώτημα.

Η εργασία μοντελοποίηση δεδομένων αποτελεί συνέχεια της οπτικοποίησης. Αυτό σημαίνει ότι τα πρότυπα ή οι δομές που εντοπίζονται κατά την φάση της οπτικοποίησης μπορούν να εκφραστούν με μοντέλα. Αυτά τα μοντέλα είναι μαθηματικά και κλιμακώνονται καλά με πολλές μεταβλητές, κάτι που η οπτικοποίηση πολλών μεταβλητών είναι λίγο δύσκολο να γίνει. Επίσης, όλα τα μοντέλα στηρίζονται σε υποθέσεις σχετικά με τη μορφή των σχέσεων, οπότε αν κάποιος ερευνητής επιλέξει μια λαθεμένη συναρτησιακή σχέση μεταξύ των μεταβλητών, το μοντέλο δεν θα πει ότι έκανε λάθος ο ερευνητής.

Εδώ πρέπει να αναφερθεί ότι οι εργασίες διαχείρισης, οπτκοποίησης και μοντελοποίησης δεδομένων είναι επαναληπτικές. Αυτό σημαίνει ότι ο ερευνητής δοκιμάζει διάφορες προβολές ή συνδυασμούς παρατηρήσεων και μεταβλητών του πίνακα δεδομένων, διάφορες οπτικοποιήσεις δεδομένων και διάφορα μοντέλα έτσι ώστε να ανακαλύψει σημαντικές δομές ή ενδείξεις στα δεδομένα που θα επιτρέψουν να απαντήσει στα ερευνητικά ερωτήματα.

Η τελευταία εργασία της ροής ανάλυσης δεδομένων είναι η παρουσίαση ερευνητικής εργασίας. Σε αυτή την εργασία, ο ερευνητής προσπαθεί να παρουσιάζει τα αποτελέσματα της ανάλυσης δεδομένων και τις γνώσεις του από την κατανόηση δεδομένων στην ευρύτερη επιστημονική κοινότητα. Η παρουσίαση της ερευνητικής εργασίας συνήθως γίνεται σε διάφορες μορφές όπως μια ερευνητική αναφορά, οι διαφάνειες μιας παρουσίασης, μια ιστοσελίδα ή ακόμα ένα ψηφιακό πίνακα ελέγχου.

1.2 Προγραμματιστικό Περιβάλλον Εργασίας

Μέχρι τώρα, ένας ερευνητής κοινωνικών επιστημών εκτελεί τις περισσότερες από τις παραπάνω εργασίες ανάλυσης δεδομένων με παροδοσιακό τρόπο, δηλαδή, πραγματοποιεί ανάλυση δεδομένων με κάποια δημοφιλή λογισμικά όπως MS-Excel, SPSS, Stata, κ.λπ. Ο παροδοσιακός αυτός τρόπος εργασίας είναι ότι τα λογισμικά αυτά παρέχουν στον επιστήμονα ένα γραφικό περιβάλλον εργασίας έτσι ώστε να είναι πιο εύκολη, φιλική και διαδραστική η ανάλυση δεδομένων. Παρόλα αυτά, ο παροδοσιακός τρόπος εργασίας αντιμετωπίζει ορισμένους βασικούς περιορισμούς.

Πρώτον, ο παραδοσιακός τρόπος εργασίας παρουσιάζει υψηλό κόστος στον ερευνητή επειδή τα περισσότερα λογισμικά με γραφικό περιβάλλον είναι εμπορικά και έχουν υψηλή τιμή. Αυτό έχει σαν αποτελέσμα, τα λογισμικά αυτά να μην είναι διαθέσιμα στους περισσότερους ερευνητές.

Δεύτερον, η ροή εργασίας ανάλυσης δεδομένων (1-6) με τα γνωστά λογισμικά δεν ακολουθείται με ενιαίο τρόπο. Αυτό σημαίνει ότι οι περισσότερες εργασίες της ανάλυσης δεδομένων μπορεί να πραγματοποιηθούν χρησιμοποιώντας πολλά και διαφορετικά προγράμματα. Για παράδειγμα, ο ερευνητής στα πλαίσια μιας ερευνητικής εργασίας μπορεί να χρησιμοποιήσει διαφορετικά λογισμικά όπως για την εργασία 1 μπορεί να μεταφορτώσει τα αρχεία δεδομένων από το Διαδίκτυο χειροκίνητα, για τις εργασίες 2 έως 5 μπορεί να χρησιμοποιήσει ένα πρόγραμμα διαχείρισης δεδομένων όπως MS-Εxcel ή Google Sheets και πρόγραμμα στατιστικής επεξεργασίας όπως Stata ή SPSS και τέλος για την εργασία 6 να χρησιμοποιήσει ένα πρόγραμμα επεξεργασίας κειμένου για συγγραφή του κειμένου της εργασίας καθώς και να αντιγράψει και να επικολήσει διαγράμματα από άλλα στατιστικά προγράμματα στο πρόγραμμα επεξεργασίας κειμένου όπως MS-Word ή Google Docs. Το τελευταίο δεν ο ιδανικός τρόπος πραγματοποίησης της επιστημονικής έρευνας διότι ο επιστήμονας ξοδεύει πολύ χρόνο στην αντιγραφή και επικόλληση των σχημάτων παρά να επικεντρώνεται η προσοχή του στην συλλογή και ανάλυση δεδομένων.

Ένα άλλο περιορισμό είναι ότι οι εργασίες 2 έως 5 δεν διεκπεραιώνονται με αποδοτικό τρόπο από τα λογισμικά με γραφικό περιβάλλον. Αυτό σημαίνει ότι καθώς προστίθενται περισσότερα αρχεία δεδομένων ή συμβεί σφάλμα στα δεδομένα κατά την πορεία της ερευνητικής εργασίας, ο ερευνητής θα πρέπει να διεκπεραιώσει και επαναλάβει μεγάλο όγκο της δουλειάς του επιλέγοντας ξανά και ξανά μενού και παράθυρα, δηλαδή, να επαναλάβει την ανάλυση δεδομένων, να ξαναδημιουργήσει διαγράμματα και να κάνει αντιγραφή-επικόλληση των σχημάτων από άλλα προγράμματα στο κείμενο της εργασίας του. Αυτό έχει σαν αποτέλεσμα να συμβούν εύκολα σφάλματα και επίσης υπάρχει σπατάλη χρόνου διότι ο ερευνητής δεν αφιερώνει χρόνο στην επιστήμη. Αυτό συμβαίνει διότι απλούστατα δεν καταγράφονται σε κάποιο αρχείο καταγραφής οι ενέργειες της ανάλυσης δεδομένων και οι ρυθμίσεις που κάνει ο ερευνητής στο λογισμικό.

Ένα τελευταίο περιορισμό είναι ότι είναι δύσκολη η αναπαραγωγή της ανάλυσης δεδομένων και των αποτελεσμάτων της ερευνητικής εργασίας. Με άλλα λόγια, ένας άλλος ερευνητής δεν έχει την δυνατότητα να επαναλάβει ή να ακολουθήσει τα βήματα της ανάλυσης δεδομένων με το ίδιο τρόπο όπως ο αρχικός ερευνητής και επίσης να πάρει τα ίδια ερευνητικά αποτελέσματα.

Για να άρουμε τους παραπάνω περιορισμούς έτσι ώστε να έχουμε μια ροή εργασίας ανάλυσης δεδομένων (δηλαδή, οι εργασίες 1-6) χαμηλού κόστους, ενιαία, αποδοτική και αναπαραγωγίσιμη, θα πρέπει να υιοθετήσουμε ένα σύγχρονο υπολογιστικό περιβάλλον. Ένα τέτοιο περιβάλλον ανάλυσης δεδομένων είναι η γλώσσα R (ή εναλλακτικά η Python) το οποίο είναι ανοικτό λογισμικό και ακολουθεί το μοντέλο του προγραμματισμού. Αυτό το μοντέλο προγραμματισμού επιτρέπει στον ερευνητή να γράφει εντολές γραμμένες σε προγράμματα R για τα διάφορα στάδια της ερευνητικής εργασίας από τη συλλογή δεδομένων μέχρι τη συγγραφή κειμένου με έναν ενιαίο και αποδοτικό τρόπο. Αυτό σημαίνει πρακτικά ότι τα προγράμματα είναι γραμμένα κάτω από την ίδια γλώσσα R και επίσης αυτοματοποιούν τις εργασίες διαχείρισης και ανάλυσης δεδομένων μεγάλου όγκου κάνοντας απλά την επανεκτέλεση των προγραμμάτων. Επιπρόσθετα, η γλώσσα R παρέχει την δυνότητα αναπαραγωγής της ερευνητικής εργασίας δίνοντας στους υπόλοιπους ερευνητές το κώδικα που περιέχει τα βήματα της ανάλυσης δεδομένων καθώς και τα σύνολα δεδομένων. Με άλλα λόγια, η R ενισχύει την διαφάνεια της επιστημονικής έρευνας και την συνεργασία μεταξύ των ερευνητών στις κοινωνικές επιστήμες και γενικότερα στην επιστήμη. Τέλος, ο προγραμματισμός είναι ένα εργαλείο που θα βοηθήσει το κοινωνικό επιστήμονα να αυτοματοποιήσει τις περισσότερες εργασίες διαχείρισης και ανάλυσης δεδομένων και επίσης δίνει στον επιστήμονα περισσότερο χρόνο να επικεντρωθεί στην επιστήμη. Για να το πετύχει αυτό δεν είναι απαραίτητα ο ερευνητής να είναι έμπειρος προγραμματιστής όπως θα δούμε στο υπόλοιπο του βιβλίου.

1.3 Οργάνωση Βιβλίου

Με βάση τα παραπάνω, ο στόχος του βιβλίου αυτού είναι να δώσουμε στους ερευνητές που δεν έχουν προηγουμένες γνώσεις προγραμματισμού, μια προσιτή εισαγωγή στην γλώσσα προγραμματισμού R για διάφορες εργασίες ανάλυσης δεδομένων μέσα στα πλαίσια της κοινωνικής έρευνας. Συνεπώς, το βιβλίο οργανώνεται ως εξής: Στο κεφάλαιο 2 παρουσιάζεται μια εισαγωγή στη γλώσσα R, το τρόπο εγκατάστασης της R και τέλος μια πρώτη γνωριμία με το υπολογιστικό περιβάλλον εργασίας R. Στο κεφάλαιο 3 δίνoνται σύντομα εισαγωγικά στοιχεία προγραμματισμού γύρω από την γλώσσα R για την καλύτερη κατανόηση των υπολοίπων κεφαλαίων.

References

Wickham, Hadley, and Garrett Grolemund. 2017. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. 1st ed. O’Reilly Media. https://r4ds.had.co.nz/.