
Β. Ζωγράφος στο “Π”: Το ψηφιακό κράτος και η αυταπάτη των ακίνδυνων δεδομένων στο Data.gov.gr

Του
ΒΑΣΙΛΗ ΖΩΓΡΑΦΟΥ
Διευθύνοντος Συμβούλου της Vision Labs R&D Team,
Υποψήφιου Διδάκτορος Επιστήμης Πληροφορικής και Δεδομένων,
BSc (Hons).CS, MBA.IB, MSc.DS, PhD.C.
[email protected]
Η πρόσφατη υιοθέτηση της αρχής «Ανοιχτά Δεδομένα εξ Ορισμού» και η περαιτέρω ανάπτυξη του Data.gov.gr παρουσιάζονται ως βήμα προς τον ψηφιακό εκσυγχρονισμό της δημόσιας διοίκησης. Η φιλοσοφία είναι απλή και εκ πρώτης όψεως ελκυστική. Τα δεδομένα που παράγονται από το Δημόσιο πρέπει να είναι διαθέσιμα στην κοινωνία, στην έρευνα, στις επιχειρήσεις και στην καινοτομία. Η διαφάνεια προβάλλεται ως αυτονόητο δημοκρατικό αγαθό και η πρόσβαση στη δημόσια πληροφορία ως δείκτης προόδου. Η πραγματικότητα αποδεικνύεται σημαντικά πιο σύνθετη.
Η δημόσια συζήτηση γύρω από τα ανοιχτά δεδομένα επικεντρώνεται στον αριθμό των διαθέσιμων συνόλων δεδομένων, στις τεχνολογικές δυνατότητες αξιοποίησής τους και στις οικονομικές ευκαιρίες που δημιουργούν. Αφιερώνεται ελάχιστη προσοχή στους κινδύνους που αναδύονται όταν χιλιάδες κρατικά δεδομένα συγκεντρώνονται, διασυνδέονται και καθίστανται διαθέσιμα σε ένα περιβάλλον τεχνητής νοημοσύνης, αυτοματοποιημένης ανάλυσης και μαζικής επεξεργασίας πληροφοριών.
Ένας από τους σοβαρότερους κινδύνους αφορά το φαινόμενο της επαναταυτοποίησης. Η απουσία ονόματος ή ΑΦΜ από ένα σύνολο δεδομένων δεν συνεπάγεται αυτομάτως και πραγματική ανωνυμία. Συνδυασμοί μεταβλητών, όπως ηλικία, φύλο, γεωγραφική περιοχή, επάγγελμα ή χρονικές αναφορές, μπορούν να οδηγήσουν στην ταυτοποίηση φυσικών προσώπων με εξαιρετικά υψηλό βαθμό ακρίβειας. Η συγκέντρωση χιλιάδων datasets στην ίδια πλατφόρμα αυξάνει δραματικά αυτήν την πιθανότητα.
Πληροφορίες που θεωρούνται ακίνδυνες όταν εξετάζονται μεμονωμένα αποκτούν εντελώς διαφορετική αξία όταν συνδυάζονται. Δεδομένα επιδοτήσεων, γεωγραφικών χαρακτηριστικών, δημόσιων συμβάσεων και επιχειρηματικών δραστηριοτήτων μπορούν να δημιουργήσουν σύνθετα προφίλ προσώπων, επιχειρήσεων ή οργανισμών, αποκαλύπτοντας πληροφορίες που κανένα από τα επιμέρους σύνολα δεδομένων δεν περιείχε αυτοτελώς. Η διαδικασία ονομάζεται «Mosaic Effect».
Η ραγδαία ανάπτυξη της τεχνητής νοημοσύνης μεταβάλλει ακόμη περισσότερο τα δεδομένα της εξίσωσης. Οι περισσότερες τεχνικές ανωνυμοποίησης σχεδιάστηκαν σε εποχή που η υπολογιστική ισχύς και οι δυνατότητες ανάλυσης ήταν ασύγκριτα περιορισμένες. Τα σύγχρονα μοντέλα τεχνητής νοημοσύνης έχουν τη δυνατότητα να εντοπίζουν σύνθετες συσχετίσεις, να προβλέπουν ελλείποντα δεδομένα και να ανακατασκευάζουν πληροφορίες που θεωρούνταν ασφαλώς ανωνυμοποιημένες. Η έννοια της ανωνυμίας καθίσταται ολοένα και πιο εύθραυστη.
Συνεπαγωγικά, ιδιαίτερα κρίσιμο ζήτημα αποτελεί η απουσία μηχανισμών συνεχούς αξιολόγησης κινδύνου για τα δημοσιευμένα σύνολα δεδομένων. Η ασφάλεια ενός dataset δεν αποτελεί μόνιμο χαρακτηριστικό αλλά μεταβλητή συνάρτηση των τεχνολογικών δυνατοτήτων κάθε εποχής. Πληροφορίες που θεωρούνται επαρκώς ανωνυμοποιημένες σήμερα ενδέχεται να καθίστανται ταυτοποιήσιμες στο μέλλον μέσω νέων τεχνικών ανάλυσης, μηχανικής μάθησης και συνδυαστικής επεξεργασίας δεδομένων. Η εξέλιξη της τεχνητής νοημοσύνης, της υπολογιστικής ισχύος και των εργαλείων εξόρυξης γνώσης προχωρά με ρυθμούς σημαντικά ταχύτερους από την προσαρμογή των νομικών και διοικητικών πλαισίων. Η ανωνυμοποίηση δεν μπορεί να αντιμετωπίζεται ως μία εφάπαξ διαδικασία, αλλά ως διαρκής υποχρέωση επανεκτίμησης και επαναξιολόγησης των κινδύνων που συνοδεύουν τη δημόσια διάθεση των δεδομένων.
Σημαντικά ερωτήματα εγείρονται ως προς τη διακυβέρνησή τους. Εκατοντάδες διαφορετικοί φορείς τροφοδοτούν μία ενιαία πλατφόρμα. Ποιος αναλαμβάνει την τελική ευθύνη για την ποιότητα, την ακρίβεια και την ασφάλεια των πληροφοριών; Ποιος αξιολογεί τους κινδύνους δημοσιοποίησης; Ποιος λογοδοτεί όταν ένα dataset αποδειχθεί προβληματικό; Η πολυδιάσπαση αρμοδιοτήτων αποτελεί διαχρονικά μία από τις μεγαλύτερες αδυναμίες της ελληνικής δημόσιας διοίκησης και δύσκολα θεραπεύεται απλώς με μία νέα ψηφιακή πλατφόρμα.
Η δημιουργία ενιαίου εθνικού αποθετηρίου πληροφορίας δημιουργεί παράλληλα νέο στρατηγικό κίνδυνο. Η συγκέντρωση χιλιάδων συνόλων δεδομένων σε μία κεντρική πύλη αυξάνει ασφαλώς τη χρησιμότητα για ερευνητές, δημοσιογράφους και επιχειρήσεις. Η ίδια συγκέντρωση αυξάνει αντίστοιχα και την αξία της πλατφόρμας για κακόβουλους φορείς, κρατικές υπηρεσίες πληροφοριών, οργανωμένα δίκτυα κυβερνοεγκλήματος και εταιρείες που επιδιώκουν μαζική συλλογή πληροφοριών.
Ιδιαίτερο προβληματισμό προκαλεί η δευτερογενής χρήση των δεδομένων. Πληροφορίες που συλλέχθηκαν για στατιστικούς ή διοικητικούς σκοπούς μπορούν να αξιοποιηθούν για εμπορική ανάλυση, πολιτική στόχευση, ανάπτυξη αλγοριθμικών συστημάτων ή εκπαίδευση μοντέλων τεχνητής νοημοσύνης. Η μετατόπιση του σκοπού επεξεργασίας βρίσκεται στον πυρήνα πολλών σύγχρονων συζητήσεων γύρω από τον GDPR και την προστασία της ιδιωτικότητας.
Η επιχειρηματική αξιοποίηση των ανοικτών δεδομένων παρουσιάζεται συχνά ως αυτονόητα θετική εξέλιξη. Ποιος καρπώνεται την υπεραξία που παράγεται από δημόσια δεδομένα που συλλέχθηκαν με δημόσιους πόρους; Η κοινωνία, οι πολίτες και οι φορολογούμενοι ή οι μεγάλοι ιδιωτικοί οργανισμοί, που διαθέτουν τα μέσα να μετατρέψουν την πληροφορία σε εμπορικό προϊόν;
Ζητήματα εθνικής ασφάλειας εγείρονται και δεν επιτρέπεται να αγνοηθούν. Η συνδυαστική ανάλυση των συνόλων δεδομένων ενδέχεται να αποκαλύψει κρίσιμες υποδομές, γεωγραφικές συγκεντρώσεις πόρων, πρότυπα λειτουργίας υπηρεσιών ή αδυναμίες κρατικών μηχανισμών. Η εμπειρία πολλών χωρών έχει ορίσει ότι η αλόγιστη διάθεση δεδομένων μπορεί να δημιουργήσει κινδύνους που δεν ήταν αρχικά ορατοί.
Η μεγαλύτερη αδυναμία της φιλοσοφίας «Ανοιχτά Δεδομένα εξ Ορισμού» εντοπίζεται τελικώς στο θεμέλιο της. Η παραδοσιακή προσέγγιση απαιτούσε αιτιολόγηση της ανάγκης δημοσιοποίησης. Η νέα λογική μεταφέρει το βάρος στην αντίθετη κατεύθυνση. Η δημοσίευση θεωρείται η προεπιλεγμένη επιλογή και η προστασία η εξαίρεση που πρέπει να δικαιολογηθεί. Πρόκειται για μια βαθιά μεταβολή της φιλοσοφίας διαχείρισης της δημόσιας πληροφορίας, με συνέπειες που πιθανότατα δεν έχουν ακόμη πλήρως αξιολογηθεί.
Η πραγματική ανησυχία αφορά ένα ψηφιακό κράτος που εμφανίζεται πρόθυμο να ανοίξει ολοένα και περισσότερα δεδομένα, χωρίς να έχει προηγουμένως επιδείξει αντίστοιχη ωριμότητα στη διακυβέρνηση, στην προστασία και στην αξιολόγησή τους.