“Data is everywhere” — un articol despre data-mining, procesare de date, inteligență artificială ș.a.

Image for post
Image for post

Am lăsat acum ceva vreme un post în care, cu ajutorul Mindmeister, creasem câteva diagrame (sau hărți) (mindmaps) în care tratam, într-un mod simplu și fără divagații, conceptul de data-mining, atât în contextul noii reglementări europene, ca obiect al celor două excepții ale dreptului de autor, cât și dintr-o perspectivă pur tehnologică. Feedback-ul nu a fost așa de bun, așa că m-am gândit să reiau tema, de data asta cu un plus de informații, care pot da sens sau pot deschide sensul mai puțin transparent al unei prezentări ce părea doar a aduna mai multe buzzword-uri din sfera tech.

O să mă opresc la varianta care adună explicații tehnice (mai jos), o hartă centrată pe data-mining, în alăturarea căreia sunt dispuse noțiuni precum data-science, inteligență artificială, analiză de date, recunoașterea de tipare (pattern recognition) și chiar deep packet inspectionDPI — tehnică de inspecție și analiză a pachetelor (de date), toate într-o postură comparată, prin evidențierea atât a numitorului comun cât și a diferențelor. (Pentru cei familiarizați cu terminologia directivei 790/2019, menționez că voi folosi exclusiv termenul de “minare” sau “mining” și nu “extragere de date”, pentru că, deși corespunde traducerii oficiale a directivei, aceasta îndepărtează complet cititorul de sensul real al noțiunii.)

Image for post
Image for post
vezi harta interactivă

Motivul evidențierii acestei corelații sau al necesității prezentării informațiilor printr-o metodă cât mai permisivă, rezidă în faptul că un practician de drept este, cu mici excepții, foarte puțin expus unor concepte precum data science, artificial intelligence, statistics sau pattern recognition sau că expunerea sa, chiar dacă există, nu îi va permite decât o apreciere superficială a acestor noțiuni, fără a putea identifica ce este o minare de date și când are de-a face cu un sistem de inteligență artificială. Un minus major care, foarte posibil, se va reflecta într-o carență de interpretare a noilor excepții de data-mining din domeniul dreptului de autor sau într-o imposibilitate de a determina modalitățile concrete (tehnice) prin care se realizează activitatea de profiling reglementată de GDPR. (Și astea ar fi doar exemple, așa cum va arăta textul, o apreciere în ansamblu este cea care contează cel mai mult.)

Pentru a adăuga un plus de dificultate, legislația deja abundă de o terminologie algoritmică și, deși acest lucru ar putea să pară a susține „rapidele evoluții tehnologice”, redarea în mod fragmentat și nesusținut a acestor termeni, pe parcursul mult prea multor acte normative, nu permite asimilarea cu ușurință, cu atât mai puțin un studiu în context.

Într-adevăr, dacă veți încerca să căutați echivalențe explicative în dispozițiile legale, veți vedea că informația cu care rămâneți nu este tocmai îndeajuns, fiind mereu o componentă neacoperită, prea puțin tratată sau care redă complet diferit de mediul științific concepte asimilate deja de foarte mulți ani. O să dau un singur exemplu destul de elocvent și explicat în mai multe rânduri în câteva articole (aici și aici) — cel al “bazelor de date”, cu o directivă specifică încă din 1996, noțiune cu implicații deosebite în prezent, inclusiv în noua directivă privind dreptul de autor pe piața unică digitală, care, în continuare, este greșit interpretată făcându-se abstracție de sensul uzual de „set de informații” (indicat, de fapt, de însăși definiția legală) care acoperă, în realitate, TOT ce se află online, de la sistemele de operare care converg către sau din baze de date, către medii cloud de stocare, aplicații desktop și mobile, întreaga rețea (Internetul) putând fi percepută ca o uriașă bază de date, dacă ținem cont de forma bine structurată a unor seturi de date care comunică reciproc.

Destinul nefiresc al conceptului de “bază de date” a fost pus în umbră atât pentru profesioniștii care o identificau doar cu formatele MySQL, dar și raportat la publicul larg, pentru care noțiunea suna mult prea specific unui domeniu cu care nu aveau nici o tangență. Cel mai probabil, opacitatea semnatică s-a datorat însăși denumirii de “bază de date”, care, deși corectă, este prea puțin cunoscută publicului larg. Într-un comentariu regăsit pe un forum de discuții în jurul subiectului „Exemple de baze de date din viața reală” (adică altele decât MySQL, SQL Server, Postgre, MongoDB, ElasticSearch) am regăsit, poate, cea mai concludentă formulă prin care poate fi explicată această noțiune — “Anywhere you need to store, analyze and retrieve data, you use a database. A Phone book is a database. Your transactions in your bank account are a database. When you go to the doctor, your diagnosis and treatmentare stored in a database. Your company sales are a database. Data is everywhere.”

Problema incorectei aprecieri riscă de se repete și în cazul data-mining-ului (și nu doar pentru că mining-ul este legat de aceste baze de date), fiind deja voci care, probabil din lipsa unei aprofundări tehnice, continuă să includă acest concept printre altele atașate publicului perceput ca o comunitate și userului ca individ al acesteia, fiind considerat un deziderat în sine, de care poate și trebuie să beneficieze fiecare cetățean — „the right to read is the right to mine”. Nu critic lozinca, dimpotrivă, nu aș putea să susțin contrariul, fiind de la sine înțeles că o astfel de activitate nu poate fi rezervată doar unor entități, dar nici nu pot face abstracție de ceea ce este evident și anume că, în concret, mining-ul este doar una dintre formele prin care se manifestă monopoluri deja instalate, publicul larg fiind ultimul care va profita de pe urma “dreptului de a mina”.

O cunoaștere în ansamblu a fenomenului de procesare de date și în detaliu măcar a câtorva tehnici specifice, cum este și data-mining-ul, va releva că un rezultat performant al aplicării acestora nu ține de excelența algoritmului sau, mai degrabă depinde foarte puțin de acesta, fiind subordonat însă, în mod decisiv, DATELOR, mai precis multitudinii , volumului mare și diversității, cei care au la dispoziție cele mai multe și variate date (îi identificați voi) fiind, de fapt, adevărații beneficiari ai dreptului de minare sau cei care vor profita cel mai mult și cu prioritate. (capacitatea, facultatea de a citi și dispoziția necesară sunt prea puțin relevante în contextul doar al câtorva cărți, fiind foarte puțin probabil a intra în competiție cu cei care deja dețin librării imense plus destule resurse pentru analiza și extragerea oricăror cunoștințe chiar acum, în acest moment, și nu ulterior multor ani de cercetare și dezvoltare. Altfel spus.) (Mai sus am lăsat un link care explică importanța datelor în contextul procesării.)

Discutând despre date și despre relevanța acestora, ajungem, de fapt, la esența oricăruia dintre conceptele prezentate pe harta. Minarea, ca și restul noțiunilor expuse, transpune sau compilează tehnici de PROCESARE, de PRELUCRARE de date, cum ne-a învățat așa de bine gdpr-ul.

Fie că este vorba de minare de date, de pattern recognition, de machine learning (care, până la urmă își va găsi și el locul aici), de data analysis, de AI sau data science, toate au în vedere informațiile găsite în ORICE format și în orice medii. Adică DATE. Nu este deloc exagerat, datele trebuie acceptate prin raportare la sensul extins al acestui termen, ca fiind orice informație electronică, disponibilă în orice mediu de stocare. Scopul fiecărei tehnici este, fără discuție, diferit, dar toate implică un acces la date, o transformare, o intervenție asupra datelor, asupra acestor informații, care repet, nu transpun doar coordonate gps sau suite aleatorii de rezultate statistice ci și (ori cu prioritate) informații care au o reprezentare cât se poate de concretă publicului larg, adică orice fișiere de tip imagine sau video, text, toate și oricare din acestea cu maldărul de metadata, uneori mult mai valoroase decât informația în sine.

Dacă veți avea răbdarea să vizualizați în detaliu harta, veți spune cu siguranță că Data Science-ul cu siguranță nu își are locul aici și poate nici KDD ori AI, dar vreau să rețineți că principalul scop al acestei prezentări nu este de a expune ceea ce este de la sine înțeles pentru un public informat/specializat ci de a fi un sprijin pentru înțelegerea data-mining-ului celor care de-abia acum îl descoperă, care nu au/au avut beneficiul unei experiențe cu științele exacte. Data science-ul este, fără îndoială în accepțiunea generală, un ansamblu de domenii de cercetare, dar, dacă este redus la ceea ce intrinsec termenii identifică, noțiunea de “știință a datelor” se apropie mult mai mult de data-mining (fiind surse care chiar pun semnul echivalent între acestea,) data-mining-ul fiind, poate, cel mai reprezentativ model de EXAMINARE a informațiilor și a legăturilor dintre acestea întrucât scopul acestui tip de procesare este descoperirea de noi cunoștințe (knowledge discovery), adică a acelor ALTE date și informații, în mod necesar diferite de cele supuse procesării, care pot facilita dezvoltarea unui sistem de automatizare, ori au relevanță din punct de vedere statistic de ex. (Știu, sună mai puțin evocativ dacă facem abstracție de om ca principal generator de date)

Revenind la hartă, pentru acel Knowledge Discovery in Databases sau KDD process, cum i se mai spune, am lăsat doar un link către un studiu care poziționează data-mining-ul ca una dintre etapele, într-adevăr esențiale, în acest proces de cunoaștere/descoperire. Sunt multe surse unde veți găsi explicații despre KDD, prezentat ca suită de procesări, curs prin care datele trec prin stadii în care sunt evaluate, apreciate, clasificate, fiind prezentat uneori distinct și procesul de evaluare a modelelor — pattern evaluation. Valoarea pe care o au modelele (tiparele), identificarea acestora în procesul de minare sau în dezvoltarea oricărui sistem de tip machine learning ori de inteligență artificială este deosebit de importantă, pattern recognition regăsindu-se ca un concept prezentat separat și pe hartă din mai multe motive.

- în primul rând termenul de minare de date duce de foarte multe ori în eroare prin confuzia care se creează între termenii în sine și ceea ce presupune în concret activitatea de minare, în fapt realizându-se o extragere de pattern-uri sau corelații de date, iar nu datele în sine. (știu, poate părea inutil să facem o distincție întrucât toate pot primi accepțiunea de date, distincția este totuși necesară dacă avem reprezentarea caracterului clandestin și/sau ascuns al acelor date descoperite și care se doresc a fi extrase)

- în al doilea rând, pentru o corectă evaluare a data-mining-ului în contextul dezvoltărilor de sisteme de inteligență artificială ori machine learning (și acestea două folosite uneori interschimbabil), este esențial să (re)cunoaștem poziția tiparelor (patterns) și a algoritmilor de recunoaștere a acestora. În lucrarea sa recentă — „Cum să creezi o minte”, Ray Kurzweilconsidera recunoașterea tiparelor extrem de importantă argumentând că “pattern recognition and intelligence are essentially the same thing and expertise, in essense, is the familiarity of patterns from a specific field.”

De inteligență artificială nu voi spune foarte multe, cel puțin acum, pentru mai multe detalii puteți parcurge rezumatul unui studiu care descrie într-un mod destul de accesibil principalele sistemele de inteligență artificială. Important de notat este, însă, că datele rezultate din exploatarea informațiilor (din minare) sunt folosite ca bază pentru sistemele de inteligență artificială și machine learning.

Am lăsat intenționat noțiunea de Deep Packet Inspection (DPI) la final și pentru că poate părea cel puțin suprinzător că această oaie neagră a internetului este integrată în această schemă care a transpus doar terminologii cu relevanță pozitivă (cel puțin aparent). Contextele în care am vorbit de deep packet inspection sunt întotdeauna legate de monitorizarea userilor prin filtrarea conținutul comunicațiilor sau filtrul de upload, și transcriu un procedeu în care pachetele sunt studiate, “despachetate” și urmărite individual, pe fiecare componentă în parte, așa cum explică și Geoffrey Challen într-un video foarte interesant despre deep packet inspection. Ceea ce se omite, însă, din asimilarea acestui termen (care este, până la urmă, doar o identificare generică a multor tehnici de analiză a comunicațiilor) este că aceste pachete transcriu, de fapt, tot DATE, seturi de date, nu orice tip, într-adevăr, ci acelea care tranzitează o rețea.

Fie că vorbim de deep packet inspection specific furnizării de servicii internet — ISP, fie că avem în vedere filtrarea de conținut (termenul de “filtrul de upload” fiind un rezultat de atins, de fapt, nu o tehnică în sine) realizată de către furnizorii de hosting sau de deținătorii de platforme UGC (user generated content), DPI se încadrează perfect în categoria metodelor de procesare și analiză în detaliu a datelor. Ținând în minte aceste aspecte, termenul deep packet inspection pare a avea mult mai multe în comun cu blamatele filtre de upload, cu atât mai mult cu cât scopul este unul comun, urmărindu-se un rezultat selectiv — de filtrare — în ambele cazuri, — blocare, re-routare în cazul DPI.

Dar data-mining-ul nu are în comun cu deep packet inspection doar obiectul de analiză (adică DATELE în format electronic), ambele activități prezentându-se, în plus, ca modalități de studiere în DETALIU a informațiilor, cu același obiectiv de identificare a unor noi cunoștințe, concretizate uneori ca tipare ce pot corespunde unor modele prestabilite (puteți citi aici un studiu care explică cum algoritmi de pattern recognition sunt folosiți și pentru inspecția pachetelor).

Dintr-o anumită perspectivă (cea a scopului de atins — filtrarea, analiza detaliată, descoperirea a mai mult decât datele pot “spune” în sine), conceptele se pot confunda, fără a face totuși abstracție de faptul că DPI are în vedere pachete, operează, așadar, pe informațiile din trafic, în timp ce data-mining-ul este reglementat într-un context ce are în vedere datele stocate la nivelul unor colecții (baze de date). Sau așa s-ar înțelege, cel puțin la o primă impresie.

O analiză în detaliu a noilor reglementări arată însă că excepțiile nu tratează doar drepturi reglementate prin directiva 96/9/CE, obiect al minării, fiind, pe cale de consecință, nu doar informațiile regăsite la nivelul unor baze de date, ci și programe de calculator cu caracter independent (care nu sunt, în mod obligatoriu integrate într-un sistem de date organizat), în accepțiunea atât de permisivă a ceea ce această noțiune indică, prin însăși definiția acesteia din Directiva 2009/24 –adică “orice formă de exprimare a unui program pentru calculator”.

Nu voi intra în studierea în detaliu a excepțiilor, expunerea de mai sus având doar rolul de a evidenția că, în pofida a ceea ce s-a înțeles din intensa mediatizare, data-mining-ul NU este specific DOAR informațiilor stocate în baze de date. Concluzia se desprinde nu doar din sfera destul de mare a drepturilor în privința cărora excepția funcționează (art.2 din Directiva 2001/29/CE, art.4 (1)(a) și (b) din Directiva 2009/24/EC), ci și din natura însăși a unei astfel de activități, care permite aplicarea unor tehnici de data-mining inclusiv unor date din trafic.

Într-o altă opinie, sintagma însăși de “bază de date” acceptă multiple exemple concrete, tocmai prin generalitatea termenilor folosiți de definiția din directivă — aceea de „colecție de informații, opere sau simple date, aranjate sistematic sau într-un mod metodic și accesibile prin ORICE mijloace electronice”. În legătură directă cu aceasta trebuie recunoscut că termenul de “colecție” duce mult mai aproape noțiunea “bazei de date”de contexte în care datele sunt adunate, colectate („harvesting data”), de un “colecționar” (deși legea îl identifică a printr-un termen mai puțin impresionant– “producătorul bazei de date”) într-un mediu stabil de stocare și, în nici un caz, într-unul fluctuant, specific tranzitării prin rețea, dar acest lucru se datorează faptului că o colecție este, în primul rând, percepută din perspectiva materială, a bibliotecilor de ex. și altor forme de îndosariere similare, ori, în acest caz, avem de-a face cu date în format electronic, colecțiile electronice având propriul specific.

Ar fi, într-adevăr o interpretare destul de extinsă a termenului de „colecție de informații”, dar nu una de exclus pentru că, trebuie recunoscut, însuși traficul corespunde unui model structural, asta fără a intra în detaliile stocării intermediare, care poate fi dovada unui model de organizare a informațiilor, chiar dacă cu caracter semi-permanent.

În loc de concluzii las linkul către un articol despre online profiling, în care se vorbește despre DPI și data-mining, care poate explica mult mai bine de ce este de preferat o cunoaștere cât mai aprofundată a aspectelor tehnice.

Copyright and privacy researcher. PhD Candidate. More articles on www.cyberlaw.ro

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store