Adatklasszifikáció, adatcímkézés

Az adatszivárgás-védelem és a GDPR felkészülés kapcsán felmerül az a kérdés, hogy ha nem lehet meghatározni valahogy, mely adatok tartoznak a védelem hatóköre alá – azaz, mely fájlok tartalmaznak személyes, vagy más, érzékeny adatokat – akkor hogyan lehet nyomon követni ezeket az adatokat, illetve hogyan lehet védelmi intézkedéseket biztosítani ezekkel az állományokkal kapcsolatban.

Nem csak a GDPR, hanem általános információvédelem szempontjából fontos, hogy valamilyen módon besorolásra kerüljenek tárolt adatok: bármilyen adatszivárgás-védelmi megoldás bevezetéséhez is erre van szükség, tehát az adatklasszifikáció kiemelt fontosságú ezekben a projektekben.

Az adatklasszifikáció nem más, mint az adat valamely szempontok szerinti manuális vagy automatikus úton történő osztályba sorolása, annak érdekében, hogy az adott adatosztályra megfelelő védelmi (és természetesen tárolási és felhasználási) intézkedések legyenek hozhatók.

Automatikus adatklasszifikáció

Az automatikus adatklasszifikáció során a DLP rendszer automatikus adatfelismerő/feltáró modulja valamilyen adatfelismerésen alapulva találja meg az érzékeny adatokat és jelöli meg a DLP- vagy más védelmi rendszer számára, mint védendő információt.

Adatfelismerési lehetőségek:
  • Kulcsszavas felismerés (ha az adott adatban/fájlban szerepel az „alma” ÉS/VAGY a „körte” LEGALÁBB háromszor, a szabály illeszkedik és az adat megfelel a kulcsszavas szabálynak)
  • Reguláris (regexp) felismerés (pl. durva IP cím felismerő kifejezés: \b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b – de ez illeszkedik az 1.1.1.1-re is)
  • Reguláris felismerés, algoritmusos validációval (az előző példából kiindulva, az illeszkedés pontatlan, de egy algoritmussal validálható, hogy a regexp-el felismert string valóban IP cím-e, például bankkártya-szám esetében Luhn-algoritmus a validátor),
  • Gépi tanulás (ismertessük meg a rendszerrel, hogy néz ki egy árajánlat, aztán ismertessük meg a rendszerrel, hogy néz ki ami nem árajánlat, és akkor a rendszer képes lesz felismerni az árajánlatot)
  • Indexelés és digitális lenyomatolás (a felismerendő adatról hash lenyomatok képződnek, és a rendszer innentől részleges egyezéseket és képes lesz majd észlelni, csak ugye előbb meg kell mondani a rendszernek, milyen fájlokat és adatokat indexeljen vagy lenyomatoljon!)
  • Illetve ezek kombinációja.

Az első probléma az automatikus adatklasszifikációval kapcsolatban, hogy a felismerések meglehetősen pontatlanok, illetőleg a rendszer betanítása se nem egyszerű, se nem gyors. Ráadásul, valakinek meg kell tanítania a rendszert, de ki lesz az, aki az összes szenzitív információt felméri a szervezeten belül, majd leképezi az DLP eszköz adatfelismerője számára?

A második probléma az automatikus rendszerrel kapcsolatban, hogy naponta nagy tömegű, új állomány és adat képződik egy nagy szervezeten belül, amelyek nem feltétlenül fognak egyezni a már felprogramozott adatfelismerésekkel, viszont arra nincs lehetőség, hogy az adatfelismerő komponens folyamatosan finomhangolásra kerüljön. Ennek az lesz az eredménye, hogy lesznek olyan adatok, amelyeket a rendszer nem lesz képes felismerni és emiatt majd megvédeni.

A harmadik probléma az adatklasszifikációval a reklasszifikációs folyamat maga: a rendszernek periodikusan újra és újra ellenőriznie kell az adott fájlokat, tartalmaznak-e még olyan szenzitív adatokat, amelyekre valamely adatfelismerő szabály egyezik.

A negyedik probléma műszaki jellegű: az adatok és fájlok feltárása nagy terhelést tesz a fájlszerverekre, valamint a legtöbb szervezeten belül léteznek olyan képi formátumú adatok, amelyeket csak digitalizálással lehet újra felismerhető szöveggé alakítani (OCR).

Manuális (user-driven) adatklasszifikáció

A manuális klasszifikáció lényege, hogy az egyes fájlok besorolását nem egy automata rendszer végzi, hanem az a személy, aki a legjobban ismeri annak a fájlnak a tartalmát – az a személy, aki létrehozta vagy dolgozik vele.

A felhasználó.

Ezek az önálló klasszifikációs (labeling, tagging) rendszerek beépülnek a felhasználók Office alkalmazásaiba és a Windowsba és segítségével a felhasználó az általa létrehozott, megnyitott, módosított dokumentumokat és akár emaileket.

Boldon James Classifier Suite - Outlook, levél klasszifikálása, részletes adatjellemzőkkel
Azure Information Protection - Word, dokumentum klasszifikálása

A tagging/labeling rendszerek csak fájlokkal tudnak dolgozni, adatbázisokban nincs lehetőség címkéket elhelyezni (az automata, DLP discovery rendszerek többsége képes adatbázisokból is tanulni, illetve onnan származó adatokat felismerni).

A labeling rendszereknek az előnye, hogy sokkal pontosabb klasszifikációt eredményeznek:

  • maga a felhasználó - aki az adott állománnyal dolgozik – sorolja be az adatot valamely adatosztályba.
  • a reklasszifikáció is sokkal gyorsabb és pontosabb, ha a dokumentum már nem tartalmaz szenzitív információkat, a felhasználó egyszerűen átteszi egy másik adatosztályba a dokumentumot.

Az ilyen tagging/labeling rendszerek beépülhetnek Exchange szerverbe, Office-ba, Outlookba, OWA-ba, SharePointba, és persze az Explorer-be – attól függően, hogy melyik gyártóval megoldása kerül bevezetésre.

A labeling/tagging rendszerek összekapcsolhatók a DLP megoldásokkal, amelyek képesek felismerni a fájlokra tett címkéket, és ezek alapján védelmi intézkedéseket foganatosítani.

A címkéző rendszerek többnyire a fájlok metaadataiba helyezik el a jelöléseket, gyártótól függően azonban van lehetőség az alternate data stream (ADS) használatára is: az olyan rendszerek, amelyek támogatják az ADS-t (például Boldon James Classifier), bármilyen fájlt képesek megtaggelni, míg a csak metaadattal dolgozók (például Azure Information Protection) csak olyan fájlokat tudnak megjelölni, amelyeknek van hozzáférhető metaadat blokkja – praktikusan az Office és PDF dokumentumokra korlátozódnak.

Azure Information Protection - metaadatok a Word dokumentumban

A DLP és content filter eszközök képesek észlelni ezeket a címkéket, és egyszerű szabályokkal kontrolálni az ilyen fájlok mozgását (pl: az Internal Only címkéjű fájlok nem hagyhatják el a szervezetet, míg a GDRP jelölésű fájlok email vagy web továbbítása naplózásra és vizsgálatra kerül).

A legtöbb labeling rendszer rendelkezik valamilyen CLI-alapú komponenssel (vagy saját alkalmazás, illetve PowerShell), amely összekapcsolható a DLP rendszerekkel és automatikus adatklasszifikáló rendszerekkel.

Ilyen integráció esetén, ha a DLP rendszer discovery (vagy más, adatfeltáró) komponense valamely felprogramozott rutin alapján felismer szenzitív adatot egy dokumentumban, képes meghívni a labeling rendszer CLI-interfészét, amely a megfelelő címkével fogja ellátni az adott dokumentumot.

Ez az integráció a reklasszifikációt teszi manuálissá: a DLP rendszer automatikus modulja által felismert (vélt vagy valós szenzitív adat) adatot a címkéző rendszer automatikusan megtaggeli, de ha a felhasználó nem ért egyet a besorolással, a dokumentumot szerkesztés/módosítás közben átsorolhatja másik adatosztályba (amelyre a DLP rendszer más védelmi szabályt fog már foganatosítani).

Az adatklasszifikáló, labeling rendszerek nem védelmi megoldások, nem arra készültek, hogy megvédjék az adott fájlt (bár vannak gyártók, akik még védelmi funkciókat is biztosítanak), de a védelmi rendszerek keze alá dolgozva növelik a védelmi rendszerek hatékonyságát és csökkentik a pontatlan felismerésekből származó false-positive arányt.

A legnagyobb értéke a labeling rendszereknek, hogy NEM az IT biztonsági vagy üzemeltetési területnek kell az adatosztályozással foglalkoznia, az adatokat besorolnia vagy reklasszifikálnia.

Ez a feladat (és felelősség!) átterhelhető arra a személyre, aki a legpontosabban meg tudja mondani, mit tartalmaz az adott fájl: a fájlal dolgozó felhasználóra.