Strukturálatlan adattárolás: on-prem vs felhő vs hibrid

Strukturálatlan adatokMegvizsgáljuk a strukturálatlan adatok helyben (on-prem), felhőben és több helyszínen, hibrid környezetben történő tárolását. A hibrid megközelítésnek vannak előnyei, de lehetnek rejtett költségei is.

A vállalkozásoknak egyre nagyobb mennyiségű információt kell tárolniuk, egyre többféle formátumban.

Az üzleti adatok már nem korlátozódnak a rendezett adatbázisokban vagy vállalati alkalmazásokban tárolt strukturált adatokra. Ehelyett a vállalkozásoknak szükségük lehet dokumentumok, e-mailek, képek, videók, hangfájlok és még a közösségi médiában közzétett bejegyzések rögzítésére, tárolására és feldolgozására is. Mind olyan információkat tartalmaznak, amelyek potenciálisan javíthatják a döntéshozatalt.

Strukturálatlan adatfajták

Ez azonban kihívások elé állítja azokat az informatikai rendszereket, amelyeket inkább strukturált, mint strukturálatlan adatokra terveztek. Ennek oka, hogy az adatbázisok hatékony tárolására szolgáló technológiák például nem alkalmasak a strukturálatlan adatok nagyobb fájlméreteihez, adatmennyiségeihez és hosszú távú archiválási igényeihez.

Az IDC és a Gartner iparági elemzők becslése szerint az új vállalati adatok mintegy 80%-a ma már strukturálatlan. Nyilvánvaló, hogy üzleti előnyökkel jár, ha ezeket az adatokat meg tudjuk őrizni és elemezni tudjuk, és egyes esetekben a hosszú távú tárolás megfelelési okokból kötelező.

A hagyományos tárolási technológiákat azonban nem az ilyen adatok mennyiségére és sokféleségére tervezték.

Amint arra Cesar Cid de Rivera, a Commvault szállító nemzetközi rendszerfejlesztési alelnöke rámutat, már a különböző méretű fájlok – mondjuk egy videófájl és egy szöveges dokumentum – is problémákat vetnek fel a tárolás szempontjából. A vállalatoknak pedig szembe kell nézniük az általa „sötét adathalmazoknak” nevezett adatokkal, amelyeket például egy központi rendszerből automatikusan generálnak vagy mozgatnak a végfelhasználó eszközére.

Az adatok a hagyományos informatikán kívüli más rendszerekben is keletkeznek, például a SaaS-alkalmazásokban, a tárgyak internetének (IoT) végpontjain, vagy akár a gépi tanulásból és a mesterséges intelligenciából (AI) származó adatokban. Ezeket az adatokat is meg kell találni, indexelni és tárolni kell.

Ez nyomást gyakorol a tárolási infrastruktúrára. A vállalatok pedig egyre gyakrabban tapasztalják, hogy a tárolás egyetlen – kizárólag helyben vagy felhőben történő – megközelítése nem biztosítja a szükséges költségeket, rugalmasságot és teljesítményt. Ez egyre nagyobb érdeklődéshez vezet a hibrid megoldások, sőt az olyan technológiák, mint például a Snowflake iránt, amelyek célja, hogy ne legyenek tárolófüggetlenek.

„A figyelembe veendő kritériumok a következők: a mennyiség, az adatok gravitációja – hol keletkeznek, hol használják, számítják vagy fogyasztják őket -, biztonság, sávszélesség, szabályozás, késleltetés, költség, változtatási sebesség, szükséges átvitel és költség” – mondja Olivier Fraimbault, a SNIA EMEA igazgatótanácsának tagja.

„A fő problémát nem annyira a hatalmas mennyiségű strukturálatlan adat tárolásában látom, hanem abban, hogy hogyan lehet megbirkózni az adatok kezelésével, nem pedig azok tárolásának kezelésével.”

Mindazonáltal a cégeknek minden lehetséges technológia esetében figyelembe kell venniük a hagyományos tárolási teljesítménymutatókat, különösen az I/O-t és a késleltetést, valamint az árat, a rugalmasságot és a biztonságot.

A strukturálatlan adatok helyszíni kezelése

A strukturálatlan adatok helyszíni tárolásának hagyományos megközelítése egy hierarchikus fájlrendszeren keresztül történt, amelyet vagy egy szerverhez közvetlenül csatlakoztatott tárolón, vagy dedikált hálózati tárolón (NAS) keresztül szolgáltattak.

A vállalatok a növekvő tárolási igényekre reagálva nagyobb, skálázható NAS-rendszerekre álltak át. A helyi piac jól ki van szolgálva: a Dell EMC, a NetApp, a Hitachi, a HPE és az IBM mind nagy kapacitású NAS-technológiát kínál a költségek és a teljesítmény különböző kombinációival.

Általában az alacsony késleltetést igénylő alkalmazások – média streaming vagy újabban a mesterséges intelligenciát oktató rendszerek – számára a hagyományos szállítók flash-alapú NAS-hardverei jól használhatóak.

A nagyon nagy adathalmazok esetében azonban, valamint a helyben és a felhőalapú rendszerek közötti egyszerűbb mozgatás igénye miatt a szállítók már kínálják az objektumtárolás helyi változatait.

A nagy felhőalapú „szuperskalálók” még helyben is kínálnak objektumalapú technológiát, így a cégek kihasználhatják az objektum globális névterének és adatvédelmi funkcióinak előnyeit, a helyi tárolás biztonsági és teljesítménybeli előnyeivel együtt. Az SNIA figyelmeztetése szerint azonban ezek a rendszerek jellemzően nem rendelkeznek a szállítók közötti átjárhatósággal.

A strukturálatlan adatok helyben történő tárolásának fő előnyei a teljesítmény, a biztonság, valamint a megfelelés és az ellenőrzés – a cégek ismerik a tárolási architektúrájukat, és azt granulárisan tudják kezelni.

A hátrányok közé tartoznak a költségek, beleértve a kezdeti költségeket, a skálázhatóság hiánya – még a skálázható NAS-rendszerek is teljesítményszűk keresztmetszetbe kerülnek nagyon nagy mennyiségeknél -, valamint a redundancia és esetleg a rugalmasság hiánya.

Átköltözés a felhőbe?

Mindez arra késztette a cégeket, hogy az alacsonyabb kezdeti költségek és a skálázhatóság miatt a felhőalapú tárolást vegyék fontolóra.

Az objektumtárolás – és szinte minden felhőalapú tárolás objektumalapú – lehetővé teszi a nagy mennyiségű strukturálatlan adat hatékony kezelését is. A globális névtér, valamint a metaadatok és az adatok elkülönítése javítja a rugalmasságot.

Emellett a teljesítmény is egyre közelebb kerül a helyi tárolókéhoz. Valójában a felhőalapú objektumtárolás már elég jó számos olyan üzleti alkalmazáshoz, ahol az I/O és különösen a késleltetés kevésbé kritikus.

További információ a strukturálatlan adatokról
Öt kulcsfontosságú pont a strukturálatlan adatok helyben és felhőben történő tárolásáról. Megvizsgáljuk a strukturálatlan adatokat, az adatok számtalan formáját és a rendelkezésre álló legfontosabb tárolási lehetőségeket, amelyek közé tartoznak a NAS és az objektumtárolás helyben és a felhőben.
A Pure szerint a strukturálatlan adatoknak tárolási méretarányra és teljesítményre van szükségük. Podcast: A Pure Storage szerint a strukturálatlan adatok hatalmas növekedése és sokfélesége azt jelenti, hogy a tárolónak képesnek kell lennie arra, hogy együtt skálázódjon velük, és teljesítményt kell nyújtania a betekintés érdekében.
A felhőalapú tárolás csökkenti a hardver (előzetes) költségeit, és lehetővé teszi a potenciálisan korlátlan hosszú távú tárolást. A cégeknek az adatvédelemhez sem kell redundáns rendszereket kiépíteniük. Ez megoldható a felhőszolgáltató szolgáltatásain belül, vagy a megfelelő architektúrával az adatok több szolgáltató felhőjében történő megosztásával.

Mivel az adatok már a felhőben vannak, viszonylag könnyen összekapcsolhatók új rendszerekkel, például katasztrófa utáni helyreállítási forgatókönyv esetén, vagy új ügyfélalkalmazásokhoz csatlakoztathatók alkalmazásprogramozási interfészeken (API) keresztül. Mivel az Amazon S3 a de facto objektumtárolási technológia, az üzleti alkalmazások minden eddiginél könnyebben csatlakozhatnak a felhőalapú adattárolókhoz.

A felhőben tárolt adatokkal a felhasználóknak a szervezetükben való mozgás vagy a távoli munkavégzés során gyakorlatilag nem vagy csak kis mértékben kell teljesítménycsökkenést tapasztalniuk.

A felhőalapú tárolás hátrányai közé tartozik a helyhez kötött tárolóknál alacsonyabb teljesítmény, különösen az I/O-nagy tömegű vagy késleltetés-intoleráns alkalmazások esetében, a lehetséges kezelési nehézségek (bárki képes a felhőalapú tárolást beindítani) és a lehetséges rejtett költségek.

Bár a felhőre gyakran úgy tekintenek, mint a megtakarítás lehetőségére, a rejtett költségek, például az adatkiadási díjak gyorsan felemészthetik a költségmegtakarítást. És ahogy Fraimbault, a SNIA EMEA munkatársa figyelmeztet, bár ma már viszonylag könnyű a konténerek felhők közötti mozgatása, ez nehezebbé válik, ha saját adatokkal is rendelkeznek.

Hibrid lehetőségek

Ennek eredményeképpen egyre több szállító kínál ma már hibrid technológiákat, amelyek képesek ötvözni a helyi, helyszíni tárolás előnyeit az objektumtechnológiával és a felhőforrások skálázhatóságával.

Ez a két világ legjobb tulajdonságainak megteremtésére tett kísérlet jól alkalmazható a strukturálatlan adatok esetében, mivel azok sokszínűek, változatos fájlméretűek, és többféle alkalmazás is hozzáférhet hozzájuk.

A CIO-k és az adatkezelési szakemberek számára nagyon vonzó egy olyan rendszer, amely a nagyméretű képfájlok mellett viszonylag kis méretű szöveges fájlokat, például e-maileket is képes kezelni, és azokat egyforma hatékonysággal teszi elérhetővé az üzleti intelligencia, az AI-rendszerek és az emberi felhasználók számára.

Emellett a szervezetek a tárolási technológiáikat is a jövőre nézve is biztosítani akarják, hogy támogassák az olyan fejlesztéseket, mint például a konténerek. Az SNIA Fraimbault úgy látja, hogy a virtuális gépek helyett a hibrid felhő a konténerek felé való elmozdulás kulcsfontosságú hajtóerő a strukturálatlan adatok objektumtároló rendszerekben való tárolása szempontjából.

A hibrid felhő lehetőséget kínál arra, hogy a tárolórendszereket a munkaterhelésüknek megfelelően optimalizálják, megtartva a skálázható NAS-t, valamint a közvetlenül csatlakoztatott és SAN-tárolókat, ahol az alkalmazás és a teljesítmény azt igényli.

A kisebb teljesítményű alkalmazások azonban a felhőben is hozzáférhetnek az adatokhoz, az adatok pedig hosszú távú tárolás és archiválás céljából a felhőbe költözhetnek. Végül az adatok zökkenőmentesen mozoghatnak a felhőbe és a felhőből, valamint a felhőszolgáltatók között anélkül, hogy az alkalmazás vagy a végfelhasználó észrevenné.

Ez már most is megtörténik az olyan adattárolási technológiákon keresztül, mint a Snowflake, amely a helyi és a felhőalapú tárolást használja, és tavaly frissítette termékét a strukturálatlan adatok támogatására. Eközben más szolgáltatók, például a Microsoft az Azure Data Factory adatintegrációs szolgáltatásán keresztül egyre jobban támogatja a hibrid tárolást.

Minden világból a legjobb?

A valóban helysemleges tárolás gondolatához azonban még mindig van mit tenni, nem utolsósorban azért, mert a felhőalapú üzleti modellek az adatátviteli díjakon alapulnak. Ez – figyelmeztet az Enterprise Storage Forum – felduzzadt költségekhez vezethet.

Az Aptum beszállító nemrégiben végzett felmérése szerint a szervezetek csaknem fele a hagyományos felhőalapú tárolás használatának növelésére számít. A strukturálatlan adatok tárolására egyelőre nem létezik egységes technológia.