Aktualności
2010-03-15
Krajowy Magazyn Danych
Wielki Backup.
Objętość danych generowanych przez komputery, systemy informatyczne, instrumenty naukowe i  medyczne oraz użytkowników końcowych sięga tysięcy peta-bajtów rocznie wskali kraju. Instytucje naukowe iedukacyjne, biblioteki cyfrowe, szpitale kliniczne oraz instytucje państwowe, a  także akademickie centra komputerowe i  operatorzy sieci miejskich i  krajowych, borykają się z  problemem zarządzania tymi danymi.

Klasyfikacja informacji, zabezpieczanie cennych danych przed utratą przez założony okres czasu (np. miejski monitoring video, rejestracja ruchu operatorskiego) lub bezterminowo (biblioteki cyfrowe, archiwa państwowe itp.) oraz zarządzanie cyklem życia informacji wymagają zarówno nakładów na zakup iutrzymanie odpowiedniego sprzętu ioprogramowania, a  także wykwalifikowanego personelu i   know-how w  dziedzinie.

Krajowy Magazyn Danych (Projekt rozwojowy Nr R02 055 03 MNiSW) wychodzi naprzeciw potrzebom zabezpieczenia danych w instytucjach publicznych. System KMD oferuje usługę backupu (kopii zapasowych), archiwizacji oraz wirtualnego systemu plików. Usługa kopii zapasowej i  archiwizacji dostarczana jest wpostaci specjalnej aplikacji klienckiej, która realizuje zaawansowane funkcje pozwalające na optymalizację czasu wykonania kopii zapasowej oraz objętości backupu, takie jak kopie przyrostowe iróżnicowe oraz równoległy backup wielowątkowy do jednego lub wielu serwerów kopii zapasowej. Backup równoległy pozwala na pełne użycie dostępnego pasma sieciowego, natomiast wykorzystanie wielu serwerów zapewnia replikację informacji w  wielu centrach przechowywania danych.

Wirtualny system plików pozwala na przechowywanie danych użytkowników zorganizowanych w  plikach i  katalogach, analogicznie do przechowywania ich na dysku lokalnym lub sieciowym. Dostęp do wirtualnego systemu plików odbywa się za pomocą protokołu SSH, np. z wykorzystaniem popularnych klientów takich jak aplikacja scp dla systemu Unix/Linux, czy WinSCP dla Windows. Możliwy jest również dostęp do danych za pośrednictwem protokołu HTTP(s) iWebDAV, z  wykorzystaniem przeglądarek internetowych oraz  poprzez GridFTP. Protokoły szyfrowane (SCP, HTTPs) gwarantują bezpieczeństwo przesyłania danych pomiędzy klientem asystemem KMD. Z kolei WebDAV umożliwia łatwy dostęp do zasobów przechowywania KMD z  poziomu interfejsu graficznego użytkownika, np. poprzez mapowanie dysku sieciowego w  systemie Windows. Protokół GridFTP otwiera system KMD dla środowisk Gridowych.

System KMD zapewnia automatyczną replikację danych użytkownika. Gwarantuje to trwałość zapisanych w  systemie danych, nawet w  przypadku zniszczenia jednego z  centrów przechowywania KMD. Replikacja zapewnia także wysoką dostępność danych – mogą być one odczytywane nawet w  przypadku awarii jednego z  węzłów systemu – a  także pozwala optymalizować wydajność operacji na danych – do ich odczytu z  systemu wykorzystywana  jest najszybsza, np. najbliższa geograficznie replika.

Sieć PIONIER oraz sieci miejskie stanowią podstawę sieci dostępowej KMD, oferując wydajną transmisję danych pomiędzy użytkownikiem a  systemem. Sieci wirtualne w  szerokopasmowej sieci PIONIER wykorzystywane są z  kolei do realizacji połączeń szkieletowych. Daje to możliwość efektywnej replikacji danych wewnątrz systemu KMD.

Jednym z  priorytetów systemu KMD jest bezpieczeństwo i  poufność danych klientów. Usługa kopii zapasowych i  archiwizacji umożliwia zaszyfrowanie danych jeszcze przed przesłaniem ich do systemu KMD oraz automatyczną kontrolę integralności danych z  niego pobieranych. Wirtualny system plików, może opcjonalnie szyfrować pliki klienta przed przesłaniem ich do centrów przechowywania danych. Poufność danych przesyłanych wewnątrz systemu (np. podczas replikacji) jest zapewniona poprzez wykorzystanie technik kryptograficznych do ochrony łączy sieciowych, takich jak VPN. Dane użytkowników mogą być również szyfrowane na węzłach przechowywania przed umieszczeniem ich na mediach dyskowych lub taśmowych. Dodatkowo, dla fizycznych replik plików, wyliczane są skróty kryptograficzne, służące do kontroli integralności replik (poprzez wzajemne porównywanie skrótów dla wielu replik oraz skrótów dla replik i  skrótów obliczonych na poziomie logicznego, wirtualnego systemu plików). Ponadto, technologie taśmowe wykorzystywane w  KMD wspierają sprzętowe szyfrowanie i  deszyfrowanie danych w  napędzie taśmowym.

Duża skala projektu – 4 ośrodki KDM: Gdańsk, Kraków, Poznań i Wrocław oraz 4 ośrodki MAN: Białystok, Częstochowa, Lublin i  Łódź zaangażowane wprojekt – oraz fakt, iż jednostkowe koszty przechowywania danych w  urządzeniach wykorzystywanych w  KMD, tj. macierzach dyskowych oraz bibliotekach taśmowych są stosunkowo niskie, pozwala na optymalizację kosztów przechowywania danych w  KMD.

Ponadto, użytkownicy mają do wyboru różne klasy usług związane z  typem medium przechowującego dane (np. dyski vs taśmy) oraz różne poziomy (minimalna liczba i  odległość geograficzna replik) i  schematy replikacji (synchroniczna vs asynchroniczna). Wybór opcji realizacji usług kopii zapasowych, archiwizacji oraz wirtualnego systemu plików daje możliwość dostosowani usługi do potrzeb użytkownika oraz optymalizację jej kosztów.

Backup – kopia bezpieczeństwa – dane, które mają służyć do odtworzenia oryginalnych danych wprzypadku ich utraty lub uszkodzenia. (http://pl.wikipedia.org/wiki/Backup)

Archiwizacja
– proces wykonywanie kopii bezpieczeństwa, w odniesieniu do kopii długotrwałych. (http://pl.wikipedia.org/wiki/Backup)

Kopia przyrostowa
– polega na kopiowaniu jedynie tych plików, które zostały utworzone lub zmienione od czasu utworzenia ostatniej kopii przyrostowej lub normalnej [pełnej] oraz na oznaczeniu ich jako zarchiwizowanych. Pozwala to na skrócenie czasu potrzebnego do ukończenia procesu tworzenia kopii zapasowej.  (http://pl.wikipedia.org/wiki/Backup)

Kopia różnicowa – polega na kopiowaniu jedynie tych plików, które zostały utworzone lub zmienione od czasu utworzenia ostatniej kopii normalnej. Pozwala to skrócić czas konieczny do jej utworzenia. Podczas wykonywania kopii różnicowej kopiowane pliki nie są oznaczane jako zarchiwizowane. (http://pl.wikipedia.org/wiki/Backup)

Maciej Brzeźniak, PCSS