Zarządzanie danymi

Efektywne obliczenia oraz uruchamianie aplikacji chmurowych w dużej skali wymaga wydajnej i niezwodnej pamięci masowej. Klaster HPC Eagle/Orzeł wykorzystuje superszybką (120 GB/s, 200 000 IOPS) oraz pojemną (6,7TB) pamięć dyskową dedykowaną dla rozwiązań HPC, zrealizowną na bazie skalowalnego oprogramowania Lustre zainstalowanego na 24 serwerach oraz czterech macierzy dyskowych firmy DDN oraz macierzy EMC XtremeIO, zawierających w sumie 1680 dysków talerzowych 4TB i 25 napędów SSD 400GB. System podłączony jest do klastra Eagle/Orzeł poprzez wydajną sieć Infiniband FDR.

Dla wydajności obliczeń w klastrze kluczowa jest możliwość jednoczesnej obsługi dziesiątek tysięcy procesów obliczeniowych. System Lustre oraz zastosowane macierze zapewniają wysoki poziom współbieżności odczytu i zapisu dużych wolumenów danych, w tym danych wejściowych do obliczeń, wyników pośrednich (tzw. ang. checkpoint, umożliwiających w przypadku awarii wznowienie obliczeń od punktu pośredniego) oraz wyników końcowych.

Zastosowanie pamięci SSD dla meta-danych systemu plików dodatkowo wspomaga współbieżność operacji na danych oraz natychmiastowość dostępu do plików i katalogów.

Dla systemów HPC oraz systemów chmurowych wykorzystywane są także klasyczne klastrowe systemy plików (IBM Spectrum Scale/GPFS) oraz modularne macierze dyskowe (NetApp E5600) o ogólnej pojemności ok 10PB udostępniane są do klastra HPC i chmury PCSS przez dedykowane sieci Fibre Channel i Infiniband oraz 10/100 Gbit Ethernet.

Ponadto w PCSS działają skalowalne chmurowe systemy przechowywania danych oparte o koncepcję tzw. Software Defined Storage, w tym oprogramowanie Ceph oraz OpenStack Swift ora klaster wydajnych serwerów dyskowych (Quanta Grid). Systemy te zintegrowane są z zasobami chmury obliczeniowej. Pojemność i poziom niezawodności /redundancji przechowywania danych może być w nich elastycznie kształtowana co zapewnia dopasowanie do potrzeb aplikacji. Infastruktura wydajnych serwerów dyskowych umożliwia także uruchamianie rozwiązań do analityki danych (Big Data), włączając Hadoop i Spark.

Uzupełnieniem systemów dyskowych są pamięci masowe oparte o taśmy (biblioteka IBM TS3500 o pojemnośc 28 PB) oraz oprogramowanie kopii umożlwiające wykonywanie kopii zapasowych i długoterminową archiwizację danych.

Ponadto w PCSS działają usługi chmurowe dla synchronizacji i współdzielenia danych oferujące funkcjonalność zbliżoną do usługi Dropbox, jednakże zrealizowane w bezpiecznym i skalowalnym środowisku chmury prywatnej.

Jeśli chcesz dowiedzieć się więcej o zarządzaniu danych