Porting kodów ze Splunka na Pysparka

Czym jest porting kodów i dlaczego jest konieczny?
Tytuł projektu: Porting kodów ze Splunka na Pysparka
Klient: globalny lider w bankowości korporacyjnej
Branża: Banking, Finance & Insurance
Ekspertyza: Cloud & Infrastructure
Zakres projektu: projektowanie infrastruktury
Narzędzia: Databricks, Pyspark, Python, Azure
Porting kodów to proces przepisywania skryptów z jednego języka programowania na inny. Nowoczesne języki programowania, biblioteki i platformy oferują bardziej zaawansowane funkcjonalności, lepszą wydajność i niższe koszty utrzymania. Z tego powodu technologie początkowo używane w projekcie mogą okazać się niewystarczające wobec rosnących wymagań dotyczących szybkości obliczeń, pojemności baz danych czy obsługi dużych wolumenów danych.
Zakres projektu i wybór technologii: Databricks, Azure, Delta Lake
Te technologie zapewniają rozproszone obliczenia, efektywne przetwarzanie dużych wolumenów danych oraz elastyczność w przechowywaniu zarówno danych surowych, jak i przetworzonych. Wykorzystanie Delta Tables w Data Lake umożliwia łatwe odtwarzanie danych i ponowne kalkulacje metryk, czego brakuje w tradycyjnych bazach danych.
Etapy realizacji: analiza, proof-of-concept, środowisko, porting skryptów
Klient stanął przed wyzwaniem przepisania setek skryptów napisanych w języku Splunk. Istniejąca baza danych nie była przystosowana do obsługi dynamicznie rosnących wolumenów danych ani wielu równoczesnych użytkowników. ALTEN Polska podjął się realizacji tego zadania, przenosząc skrypty na Pysparka w środowisku Databricks, zintegrowanym z platformą Azure.
Rezultaty: przyspieszone obliczenia, elastyczne klastry, standaryzacja kodu
Projekt rozpoczął się od analizy istniejącej infrastruktury oraz zrozumienia potrzeb biznesowych klienta. Opracowano podejście ogólne i wykonano proof of concept (PoC) na wybranych danych. Następnie utworzono workspace’y na platformie Databricks oraz skonfigurowano połączenia z Azure Storage i Data Lake. Po akceptacji standardów kodowania zespół inżynierów rozpoczął przepisywanie skryptów z języka Splunk na Pysparka.
Przyszłe możliwości: wsparcie warstwy kodu, integracja Scala/SQL, dalszy rozwój
- Wszystkie skrypty zostały przepisane i zintegrowane z workflowami Databricks.
- Czas obliczeń znacząco się skrócił.
- Skalowalne klastry pozwoliły zmniejszyć koszty operacyjne.
- Ujednolicony format kodów ułatwia wdrażanie nowych inżynierów.
Rozwiązanie umożliwia dalszy rozwój w obrębie tego samego środowiska, z możliwością integracji dodatkowych języków programowania, takich jak Scala czy SQL. Platforma Databricks, dzięki stałemu wsparciu i rozwojowi, zapewnia klientowi długoterminowe korzyści technologiczne i operacyjne.