Porting kodów ze Splunka na Pysparka

Schemat portowania skryptów z Splunk do PySpark na platformie Databricks z Azure – wdrożenie ALTEN Polska

Czym jest porting kodów i dlaczego jest konieczny?

Tytuł projektu: Porting kodów ze Splunka na Pysparka

Klient: globalny lider w bankowości korporacyjnej

Branża: Banking, Finance & Insurance

Ekspertyza: Cloud & Infrastructure

Zakres projektu: projektowanie infrastruktury

Narzędzia: Databricks, Pyspark, Python, Azure

Porting kodów to proces przepisywania skryptów z jednego języka programowania na inny. Nowoczesne języki programowania, biblioteki i platformy oferują bardziej zaawansowane funkcjonalności, lepszą wydajność i niższe koszty utrzymania. Z tego powodu technologie początkowo używane w projekcie mogą okazać się niewystarczające wobec rosnących wymagań dotyczących szybkości obliczeń, pojemności baz danych czy obsługi dużych wolumenów danych.

Zakres projektu i wybór technologii: Databricks, Azure, Delta Lake

Te technologie zapewniają rozproszone obliczenia, efektywne przetwarzanie dużych wolumenów danych oraz elastyczność w przechowywaniu zarówno danych surowych, jak i przetworzonych. Wykorzystanie Delta Tables w Data Lake umożliwia łatwe odtwarzanie danych i ponowne kalkulacje metryk, czego brakuje w tradycyjnych bazach danych.

Etapy realizacji: analiza, proof-of-concept, środowisko, porting skryptów

Klient stanął przed wyzwaniem przepisania setek skryptów napisanych w języku Splunk. Istniejąca baza danych nie była przystosowana do obsługi dynamicznie rosnących wolumenów danych ani wielu równoczesnych użytkowników. ALTEN Polska podjął się realizacji tego zadania, przenosząc skrypty na Pysparka w środowisku Databricks, zintegrowanym z platformą Azure.

Rezultaty: przyspieszone obliczenia, elastyczne klastry, standaryzacja kodu

Projekt rozpoczął się od analizy istniejącej infrastruktury oraz zrozumienia potrzeb biznesowych klienta. Opracowano podejście ogólne i wykonano proof of concept (PoC) na wybranych danych. Następnie utworzono workspace’y na platformie Databricks oraz skonfigurowano połączenia z Azure Storage i Data Lake. Po akceptacji standardów kodowania zespół inżynierów rozpoczął przepisywanie skryptów z języka Splunk na Pysparka.

Przyszłe możliwości: wsparcie warstwy kodu, integracja Scala/SQL, dalszy rozwój

  • Wszystkie skrypty zostały przepisane i zintegrowane z workflowami Databricks.
  • Czas obliczeń znacząco się skrócił.
  • Skalowalne klastry pozwoliły zmniejszyć koszty operacyjne.
  • Ujednolicony format kodów ułatwia wdrażanie nowych inżynierów.

Rozwiązanie umożliwia dalszy rozwój w obrębie tego samego środowiska, z możliwością integracji dodatkowych języków programowania, takich jak Scala czy SQL. Platforma Databricks, dzięki stałemu wsparciu i rozwojowi, zapewnia klientowi długoterminowe korzyści technologiczne i operacyjne.