SaaS to za mało
Dane to nowa ropa naftowa. Podobnie jak ropa naftowa, dane są cenne, ale jeśli nie są rafinowane, nie można ich naprawdę wykorzystać. Trzeba go zamienić na gaz, plastik, chemikalia itp., aby stworzyć wartościowy podmiot, który napędza rentowną działalność. Tak więc dane muszą być rozłożone na czynniki pierwsze, przeanalizowane, aby miały wartość. Clive’a Humby’ego.

Wszyscy czujemy, że dane naszej firmy są cenne. Gromadzimy je, zabezpieczamy przed zagrożeniami zewnętrznymi, inwestujemy, aby wytwarzać je szybciej, łatwiej i (miejmy nadzieję) taniej. Ale jak powiedział Clive Humby w powyższym cytacie – dane nie mają żadnej wartości, jeśli nie są dopracowane. W Phronesis Path widzieliśmy wiele firm, które zaczęły analizować swoje dane, aby wyciągnąć wnioski z przeszłości i przeanalizować swoją sytuację finansową w stosunku do prognoz. Ale to tylko ułamek tego, co mogą zrobić dane, jeśli zostaną odpowiednio opracowane – będą przewidywać przyszłość a nawet działać zgodnie z nią na własną rękę.
„Ale jak się tam dostać, Phronesis?” możesz zapytać. Jeśli dane są nową ropą, to potrzebujemy rafinerii. Mogłoby się wydawać, że Hurtownia Danych to Twoja rafineria, ale w rzeczywistości Hurtownia Danych to tylko sam budynek i kilka niepołączonych ze sobą maszyn – pozwoli Ci tworzyć i przechowywać Twoje dane, ale musisz rozgryźć proces produkcji. Teoretycznie można by wykonać cały proces przy użyciu tylko siły roboczej, łącząc różne maszyny i przenosząc niektóre półprodukty ręcznie lub półautomatycznie.
Takie podejście przypominałoby zespół inżynierów stojących przed pustą hurtownią danych i przygotowujących każdy proces od podstaw, oczywiście muszą mieć doświadczenie w przetwarzaniu ropy naftowej (danych), więc ten zespół musi być bardzo doświadczony, aby osiągać wyniki. Mimo to praca będzie wykonywana głównie ręcznie poprzez kodowanie każdej struktury, tworzenie najlepszych praktyk po drodze, wdrażanie nowych inżynierów i rozwijanie ich metod.
Ale nie w ten sposób rafinuje się ropę. Rafinerie są w większości zautomatyzowane z kontrolą przepływu, monitorowaniem sprzętu, monitorowaniem jakości, aby proces był jak najbardziej wydajny. Istnieje wiele narzędzi do automatyzacji, których możesz użyć, aby zbudować swoją idealną rafinerię. Nadają się do różnych scenariuszy.
Narzędzia do automatyzacji mają różne modele licencjonowania, począwszy od obliczeń opartych na rozmiarze wdrożenia, modeli hybrydowych, w których płaci się za licencję programisty i kompilacje modeli (buildy), po licencje wyłącznie oparte o liczbę programistów. Dlatego powinieneś zastanowić się z wyprzedzeniem, jakiego rodzaju implementacji szukasz: czy chcesz na początku dużo zainwestować, a następnie przejść w tryb wsparcie długoterminowego? Czy zamierzasz tworzyć rozwiązania prezentujące dane w czasie zbliżonym do rzeczywistego? A może chcesz tworzyć rozwiązania typu single-point-of-truth dla swojej firmy na dużą skalę?


Ogólnie rzecz biorąc, modele oparte na rozmiarze wdrożenia obliczają obiekty, które masz w swojej instalacji, a następnie konwertują je na tokeny, aby obliczyć rachunek na koniec miesiąca. Może to być bardzo tanie na początku, gdy dopiero budujesz hurtownię danych, ale w przypadku większych rozwiązań mają one tendencję do słabego skalowania – innymi słowy, koszt jest niski na początku, ale rośnie w nieskończoność i to dość szybko. Ponadto tokeny są zwykle kupowane hurtowo z wyższą opłatą dodatkową, jeśli „przekroczysz” oczekiwania.
W przypadku niektórych narzędzi jest to absurdalnie skomplikowane do obliczenia, z zaawansowanymi równaniami i co najmniej kilkoma różnymi typami obiektów, które „zużywają” tokeny. Nie ma szans, że będziesz w stanie to przewidzieć w perspektywie kilku lat.
Modele hybrydowe łączą licencję opartą na obliczeniach i stanowiskach. Zazwyczaj licencja deweloperska jest tańsza, ale istnieje minimalna „opłata platformowa” z określoną liczbą miejsc, które musisz kupić, jest też dodatkowa opłata za „buildy”. Buildy, podobnie jak tokeny oparte na wielkości, są kupowane hurtowo i wiążą się z opłatą za nadmierną konsumpcję. Kompilacja to jest zwykle liczona jako jedno odświeżenie obiektu (tabeli, widoku) w jednym uruchomieniu zadania. Na przykład, jeśli masz 40 tabel w swoim modelu i odświeżasz go dwa razy dziennie, po 30 dniach użyjesz 2 400 tokenów.
Jest to nieco łatwiejsze do przewidzenia, ale szczególnie w przypadku instalacji Data Vault 2.0 koszt „kompilacji” szybko rośnie. W przypadku dużych instalacji zaobserwowaliśmy, że koszt budowy właściwie podwoił koszt stanowisk dewelopera. Licencje deweloperskie nie bez powodu są tańsze, pamiętaj jednak, że Data Vault 2.0 zwielokrotnia liczbę obiektów do zbudowania, niektórzy twierdzą, że nawet 4 – 5 razy! W związku z tym hybrydowy model licencjonowania dla usługi Data Vault 2.0 będzie się szybko rozwijał, jeśli zostaną obliczone kompilacje.
To jest drugi koniec spektrum – płacisz tylko za programistów, ponownie z początkową opłatą za platformę, która obejmuje 3-5 licencji deweloperskich. Możesz sobie wyobrazić, że jest to dość przewidywalne, ponieważ wiesz dokładnie, ile zapłacisz w ciągu roku w zależności od wielkości Twojego zespołu inżynierskiego – jeśli Twój zespół się skurczy, zapłacisz mniej w ciągu następnego roku, jeśli wzrośnie, zapłacisz więcej.
Jest to model, z którego korzysta Coalesce, dla nas jest on najbardziej przewidywalny, ale licencja deweloperska jest droższa niż w modelu hybrydowym (który ukrywa część kosztów w pakietach buildów). Jeśli planujesz szybki rozwój, początkowy koszt może być wyższy, ale potem w przyszłym roku, gdy zwolnisz – możesz również obniżyć koszt licencji.
W zależności od Twoich celów i rodzaju infrastruktury, którą budujesz, powinieneś wziąć pod uwagę kilka czynników:
Coalesce (https://coalesce.io/) to unikalne narzędzie na rynku automatyki. Został zbudowany specjalnie dla Snowflake® (obecnie obsługuje również Databricks i Microsoft Fabric), co oznacza, że w przeciwieństwie do „uniwersalnych” narzędzi obsługuje funkcję specyficzną dla Snowflake (np. zero-copy cloninga, integracja z Snowflake Cortex®). To sprawia, że jest to idealny wybór dla instalacji Snowflake Data Cloud, aby mieć pewność, że możesz wykorzystać wszystkie specjalistyczne funkcje.


Coalesce jest sterowany przez gui, co oznacza, że większość generowania kodu odbywa się za pośrednictwem „węzłów”, które są wstępnie zbudowanymi pakietami kodu. Znacznie skracają one czas tworzenia przepływów danych, a także obniżają poprzeczkę umiejętności inżynierów. Widzieliśmy udane wdrożenia prowadzone przez konsultantów Business Intelligence bez wcześniejszej wiedzy na temat Snowflake, a nawet użytkowników biznesowych, którzy mają podstawową wiedzę na temat hurtowni danych. Pochodzenie danych jest wizualizowane, co oznacza, że można wyraźnie zobaczyć, skąd pochodzą dane i dokąd zmierzają.
Pakiety otwierają kolejną unikalną cechę Coalesce – marketplace. Możesz bezpłatnie rozszerzyć swoją bibliotekę szablonów o produkty tworzone przez społeczność, które zapewniają dostęp do zaawansowanych funkcji, takich jak Stream lub funkcje Cortex. Obsługuje również odczyt i zapis tabel Apache Iceberg!
Jednym z pakietów, który jest nam szczególnie bliski, jest Data Vault firmy Scalefree.
Scalefree to firma założona przez ojców specyfikacji Data Vault 2.0. Ten zaawansowany sposób projektowania Hurtowni Danych z wykorzystaniem Raw Data Vault, Business Data Vault oraz obiektów takich jak Satellites, Links, Hubs jest perłą w koronie modelowania hurtowni danych. Jednak, aby zbudować go poprawnie, konieczne jest zbudowanie bardzo wyrafinowanego kodu. W przypadku pakietów, wszystko to jest uproszczone do przeciągnięcia węzła do obszaru roboczego Coalesce i wybrania kilku opcji z interfejsu użytkownika. Dat Vault jest tworzony bez pisania ani jednej linii kodu… Dokładnie to, czego potrzebuje Twoja rafineria.
Możemy powiedzieć, że jest to jedno z niewielu narzędzi na rynku, które potrafi wykonać Data Vault 2.0 za pomocą graficznego interfejsu użytkownika i jedyne, które pozwoli Ci łatwo przygotować i połączyć go bezpośrednio w jednym przepływie z narzędziami AI Snowflake.
Jaki byłby sens rafinerii, gdyby produkowała produkty niskiej jakości? Dlatego Coalesce pozwala również na tworzenie testów połączonych z przepływami danych. Każdy krok może mieć dodane proste testy z GUI, ale także pozwala na samodzielne pisanie niestandardowych testów. Jest to bardzo potężna funkcja, ponieważ pozwala na wszelkiego rodzaju testy, uruchamiane po lub przed wykonaniem kroku potoku. Możesz także zdefiniować zachowanie w przypadku awarii.
Jest to kluczowa część automatyzacji hurtowni danych, ponieważ nigdy nie można być w pełni pewnym, że dane źródłowe zachowują swoją integralność w czasie.
Wspomnieliśmy o gotowych pakietach dla węzłów, a ponieważ są one zbudowane specjalnie dla Snowflake, mają możliwość łączenia się z Cortexem. Cortex daje dostęp do dużych modeli językowych (LLM) w Snowflake, a Coalesce daje możliwość połączenia z nim danych bezpośrednio w GUI. Otwiera to zupełnie nowy zestaw możliwości – nie musisz wdrażać dodatkowego narzędzia do uczenia maszynowego lub LLM poza ekosystemem Snowflake.
Upraszcza to znacznie administrację i optymalizację kosztów, ponieważ nie musisz się martwić o koordynację wielu komponentów i wszystkie bzdury związane z łącznością, z którymi zwykle się spotykasz, gdy masz wielu dostawców.
Rafinowanie danych jest kluczowe, aby jak najlepiej je wykorzystać, a szybkość dostarczania przepływów danych ma kluczowe znaczenie dla sukcesu, dlatego konieczne jest korzystanie z narzędzi do automatyzacji. Jeśli chcesz również korzystać z zaawansowanych funkcji sztucznej inteligencji, powinieneś poszukać narzędzia dostosowanego do wybranej przez Ciebie hurtowni danych. Gdy Twoja rafineria zostanie zbudowana, będziesz miał nieskończone możliwości jej wykorzystania.
Phronesis Path życzy Ci wielu, bezproblemowych odwiertów!
Gotowy, aby zrobić pierwszy krok w kierunku odkrywania nowych możliwości, realizacji celów i wprowadzania innowacji? Jesteśmy tutaj i chętnie nawiążemy kontakt.