Czy kiedykolwiek myśleliście, że stworzenie własnego modelu sztucznej inteligencji jest zarezerwowane tylko dla korporacji z miliardowymi budżetami? Też tak myślałem. Aż do momentu, gdy trafiłem na poradnik Andreja Karpathy’ego i postanowiłem sprawdzić to na własnej skórze.
Wynik? Stworzyłem działający model językowy, a koszt jego "wytrenowania" wyniósł mnie zaledwie 15 dolarów.
Czy to oznacza, że za cenę pizzy stworzyłem konkurencję dla ChatGPT, którą mogę wdrożyć w firmie? Absolutnie nie. Ale to doświadczenie otworzyło mi oczy na to, jak to wszystko działa "pod maską".
Model, który zbudowałem (GPT-2 w wersji 124M), pochodzi z 2019 roku. W świecie AI to prehistoria. Mówiąc szczerze: ten model nie nadaje się do dzisiejszego biznesu. Nie napisze błyskotliwego maila sprzedażowego, nie przeanalizuje skomplikowanego raportu. Jego możliwości są bardzo ograniczone w porównaniu do tego, co mamy dziś w telefonach.
Dlaczego więc w ogóle to zrobiłem? Ponieważ sam proces tworzenia AI praktycznie się nie zmienił.
Mechanika – to, jak model "uczy się" języka – jest uderzająco podobna do tego, co dzieje się przy tworzeniu najnowszych gigantów. Zrozumienie GPT-2 to jak rozebranie silnika starego Fiata. Może i nie wygrasz nim Formuły 1, ale nauczysz się dokładnie, jak działa silnik spalinowy, który napędza też bolidy Ferrari.
Możecie zapytać: "Czemu nie wytrenowałeś sobie GPT-4 w domu?". Tu dochodzimy do kluczowej różnicy. OpenAI przy modelu GPT-2 udostępniło światu jego "plany konstrukcyjne" – parametry treningowe oraz wagi. To pozwoliło nam na to ćwiczenie.
Niestety, w przypadku nowszych modeli (GPT-3, GPT-4 i nowszych), te drzwi zostały zamknięte. Nie znamy ich dokładnych wag, to pilnie strzeżona tajemnica handlowa.
Mój eksperyment za 15 dolarów pokazał mi też, jak ogromna jest skala dzisiejszej rewolucji AI. Choć "przepis" na stworzenie modelu jest podobny, to składniki potrzebne do sukcesu rynkowego są dziś astronomicznie drogie:
Ilość Danych: Ja użyłem ułamka tego, co "czytają" nowoczesne modele. One potrzebują petabajtów tekstu.
Jakość Danych: Choć korzystałem z nowoczesnych, wyczyszczonych zbiorów (dzięki czemu mój model uczył się szybciej niż oryginał z 2019 roku), to przygotowanie danych dla modeli typu GPT-4 to inżynieryjny majstersztyk.
Infrastruktura: 15 dolarów wystarczyło na wynajęcie jednej karty graficznej w chmurze na chwilę. Trenowanie modeli, z których korzystamy na co dzień, kosztuje dziesiątki, a nawet setki milionów dolarów i wymaga potężnych serwerowni.
Ten projekt to fascynująca lekcja pokory i zrozumienia technologii. Pokazuje, że "magia" AI to w rzeczywistości matematyka, dostęp do danych i... prąd.
Dziś każdy pasjonat może za grosze dotknąć tej technologii i zrozumieć jej fundamenty. Ale jednocześnie widać wyraźnie, że wyścig o stworzenie najinteligentniejszego modelu to gra, w której stawką są budżety nieosiągalne dla zwykłego śmiertelnika. Mimo to – warto wiedzieć, jak to działa.
Wpis inspirowany tutorialem Andreja Karpathy'ego: Let's reproduce GPT-2 (124M)