Ten artykuł został przygotowany jako uzupełnienie innych tekstów i ogólne wsparcie w nauce o sztucznej inteligencji. Jeśli nie masz jeszcze podstawowej wiedzy o tym, jak działa AI i uczenie maszynowe, polecam najpierw przeczytać artykuł wyjaśniający zasadę działania modeli językowych – znajdziesz w nim omówienie pojęć takich jak tokeny, wektory, warstwy czy temperatura.
Warto też poszerzać wiedzę o sztucznej inteligencji, korzystając z różnych źródeł. Szczególnie polecam kanał YouTube 3Blue1Brown, który w przejrzysty i wizualny sposób tłumaczy nawet bardzo złożone zagadnienia.

Spis treści
Podstawy
Sztuczna Inteligencja
Zbiór metod pozwalających maszynom wykonywać zadania kojarzone z ludzką inteligencją, na przykład rozumienie języka, rozpoznawanie obrazów, planowanie. Ponieważ nie da się zdefiniować czym jest ludzka inteligencja, definicja sztucznej inteligencji ma charakter ogólny, a jej celem jest dostarczenie kontekstu. Możemy wyróżnić parę poziomów sztucznej inteligencji, np. wąską i szeroką.
Uczenie Maszynowe
Podzbiór AI, w którym model uczy się wzorców z danych zamiast być programowany reguła po regule.
Uczenie Głębokie
Uczenie maszynowe oparte na wielowarstwowych sieciach neuronowych; dobrze skaluje się na duże dane.

Halucynacje
Halucynacje modeli językowych to sytuacje, w których model generuje treści pewne w tonie, lecz niezgodne z faktami albo wymyślone. Wynikają z probabilistycznej natury przewidywania kolejnych tokenów oraz braków wiedzy, niejednoznacznych poleceń i presji na „domykanie” odpowiedzi.
Model
Model to funkcja matematyczna z zestawem parametrów. W sieciach neuronowych parametry to wagi oraz biasy. Waga określa siłę połączenia między neuronami, bias wprowadza przesunięcie, które ułatwia dopasowanie krzywej do danych.
Działanie modeli językowych
Token
Tokeny to najmniejsze jednostki tekstu przetwarzane przez model; mogą być znakami, subwyrazami /sylabami, lub rzadziej całymi słowami.
Identyfikator tokenu
Liczba przypisana każdemu słowu, w odpowiednim słowniku, np. gdy wpiszemy słowo „Kot”, tokenizator zapisze to słowo w postaci liczby, np. 5432
Macierz osadzeń
Modele językowe nie operują na zwykłych liczbach, operują na wielowymiarowych wektorach. Tak więc liczba słowa „kot” ( 5432), jest zamieniana na wektor [0.12, -0.87, 0.33, …]. Robi się to za pomocą macierzy osadzeń, gdzie każdy wektor jest przypisany do odpowiedniej liczby.
Uczenie modelu
Uczenie modelu językowe polega na ustaleniu odległości między słowami, czyli na ustaleniu odpowiednich współrzędnych tokenów, czyli ich parametrów. Kluczowym pojęciem jest propagacja wsteczna (backpropagacja), czyli zmienianie parametrów funkcji na podstawie różnicy pomiędzy wynikiem uzyskanym przez AI, a kontrolnym wynikiem ustalonym przez człowieka.
Embeding bazowy
W uproszczeniu, współrzędne wektora, np. [0.12], [-0.87] to właśnie embeding bazowy.
Wagi spółczynniki określające siłę połączeń między neuronami; to one są głównie aktualizowane w procesie uczenia się modeli.

Wspaniałe narzędzie od Google, które pokazuje odległości między słowami (tokenami, wektorami). Wielowymiarowa przestrzeń wektorów jest tu sprowadzona do wygodnej dla ludzi, przestrzeni trójwymiarowej. Z tego powodu, wektory które są blisko siebie w złożonej przestrzeni, nie są aż tak blisko siebie w przestrzeni trójwymiarowej. Po wybraniu odpowiedniego słowa, podświetlają się powiązane pojęcia. Ale już przy takim uproszczeniu, widać pogrupowania słów w jednej części wykresu.

Zaskakująco blisko słowa „football”, jest słowo „guitar”. Może to się wydawać bez sensu, ponieważ gitary nie są zbytnio używane na meczach piłki nożnej. Jeśli więc człowiek miałby wypisać skojarzenia z piłką nożną, gitary raczej nie znalazły by się w pierwszej setce słów. Inaczej rzecz wygląda, gdy spojrzymy na kategorię „hobby”. Domyślnymi przykładami, ilustrującymi czym są zainteresowania, np. gdy się uczy języka angielskiego, jest właśnie między innymi piłka nożna i gra na gitarze.
Taka wizualizacja 3D pozwala w prosty sposób zrozumieć podstawy halucynacji modelu.
Wiele powiązań między słowami ma intuicyjny sens, np. słowo „kot” jest blisko słowa „drapieżnik”, ale nie zawsze tak to działa.
Parametry
Liczby sterujące zachowaniem modelu; w sieciach to wagi oraz biasy.
Wagi
Wagi określają siłę połączeń między tokenami. Dany token może znajdować się blisko innego w przestrzeni osadzeń (embeddingów), ale ich znaczenie semantyczne może być odległe. Wagi odgrywają też kluczową rolę w mechanizmie self-attention, który pozwala modelowi ustalić, na które tokeny powinien „zwracać uwagę”.
Przykładowo, rozważ zdanie:
Kotka piła mleko, potem wbiegła na łąkę, była ona wielka i mokra, więc szybko zawróciła.
Dzięki wagom model rozpoznaje, że token „kotka” wiąże się z „mlekiem”, a określenia „wielka” i „mokra” odnoszą się do „łąki”, nie do kotki.
Wagi pozwalają też modelowi rozumieć znaczenie słów w szerszym kontekście. Na przykład słowo „strugać” może wiązać się z innymi słowami w zdaniu, które wskazują, co dokładnie jest strugane. Model nie analizuje tylko sąsiadujących tokenów, lecz całe zdanie, wyszukując powiązania między nimi.
W wagach zakodowana jest więc wiedza o relacjach między słowami, o ich znaczeniu i o strukturze gramatycznej języka.
Bias
Bias (przesunięcie) to dodatkowa wartość dodawana do neuronu lub kanału, która pozwala modelowi lepiej dopasować funkcję do danych. Wagi określają kierunek i siłę wpływu, a bias przesuwa wynik tak, by model mógł znaleźć właściwe położenie (punkt odniesienia) w przestrzeni znaczeń.
Z matematycznego punktu widzenia bias dodaje stałą wartość do iloczynu wektora wag i wektora wejściowego. Dzięki temu funkcja aktywacji może przesunąć się w przestrzeni, co pozwala modelowi uczyć się zależności, które nie przechodzą przez punkt (0,0). Innymi słowy, bias nadaje każdemu neuronowi możliwość niezależnego przesunięcia płaszczyzny decyzyjnej, dzięki czemu model staje się bardziej elastyczny.
Bias jest stały dla danego neuronu lub kanału, ale różny między nimi. Podczas działania modelu (gdy generuje tekst) nie zmienia się dynamicznie; stanowi część wyuczonych parametrów. Jednak w trakcie treningu, bias – podobnie jak wagi – uczy się, jak najlepiej przesuwać wyniki, by neuron aktywował się we właściwych momentach. Optymalizowany jest metodą gradientu, co pozwala modelowi minimalizować błąd i dopasować się do danych treningowych.
Intuicyjnie można powiedzieć, że bias pomaga „ustawić ton” odpowiedzi. Gdy model generuje tekst, wpływa na to, w którą stronę zostanie przesunięta interpretacja znaczenia — może sprawić, że zdanie będzie bardziej pozytywne, bardziej formalne albo że model częściej wybierze określony rodzaj słowa. To subtelna korekta, która nadaje całości wypowiedzi właściwy kierunek i spójność.
Architektura
Architektura to układ warstw, bloków i przepływów danych w modelu. Określa, jak informacje przechodzą od wejścia do wyjścia i jakie operacje wykonują poszczególne elementy.
W dużych modelach językowych stosuje się zwykle architekturę transformera, zbudowaną z powtarzalnych bloków zawierających mechanizmy self-attention, normalizację i sieci liniowe.
W modelach generatywnych, takich jak GPT, używa się transformera dekoderowego, który przewiduje kolejne tokeny na podstawie wcześniejszych. Architektura ta pozwala modelowi zachować kontekst i tworzyć spójne sekwencje tekstu krok po kroku.
Architektura definiuje więc nie tylko strukturę sieci, ale także sposób, w jaki model „myśli” – jakie informacje zapamiętuje, jak je łączy i jak uczy się zależności w języku. W praktyce to właśnie od architektury zależy, czy model będzie lepiej rozumiał kontekst, budował dłuższe związki semantyczne czy radził sobie z zawiłymi zdaniami.
Warstwa
Warstwa to podstawowy element sieci neuronowej, odpowiedzialny za przekształcanie danych wejściowych w bardziej złożone reprezentacje. Każda warstwa wykonuje określone obliczenia: mnoży wejściowe wektory przez wagi, dodaje bias, a następnie przekazuje wynik przez funkcję aktywacji. W modelach językowych, takich jak transformer, warstwy są ułożone jedna nad drugą, tworząc głęboką strukturę, w której każda kolejna warstwa interpretuje dane na wyższym poziomie abstrakcji. Dzięki temu pierwsze warstwy rozpoznają proste zależności między tokenami, a wyższe uchwytują znaczenie, składnię i kontekst całych zdań.
Neuron
Neuron to podstawowa jednostka obliczeniowa w sieci neuronowej, odpowiedzialna za przetwarzanie fragmentu informacji. Każdy neuron przyjmuje dane wejściowe, mnoży je przez przypisane wagi, dodaje tzw. bias, a następnie przekazuje wynik przez funkcję aktywacji, która decyduje o tym, czy sygnał zostanie przesłany dalej. W ten sposób sieć może uczyć się rozpoznawać zależności między danymi, a neurony, działając wspólnie, przetwarzają coraz bardziej złożone wzorce.
Każdy neuron na jednej warstwie, połączony jest z każdym neuronem w kolejnej warstwie.
Każdy neuron przetwarza wszystkie tokeny (wektory) do jakich ma dostęp.
Matematycznie neuron to po prostu funkcja.

W praktyce jednak nie operuje się pojedynczymi neuronami. Obliczenia prowadzone są równolegle na całych macierzach lub tensorach, które reprezentują tysiące lub miliony neuronów działających jednocześnie. Dzięki temu model może uczyć się efektywnie i przetwarzać ogromne ilości danych w krótkim czasie. Takie podejście pozwala też lepiej odwzorowywać relacje w danych, zwłaszcza w modelach językowych, gdzie kontekst zdania czy znaczenie słów zależy od wielu czynników jednocześnie.
Liczba neuronów w jednej warstwie zależy od rozmiaru modelu, czyli od liczby jego parametrów. W dużych modelach językowych, takich jak GPT-3 czy GPT-4, liczba neuronów w pojedynczej warstwie sięga nawet kilkuset tysięcy. Dla przykładu GPT-3, mający 175 miliardów parametrów, zawiera około 12 288 neuronów w każdej z 96 warstw, podczas gdy w mniejszych modelach, takich jak GPT-2 Small, liczba ta wynosi około 768. W praktyce liczba neuronów w warstwie odpowiada wymiarowi wektora osadzeń (embedding dimension) – czyli długości wektora reprezentującego token – co określa, jak szeroka jest warstwa i ile informacji model może przetwarzać równocześnie.
Hiperparametry
Wartości ustawiane przed treningiem, na przykład szybkość uczenia, rozmiar partii, liczba warstw, liczba głów uwagi, długość kontekstu. Nie są uczone z danych; dobiera się je eksperymentalnie albo algorytmicznie.

Trenowanie Modeli
Funkcja straty
Funkcja straty to sposób, w jaki model mierzy swoje błędy. Porównuje to, co przewidział, z tym, jaka jest prawda. Im większa różnica, tym większa wartość straty. Podczas uczenia sieci neuronowej model dąży do zmniejszenia tej wartości, czyli do popełniania coraz mniejszych błędów.
Można to sobie wyobrazić jak nauczyciela, który po każdym zadaniu mówi uczniowi, o ile się pomylił. Na podstawie tej informacji model poprawia swoje „odpowiedzi”.
Przykłady:
- w regresji (np. przewidywanie ceny mieszkania) używa się często błędu średniokwadratowego (Mean Squared Error – MSE),
- w klasyfikacji (np. rozpoznawanie zdjęć kotów i psów) – entropii krzyżowej (Cross-Entropy Loss).
Metryki
Metryki to wskaźniki jakości działania modelu, które pozwalają człowiekowi łatwo zrozumieć, jak dobrze działa. Nie wpływają bezpośrednio na uczenie, ale pomagają sprawdzić efekty.
Na przykład:
- Dokładność (accuracy) pokazuje, jaki procent przewidywań był poprawny,
- F1-score łączy precyzję i czułość – mówi, jak dobrze model rozpoznaje i nie pomija ważnych przypadków,
- ROC AUC ocenia, jak skutecznie model odróżnia jedną klasę od drugiej,
- w zadaniach językowych używa się metryk takich jak BLEU (ocenia podobieństwo tłumaczenia do prawdziwego) czy ROUGE (porównuje streszczenia),
- w modelach językowych pojawia się też perplexity, która pokazuje, jak dobrze model przewiduje kolejne słowa.
Metryki to więc język, którym model tłumaczy swoje wyniki ludziom – pokazują, czy jego błędy mają sens i czy w praktyce robi to, czego od niego oczekujemy.
Gradient
Gradient to matematyczna wskazówka, w którą stronę model powinien „pójść”, żeby popełniać mniej błędów. Pokazuje kierunek najszybszego wzrostu błędu względem wag (czyli liczb, które model zmienia podczas uczenia). Żeby poprawić wyniki, model idzie w przeciwną stronę – tam, gdzie błąd maleje.
Można to porównać do schodzenia z górki: funkcja straty to krajobraz z dolinami i szczytami, a gradient to strzałka pokazująca, gdzie góra jest bardziej stroma. Model idzie w dół po tej górze, aż znajdzie możliwie najniższy punkt – miejsce, gdzie błąd jest najmniejszy.
Na tej zasadzie działają popularne algorytmy uczenia, takie jak spadek gradientu (Gradient Descent), jego wersja losowa SGD (Stochastic Gradient Descent) czy bardziej zaawansowany Adam, który automatycznie dostosowuje tempo uczenia.
Wsteczna Propagacja (Backpropagacja, backpropagation)
Wsteczna propagacja (ang. backpropagation) to algorytm obliczania gradientów funkcji błędu względem wag wszystkich warstw sieci neuronowej poprzez zastosowanie reguły łańcuchowej rachunku różniczkowego.
Czyli: przy czym w każdej warstwie gradient (pochodna błędu względem wag) jest wyliczany właśnie dzięki regule łańcuchowej. Najpierw obliczany jest błąd na wyjściu sieci (różnica między przewidywaniem a wartością rzeczywistą). Następnie ten błąd jest propagowany wstecz przez kolejne warstwy (stąd nazwa).
W prostszych słowach: model startuje mając losowe parametry funkcji, następnie porównujemy wynik z odpowiedzią którą policzyliśmy ręcznie, i na tej podstawie zmieniamy parametry funkcji modelu.
Optymalizator
Optymalizator to mechanizm, który uczy model, czyli aktualizuje jego parametry na podstawie obliczonych gradientów. Decyduje, jak bardzo i w jakim kierunku zmienić wagi, żeby zmniejszyć błąd. Do najpopularniejszych należą SGD (stochastic gradient descent) – prosty, ale skuteczny, oraz Adam i AdamW, które automatycznie dopasowują tempo uczenia i poprawiają stabilność treningu.
Szybkość uczenia
Szybkość uczenia (ang. learning rate) określa, jak duży krok wykonuje model, gdy się uczy. Jeśli krok jest zbyt duży, model może „przeskakiwać” dobre rozwiązania i stać się niestabilny; jeśli zbyt mały – uczenie trwa bardzo długo. Dobór odpowiedniej wartości to jedna z najważniejszych decyzji podczas trenowania sieci.
Harmonogram uczenia
Harmonogram uczenia to plan zmiany szybkości uczenia w czasie. Początkowo model może uczyć się szybciej, a później coraz wolniej, by dopracować szczegóły. Przykładem jest cosine decay, w którym tempo uczenia maleje zgodnie z funkcją kosinusa. Często stosuje się też fazę wstępnej rozgrzewki (warm-up), zanim harmonogram zacznie działać.
Rozgrzewka
Rozgrzewka (ang. warm-up) to krótki okres na początku treningu, kiedy szybkość uczenia stopniowo rośnie od małej do docelowej wartości. Pomaga to ustabilizować pierwsze kroki modelu, który jeszcze nie „wie”, jak zachowują się dane. Dzięki temu uczenie przebiega płynniej i bez gwałtownych zmian błędu.
Epoka
Epoka (ang. epoch) to jedno pełne przejście modelu przez cały zbiór treningowy. Po każdej epoce wagi są trochę lepsze, a model staje się bardziej precyzyjny. Zazwyczaj proces powtarza się wiele razy, aż do momentu, gdy dalsze uczenie nie przynosi już wyraźnej poprawy.
Partia
Partia (ang. batch) to mała porcja danych, którą model przetwarza naraz podczas uczenia. Dzięki partiom model nie musi analizować całego zbioru jednocześnie, co pozwala oszczędzać pamięć i przyspiesza obliczenia. Wybór wielkości partii (np. 32, 64, 128) wpływa na stabilność i tempo treningu.
Iteracja
Iteracja to pojedynczy krok uczenia, czyli moment, w którym model aktualizuje swoje parametry po przetworzeniu jednej partii danych. Liczba iteracji w jednej epoce zależy od tego, na ile partii podzielono dane.
Przeuczenie
Przeuczenie (ang. overfitting) oznacza, że model nauczył się danych treningowych zbyt dobrze – zapamiętał szczegóły, zamiast zrozumieć ogólne wzorce. W efekcie świetnie działa na danych, które już widział, ale słabo radzi sobie z nowymi.
Niedouczenie
Niedouczenie (ang. underfitting) to sytuacja odwrotna – model jest zbyt prosty lub zbyt krótko trenowany, więc nie potrafi uchwycić istotnych zależności w danych. Wyniki są wtedy słabe zarówno na treningu, jak i na testach.
Regularyzacja
Regularyzacja to zestaw metod, które zapobiegają przeuczeniu. Ograniczają one zbyt duże dopasowanie do danych treningowych. Przykłady to: L2 (kara za duże wartości wag), dropout (losowe „wyłączanie” neuronów podczas uczenia) i wczesne zatrzymanie (early stopping), które przerywa trening, gdy model zaczyna się pogarszać na danych walidacyjnych.
Walidacja
Walidacja to etap kontroli jakości w trakcie uczenia. Używa się specjalnego zbioru danych, który nie uczestniczy w treningu, żeby sprawdzić, jak dobrze model uogólnia wiedzę. Wyniki walidacji pomagają dobrać tzw. hiperparametry – na przykład szybkość uczenia czy rozmiar sieci.
Test
Test to ostateczna ocena modelu – sprawdzenie, jak radzi sobie z danymi, których nigdy wcześniej nie widział. Ten etap pokazuje, jak skuteczny będzie w rzeczywistym użyciu. Zbiór testowy powinien być całkowicie odseparowany od treningu i walidacji.
Podziały danych
Podział danych to rozdzielenie całego zestawu na trzy części: treningową (do nauki), walidacyjną (do strojenia) i testową (do końcowej oceny). Dzięki temu można sprawdzić, czy model faktycznie uczy się uogólniać, a nie tylko zapamiętuje. Kluczowe jest unikanie tzw. przecieku danych, czyli sytuacji, gdy informacje z testu lub walidacji „dostają się” do treningu.
Szkolenie modeli językowych – inne pojęcia
Szkolenie modeli językowych to proces uczenia sieci neuronowych rozumienia i generowania tekstu. Odbywa się etapami – najpierw model uczy się ogólnych wzorców języka, a potem dopasowuje się do konkretnych zadań lub stylów. Dzięki temu może odpowiadać na pytania, pisać teksty czy tłumaczyć języki.
Pretraining
Pretraining, czyli wstępne uczenie, polega na trenowaniu modelu na ogromnych zbiorach tekstu, takich jak książki, artykuły i strony internetowe. Model uczy się przewidywać kolejny token (czyli fragment tekstu), co pozwala mu poznać strukturę języka, gramatykę i zależności między słowami. To etap, w którym model zdobywa ogólną wiedzę o języku.
Self-Supervised Learning
Self-supervised learning, czyli uczenie samonadzorowane, to sposób trenowania bez ręcznie tworzonych etykiet. Model sam tworzy sobie „zadania”, np. przewiduje brakujące słowa w zdaniu lub kolejny token. Dzięki temu może uczyć się na nieopisanych danych, co jest niezwykle efektywne przy dużych zbiorach tekstu.
Fine-tuning
Fine-tuning to dostrajanie modelu do konkretnego zadania lub dziedziny. Po wstępnym uczeniu model zna ogólny język, ale fine-tuning uczy go specjalizacji – na przykład rozumienia tekstów medycznych, kodu komputerowego czy rozmów klientów. Wymaga znacznie mniej danych niż pretraining, bo model już ma „bazową wiedzę”.
Instruction tuning
Instruction tuning to uczenie modelu, jak reagować na polecenia w stylu rozmowy z człowiekiem. Model nie tylko przewiduje następny token, ale także uczy się rozumieć intencje użytkownika i odpowiadać zgodnie z instrukcją. To etap, który przekształca model językowy w asystenta konwersacyjnego – potrafiącego odpowiadać naturalnie i sensownie.
RLHF
RLHF (Reinforcement Learning from Human Feedback) to uczenie przez wzmocnienie z informacją zwrotną od ludzi. W tym podejściu model najpierw generuje różne odpowiedzi, a ludzie oceniają, które są lepsze. Następnie tworzony jest model nagrody, który uczy główny model wybierać bardziej pożądane odpowiedzi. RLHF poprawia spójność, uprzejmość i zgodność modelu z oczekiwaniami użytkowników.
DPO
DPO (Direct Preference Optimization) to prostsza alternatywa dla RLHF. W tej metodzie model uczy się preferencji ludzi bez budowania osobnego modelu nagrody. Porównuje pary odpowiedzi (lepsza/gorsza) i bezpośrednio optymalizuje swoje zachowanie na podstawie tych porównań. DPO jest mniej kosztowne i bardziej stabilne w praktyce.
KTO
KTO (Kahneman-Tversky Optimization) to kolejna metoda dostrajania z preferencjami, zbliżona do DPO, ale lepiej uwzględniająca różnice między wyborem a odrzuceniem odpowiedzi. Jej celem jest bardziej „ludzki” sposób oceniania i uczenia się preferencji użytkowników.
Adaptery
Adaptery to małe dodatkowe warstwy wpinane do gotowego modelu. Zamiast trenować wszystkie miliony lub miliardy parametrów, aktualizuje się tylko te nowe, niewielkie warstwy. Dzięki temu model można łatwo dostroić do nowych zadań przy małych kosztach obliczeniowych.
LoRA
LoRA (Low-Rank Adaptation) to technika, która rozbija duże macierze wag na mniejsze i uczy tylko te małe fragmenty. To pozwala znacząco zmniejszyć ilość pamięci i czasu potrzebnego na fine-tuning, zachowując wysoką jakość wyników.
PEFT
PEFT (Parameter-Efficient Fine-Tuning) to rodzina metod oszczędzających parametry. Obejmuje między innymi adaptery i LoRA. Jej celem jest umożliwienie dostrajania ogromnych modeli nawet na zwykłym sprzęcie, bez konieczności trenowania całej sieci od nowa.
Mixture of Experts
Mixture of Experts (MoE) to architektura, w której wiele „ekspertów” przetwarza dane równolegle, ale tylko część z nich jest aktywowana dla danego przykładu. „Router” decyduje, którzy eksperci mają zająć się konkretnym fragmentem tekstu. Dzięki temu model jest wydajniejszy – uczy się specjalizacji, ale nie musi używać wszystkich zasobów naraz.
Reprezentacje Danych
Token
Token to najmniejszy fragment tekstu, który model potrafi zrozumieć i przetwarzać. Może to być całe słowo, jego część (subwyraz), pojedynczy znak lub nawet spacja. Modele językowe nie operują na pełnych zdaniach, lecz właśnie na tokenach. Przykładowo, słowo „komputerowy” może zostać rozbite na dwa tokeny: „komputer” i „owy”. Dzięki temu model lepiej radzi sobie z różnymi formami językowymi.
Tokenizacja
Tokenizacja to proces dzielenia tekstu na tokeny, czyli etap przygotowania danych wejściowych dla modelu. Stosuje się do tego różne metody, takie jak BPE (Byte Pair Encoding) czy WordPiece, które pozwalają znaleźć równowagę między zbyt drobnym a zbyt ogólnym podziałem. Dzięki tokenizacji tekst można zapisać w postaci liczb, które model potrafi przetwarzać.
Wektory
Wektory to reprezentacje numeryczne obiektów, takich jak słowa, obrazy czy dźwięki. Każdy obiekt jest zamieniany na ciąg liczb opisujących jego cechy w pewnej przestrzeni matematycznej. Dzięki temu komputer może wykonywać na nich obliczenia, na przykład mierzyć odległość czy podobieństwo między dwoma wektorami.
Osadzenia
Osadzenia (ang. embeddings) to nauczone przez model wektory, które reprezentują znaczenie słów, zdań lub innych danych. Jeśli dwa słowa są podobne znaczeniowo, ich wektory (osadzenia) znajdują się blisko siebie w przestrzeni. Przykładowo, osadzenia słów „król” i „królowa” będą blisko, ale różnić się subtelnie, co pozwala modelowi uchwycić relacje semantyczne. Osadzenia są więc sposobem, w jaki model „rozumie” znaczenie języka.
Paradygmaty Uczenia
Uczenie nadzorowane
Uczenie nadzorowane to najbardziej klasyczny sposób trenowania modeli, w którym system uczy się mapować dane wejściowe na znane etykiety. Oznacza to, że w zbiorze treningowym każdemu przykładowi (np. zdjęciu, zdaniu, dźwiękowi) towarzyszy poprawna odpowiedź. Model analizuje te pary i stara się przewidzieć etykiety dla nowych danych. Przykłady to rozpoznawanie obrazów, klasyfikacja wiadomości czy przewidywanie cen.
Uczenie nienadzorowane
Uczenie nienadzorowane to poszukiwanie wzorców w danych bez znanych etykiet. Model sam odkrywa strukturę danych, na przykład grupuje podobne elementy lub zmniejsza wymiar danych, zachowując najważniejsze informacje. Typowe zastosowania to klastrowanie (np. grupowanie klientów według zachowań) i redukcja wymiarów (np. PCA, t-SNE), które ułatwia wizualizację i analizę.
Uczenie samonadzorowane
Uczenie samonadzorowane to forma uczenia bez etykiet, w której model sam tworzy sobie zadanie. Często polega na przewidywaniu brakujących fragmentów danych – np. słowa w zdaniu lub piksela w obrazie. Dzięki temu model może wykorzystywać ogromne ilości nieoznaczonych danych i uczyć się ogólnych wzorców, które potem przydają się w bardziej wyspecjalizowanych zadaniach.
Uczenie ze wzmocnieniem
Uczenie ze wzmocnieniem (ang. reinforcement learning) to uczenie przez doświadczenie, w którym agent uczy się podejmować decyzje w środowisku. W każdym kroku wykonuje działanie, otrzymuje nagrodę i aktualizuje swoją strategię, aby w przyszłości zdobywać większe sumy nagród. To podejście stosowane np. w grach, robotyce czy sterowaniu systemami.
Polityka
Polityka (ang. policy) to funkcja opisująca sposób działania agenta – określa, jakie działanie powinien wykonać w danym stanie środowiska. Może być deterministyczna (zawsze to samo działanie) lub probabilistyczna (z pewnym prawdopodobieństwem różne decyzje). Dobrze nauczona polityka maksymalizuje przewidywaną nagrodę w długim okresie.
Wartość stanu
Wartość stanu (ang. state value) to oczekiwana łączna nagroda, jaką agent może zdobyć, zaczynając od danego stanu i działając zgodnie ze swoją polityką. Pomaga ocenić, które sytuacje są korzystne, a które nie, zanim jeszcze agent wykona jakiekolwiek działanie.
Model nagrody
Model nagrody (ang. reward model) to funkcja przewidująca, jak dobre jest dane działanie lub odpowiedź. W klasycznym RL pochodzi ona od środowiska, ale w modelach językowych może być uczona na podstawie opinii ludzi (jak w RLHF). Model nagrody odzwierciedla, co system powinien preferować, i prowadzi go w stronę lepszych decyzji.
Eksploracja i eksploatacja
Eksploracja i eksploatacja to równowaga między próbowaniem nowych rzeczy a korzystaniem z tego, co już działa. Agent musi czasem ryzykować i testować nieznane strategie (eksploracja), ale też umieć wykorzystywać to, co przynosi dobre wyniki (eksploatacja). Dobre uczenie polega na zachowaniu tej równowagi, żeby nie utknąć w lokalnym maksimum.
PPO
PPO (Proximal Policy Optimization) to popularny i stabilny algorytm uczenia aktor-krytyk, który ogranicza, jak bardzo może zmieniać się polityka między kolejnymi krokami. Dzięki temu trening jest bardziej przewidywalny i mniej podatny na niestabilność, co sprawia, że PPO jest często używany w modelach językowych i robotyce.
DQN
DQN (Deep Q-Network) to algorytm, który uczy się wartości akcji w środowisku dyskretnym. Wykorzystuje sieć neuronową do przewidywania, jaka nagroda wyniknie z podjęcia danego działania w określonym stanie. DQN był przełomem w grach komputerowych – to dzięki niemu agent nauczył się grać w Atari lepiej niż człowiek.
Aktor-krytyk
Aktor-krytyk to rodzina metod, w których współpracują dwa modele:
- krytyk ocenia, jak dobre są te działania.
Dzięki temu agent może szybciej i stabilniej się uczyć. Ten podział jest podstawą wielu współczesnych algorytmów, w tym PPO i A3C. - aktor decyduje, jakie działania podejmować,
Transformery i dziłanie modeli językowych
Transformer
Transformer to architektura sieci neuronowej, która potrafi przetwarzać całe sekwencje (np. tekst) równolegle, a nie krok po kroku jak starsze modele. Jej kluczowym elementem jest mechanizm uwagi własnej (self-attention), dzięki któremu model potrafi zrozumieć zależności między wszystkimi tokenami w zdaniu jednocześnie. Dzięki temu transformery są szybkie, skuteczne i dobrze skalują się w dużych modelach językowych.
Uwaga własna
Uwaga własna to mechanizm, który pozwala modelowi „zwracać uwagę” na różne części tekstu w zależności od ich znaczenia. Każdy token może „spojrzeć” na inne tokeny i przypisać im wagi, które mówią, jak bardzo są ze sobą powiązane. Dzięki temu model rozumie kontekst — na przykład wie, do jakiego rzeczownika odnosi się dane słowo.
KQV
KQV to skrót od Query (zapytanie), Key (klucz) i Value (wartość) – trzech zestawów wektorów obliczanych z tokenów wejściowych. Mechanizm uwagi działa właśnie na tych trzech reprezentacjach. Model porównuje zapytania z kluczami, aby ustalić, które słowa są dla siebie ważne, a następnie na podstawie wartości (V) tworzy wynik.
Wielogłowa uwaga
Wielogłowa uwaga (ang. multi-head attention) oznacza, że model ma kilka „głów” uwagi działających równolegle. Każda głowa skupia się na innym rodzaju relacji – jedna może analizować zależności gramatyczne, inna semantyczne. Dzięki temu model lepiej rozumie złożone struktury języka.
Kodowanie pozycyjne
Ponieważ transformer przetwarza tokeny równolegle, sam z siebie nie zna ich kolejności. Kodowanie pozycyjne dodaje więc informację o tym, który token jest pierwszy, drugi itd.. Może mieć postać wzorów sinusoidalnych (stałych) lub być uczone razem z modelem. To pozwala sieci zachować poczucie struktury zdania.
Połączenia rezydualne
Połączenia rezydualne (ang. residual connections) polegają na dodawaniu wejścia bloku do jego wyjścia. Pomagają w przepływie informacji przez wiele warstw, dzięki czemu model łatwiej się uczy i unika problemu zanikających gradientów. To rozwiązanie sprawia, że nawet bardzo głębokie sieci działają stabilnie.
Normalizacja warstwy
Normalizacja warstwy (ang. layer normalization) to technika standaryzacji aktywacji neuronów w obrębie pojedynczej próbki. Utrzymuje stabilne wartości i zapobiega rozchodzeniu się błędów podczas uczenia. W praktyce przyspiesza trening i poprawia jego stabilność.
Blok transformera
Blok transformera to podstawowy element budowy modelu. Zawiera kolejno: normalizację, uwagę własną, dodanie połączenia rezydualnego, ponowną normalizację, sieć typu feed-forward (czyli zwykłą warstwę neuronową) i drugie dodanie. Funkcja aktywacji to zwykle GELU, która działa płynniej niż klasyczny ReLU.
Enkoder
Enkoder to część transformera, która przetwarza całą sekwencję naraz i wyłapuje zależności między jej elementami. Nie używa maskowania, więc widzi całość tekstu. Enkodery są używane np. w modelach do tłumaczenia lub klasyfikacji tekstu.
Dekoder
Dekoder to część odpowiedzialna za generowanie tekstu – produkuje token po tokenie. Używa maskowania, żeby „nie widzieć przyszłości”, czyli nie korzystać z tokenów, które jeszcze nie zostały wygenerowane. Dekodery są kluczowe w modelach typu GPT.
Okno kontekstu
Okno kontekstu to maksymalna liczba tokenów, które model może analizować jednocześnie. Jeśli tekst jest dłuższy niż to okno, starsze fragmenty muszą zostać ucięte lub streszczone. Wielkość okna kontekstu decyduje o tym, jak długie zależności model potrafi rozumieć.
Pamięć
Pamięć to rozszerzenie klasycznego okna kontekstu. Model może zapamiętywać i ponownie wykorzystywać wcześniejsze stany, np. w formie uśrednionych osadzeń lub wybranych fragmentów tekstu. Dzięki temu zachowuje kontekst rozmowy na dłuższych dystansach, co jest kluczowe w modelach konwersacyjnych.
Logity
Logity to surowe wyniki modelu – liczby, które opisują, jak bardzo każdy token pasuje jako kolejny w sekwencji. Jeszcze nie są to prawdopodobieństwa; dopiero funkcja softmax zamienia je w wartości zrozumiałe jako rozkład prawdopodobieństwa.
Softmax
Softmax to funkcja, która zamienia logity w rozkład prawdopodobieństwa. Dzięki niej model może zdecydować, który token jest najbardziej prawdopodobny jako następny. Wszystkie wartości po softmaxie sumują się do 1, co pozwala losować lub wybierać tokeny zgodnie z ich prawdopodobieństwem.
Temperatura
Temperatura (ang. temperature) to parametr kontrolujący losowość generowania. Gdy jest niska (np. 0,2), model wybiera bardziej przewidywalne i logiczne odpowiedzi. Gdy jest wysoka (np. 1,0 lub więcej), generacje stają się bardziej losowe, co daje wrażenie większej kreatywności, , ale i mniej stabilne.
Top-k
Top-k to metoda ograniczania wyboru tokenów – model wybiera tylko spośród k najbardziej prawdopodobnych i losuje jeden z nich. Na przykład przy k=5 rozważa pięć najlepszych kandydatów, co daje równowagę między dokładnością a różnorodnością.
Top-p
Top-p (ang. nucleus sampling) to dynamiczna metoda próbkowania, w której model wybiera najmniejszy zestaw tokenów, których łączne prawdopodobieństwo przekracza wartość p (np. 0,9). Dzięki temu ilość rozważanych opcji dostosowuje się do pewności modelu.
Beam Search
Beam search to metoda przeszukiwania wielu możliwych ścieżek generacji naraz. Zamiast wybierać tylko jeden najbardziej prawdopodobny token, model śledzi kilka najlepszych wersji równolegle. Pomaga to znaleźć bardziej spójne i sensowne odpowiedzi, szczególnie w tłumaczeniach lub zadaniach wymagających długiej koherencji.
Jakość, Bezpieczeństwo, Etyka
Halucynacje
Halucynacje to odpowiedzi modeli, które brzmią pewnie, ale są nieprawdziwe. Mogą wynikać z braków w danych treningowych lub błędnego uogólnienia. Model nie „kłamie” celowo – po prostu tworzy logicznie brzmiącą treść, która nie ma oparcia w faktach. Halucynacje ogranicza się poprzez lepsze dane, metody RAG (Retrieval-Augmented Generation) oraz testowanie modeli na wiarygodność.
Ugruntowanie
Ugruntowanie (ang. grounding) to zakotwiczenie odpowiedzi modelu w zewnętrznych źródłach lub danych wejściowych. Oznacza to, że model nie tylko generuje tekst, ale także odwołuje się do rzeczywistych informacji – np. dokumentów, baz danych lub wyników wyszukiwania. Dzięki temu odpowiedzi stają się bardziej wiarygodne i możliwe do zweryfikowania.
Zaufanie
Zaufanie (ang. trustworthiness) to ocena wiarygodności modelu. Obejmuje takie aspekty jak spójność odpowiedzi, możliwość ich powtórzenia, przejrzystość działania i zgodność z faktami. Modele o wysokim poziomie zaufania nie tylko generują dobre wyniki, ale też umożliwiają użytkownikom zrozumienie, skąd pochodzą dane i jak powstała odpowiedź.
Uprzedzenia
Uprzedzenia (ang. biases) to stronniczości, które model dziedziczy z danych treningowych. Mogą prowadzić do nierównego traktowania grup lub utrwalania stereotypów. Aby je ograniczyć, stosuje się procesy pomiaru, analizy i korekty danych, a także przeglądy etyczne.
Sprawiedliwość
Sprawiedliwość (ang. fairness) to właściwość systemu polegająca na równym traktowaniu wszystkich grup użytkowników. Wymaga jasnych metryk i audytów, które pozwalają ocenić, czy model nie faworyzuje ani nie dyskryminuje żadnej grupy. Sprawiedliwe modele mają kluczowe znaczenie w zastosowaniach społecznych, finansowych czy medycznych.
Prywatność
Prywatność to ochrona informacji o użytkownikach i danych osobowych. Modele mogą nieświadomie zapamiętywać fragmenty danych treningowych, dlatego stosuje się techniki takie jak różnicowa prywatność (differential privacy), która dodaje kontrolowany „szum” do danych, aby uniemożliwić identyfikację osób.
Wyciek danych
Wyciek danych to niezamierzone odtworzenie fragmentów danych treningowych w odpowiedziach modelu. Może prowadzić do ujawnienia poufnych informacji. Aby temu zapobiec, stosuje się deduplikację danych, filtry oraz testy wykrywające takie przypadki.
Alignment
Alignment to zgodność zachowania modelu z ludzkimi intencjami i normami społecznymi. Oznacza, że model nie tylko rozumie polecenia, ale też działa w sposób bezpieczny, etyczny i zgodny z wartościami użytkowników. To jeden z głównych celów współczesnych badań nad sztuczną inteligencją.
Zabezpieczenia
Zabezpieczenia to polityki, filtry i procedury bezpieczeństwa, które ograniczają ryzyko nadużyć i niepożądanych zachowań modeli. Mogą obejmować blokowanie treści szkodliwych, filtrowanie danych wejściowych i monitorowanie wyników. Celem jest zapewnienie, że model pozostanie pomocny i bezpieczny w każdej sytuacji.
Wykorzystanie Modeli W Systemach
RAG
RAG (Retrieval-Augmented Generation) to połączenie modelu językowego z wyszukiwaniem informacji. Zamiast polegać wyłącznie na wiedzy zapisanej w parametrach, model pobiera aktualne dane z baz wiedzy, dokumentów lub wyszukiwarek. Odpowiedź powstaje na podstawie tego kontekstu, dzięki czemu jest bardziej precyzyjna i zgodna z faktami.
Wywoływanie narzędzi
Wywoływanie narzędzi to zdolność modelu do korzystania z zewnętrznych funkcji i usług – na przykład baz danych, kalkulatorów, API czy systemów wewnętrznych. Model może zainicjować zapytanie, otrzymać wynik i wykorzystać go w swojej odpowiedzi. Dzięki temu nie tylko „mówi”, ale też działa, wykonując konkretne operacje.
Pamięć rozmowy
Pamięć rozmowy to mechanizmy przechowywania kontekstu wcześniejszych interakcji. Dzięki niej model pamięta, o czym była mowa wcześniej, potrafi streszczać długie rozmowy i kontynuować dialog w sposób spójny. Pamięć może być krótko- lub długoterminowa, w zależności od systemu.
Stan
Stan to informacje, które są utrzymywane między kolejnymi wywołaniami modelu. Mogą to być dane użytkownika, historia rozmowy lub wyniki wcześniejszych działań. Stan wpływa na zachowanie modelu, pozwalając mu lepiej dostosowywać odpowiedzi do kontekstu i indywidualnych potrzeb użytkownika.
Ocena
Ocena (ang. evaluation) to proces mierzenia jakości odpowiedzi modelu. Obejmuje zarówno metody automatyczne (np. porównywanie tekstu z odpowiedzią wzorcową), jak i oceny ludzkie, które biorą pod uwagę sens, spójność czy styl. Dzięki regularnej ocenie można śledzić, czy model faktycznie spełnia swoje zadania i gdzie wymaga poprawy.
Monitorowanie
Monitorowanie to ciągłe śledzenie działania modeli po wdrożeniu. Obejmuje analizę jakości odpowiedzi, kosztów obliczeniowych, opóźnień i bezpieczeństwa. Dzięki monitorowaniu można szybko reagować na problemy, wykrywać błędy i dbać o to, by system pozostawał stabilny, wydajny i zgodny z założeniami.
Inżynieria Promptów
Rola
Rola to część wejścia, która określa, kim lub czym ma być model w danej rozmowie. Może wskazywać jego ton, styl, poziom wiedzy lub sposób reagowania. Na przykład można ustawić rolę „eksperta technicznego”, „nauczyciela języka” albo „asystenta projektowego”, by dopasować charakter odpowiedzi do potrzeb użytkownika.
Instrukcja systemowa
To fundament – opisuje ogólne zasady zachowania modelu w całej sesji. Definiuje jego osobowość, styl, poziom formalności, język i reguły bezpieczeństwa.
Warstwy meta (np. zarządzanie sesją, filtry, polityki bezpieczeństwa)
Poza samym modelem działają zewnętrzne moduły kontrolne – filtry bezpieczeństwa, detektory treści, polityki etyczne, cache kontekstu itp. To one egzekwują reguły, które nie są częścią modelu, ale wpływają na jego zachowanie.
Polecenie
Polecenie (ang. prompt) to główna treść zadania przekazywana modelowi. Może zawierać pytanie, opis sytuacji albo prośbę o wykonanie konkretnego działania. Jakość i precyzja polecenia mają ogromny wpływ na wynik – dobrze sformułowane prompt prowadzi do trafniejszej i bardziej użytecznej odpowiedzi.
Przykład few-shot
Przykład few-shot to kilka przykładów wejścia i wyjścia dodanych do promptu, które pokazują modelowi, jak ma reagować. Dzięki nim model lepiej rozumie kontekst i potrafi dopasować styl odpowiedzi. Na przykład można pokazać dwa krótkie przykłady pytań i pożądanych odpowiedzi, by ustabilizować zachowanie w kolejnym zadaniu.
Strategia zadawania zadań
Strategia zadawania zadań to sposób, w jaki formułuje się prompt, by prowadzić model do oczekiwanego rezultatu. Może obejmować instrukcje krok po kroku, wymagane formaty wyjścia (np. tabelę, kod, podsumowanie) albo prośby o cytaty i źródła. Dobrze dobrana strategia sprawia, że model działa bardziej przewidywalnie i skutecznie.
Wydajność I Inżynieria Obliczeń
GPU
GPU (Graphics Processing Unit) to procesor graficzny, który świetnie radzi sobie z równoległym przetwarzaniem dużych ilości danych. W uczeniu maszynowym używa się go do przyspieszania obliczeń tensorowych, czyli działań na macierzach i wektorach. Dzięki tysiącom rdzeni GPU znacznie skraca czas trenowania modeli.
Tensor
Tensor to wielowymiarowa tablica liczb, czyli sposób, w jaki sieci neuronowe zapisują i przetwarzają dane. Jest to pojęcie ogólne, które obejmuje zarówno proste, jak i bardzo złożone struktury matematyczne. Tensor pozwala przedstawić obrazy, teksty, dźwięki czy dane czasowe w postaci liczb, które można przetwarzać i analizować. To właśnie na tensorach wykonywane są wszystkie operacje obliczeniowe w uczeniu maszynowym – dodawanie, mnożenie, konwolucje czy propagacja gradientów.
Można wyróżnić kilka podstawowych rodzajów tensorów:
- Skalar – pojedyncza liczba, tensor zerowego rzędu.
- Wektor – lista liczb, tensor pierwszego rzędu.
- Macierz – tablica wierszy i kolumn, tensor drugiego rzędu.
- Tensor wyższego rzędu – struktura o więcej niż dwóch wymiarach, np. opisująca obraz (szerokość × wysokość × kolory) lub sekwencję danych w czasie.
Każdy tensor ma swój kształt (ang. shape), czyli informację o liczbie wymiarów i rozmiarze każdej osi, na przykład [batch_size, wysokość, szerokość, kanały]
w przypadku obrazu albo [długość_sekwencji, rozmiar_wektora]
dla tekstu.
W bibliotekach takich jak PyTorch i TensorFlow, tensory to specjalne obiekty, które przechowują dane (często w pamięci GPU) i umożliwiają automatyczne obliczanie gradientów potrzebnych do uczenia modeli. Dzięki nim sieć neuronowa może stopniowo poprawiać swoje wagi, ucząc się z danych. Tensor jest więc matematycznym fundamentem działania modeli – wspólnym językiem, w którym zapisany jest świat liczb, relacji i wzorców.
TPU
TPU (Tensor Processing Unit) to specjalny akcelerator stworzony przez Google do obliczeń macierzowych wykorzystywanych w sieciach neuronowych. Jest bardziej wyspecjalizowany niż GPU – jego architektura została zaprojektowana konkretnie pod operacje głębokiego uczenia, co pozwala uzyskać jeszcze większą wydajność przy trenowaniu dużych modeli.
Pamięć
Pamięć to ilość dostępnych zasobów do przechowywania parametrów modelu i pośrednich obliczeń. Każda warstwa i każde działanie zajmuje miejsce, więc ograniczona pamięć stanowi praktyczne ograniczenie rozmiaru modelu i wielkości partii danych (batch size).
Precyzja
Precyzja oznacza liczbę bitów, jaką model wykorzystuje do zapisu wartości liczbowych. Typowe formaty to 32-bitowe (FP32), 16-bitowe (FP16) lub 8-bitowe (INT8). Niższa precyzja zwiększa szybkość i zmniejsza zapotrzebowanie na pamięć, ale może pogarszać stabilność obliczeń, jeśli nie jest dobrze kontrolowana.
Mieszana precyzja
Mieszana precyzja (ang. mixed precision) to łączenie różnych poziomów precyzji w jednym treningu, zazwyczaj 16 i 32 bity. Dzięki temu można znacząco przyspieszyć obliczenia, zachowując przy tym stabilność numeryczną. To obecnie standardowa praktyka w treningu dużych modeli.
Kwantyzacja
Kwantyzacja to zamiana wag i aktywacji modelu na liczby o mniejszej precyzji, np. z 32 bitów na 8 bitów. Pozwala zmniejszyć rozmiar modelu i przyspieszyć jego działanie, często przy niewielkiej utracie dokładności. Stosuje się ją głównie podczas wdrażania (inferencji).
Przycinanie
Przycinanie (ang. pruning) to usuwanie wag o małych wartościach lub całych połączeń neuronów, które mają niewielki wpływ na wynik. W efekcie model staje się mniejszy, szybszy i bardziej energooszczędny, zachowując zbliżoną jakość predykcji.
Destylacja
Destylacja wiedzy (ang. knowledge distillation) to proces, w którym mniejszy model (uczeń) uczy się zachowania większego modelu (nauczyciela). Uczeń nie uczy się bezpośrednio z danych, lecz z odpowiedzi nauczyciela, co pozwala zachować dużą część jakości przy znacznie mniejszym rozmiarze i kosztach obliczeniowych.
Pamięć klucz-wartość
Pamięć klucz-wartość (ang. key-value cache) to bufor przechowujący wyniki uwagi z poprzednich kroków generacji. Dzięki temu model nie musi za każdym razem przeliczać całej sekwencji, co znacząco przyspiesza dekodowanie w modelach generatywnych.
Strumieniowanie
Strumieniowanie (ang. streaming) to generowanie i zwracanie części odpowiedzi na bieżąco, zamiast czekać, aż model wygeneruje całość. Poprawia to wrażenie szybkości i umożliwia interakcję w czasie rzeczywistym – użytkownik widzi, jak odpowiedź „pisze się” na ekranie.
Gradient clipping
Gradient clipping to ograniczanie wartości (normy) gradientu, by zapobiec zbyt dużym skokom w aktualizacji wag. Chroni to model przed niestabilnością w trakcie treningu, szczególnie w głębokich sieciach lub przy dużych szybkościach uczenia.
Gradient checkpointing
Gradient checkpointing to technika oszczędzania pamięci, która polega na tym, że część wyników pośrednich nie jest zapisywana, tylko ponownie przeliczana podczas wstecznej propagacji. Pozwala trenować większe modele na kartach o mniejszej pamięci kosztem dłuższego czasu obliczeń.
Warmup
Warmup to okres początkowy treningu, w którym szybkość uczenia stopniowo rośnie od niskiej do docelowej wartości. Zapobiega to niestabilnościom na początku nauki, gdy wagi są jeszcze losowe, i pozwala modelowi płynnie „rozpędzić się” do właściwego tempa uczenia.
Cosine decay
Cosine decay to harmonogram zmiany szybkości uczenia, w którym tempo maleje zgodnie z krzywą kosinusoidy. Umożliwia płynne spowalnianie nauki w miarę postępu treningu, co pomaga modelowi dopracować parametry bez gwałtownych zmian.
AdamW
AdamW to popularny optymalizator, który łączy adaptacyjne tempo uczenia (z algorytmu Adam) z lepszym sposobem regularyzacji wag. Jest stabilny, skuteczny i dobrze działa w dużych modelach, dlatego stał się standardem w uczeniu głębokim.
Lion
Lion to nowszy, lekki optymalizator, który opiera się na znakach gradientów zamiast ich pełnych wartości. Dzięki temu zużywa mniej pamięci i obliczeń, a w praktyce często trenuje modele szybciej niż AdamW, zachowując podobną jakość wyników.
Klasyczne Sieci, Widzenie, Audio
Konwolucje
Konwolucje to operacje, które przetwarzają dane lokalnie, wykrywając wzorce w ich strukturze. W przypadku obrazów analizują niewielkie fragmenty (okna) pikseli, dzięki czemu model uczy się rozpoznawać kształty, krawędzie i inne cechy wizualne. W sieciach konwolucyjnych (CNN) warstwy te są podstawą do zrozumienia zawartości obrazu bez konieczności analizowania każdego piksela oddzielnie.
Pooling
Pooling to proces zmniejszania wymiarów danych po konwolucji. Polega na łączeniu informacji z sąsiadujących fragmentów, na przykład przez wybór wartości maksymalnej (max pooling) lub średniej (average pooling). Dzięki temu model zachowuje najważniejsze cechy obrazu, a jednocześnie staje się szybszy i bardziej odporny na drobne przesunięcia czy zniekształcenia.
Autoenkoder
Autoenkoder to model uczący się kompresji i odtwarzania danych. Składa się z enkodera, który zamienia dane wejściowe w krótszy wektor (reprezentację ukrytą), oraz dekodera, który stara się z tej postaci odtworzyć oryginał. Autoenkodery są używane do redukcji wymiarów, usuwania szumów lub wykrywania anomalii.
Wariacyjny autoenkoder
Wariacyjny autoenkoder (VAE) to probabilistyczna wersja klasycznego autoenkodera, w której model uczy się nie pojedynczych reprezentacji, ale rozkładu prawdopodobieństwa w przestrzeni ukrytej. Dzięki temu może generować nowe dane – na przykład obrazy – podobne do tych z treningu, co czyni go jednym z fundamentów nowoczesnych modeli generatywnych.
Dyfuzja
Modele dyfuzyjne to generatywne modele uczące się procesu odszumiania danych. W treningu dodaje się do danych losowy szum, a model uczy się odwracać ten proces – czyli krok po kroku przekształcać losowy szum w realistyczny obraz lub dźwięk. Dzięki temu osiągają dziś najwyższą jakość w generowaniu treści wizualnych (np. DALL·E, Stable Diffusion).
Transformatory wizji
Transformatory wizji (Vision Transformers, ViT) to architektura, która przenosi pomysł mechanizmu uwagi z NLP do przetwarzania obrazów. Zamiast konwolucji, obrazy są dzielone na małe fragmenty (patches), które model analizuje równolegle, ucząc się zależności między nimi. Dzięki temu transformatory wizji potrafią wykrywać bardziej złożone wzorce i często przewyższają klasyczne CNN w dużych zadaniach wizualnych.
Słowniczek skrótów I Haseł
LLM
LLM (Large Language Model) to duży model językowy, uczony na ogromnych zbiorach tekstów. Dzięki milionom lub miliardom parametrów potrafi analizować, rozumieć i generować tekst w sposób zbliżony do ludzkiego. Stosowany jest w asystentach AI, tłumaczeniach, analizie danych czy generowaniu treści.
MoE
MoE (Mixture of Experts) to architektura, w której działa wiele „ekspertów”, czyli wyspecjalizowanych części modelu. Dla każdego przykładu aktywowany jest tylko wybrany fragment tych ekspertów, co pozwala osiągnąć wysoką wydajność przy niższym koszcie obliczeń.
Perplexity
Perplexity to miara jakości przewidywania tokenów przez model językowy. Określa, jak dobrze model przewiduje kolejne słowa w zdaniu. Im niższa wartość, tym lepszy model – oznacza to, że jego przewidywania są bardziej pewne i zgodne z rzeczywistym językiem.
Zero-shot
Zero-shot to rozwiązywanie zadania bez żadnych przykładów w promptach. Model korzysta wyłącznie ze swojej ogólnej wiedzy. Na przykład można poprosić go o tłumaczenie zdania, mimo że nie podano żadnych wcześniejszych przykładów tłumaczeń.
Few-shot
Few-shot to rozwiązywanie zadania na podstawie kilku przykładów zawartych w promptach. Pokazując modelowi kilka par „wejście–wyjście”, można go naprowadzić na właściwy sposób rozwiązania nowego, podobnego zadania.
Kontaminacja
Kontaminacja to przeciek danych testowych do zbioru treningowego. Powoduje, że ocena modelu staje się zafałszowana, ponieważ model może rozpoznawać znane wcześniej przykłady zamiast faktycznie uczyć się generalizacji.
Augmentacja
Augmentacja danych to sztuczne wzbogacanie zbioru treningowego – na przykład przez parafrazowanie zdań, tłumaczenie ich na inne języki lub dodawanie szumu do obrazów. Celem jest zwiększenie różnorodności danych i poprawa odporności modelu.
Curriculum
Curriculum learning to stopniowe zwiększanie trudności przykładów w trakcie treningu. Model najpierw uczy się prostych przypadków, a potem coraz trudniejszych, co ułatwia mu zrozumienie złożonych zależności.
GELU
GELU (Gaussian Error Linear Unit) to funkcja aktywacji często stosowana w transformerach. Działa płynniej niż klasyczny ReLU, co poprawia stabilność i jakość treningu.
ReLU
ReLU (Rectified Linear Unit) to prosta i szybka funkcja aktywacji, która przepuszcza tylko dodatnie wartości. Dzięki swojej efektywności jest jedną z najczęściej używanych w sieciach neuronowych.
SwiGLU
SwiGLU to nowsza funkcja aktywacji, łącząca mechanizm bramkowania (gating) z nieliniowością. Poprawia wydajność bloków feed-forward w transformerach, czyniąc modele bardziej ekspresyjne i stabilne.
Layer Norm
Layer Norm (Layer Normalization) to normalizacja w obrębie cech pojedynczej próbki, a nie całej partii. Pomaga utrzymać stabilne wartości aktywacji i przyspiesza uczenie, szczególnie w modelach sekwencyjnych i transformatorach.
RMS Norm
RMS Norm (Root Mean Square Normalization) to wariant normalizacji oparty na średnim kwadracie wartości, zamiast odchylenia standardowego. Bywa stabilniejszy w bardzo dużych modelach i często używany w nowych architekturach.
Instrukcja systemowa
Instrukcja systemowa (ang. system prompt) to część wejścia definiująca ogólne reguły i styl działania modelu. Określa język, ton, sposób interpretacji poleceń oraz zasady bezpieczeństwa. Jest fundamentem zachowania modelu w całej sesji.
Format odpowiedzi
Format odpowiedzi to ustalony sposób prezentacji wyników, na przykład w postaci tekstu, listy, JSON-a lub markdownu. Pomaga uzyskać spójne i łatwe do przetworzenia odpowiedzi, szczególnie gdy model ma współpracować z innymi systemami.
Raterzy
Raterzy to ludzie oceniający odpowiedzi modeli podczas treningu lub ewaluacji. Ich oceny służą do tworzenia modeli nagrody w RLHF oraz do poprawy jakości i zgodności modeli z ludzkimi preferencjami.
Grounding
Grounding (ugruntowanie) to zakotwiczenie odpowiedzi w wiarygodnych źródłach lub dokumentach. Oznacza, że model nie tylko generuje treść, ale także potrafi wskazać, skąd pochodzą dane informacje, co zwiększa ich wiarygodność i możliwość weryfikacji.