Sieci Neuronowe od Podstaw

1. Neuron → Warstwa → Sieć: Architektura Sieci

Aby zrozumieć sieć neuronową, trzeba zacząć od jej (najbardziej podstawowego) elementu.

Neuron (Inspirowany biologicznie):
- Co to jest? To podstawowa jednostka obliczeniowa, naśladująca w uproszczeniu neuron w ludzkim mózgu. Jego zadanie to przetworzenie sygnałów wejściowych na jeden sygnał wyjściowy.
- Jak działa?
  - Pobiera dane wejściowe (np. cechy naszego zbioru danych: x1, x2, x3).
  - Mnoży każdy sygnał przez odpowiadającą mu wagę (w1, w2, w3). Waga określa, jak ważny jest dany sygnał wejściowy. Wyższa waga = większy wpływ na wynik.
  - Sumuje wszystko: suma = (x1*w1) + (x2*w2) + (x3*w3) + b
  - Dodaje obciążenie (bias - b). To jest stała, która pozwala dostosować wynik, nawet gdy wszystkie wejścia są zerowe. Przesuwa funkcję aktywacji w lewo lub prawo.
  - Przekazuje tę sumę do funkcji aktywacji, która decyduje, czy i jak bardzo neuron ma być "aktywny".
- Analogia: Pomyśl o decyzji "Czy zrobię sobie kawę?":
  - Wejścia (x): Czy jestem śpiący? (1=Tak, 0=Nie), Czy jest poranek? (1=Tak, 0=Nie), Czy mam czas? (1=Tak, 0=Nie)
  - Wagi (w): Waga dla "śpiący" jest bardzo wysoka (np. 5), dla "poranek" średnia (3), a dla "czas" niska (1).
  - Obciążenie (b): Moje naturalne, wewnętrzne nastawienie do kawy (np. -4, bo generalnie jej nie lubię).
  - Suma: (1*5) + (1*3) + (0*1) + (-4) = 4
  - Funkcja aktywacji: Decyduje, czy wynik 4 wystarczy, aby sięgnąć po kawę.
Warstwa (Layer):
- Co to jest? To zbiór wielu neuronów, które działają równolegle, każdy na tych samych danych wejściowych. Każdy neuron w warstwie uczy się wykrywać nieco inny wzorzec.
- Typy warstw:
  - Warstwa wejściowa: Tylko przekazuje dane, nie wykonuje obliczeń.
  - Warstwy ukryte: Właśnie tam zachodzi "magia" i głębsze uczenie. Sieć może mieć wiele warstw ukrytych (stąd "głębokie uczenie" - deep learning).
  - Warstwa wyjściowa: Produkuje finalny wynik sieci (np. prawdopodobieństwo, że na zdjęciu jest kot).
Sieć Neuronowa:
- Co to jest? To cała, połączona struktura złożona z warstwy wejściowej, jednej lub wielu warstw ukrytych i warstwy wyjściowej.
- Działanie: Informacja płynie do przodu (feedforward): od warstwy wejściowej, przez kolejne warstwy ukryte, gdzie jest przetwarzana i przekształcana na coraz wyższym poziomie abstrakcji, aż do warstwy wyjściowej.
- Analogia: Fabryka:
  - Warstwa wejściowa: Surowce (cechy danych).
  - Warstwy ukryte: Różne działy produkcyjne. Każdy dział (warstwa) składa się z wielu pracowników (neuronów), którzy wykonują swoją specyficzną część zadania. Wyjście z jednego działu trafia do następnego.
  - Warstwa wyjściowa: Gotowy produkt (przewidywanie modelu).

2. Funkcje Aktywacji: "Włącznik" Neurona

Funkcja aktywacji decyduje, czy neuron powinien zostać "aktywowany" (włączony) i jak silny sygnał ma przekazać dalej. Bez niej, sieć neuronowa byłaby po prostu dużym układem liniowych równań, a przez to bardzo ograniczona.

ReLU (Rectified Linear Unit): f(x) = max(0, x)
- Działanie: Jeśli suma wejść jest mniejsza od zera, zwraca 0. Jeśli jest dodatnia, zwraca tę wartość.
- Zalety: Bardzo prosta obliczeniowo, co przyspiesza uczenie. Skuteczna w praktyce.
- Analogia: "Progi podatkowe". Nie płacisz podatku (0), jeśli zarobisz poniżej progu (x<0). Płaciesz liniowo, jeśli zarobisz powyżej (x>0).
- Gdzie się używa? Najczęściej w warstwach ukrytych.
Sigmoid: f(x) = 1 / (1 + e^{-x})
- Działanie: Ściska dowolną liczbę do zakresu między 0 a 1. Dla bardzo dużych ujemnych wejść daje wynik bliski 0, dla bardzo dużych dodatnich ~1.
- Zalety: Idealna do modelowania prawdopodobieństwa, ponieważ jej wynik można interpretować jako szansę.
- Analogia: Światłowód – zgina i ściska światło, aby zmieściło się w kablu (przedział 0-1).
- Gdzie się używa? Głównie w warstwie wyjściowej w zadaniach klasyfikacji binarnej (np. odpowiedź na pytanie: "Cto to kot? Tak (blisko 1) / Nie (blisko 0)").

3. Backpropagation (Wsteczna Propagacja Błędu) - Intuicyjnie

To jest kluczowy algorytm uczenia sieci neuronowych. Jego celem jest odpowiedź na pytanie: "Która waga i w jakim stopniu jest odpowiedzialna za błąd madej przez sieć?"

Intuicyjne wyjaśnienie (krok po kroku):

Przód (Forward Pass):
- Weź partię danych treningowych (np. zdjęcia kotów i psów) i "przepuść" ją przez sieć.
- Sieć robi swoje przewidywanie (np. "na 80% to jest kot").
Obliczenie Błędu (Loss):
- Porównaj przewidywanie sieci z prawdziwą etykietą (np. na zdjęciu był rzeczywiście kot).
- Funkcja straty (Loss Function) oblicza wielkość błędu (np. "popełniłeś błąd wielkości 0.2").
Wstecz (Backward Pass) - Serce Backpropagation:
- Algorytm cofa się przez całą sieć, od wyjścia do wejścia, i zadaje pytanie: "Która waga najbardziej przyczyniła się do tego błędu?"
- Robi to używając rachunku różniczkowego (reguły łańcuchowej), aby obliczyć gradient (pochodną) funkcji straty względem każdej wagi. Gradient pokazuje, w którym kierunku i jak mocnie trzeba dostosować wagę, aby błąd się zmniejszył.
- Kluczowa intuicja: Błąd jest "rozprowadzany wstecz" po sieci. Warstwy bliżej wyjścia dostają jasny sygnał o swoim błędzie. Warstwy wcześniejsze dostają informację, jak ich błędy wpłynęły na błędy warstw późniejszych.
Aktualizacja Wag (Gradient Descent):
- Gdy już wiemy, który kierunek zmian jest dobry (gradient), możemy zaktualizować wszystkie wagi.
- Każda waga jest lekko przesuwana w kierunku przeciwnym do gradientu. Chcemy iść "w dół" zbocza, aby zejść do minimum błędu.
- Wielkość tego kroku określa współczynnik uczenia (learning rate). Zbyt mały krok → uczenie trwa długo. Zbyt duży krok → możemy "przeskoczyć" minimum błędu.

Prosta Analogia: Strzelanie do celu z zamkniętymi oczami

Przód: Strzelasz z karabinu (przepuszczasz dane przez sieć). Cel to prawdziwa etykieta.
Błąd: Obserwator mówi ci, o ile metrów i w którą stronę chybiłeś (oblicza funkcję straty).
Backpropagation: Analizujesz, który element celownika (waga) był źle ustawiony. Czy to było ustawienie przyrządu pionowego? A może poziomego? I w jakim stopniu każdy z nich wpłynął na missed shot?
Aktualizacja Wag: Delikatnie kręcisz pokrętłami celownika (aktualizujesz wagi) w przeciwnym kierunku do wskazania obserwatora.
Powtarzasz: Strzelasz again. Teraz (miejmy nadzieję) trafiasz bliżej celu. Powtarzasz ten proces tysiące razy, aż celownik jest idealnie wyregulowany.

Backpropagation to mechanizm naprowadzania, który pozwala sieci samodzielnie korygować swoje błędy i stopniowo stawać się coraz lepszą w wykonywanym zadaniu.