Potem przychodzi produkcja.
# Halucynacje na skali
W demie masz 10 przykładów które działają. W produkcji masz 10 000 zapytań dziennie — i statystycznie kilkanaście z nich trafi na edge case który sprawi że model zmyśli odpowiedź z pełnym przekonaniem. Kluczowe jest budowanie warstwy walidacji niezależnej od modelu: schematy JSON, guardrails, sanity checks na wynikach.
# Koszty tokenów rosną nieliniowo
Arkusz kalkulacyjny z ceną za token wygląda niewinnie. Problem zaczyna się gdy dodajesz: długi system prompt, historię konwersacji, wyniki z narzędzi, kilka pętli reasoning. Pojedyncze wywołanie które w demo kosztuje $0.002 w produkcji z context window 32k może kosztować $0.08. Przy 5000 wywołań dziennie to $400 miesięcznie na jeden przepływ.
# Monitoring to nie opcja
W klasycznym sofcie logujesz requesty i response codes. W systemach agentowych potrzebujesz: trace każdego kroku reasoning, koszty per wywołanie, latencję per narzędzie, rate błędów per typ zapytania. Bez tego nie wiesz dlaczego coś nie działa.