Czołem, tu Bogusz

Ostatnie miesiące spędzam w zasadzie w 100% pracując nad Zanfią 2.0.

Zaczęło się od mojego powrotu do programowania, przebudowy modelu danych (ogromna praca włączenie z migracją wszystkich danych), a teraz pracuję już nad całkowicie odświeżoną wersją aplikacji.

I cały czas jestem w szoku, jak wiele fajnych rzeczy można zbudować w dość prosty sposób.

Ale dziś chciałbym się skupić na szansie dla Ciebie, na to, co można budować.

AI-FIRST, VOICE-FIRST

Trzy rzeczy, które najbardziej zmieniły mój sposób pracy, to:

LLMy - modele konwersacyjne, z którymi możesz porozmawiać o wszystkim.
Agenci AI - narzędzia AI oparte o LLMy z dostępem do narzędzi (np. przez CLI / API / MCP).
Interfejsy głosowe - gdzie , zamiast pisać, po prostu mówię.

Pomijając osoby, które zupełnie nigdy nie skorzystały nawet ze słynnego Chata GPT, to większość osób, która cokolwiek robi z AI, jest na poziomie pierwszym, czyli zwykła rozmowa z modelem w oknie przeglądarki.

Swoją drogą, jest wiele osób, które nigdy nie skorzystały nawet z takiej rozmowy z modelem i wręcz robią to celowo. Zwyczajnie tego nie chcą (mam trochę takich znajomych).

Trzy punkty, które wymieniłem, są opcją do implementacji w zasadzie w każdej aplikacji, która istnieje na rynku. Szczególnie B2B.

I bardzo mocno wierzę w to, że taka właśnie będzie bliska przyszłość software'u. (co będzie za 20 lat to nawet nie śmiem sobie wyobrażać).

A jak to wykorzystać?

Istnieją dziś setki tysięcy aplikacji w ogromnej liczbie nisz. Jednak większość z nich zwyczajnie nie dogoni ery AI.

Duzi gracze świata SaaS próbują gonić, ale nie jest to proste do zrobienia w dużej skali.

To otwiera ogromne możliwości dla małych startupów.

Recepta: weź aplikację, która już istnieje, ma klientów i rozwiązuje realny problem, i przerób ją na wersję AI-first, voice-first.

Co przez to rozumiem?

Musisz zbudować dwa filary:

Agenta, który ma dostęp do narzędzi, a tymi narzędziami są funkcje w Twojej aplikacji
Interfejs głosowy, gdzie klient po prostu wchodzi i rozmawia z aplikacją za pomocą mikrofonu.

Agent, który otrzyma dostęp do narzędzi (odpowiednio opisanych), jest z pudełka na tyle mądry, że wie, jak z nich korzystać, które użyć w którym momencie. A jeżeli brakuje mu jakiejś informacji, to po prostu Cię o nie zapyta.

Czyli, jeżeli budowałbym na przykład nową wersję Polisy w Chmurze w taki sposób, to narzędziami mogłyby być:

dodaj-polise
lista-polis
dodaj-klienta
ustaw-przypomnienie-o-wygasajacej-polisie

I teraz klient, który wchodzi do aplikacji ze swojego laptopa, klika tylko w ikonkę mikrofonu i zaczyna mówić:

User:
Był u mnie Jan Kowalski i kupił polisę "taką i taką" na rok. Dodaj go do systemu i ustaw przypomnienie o odnowieniu polisy na przyszły rok."

AI:
Jasne, nie ma sprawy. Masz jakieś szczegóły tej polisy i klienta? Może wypełnił formularz?

User:
Tak, wrzucam zdjęcie.

AI:
Dzięki! Dodaje polisę, klienta i ustawiam przypomnienie sms dla niego za rok, że ma odnowić.

Klient powiedział 2 zdania, cały proces zajął 60 sekund.

Mówi sam do siebie: "ale sztos" (czyli wie za co Ci płaci).

Tak według mnie powinny wyglądać interakcje z oprogramowaniem w 2026.

Agent dostarcza dodatkowej abstrakcji, w której Ty używasz zwykłego, potocznego języka, a on pod spodem decyduje, jakie narzędzia i funkcje ma użyć.

Wie, które narzędzia do czego służą, jakich danych potrzebują i co zwracają.

Po prostu przejmuje za Ciebie całe technikalia - jak kiedyś pracownik.

A wisienką na torcie jest interfejs głosowy (opcjonalny), dzięki któremu input jest po prostu pięć razy szybszy, a człowiek jest w stanie dokładnie opisać to, co chce zrobić.

I najlepsze jest to, że dla ludzi to jest po prostu naturalna interakcja.

Masz w głowie, co chcesz zrobić i po prostu to mówisz. Tak działa świat odkąd powstał język!

Nie ma znaczenia, że pod spodem leży zaawansowana technologia, LLMy, agenci z narzędziami, Voice to Text, streaming i tak dalej. Klienta ostatecznie interesuje efekt, który osiągnie.

Jeden problem, jaki widzę z inputem głosowym, to oczywiście praca wielu osób w jednym pomieszczeniu, gdzie często, po pierwsze, nie chcemy przeszkadzać innym, a po drugie, nie chcemy, żeby słyszeli to, co my mówimy.

Tutaj jedynym sposobem, jaki widzę na przyspieszenie inputu, będzie po prostu brain-computer interface, gdzie będziemy bezpośrednio przekazywać nasze myśli do komputera.

Ale to jeszcze trochę.

Natomiast już dziś, w każdej branży, bez większego problemu można zbudować aplikacje na miarę ery AI.

Powodzenia.
Bogusz