Czołem, tu Bogusz
Ostatnie miesiące spędzam w zasadzie w 100% pracując nad Zanfią 2.0.
Zaczęło się od mojego powrotu do programowania, przebudowy modelu danych (ogromna praca włączenie z migracją wszystkich danych), a teraz pracuję już nad całkowicie odświeżoną wersją aplikacji.
I cały czas jestem w szoku, jak wiele fajnych rzeczy można zbudować w dość prosty sposób.
Ale dziś chciałbym się skupić na szansie dla Ciebie, na to, co można budować.
AI-FIRST, VOICE-FIRST
Trzy rzeczy, które najbardziej zmieniły mój sposób pracy, to:
- LLMy - modele konwersacyjne, z którymi możesz porozmawiać o wszystkim.
- Agenci AI - narzędzia AI oparte o LLMy z dostępem do narzędzi (np. przez CLI / API / MCP).
- Interfejsy głosowe - gdzie , zamiast pisać, po prostu mówię.
Pomijając osoby, które zupełnie nigdy nie skorzystały nawet ze słynnego Chata GPT, to większość osób, która cokolwiek robi z AI, jest na poziomie pierwszym, czyli zwykła rozmowa z modelem w oknie przeglądarki.
Swoją drogą, jest wiele osób, które nigdy nie skorzystały nawet z takiej rozmowy z modelem i wręcz robią to celowo. Zwyczajnie tego nie chcą (mam trochę takich znajomych).
Trzy punkty, które wymieniłem, są opcją do implementacji w zasadzie w każdej aplikacji, która istnieje na rynku. Szczególnie B2B.
I bardzo mocno wierzę w to, że taka właśnie będzie bliska przyszłość software'u. (co będzie za 20 lat to nawet nie śmiem sobie wyobrażać).
A jak to wykorzystać?
Istnieją dziś setki tysięcy aplikacji w ogromnej liczbie nisz. Jednak większość z nich zwyczajnie nie dogoni ery AI.
Duzi gracze świata SaaS próbują gonić, ale nie jest to proste do zrobienia w dużej skali.
To otwiera ogromne możliwości dla małych startupów.
Recepta: weź aplikację, która już istnieje, ma klientów i rozwiązuje realny problem, i przerób ją na wersję AI-first, voice-first.
Co przez to rozumiem?
Musisz zbudować dwa filary:
- Agenta, który ma dostęp do narzędzi, a tymi narzędziami są funkcje w Twojej aplikacji
- Interfejs głosowy, gdzie klient po prostu wchodzi i rozmawia z aplikacją za pomocą mikrofonu.
Agent, który otrzyma dostęp do narzędzi (odpowiednio opisanych), jest z pudełka na tyle mądry, że wie, jak z nich korzystać, które użyć w którym momencie. A jeżeli brakuje mu jakiejś informacji, to po prostu Cię o nie zapyta.
Czyli, jeżeli budowałbym na przykład nową wersję Polisy w Chmurze w taki sposób, to narzędziami mogłyby być:
- dodaj-polise
- lista-polis
- dodaj-klienta
- ustaw-przypomnienie-o-wygasajacej-polisie
I teraz klient, który wchodzi do aplikacji ze swojego laptopa, klika tylko w ikonkę mikrofonu i zaczyna mówić:
User:
Był u mnie Jan Kowalski i kupił polisę "taką i taką" na rok. Dodaj go do systemu i ustaw przypomnienie o odnowieniu polisy na przyszły rok."
AI:
Jasne, nie ma sprawy. Masz jakieś szczegóły tej polisy i klienta? Może wypełnił formularz?
User:
Tak, wrzucam zdjęcie.
AI:
Dzięki! Dodaje polisę, klienta i ustawiam przypomnienie sms dla niego za rok, że ma odnowić.
Klient powiedział 2 zdania, cały proces zajął 60 sekund.
Mówi sam do siebie: "ale sztos" (czyli wie za co Ci płaci).
Tak według mnie powinny wyglądać interakcje z oprogramowaniem w 2026.
Agent dostarcza dodatkowej abstrakcji, w której Ty używasz zwykłego, potocznego języka, a on pod spodem decyduje, jakie narzędzia i funkcje ma użyć.
Wie, które narzędzia do czego służą, jakich danych potrzebują i co zwracają.
Po prostu przejmuje za Ciebie całe technikalia - jak kiedyś pracownik.
A wisienką na torcie jest interfejs głosowy (opcjonalny), dzięki któremu input jest po prostu pięć razy szybszy, a człowiek jest w stanie dokładnie opisać to, co chce zrobić.
I najlepsze jest to, że
dla ludzi to jest po prostu naturalna interakcja.
Masz w głowie, co chcesz zrobić i po prostu to mówisz. Tak działa świat odkąd powstał język!
Nie ma znaczenia, że pod spodem leży zaawansowana technologia, LLMy, agenci z narzędziami, Voice to Text, streaming i tak dalej. Klienta ostatecznie interesuje efekt, który osiągnie.
Jeden problem, jaki widzę z inputem głosowym, to oczywiście praca wielu osób w jednym pomieszczeniu, gdzie często, po pierwsze, nie chcemy przeszkadzać innym, a po drugie, nie chcemy, żeby słyszeli to, co my mówimy.
Tutaj jedynym sposobem, jaki widzę na przyspieszenie inputu, będzie po prostu brain-computer interface, gdzie będziemy bezpośrednio przekazywać nasze myśli do komputera.
Ale to jeszcze trochę.
Natomiast już dziś, w każdej branży, bez większego problemu można zbudować aplikacje na miarę ery AI.
Powodzenia.
Bogusz