Przy okazji wczorajszego sympozjum RFBENCHMARK w Warszawie wypróbowałem możliwości dyktafonu na najnowszym Samsungu S25 Ultra. Sztuczna inteligencja zintegrowana z dyktafonem oferuje możliwość automatycznej transkrypcji i podsumowania naszych nagrań. Funkcja wydaje się być idealna, gdy tak jak wczoraj, mam do nagrania trzy wykłady i dwa panele dyskusyjne. Byłoby ogromną pomocą móc przeglądać całość w postaci tekstowej, wyszukiwać informacje, kopiować fragmenty wypowiedzi itd. Funkcja transkrypcji zadebiutowała wraz z serią S24, ale funkcje AI cały czas są rozwijane i usprawniane. Nagłośnienie na sali było dobre, a ja po całym dniu miałem wiele godzin nagrań różnych prelegentów. Przyszedł czas na transkrypcję nagranych materiałów.
Czas potrzebny na transkrypcję zależy od długości nagrania i w przypadku godzinnego wykładu potrzeba przynajmniej kilka minut. W niektórych nagraniach proces wydłużył się do kilkunastu minut. Ani razu mechanizm nie zaprotestował ze względu na wielkość czy długość plików. Największe nagranie zajmowało 117 MB.
Niestety jakość transkrypcji jest bardzo słaba. Prawdę mówiąc nie doszukałem się w transkrypcji ani jednego w pełni poprawnie przełożonego na tekst zdania. Działa to o wiele gorzej niż np. dyktowanie tekstu zamiast używania klawiatury ekranowej.
Nie może być mowy o wyciąganiu z transkrypcji cytatów. Szczerze mówiąc nie bardzo potrafię czytając transkrypcję wyciągnąć jakiekolwiek użyteczne informacje – próba odczytania losowych zlepków liter i losowych słów jest zbyt czasochłonna.
Jednocześnie podczas odsłuchu nagranie jest dla mnie zupełnie zrozumiałe, nie jest to więc problem słabej jakości nagrania rozmówców.
![]() |
![]() |
![]() |
![]() |
Chociaż większość transkrypcji, w moich oczach, to zwykły bełkot, okazuje się, że nie jest całkiem bezwartościowa. Dyktafon nadaje nagraniom automatyczne tagi, które mają odniesienie do treści nagrań. Podsumowania oddają zazwyczaj najważniejsze wnioski poszczególnych wystąpień i tutaj błędne czy zmyślone informacje nie rzucają się w oczy.
Co więcej, skopiowany tekst transkrypcji, pomimo zawartego w nim bełkotu, może zostać obrobiony przez ChatGPT czy Gemini w taki sposób, że dostaniemy bardziej rozbudowane podsumowanie wystąpienia, niż to oferowane przez aplikację dyktafonu. Nie ufałbym jednak poprawności wszystkich danych w 100%.
![]() |
![]() |
![]() |
Są pola, na których sztuczna inteligencja sprawdza się doskonale i robi bardzo szybkie postępy. Praca z tekstem przy pomocy AI bywa bardzo użyteczna. Zarówno generowanie obrazów, jak i najnowsze systemy text‑to‑speech potrafią sprawić wrażenie nieodróżnialnych od prawdziwych zdjęć czy lektora – przynajmniej w części przypadków. Obróbka obrazów również jest na wysokim poziomie.
Niestety transkrypcja Dyktafonu Samsunga, przynajmniej w języku polskim, jest bezużyteczna, jeśli zależy nam na wierności przekładu, wiarygodności czy możliwości wykorzystania tekstu z nagrania jeden do jednego. Dalsza obróbka za pomocą AI daje efekty, które mają znamiona użyteczności i pozwalają wyciągnąć ogólne wnioski. Jeśli ktoś jednak liczy, że zamiast chodzić na wykład albo robić notatki na konferencji, uzyska w miarę wierny przekład na tekst, który pozwoli zapoznać się z treścią wystąpienia, bez jego wysłuchania, to się mocno rozczaruje. Ja nie bardzo potrafię taką transkrypcję nawet czytać.
Oczywiście jest to raczej kwestią czasu, kiedy taka transkrypcja uzyska bardzo dobrą jakość. Są już serwisy, które oferują niemal bezbłędną jakość transkrypcji, w tym skomplikowanych nazw własnych. Jednym z nich jest Captions, odpłatna internetowa usługa służąca do generowania napisów do filmów na podstawie głosu lektora. Jak każda funkcja AI ma sporadyczne i trudne do wytłumaczenia problemy z działaniem, ale zazwyczaj działa świetnie i jest lata świetlne przed Samsungiem pod kątem jakości transkrypcji.
Na pewno AI w dyktafonie Samsunga nie jest na dzisiaj argumentem za zakupem konkretnego modelu smartfonu od tego producenta. Inne dodatki z wbudowanym AI sprawdzają się znacznie lepiej.