Skip to main content

Obecny boom na sztuczną inteligencję rozpoczął się wraz z udostępnieniem łatwo dostępnych modeli językowych oraz programów do generowania grafiki. Modele językowe znajdują wszechstronne zastosowanie, natomiast generatory obrazów dla większości osób są raczej efektowną ciekawostką. Warto jednak pamiętać, że istnieje wiele innych rozwiązań opartych na AI, które w praktyce mogą okazać się jeszcze bardziej użyteczne. Jednym z nich jest Eleven Reader – aplikacja na telefon, za pomocą możesz słuchać tekstów. Innym przykładem jest Notebook LM.

Eleven Reader – słuchaj dowolnego tekstu.

Technologia syntezatorów mowy ma już ponad półwieku. Syntezator Ivona, znany z początków Youtube, ma już ponad 20 lat. Rozwiązania Siri czy Google ponad dekadę. I choć już Ivona brzmiała w miarę naturalnie, to słuchanie dłuższych tekstów było męczące.

image 17
Nie tylko modele językowe, nie tylko Chat GPT - poznaj Eleven Reader, i inne narzędzia oparte na AI pomagające w nauce 14

Chat GPT (i większość innych LMM) również ma obsługę głosową, ale nadal słuchanie dłuższych tekstów, zwłaszcza w języku Polskim, jest mało wygodne. Eleven Labs udało się przekroczyć odpowiedni poziom jakości, dzięki czemu słuchanie dłuższych tekstów jest dość przyjemne.

Nie jest to jeszcze idealne, czasami z liczbami Eleven Reader ma problem, tak więc nie jest to jeszcze jakość pozwalająca każdemu słuchać tekstów typowo dla przyjemności, ale do tekstów informacyjnych nadaje się idealnie.

Poza tym, w przypadku Chat GPT, nie mamy możliwości cofnięcia czy przewijania nagrania, Eleven Reader udostępnia wygodny odtwarzacz nagrań.

Dźwięk Eleven Labs można przetestować tutaj.
Natomiast najlepiej jest od razu zainstalować bezpłatną aplikację Eleven Reader.

image 16
.

Scenariusze zastosowania Eleven Labs:

Możliwość słuchania tekstów, mocno zmienia nasze możliwości przyswajania wiedzy. Podcasty, audiobooki czy informacyjne filmy na yt istniały od dawna, ale w tych przypadkach, konieczne było poświęcenie czasu na znalezienie odpowiedniego materiału. Co sprawiało, że słuchanie takich treści polegało bardziej na ogólnym zdobywaniu ciekawostek, i rozszerzaniu horyzontów.

Słuchanie PDF-ów i książek

Oczywiste, i podstawowe zastosowanie Eleven Labs. Dzięki tej aplikacji, możesz słuchać książek i pdf. Znaczenie tego jest większe niż się wielu ludziom wydaje. Szczególnie istotne są sytuacje, gdy nie jest się za mocno zmotywowanym do czytania, nie ma się czasu, ale jednak czuje się że dany tekst może się przydać. Czasami więc sztuczna inteligencja pozwala zaoszczędzić czas, a czasem dzięki niej, możesz przeczytać tekst, którego bez AI byś nie poznał.

image 28
Nie tylko modele językowe, nie tylko Chat GPT - poznaj Eleven Reader, i inne narzędzia oparte na AI pomagające w nauce 15

Eleven Labs+ Deep Search

Potrzebujesz zdobyć ogólną wiedzę dotyczącą specyficznego zagadnienia, i nie znalazłeś poradników na ten temat? Z pomocą przychodzą funkcję Deep Search (Chat GPT, Gemini, Perplexity). W ten sposób możesz stworzyć tekst opisujący dokładnie to, czego potrzebujesz. Dwie minuty pracy + 5/20 min działania modelu językowego, tworzy tekst którego przesłuchanie zajmuje godzinę.

Połączenie deep researchu z słuchaniem, daje bardzo dobry efekt. Deep research robiony przez AI nie jest idealny, i najlepiej się on sprawdza jako narzędzie do dostarczania kontekstu w nowej dla nas dziedzinie, stąd jest to idealny materiał do słuchania, np. podczas spacerów, biegania, sprzątania, gotowania itd.

Słuchanie własnych notatek

Bardzo pomocne, a nieoczywiste zastosowanie sztucznej inteligencji. Jeśli tworzysz notatki, to dzięki Eleven Labs możesz ich słuchać podczas wykonywania innych czynności. Dzięki AI, możesz też przetworzyć notatki tak, żeby słuchało się ich wygodnej.

Ile kosztuje Eleven Reader?

W bezpłatnej wersji mamy do dyspozycji dwie godziny słuchania tygodniowo. 15 godzin kosztuje 20 zł.

image 23
.

Notebook LM

Co prawda podstawą działania Notebooka LM są modele językowe, natomiast program ten mocno różni się od typowej AI do pisania tekstów. Ta bezpłatna aplikacja jest zaprojektowana do tworzenia notatek z źródeł które samemu do niej dostarczysz. Jeden notes może obsłużyć do 50 źródeł. Źródłem może być plik pdf, dokument google, tekst wklejony do schowka, strona internetowa, czy link do YouTube (i ta funkcja jest szczególnie istotna). Niestety program nie obsługuje dokumentów Word. Możemy tworzyć dowolną ilość notesów.

Dzięki temu że program opiera się głównie na podanych źródłach, ryzyko halucynacji jest dużo mniejsze.

image 20
.

Jak działa Notebook LM?

Po lewej stronie mamy listę źródeł, które są uwzględniane w odpowiedziach. Możemy w prosty sposób oznaczać które źródła mają być brane pod uwagę w rozmowie. Na środku mamy chat, dzięki któremu możemy tworzyć notatki. Uwaga: Ten chat jest tymczasowy. Po odświeżeniu strony, wszystko co w nim było stworzone, znika. Użyteczne odpowiedzi możemy więc zapisywać jako notatki.

Zapisane elementy pojawiają się w kolumnie po prawej stronie, i one nie znikają po zamknięciu okna.

Poza tekstowymi notatkami, możemy utworzyć również:

  • Mapę myśli
  • Podsumowanie Audio (w formie podcastu, rozmowy dwóch osób)
  • Podsumowanie wideo (prezentacja z głosem)
  • Raport (uporządkowaną, złożoną notatkę)

image 19
.

Główne zastosowanie Notebooka LM

Najbardziej przydatną funkcją jest tworzenie notatek z filmów z YouTube. Istnieje szereg narzędzi od tego, natomiast Notebook LM jest po prostu najwygodniejszy, bo wystarczy tu wkleić link do filmu.

Drugim zastosowaniem jest research, i wsparcie przy analizie większych zagadnień.

image 18
.

Wady Notebook LM

Główne wady Notebooka LM to:

  • Problemy z językiem Polskim
  • Styl odpowiedzi
  • Brak historii chatów, i tylko jeden wątek w jednym notesie.

Notatki w Notebook LM mogą być robione w języku Polskim (choć czasami trzeba to jasno zaznaczyć), natomiast mapy myśli, nagrania audio, filmy są dostępne tylko w języku Angielskim).

W Notebooku LM celowo historia wątku nie jest zapisywana. Dzięki temu można z modelem rozmawiać swobodnie, bez przejmowania się tym czy sobie nie „zaśmiecimy”. Trzeba więc pamiętać, że wszystkie wazne informacje, należy zapisać do notatek.

Często jest to zaletą, ale w wielu przypadkach może to być też wadą.

Styl odpowiedzi w Notebook LM również jest dość ograniczony. Z założenia jest on sprawozdawczy i merytoryczny. Jeśli więc chcemy zmienić styl, najlepiej jest skopiować tekst z Notebooka LM do innego modelu językowego.

Notebook LM a projekty w Chat GPT

W płatnej wersji Chat GPT mamy dostęp do projektów, które działają podobnie do Notebook LM.

W projektach możemy dodać wiele plików, i każdy wątek ma do nich dostęp. Jest to dobre rozwiązanie, gdy zależy nam na odpowiednim stylu tekstu, dodatkowo do danego wątku możemy dodawać nowe pliki, a model może tez dodawać informacje z Internetu czy własnej wiedzy.

image 21
.

Transkrypcja nagrań z rozmów i spotkań dzięki AI. Dyktowanie tekstu.

Kolejne, podstawowe zastosowanie sztucznej inteligencji to możliwość dyktowania tekstu. Jeśli mamy w głowie przemyślany temat, ale nie chce nam się pisać, wystarczy nagrać to, co chcemy przekazać. Rozwiązanie jest proste – tekst można wprowadzać bezpośrednio do dokumentu Word albo w dowolne miejsce w przeglądarce. Na komputerze służy do tego skrót Windows + H, a w telefonach również dostępnych jest wiele opcji dyktowania z poziomu klawiatury. Poza tym możemy dyktować tekst bezpośrednio w Wordzie, One Note, i w szeregu innych programów. Skrót Windows + H pozwala dyktować tekst w dowolnym miejscu.

Dyktowanie tekstu istnieje już od dawna, ale do tej pory rzadko kiedy było naprawdę wygodne. Taki tekst wymagał później sporego uporządkowania, zwłaszcza że systemy miały problem z interpunkcją – przecinki trzeba było dodawać ręcznie. W efekcie końcowym oszczędność czasu była niewielka.

Obecnie jednak sytuacja wygląda inaczej. Dyktowany tekst możemy w prosty sposób poprawić za pomocą modelu językowego, dzięki czemu bardzo szybko osiągamy czytelny i uporządkowany efekt. Co więcej, sama jakość automatycznej transkrypcji jest dziś znacznie lepsza niż jeszcze kilka lat temu.

image 22
Dyktowanie tekstu bezpośrednio do Chat GPT. Wadą jest brak automatycznego podglądu, ale transkrypcja jest lepszej jakości, jest mniej błędów, a co najważniejsze, od razu jest uwzględniona interpunkcja

Transkrypcja dłuższych nagrań

Można to zrobić za pomocą dowolnego narzędzia w telefonie, które pozwala na nagrywanie dźwięku. Nie ma w tym żadnej filozofii. Wygodnie jest korzystać z aplikacji, które umożliwiają automatyczne zapisywanie nagrań na Dysku Google – większość z nich dobrze sobie z tym radzi. Ja korzystałem z aplikacji RecapAI, która w płatnej wersji oferuje funkcję nagrywania wraz z transkrypcją. Jeśli jednak wrzucę nagranie po prostu na Dysk Google, a następnie prześlę je do Google iStudio w celu transkrypcji, to sprawa również jest załatwiona.

image 29
.

Znaczenie tej funkcji. Likwidacja blokad.

Sztuczna inteligencja, która poprawia teksty i pozwala pisać w chaotyczny sposób, a następnie przekształca je w uporządkowaną całość, otwiera nowe możliwości. Wiele osób napotyka blokadę przy próbie opisania jakiegoś problemu. Można to jednak łatwo obejść, po prostu mówiąc i dyktując to, co chcemy przekazać. Podczas mówienia aktywują się inne obszary mózgu niż przy pisaniu, więc jest to także ciekawa odmiana.

Dyktowanie daje dodatkową swobodę – można tworzyć treści na przykład w czasie spaceru. Dzięki temu, a następnie wykorzystaniu sztucznej inteligencji do korekty i uporządkowania tekstu, powstają materiały, które w innych okolicznościach mogłyby nigdy nie powstać.

image 30
.

Prosty przykład: czasem trudno się zmobilizować, żeby przez trzy godziny pisać tekst. Podobnie pracownicy, których obowiązki nie wiążą się z pisaniem, mogą mieć problem z przygotowaniem opisu swojego stanowiska. Niezależnie od tego, czy praca ma charakter fizyczny, czy inny, nagranie wypowiedzi i jej transkrypcja pozwalają łatwo przekazać wartościowe informacje. W ten sposób można chociażby stworzyć materiały szkoleniowe dla nowych pracowników, które ułatwią im wdrożenie się w dane miejsce.

Jest to tez dużo łatwiejsze niż robienie nagrań, które następnie były by puszczane nowym pracownikom. W przypadku transkrypcji, znikają takie problemy jak płynna wymowa, ładna dykcja, czy problemy związane z dobrym sprzętem.

Nagrywanie spotkań

Znacząco podnosi to jakość spotkań, szczególnie tych dłuższych i związanych z planowaniem. W praktyce jednak często pojawia się problem – ktoś musi notować wszystkie ustalenia. Bywa to męczące i nie zawsze możliwe do zrealizowania. W takiej sytuacji z pomocą przychodzi sztuczna inteligencja.

Firefly notes

W przypadku spotkań online Google Meet umożliwia nagrywanie i transkrypcję, jeśli rozmowa odbywa się w języku angielskim. Z kolei aplikacje takie jak Firefly Notes pozwalają nie tylko na transkrypcję, ale też na podział wypowiedzi według osób i zapisanie momentu, w którym dana kwestia została poruszona. To ogromne ułatwienie przy analizie przebiegu spotkania.

image 24
.

Można również korzystać ze zwykłych nagrań dźwiękowych – na przykład rejestrowanych w przeglądarce – a następnie przetwarzać je w Google Ai Studio i dalej w modelach językowych. Dobrym rozwiązaniem jest przygotowanie wcześniej stałego dokumentu opisującego działalność firmy, wyzwania czy strukturę zespołu. Dzięki temu podczas obróbki transkrypcji możemy każdorazowo dodawać taki dokument, co pozwala uzyskiwać lepsze, spersonalizowane podsumowania.

Warto też robić szybkie notatki w trakcie spotkania. Jeśli AI tworzy pełne podsumowanie, a my dodatkowo zapisujemy jedynie krótkie hasła, nie rozpraszamy się i możemy aktywnie uczestniczyć w rozmowie. Na podstawie tych punktów oraz kontekstu o firmie, AI przygotuje bardzo użyteczne podsumowanie całości.

Trzeba oczywiście pamiętać o informowaniu uczestników, że korzystamy z narzędzi AI. W niektórych przypadkach możemy też uznać, że nagrywanie wszystkiego nie jest wskazane.

Synergia, wynikająca z korzystania z wielu narzędzi (słuchanie własnych notatek).

Połączenie programów do robienia notatek opartych na AI, z narzędziami do generowania głosu z tekstu pozwala uzyskać bardzo ciekawe efekty. Dzięki temu notatki można łatwo przekształcić w nagrania, które są wygodne do odsłuchu, a następnie po prostu ich słuchać.

Nie wymaga to większych umiejętności technicznych, po prostu trzeba sobie zrobić nawyk. Notatki do odsłuchu mogą dotyczyć konkretnego, większego tematu, można też słuchać podsumowania głównych tematów np. z ostatniego tygodnia.

image 32
.


Elven Labs, Firefly notes – use case.

W TJSoft korzystamy z narzędzi do odsłuchu i transkrypcji na wiele sposobów. Nie oznacza to oczywiście, że każdy dokument zamieniamy w nagranie i słuchamy zamiast czytać. Większość materiałów wciąż przeglądamy klasycznie, czyli oczami. Jednak w przypadku dłuższych tekstów zdarza się, że wrzucam je do odsłuchu, zwłaszcza jeśli już wcześniej je przeczytałem i chcę lepiej je zapamiętać. Czasem korzystam też z notatek przygotowanych na podstawie dokumentu – to często działa jeszcze lepiej, bo odsłuchuję skoncentrowaną wiedzę w skróconej formie.

Bardzo przydatna jest również funkcja odsłuchu wyników Deep Research. Jeśli mam do czynienia z nowym tematem, którego nie znam wystarczająco dobrze, tworzę własne opracowanie. Zajmuje mi to około dwóch minut, potem system generuje materiał przez kilkanaście minut, a efektem jest nawet 50 minut treści do odsłuchu. Tego typu materiały nie są idealne: krótsze bywają zbyt powierzchowne, a dłuższe zdarza się, że zawierają zbędne rozwinięcia. Jednak w formie audio to nie stanowi problemu – wręcz przeciwnie, odsłuch daje dużo wartości i pozwala łatwo przyswoić temat. Czasami oczywiście też je czytam, bo i w tej formie są użyteczne, ale odsłuch uważam za wyjątkowo ciekawą opcję.

Przy pracy ze spotkaniami kluczowe znaczenie mają notatki, w szczególności te tworzone głosowo. Zazwyczaj zapisuję sobie tylko słowa-klucze w prostym edytorze, najczęściej w OneNote. Dzięki temu mogę później bez trudu przeszukać całą transkrypcję. Tu AI bardzo pomaga, bo znacznie ułatwia wyszukiwanie treści i porządkowanie informacji.

Tworzenie tekstów w ruchu

Zdarza się, że artykuł powstaje w trakcie zwykłego spaceru – po prostu nagrywam swoje myśli, a potem przetwarzam je na tekst. Do transkrypcji używam Google Ai Studio, a następnie obrabiam treść w GPT. Dzięki temu pracuję na materiale pełnym autentycznych pomysłów i naturalnych sformułowań. To o wiele lepsze niż tworzenie treści od zera przez AI, które bez odpowiedniej bazy wiedzy jest po prostu zbyt powierzchowne.

Ta metoda to także ogromna oszczędność czasu: zamiast pięciu godzin pracy nad tekstem mogę zamknąć temat w dwóch. AI może oczywiście napisać artykuł od podstaw jednym poleceniem, ale taki tekst bez wsadu merytorycznego nie ma większej wartości. U nas działa to inaczej – AI wspiera, przyspiesza i porządkuje, ale nie zastępuje naszej wiedzy i doświadczenia.