Wykryto wyłączony javascript

Aktualnie masz wyłączony javascript. Kilka funkcji może nie działać. Włącz ponownie javascript, aby korzystać z pełnej funkcjonalności.

Syntezator Lyrebird potrafi przyswajać dowolny głos

Rozpoczęty przez Endinajla , 16.05.2017 - 15:23

Zaloguj się, aby dodać odpowiedź

5 odpowiedzi w tym temacie

#1 Endinajla

Empatyczny Demon

Postów: 2169
Tematów: 162

Płeć:Kobieta

Reputacja znakomita

Napisano 16.05.2017 - 15:23

Popularny

Syntezator Lyrebird potrafi przyswajać dowolny głos

2017-04-25-image-13.jpg?itok=fa0-TRAs

Źródło: Internet

Przyspieszając nadejście świata, w którym symulacja nie odróżnia się praktycznie od rzeczywistości, grupa ludzi z Kanady, pracującymi nad start-upem Lyrebird ogłosiła plany na powstanie usługi z bezpośrednim dostępem do internetu, która będzie w stanie naśladować każdy głos.

W celu umożliwienia imitacji każdego głosu, wynalazek potrzebuje do tego przynamniej 1-minutowego nagrania audio danej osoby, by zacząć mówić jej głosem. Dzieje się to poprzez wykorzystanie API, konwertując dostarczany tekst w wypowiadane słowa, brzmiące prawie identycznie jak ludzki kod źródłowy.

W ramach reklamy zaprezentowano poprzez platformę Soundcloud potencjał Lyrebird, generując głosy znanych polityków.

https://soundcloud.c...35691776/dialog

Informują oni o powstaniu syntezatora, mówiąc zdania, których tak naprawdę nigdy nie powiedzieli. Mimo wszystko to oszustwo nie jest idealne. Można odczuć wrażenie szumu w tle oraz słychać, że powstaje wrażenie sztuczności dźwięku. Nie bacząc na te niedociągnięcia symulacja mowy polityków i tak brzmi przekonująco. Wzmocnienie udawania będzie można jeszcze osiągnąć poprzez wykorzystanie manipulacji twarzy w czasie rzeczywistym.

Projekt rodzi jednak etyczne wątpliwości. Jest on porównywany do Photoshopa, ale dla dźwięku. System ten może użyć dowolnych słów głosem dowolnej osoby, których nigdy nie wypowiedziała, co na pewno budzi kontrowersje, szczególnie w świecie polityki.

Ludzie zajmujący się Lyrebird na swojej stronie internetowej podkreślili jednak temat dotyczący problemu natury etycznej, wynikający z rozwoju technologicznego. Zespół podkreśla, że imitacja głosu nie jest koniecznie wiarygodna:

„Nagrania głosowe są obecnie uważane za silny dowód w naszych społeczeństwach, a zwłaszcza w jurysdykcjach wielu krajów.” „Nasza technologia kwestionuje słuszność tego dowodu, gdyż pozwala [komuś], by łatwo manipulować nagraniami audio.”

źródło

6

Do góry

#2 szczyglis

Postów: 1174
Tematów: 23

Płeć:Mężczyzna

Reputacja znakomita

Napisano 17.05.2017 - 14:34

Dzięki za info. Poszperałem trochę na ten temat i to jest super sprawa! Tutaj jest strona całego projektu: https://lyrebird.ai/

Zapisałem się właśnie do beta-testów API i czekam na klucz. Jak dostanę dostęp to Wam wygeneruję zaproszenie na forum paranormalne wymawiane przez Trumpa

3

Do góry

#3 Staniq

In principio erat Verbum.

Postów: 6631
Tematów: 766

Płeć:Mężczyzna

Artykułów: 28

Reputacja znakomita

Napisano 17.05.2017 - 20:17

Ale po Polsku. Obiecujesz?

Kiedyś, pracując jako inżynier dźwięku dostałem zleconko, które wymagało nie lada pracy. Jeden z klientów naszego studia nagrań potrzebował dogrywki do materiału płytowego. W jednym z utworów, na końcu mówi około 2.5 - 3 sekundowy tekst. Dostaliśmy ten tekst nagrany na magnetofonie cyfrowym (wersja kasetowa). Niestety, pomimo włożonego wysiłku, nic z tym nie szło zrobić. Tekst był powiedziany niedbale, źle akcentowany itp. Szumy i dźwięki w tle wyczyściliśmy w godzinę.

Brak dostępu do właściciela głosu (był w dłuuuugiej trasie koncertowej) zmusił nas do ryzyka. Sporo czasu zajęło nam znalezienie człowieka, który mówił z identyczną manierą. Barwa jego głosu odpadała niestety i byliśmy dalej w lesie.

Któregoś wieczora, opijając czyjeś urodziny w studio po kilku szklaneczkach "rudej na myszach" usiadłem z kolegą do materiału i zaczęliśmy go obrabiać, ale analogowo, na equalizerze. Kiedy uzyskany efekt był tuż tuż do oryginału, ciągle brakowało jeszcze czegoś, czego nie mogliśmy uchwycić.

Wtedy z pomocą przyszła obróbka cyfrowa (jeszcze wtedy raczkująca). Obrobione nagranie puściliśmy wolniej od oryginalnego o 0.002 sek. W analogu, głos stałby się grubszy (pamiętają pewnie starsi forumowicze zabawę z płytą gramofonową, jaka była polewka, jak się puściło płytę z nieodpowiednią prędkością), ale cyfrowe opóźnienie tego nie zmieniło, natomiast zmienił się sposób mówienia.

Tym sposobem dokonaliśmy cudu.

Muzyk zaakceptował materiał na płytę, ale nie wierzył w tą historię. Nie musiał, ważne, że zapłacił za robotę.

Powyższą opowiastką chcę przypomnieć i uświadomić, ile pracy wymagała synteza głosu, aby ją upodobnić do oryginału. Prawdopodobnie sposób artykułowania poszczególnych głosek i maniera będą pozwalały odróżnić je od siebie. Tembr głosu, to tylko składowa harmoniczna wielu częstotliwości fali dźwiękowej i akurat to obecnie można podrobić bez większego problemu. Cała reszta to dopiero są schody.

Ciekawym efektów końcowych.

Do góry

#4

Postów: 487
Tematów: 76

Płeć:Mężczyzna

Artykułów: 4

Reputacja dobra

Napisano 18.05.2017 - 02:30

No to zapowiada się niezłe narzędzie dla troli. Już widzę te liczne przeróbki śmieszków na yt.

1

Do góry

#5 szczyglis

Postów: 1174
Tematów: 23

Płeć:Mężczyzna

Reputacja znakomita

Napisano 18.05.2017 - 15:21

Ale po Polsku. Obiecujesz?
[...]

Staniq, póki co to niczego nie mogę obiecać, bo nie dostałem jeszcze dostępu do bety (czekam na info) i nawet nie wiem jak to jest do końca rozwiązane.
Z tego co jednak wiem, to działa to trochę inaczej, niż takie ręczne kombinowanie, które opisałeś - wymagane są 2 nagrania - jedno własne, w którym zostanie zmodulowany głos i drugie, z którego pobierane są próbki głosu osoby, której głos chce się imitować. Sam algorytm za to zbudowany jest na zasadzie sieci neuronowej (czyli SI), którą uczy się za pomocą próbki nr.2, więc to trochę wyższa szkoła jazdy, niż jakieś equalizery, etc. Do obliczeń udostępniona jest przygotowana pod to chmura obliczeniowa. Tyle wiem na chwilę obecną. Myślę, że jeśli to choć w minimalnym stopniu pozwalać będzie na takie efekty jakie zaprezentowali w demo, to już i tak jest sukces. Autorzy chwalą się, że to taki "photoshop", tyle że do dźwięku.

No to zapowiada się niezłe narzędzie dla troli. Już widzę te liczne przeróbki śmieszków na yt.

Khan, na ich stronie jest odrębna zakładka pod tytułem "etyka", gdzie opisane są możliwe "skutki uboczne" wykorzystania tej technologii.

Autorzy zdają sobie sprawę do czego może to posłużyć.

3

Do góry

#6 Staniq

In principio erat Verbum.

Postów: 6631
Tematów: 766

Płeć:Mężczyzna

Artykułów: 28

Reputacja znakomita

Napisano 18.05.2017 - 19:50

Obecnie elektronika cyfrowa pozwala "podrabiać" głos na podstawie próbek. Niestety nie jest to synteza, lecz podkładanie. Pełna synteza powinna polegać na rozłożeniu próbki na czynniki pierwsze i generowanie tego głosu od nowa. Wspomniałem o składowej harmonicznej, którą jest nawet kilkaset składowych częstotliwości dźwięku generowanych przez nasze struny głosowe i krtań. To nie są tylko dźwięki w formie czystej, ale również szumy i świsty, które budują każdemu indywidualną barwę.

Moc obliczeniowa, która temu podoła musi być olbrzymia.

Ciekawe, jaka ilość próbek będzie potrzebna do syntezy, bo na pewno nie wystarczy jedno, czy dwa zdania, ze względu na powyższe. To wymaga naprawdę skomplikowanego mechanizmu syntezy.

Oby to nie okazało się syntezatorem na miarę lektora do filmów Eva (czy jakoś tak).