Skocz do zawartości


Zdjęcie

Syntezator Lyrebird potrafi przyswajać dowolny głos


  • Zaloguj się, aby dodać odpowiedź
5 odpowiedzi w tym temacie

#1

Endinajla.

    Empatyczny Demon

  • Postów: 2169
  • Tematów: 162
  • Płeć:Kobieta
Reputacja znakomita
Reputacja

Napisano

*
Popularny

Syntezator Lyrebird potrafi przyswajać dowolny głos

 

2017-04-25-image-13.jpg?itok=fa0-TRAs

Źródło: Internet

 

 

Przyspieszając nadejście świata, w którym symulacja nie odróżnia się praktycznie od rzeczywistości, grupa ludzi z Kanady, pracującymi nad start-upem Lyrebird ogłosiła plany na powstanie usługi z bezpośrednim dostępem do internetu, która będzie w stanie naśladować każdy głos.

 

W celu umożliwienia imitacji każdego głosu, wynalazek potrzebuje do tego przynamniej 1-minutowego nagrania audio danej osoby, by zacząć mówić jej głosem. Dzieje się to poprzez wykorzystanie API, konwertując dostarczany tekst w wypowiadane słowa, brzmiące prawie identycznie jak ludzki kod źródłowy.

 

W ramach reklamy zaprezentowano poprzez platformę Soundcloud potencjał Lyrebird, generując głosy znanych polityków.

 

https://soundcloud.c...35691776/dialog

 

 

Informują oni o powstaniu syntezatora, mówiąc zdania, których tak naprawdę nigdy nie powiedzieli. Mimo wszystko to oszustwo nie jest idealne. Można odczuć wrażenie szumu w tle oraz słychać, że powstaje wrażenie sztuczności dźwięku. Nie bacząc na te niedociągnięcia symulacja mowy polityków i tak brzmi przekonująco. Wzmocnienie udawania będzie można jeszcze osiągnąć poprzez wykorzystanie manipulacji twarzy w czasie rzeczywistym.

 

Projekt rodzi jednak etyczne wątpliwości. Jest on porównywany do Photoshopa, ale dla dźwięku. System ten może użyć dowolnych słów głosem dowolnej osoby, których nigdy nie wypowiedziała, co na pewno budzi kontrowersje, szczególnie w świecie polityki.

 

Ludzie zajmujący się Lyrebird na swojej stronie internetowej podkreślili jednak temat dotyczący problemu natury etycznej, wynikający z rozwoju technologicznego. Zespół podkreśla, że imitacja głosu nie jest koniecznie wiarygodna:

 

    „Nagrania głosowe są obecnie uważane za silny dowód w naszych społeczeństwach, a zwłaszcza w jurysdykcjach wielu krajów.” „Nasza technologia kwestionuje słuszność tego dowodu, gdyż pozwala [komuś], by łatwo manipulować nagraniami audio.”

 

 

źródło

 

 

 

 

 

 

 

 

 

 


  • 6



#2

szczyglis.
  • Postów: 1174
  • Tematów: 23
  • Płeć:Mężczyzna
Reputacja znakomita
Reputacja

Napisano

Dzięki za info. Poszperałem trochę na ten temat i to jest super sprawa! Tutaj jest strona całego projektu: https://lyrebird.ai/

Zapisałem się właśnie do beta-testów API i czekam na klucz. Jak dostanę dostęp to Wam wygeneruję zaproszenie na forum paranormalne wymawiane przez Trumpa :D


  • 3



#3

Staniq.

    In principio erat Verbum.

  • Postów: 6631
  • Tematów: 766
  • Płeć:Mężczyzna
  • Artykułów: 28
Reputacja znakomita
Reputacja

Napisano

Ale po Polsku. Obiecujesz?

Kiedyś, pracując jako inżynier dźwięku dostałem zleconko, które wymagało nie lada pracy. Jeden z klientów naszego studia nagrań potrzebował dogrywki do materiału płytowego. W jednym z utworów, na końcu mówi około 2.5 - 3 sekundowy tekst. Dostaliśmy ten tekst nagrany na magnetofonie cyfrowym (wersja kasetowa). Niestety, pomimo włożonego wysiłku, nic z tym nie szło zrobić. Tekst był powiedziany niedbale, źle akcentowany itp. Szumy i dźwięki w tle wyczyściliśmy w godzinę.

Brak dostępu do właściciela głosu (był w dłuuuugiej trasie koncertowej) zmusił nas do ryzyka. Sporo czasu zajęło nam znalezienie człowieka, który mówił z identyczną manierą. Barwa jego głosu odpadała niestety i byliśmy dalej w lesie.

Któregoś wieczora, opijając czyjeś urodziny w studio po kilku szklaneczkach "rudej na myszach" usiadłem z kolegą do materiału i zaczęliśmy go obrabiać, ale analogowo, na equalizerze. Kiedy uzyskany efekt był tuż tuż do oryginału, ciągle brakowało jeszcze czegoś, czego nie mogliśmy uchwycić.

Wtedy z pomocą przyszła obróbka cyfrowa (jeszcze wtedy raczkująca). Obrobione nagranie puściliśmy wolniej od oryginalnego o 0.002 sek. W analogu, głos stałby się grubszy (pamiętają pewnie starsi forumowicze zabawę z płytą gramofonową, jaka była polewka, jak się puściło płytę z nieodpowiednią prędkością), ale cyfrowe opóźnienie tego nie zmieniło, natomiast zmienił się sposób mówienia.

Tym sposobem dokonaliśmy cudu. 

Muzyk zaakceptował materiał na płytę, ale nie wierzył w tą historię. Nie musiał, ważne, że zapłacił za robotę.

 

Powyższą opowiastką chcę przypomnieć i uświadomić, ile pracy wymagała synteza głosu, aby ją upodobnić do oryginału. Prawdopodobnie sposób artykułowania poszczególnych głosek i maniera będą pozwalały odróżnić je od siebie. Tembr głosu, to tylko składowa harmoniczna wielu częstotliwości fali dźwiękowej i akurat to obecnie można podrobić bez większego problemu. Cała reszta to dopiero są schody.

Ciekawym efektów końcowych.





#4

­­ ­­ ­­ ­­ ­­.
  • Postów: 487
  • Tematów: 76
  • Płeć:Mężczyzna
  • Artykułów: 4
Reputacja dobra
Reputacja

Napisano

No to zapowiada się niezłe narzędzie dla troli. Już widzę te liczne przeróbki śmieszków na yt. :)


  • 1

#5

szczyglis.
  • Postów: 1174
  • Tematów: 23
  • Płeć:Mężczyzna
Reputacja znakomita
Reputacja

Napisano

Ale po Polsku. Obiecujesz?
[...]

Staniq, póki co to niczego nie mogę obiecać, bo nie dostałem jeszcze dostępu do bety (czekam na info) i nawet nie wiem jak to jest do końca rozwiązane.
Z tego co jednak wiem, to działa to trochę inaczej, niż takie ręczne kombinowanie, które opisałeś - wymagane są 2 nagrania - jedno własne, w którym zostanie zmodulowany głos i drugie, z którego pobierane są próbki głosu osoby, której głos chce się imitować. Sam algorytm za to zbudowany jest na zasadzie sieci neuronowej (czyli SI), którą uczy się za pomocą próbki nr.2, więc to trochę wyższa szkoła jazdy, niż jakieś equalizery, etc. Do obliczeń udostępniona jest przygotowana pod to chmura obliczeniowa. Tyle wiem na chwilę obecną. Myślę, że jeśli to choć w minimalnym stopniu pozwalać będzie na takie efekty jakie zaprezentowali w demo, to już i tak jest sukces. Autorzy chwalą się, że to taki "photoshop", tyle że do dźwięku.

No to zapowiada się niezłe narzędzie dla troli. Już widzę te liczne przeróbki śmieszków na yt. :)

Khan, na ich stronie jest odrębna zakładka pod tytułem "etyka", gdzie opisane są możliwe "skutki uboczne" wykorzystania tej technologii.

Autorzy zdają sobie sprawę do czego może to posłużyć.


  • 3



#6

Staniq.

    In principio erat Verbum.

  • Postów: 6631
  • Tematów: 766
  • Płeć:Mężczyzna
  • Artykułów: 28
Reputacja znakomita
Reputacja

Napisano

Obecnie elektronika cyfrowa pozwala "podrabiać" głos na podstawie próbek. Niestety nie jest to synteza, lecz podkładanie. Pełna synteza powinna polegać na rozłożeniu próbki na czynniki pierwsze i generowanie tego głosu od nowa. Wspomniałem o składowej harmonicznej, którą jest nawet kilkaset składowych częstotliwości dźwięku generowanych przez nasze struny głosowe i krtań. To nie są tylko dźwięki w formie czystej, ale również szumy i świsty, które budują każdemu indywidualną barwę.

Moc obliczeniowa, która temu podoła musi być olbrzymia.

Ciekawe, jaka ilość próbek będzie potrzebna do syntezy, bo na pewno nie wystarczy jedno, czy dwa zdania, ze względu na powyższe. To wymaga naprawdę skomplikowanego mechanizmu syntezy.

Oby to nie okazało się syntezatorem na miarę lektora do filmów Eva (czy jakoś tak).







Użytkownicy przeglądający ten temat: 1

0 użytkowników, 1 gości oraz 0 użytkowników anonimowych