DeepSpeech
Pamatujete, jak jsem si nedávno povzdychl, že ve světě svobodného softwaru není žádný dobrý a okamžitě použitelný program pro syntézu řeči? Mozilla vyslyšela moje volání s projektem DeepSpeech. Mozilla na nás všechny myslí, Mozilla nás zachrání, Mozille záleží na internetu a internetových svobodách.
Tedy ne tak úplně. Nevyslyšela mě v tom okamžiku, protože jde o projekt, který běží už mnoho měsíců. Navíc jde o druhou stránku zvuko-textové mince. DeepSpeech převádí hlas na text, ne naopak. Ale co? Je to open source a zlobit se nebudu. Mozilla má hlavní komponentu každého programu založeného na strojovém učení – korpus mluvené řeči Common Voice, který můžou použít pro vývoj plánovaného budoucího text-to-speech programu (nevím přesně, ale z mého hluboce diletantského pohledu, mi připadá, že by to tak mohlo být).
K DeepSpeech mě dovedlo hledání svobodných STT programů po shlédnutí videa, ve kterém přednášející ukazuje programování bez klávesnice jen vlastním hlasem. Bylo to docela poutavé & aspoň na chvíli jsem uznal, že by se někdy hodilo mít možnost ovládat počítač STT stylem nebo diktovat poznámky (bez přítomnosti alexy, siri a podobných botnetů). Tak tedy: Jak DeepSpeech funguje? Umožňuje tohle všechno?
Asi takhle: Dodávané modely jsou natrénované pro americkou angličtinu a na ukázkách funguje velice dobře. Mě se ale nepodařilo, aby přeložily jedinou mojí větu dobře. Moc se tomu popravdě nedivím. Nejsem rozený mluvčí & navíc mi má problém porozumět většina živých lidí (Chci být víc jako Hunter S. Thompson: Mumlání jako první, drogy jako druhé, žurnalistická briliance se jistě brzy dostaví).
Takže zatím ne, ale jsme na dobré cestě. Za projektem stojí Mozilla, které na svobodném softwaru záleží a svobodný STT a TTS progam je důležitý krok, jak se zbavit jha silicon valley.
+1: Dodatek 8/2021: Vývojový TTS balík od Mozilly existuje, je to trochu otravné to rozchodit a zvolit ty správné modely, ale mluví to. Anglicky, ale krásně.