Предложена эффективная технология распознавания речи по губам

Предложена эффективная технология распознавания речи по губам

Специалисты по компьютерным технологиям представили новый алгоритм чтения по губам. Система улучшает способности машины различать звуки, артикуляция которых практически неотличима — например, "п", "б", "м". Об этом сообщается в издании IEEE Spectrum.

Проблема расшифровки речи по губам заключается в том, что рот человека при разговоре принимает от 10 до 14 форм (так называемые висемы), а значимых звуков (фонем) в языках Земли — около 50. То есть, одна висема соответствует нескольким фонемам.

Чтобы обойти это препятствие, ученые поставили перед компьютером две задачи. Сначала он привязывает висему ко всем ее фонемам. На втором этапе машина просматривает записи разговаривающих на камеру людей и учится различать фонемы, связанные с каждой висемой.

Источник: Футурист.ру
Фото: vecteezy.com

Комментарии