Поддержать команду Зеркала
Беларусы на войне
  1. Прочитали новую работу пропагандистов: похоже, Россия готовится к войне с Литвой. Чем это опасно для нас — рассказываем
  2. Почему Лукашенко резко сменил вице-премьера, хотя с назначения прежнего не прошло и трех месяцев? Спросили у аналитиков
  3. У Лукашенко кадровый четверг. Наталья Петкевич назначена вице-премьером, Караник возглавил Академию наук
  4. Если Лукашенко уйдет, Беларусь возглавят силовики? Или его семья? Появилось новое исследование о вероятных преемниках политика — рассказываем
  5. Чиновники ввели новшества для рынка труда, а теперь грозят «административкой» тем, кто нарушит новые правила
  6. На границе Беларуси и Украины проходит крупнейший обмен пленными — 1000 на 1000
  7. «Чудес не будет». Экс-главком ВСУ заявил, что Украина не сможет вернуть границы 1991 года
  8. В Ельске школьница умерла в больнице — ей было 14 лет. Следственный комитет пугает комментаторов
  9. Авторынок Беларуси получил удар с той стороны, с которой явно не ожидали. Насколько это существенно для нашей страны
  10. КГК бьет тревогу: в одной из сфер вузам сильно не хватает абитуриентов. Вот что узнало «Зеркало» из закрытых документов
  11. Помните громкое «дело семнадцати» о крупной наркосети, которую прикрывали сотрудники КГБ и ГУБОПиК? Узнали, как сложилась их судьба
  12. КС опубликовал официальное заявление в связи с исчезновением Анжелики Мельниковой
  13. Polityka: У пропавшей Мельниковой был роман с женатым агентом беларусских спецслужб, они вместе летали на отдых
  14. Москва снова ставит под сомнение независимость Украины и Беларуси. Эксперты рассказали, что это может означать
  15. В МВД отправили петицию против въезда в Беларусь 150 тысяч пакистанцев. Что ответили силовики
  16. Стало известно, где и когда могут пройти следующие переговоры между Украиной и Россией — WSJ


Когда выяснилось, что ChatGPT-4o умеет слышать и отвечать на беларусском, взыскательные беларусы начали экзаменовать новую модель. Пока одни умиляются, что она вообще распознает обращенную к ней речь как беларусскую и отвечает на том же языке, другие стыдят ее за неправильное произношение. И все разом замечают у ChatGPT дивный американский акцент. А откуда он вообще мог взяться? Devby.io cпросил у ML-инженера Арсения Кравченко и компьютерного лингвиста Александра Пиперски.

@devby.media

Chat GPT гаворыць па-беларуску! Але ёсць нюанс — з сакавітым амерыканскім акцэнтам. Вось як гэта гучыць 🤪️️️️️️

♬ оригинальный звук — dev.by

Как это устроено

Для начала попытались понять, как вообще устроено произношение в ChatGPT-4o. Это простая озвучка письменной речи — такая же, как, допустим, в Google Translate?

Нет, не соглашается Арсений Кравченко и отсылает к комментарию самой OpenAI. Разработчики объясняют, что последовательность аудио — текст — аудио использовалась раньше. Для этого в голосовом режиме сопрягались три модели: одна транскрибировала голос в текст, другая, собственно GPT-3.5 или GPT-4, принимала текст на вход и возвращала тоже текст, а третья преобразовывала этот текст снова в аудио. Все это требовало от нейронки времени и энергии (на самом деле терялось много информации), сил на смех и эмоции якобы просто не оставалось. В новой модели все иначе — она процессит текст, аудио и картинки одновременно в одной и той же нейросети. В результате умеет и интонировать, и даже петь.

— То есть раньше speech2text, LLM и text2speech были отдельными кусками, а сейчас все живет в одной модели, — итожит Арсений.

— Это значит, что модель генерирует сразу звучание? А что тогда является токеном — не буква, а звук? Или где-то внутри модели все же есть прокладка-текст?

— Да, модель генерит сразу звук, а токены могут быть разные, и они все «нативны». Текста внутри нет — есть векторное представление. То есть на вход поступает разное (например, текст, картинки, звук), оно токенизируется (превращается в векторы), потом происходит хитрое матричное умножение, потом — декодинг, то есть, по сути, обратная токенизация (а вот ее детали OpenAI не раскрывает, насколько мне известно).

— Откуда в беларусской озвучке американский акцент?

— Предположу, что просто английского датасета в тренировке было настолько больше, что всем редким языкам (не только беларусскому) достаются его артефакты.

— Эта тренировка происходит по всем языкам одновременно или по каждому в отдельности?

— Наверняка неизвестно, но подозреваю, что на всех одновременно.

— А откуда машина берет датасет — учится только на том, что ей дают, или, может, сама находит в сети?

— На том, что дают разработчики. Где-то в подготовке правильного датасета скрыто много крутых секретов.

— Значит, рецепт «заливаем в сеть побольше качественного аудиоконтента на белмове, и ИИ начинает говорить чистенько» — вряд ли сработает? По крайней мере, не сработает напрямую?

— Само в лоб не сработает.

А что сработает?

Между тем OpenAI приглашает всех желающих поучаствовать в обучении, отсылая свои аудиоклипы в систему автоматического распознавания речи Whisper API. Разработчики утверждают, что система обучена на 680 000 часов разноязычных данных из интернета, при этом только около трети датасета не на английском. Но, кажется, ваше согласие на использование аудио в тренировке не гарантирует, что его не забракуют.

В то же время блогеры для обучения ChatGPT беларусскому языку советуют пополнять базу шаблонов CommonVoice Mozilla.

Фото: @pikoshyk / X
Фото: @pikoshyk / X

Датасет не виноват? Что думает лингвист

Компьютерный лингвист Александр Пиперски считает, что вопрос об английском акценте нейросети интересен прежде всего в социолингвистическом плане. И дело не в объеме беларусского датасета, а в том, насколько разработчики вообще (не) заморочены на акценте.

— На русском ChatGPT-4o тоже говорит с явным американском акцентом, хотя в этом случае уж точно нет проблем с ресурсами для обучения. Да и на беларусском бы их не было — можно найти достаточно обучающих данных.

Но дело в том, что разработчики ChatGPT живут в англоязычном мире, где отношение к фонетическому разнообразию другое, чем в беларусском или в русском: для них акцент, по которому легко опознается происхождение говорящего — это не что-то неправильное, от чего надо как можно скорее избавиться, а естественное положение вещей. Соответственно, разработчики понимают, что американский акцент у их голосов в разных языках есть, но не осознают, какое сильное раздражение это у нас вызывает, и не ставят перед собой цели немедленно с этим бороться.

На самом деле, даже то видео, которое вы мне прислали (на нем у ChatGPT спрашивают про известных беларусских твиттер-юзеров. — Прим. ред.), показывает, что ситуация взаимодействия разных языков еще сложнее. Мы хотели бы, чтобы в беларусском не было американского акцента, но при этом мы ожидаем беларусский акцент в английских вставках в беларусский текст: даже если написано Twitter латинскими буквами, надо говорить тўітар/тўітэр/твітар/твітэр/… — варианты могут быть разные, но точно не Twitter с полноценным американским произношением. А, например, по-немецки такие вставки сохраняют произношение языка-источника. В общем, есть еще что совершенствовать даже в таких мелочах.

Читайте также на devby.io:

Как найти работу с помощью ChatGPT. Лайфхак от Марины Хомич

Собрали базовые курсы по ChatGPT и Midjourney, чтобы разобраться, заработать и облегчить жизнь

«Жить стало проще и веселее». Как айтишники используют ChatGPT с пользой в работе и дома