Читать не надо слушать: запускаем распознавание голосовых сообщений
Столько мемов о том, как все не любят голосовые! А кто эти 30 миллионов пользователей, которые записывают аудиосообщения? Признавайтесь 🙂 Для сравнения: это почти треть тех, кто активно пользуется ВКонтакте каждый месяц.
Понимаем представителей обеих сторон. Голосовые сообщения любят за скорость — в дороге, например, удобнее говорить, а не писать. Ещё аудио ценят за особый уровень близости: они передают интонации, акценты, эмоции — почти как живой разговор. Но есть и минусы: например, запись не послушаешь во время звонка или встречи, наушники не всегда под рукой, а нужную информацию сложно найти в переписке.
Мирим два лагеря с помощью искусственного интеллекта: наши разработчики создали совершенно новую технологию распознавания голосовых сообщений — вы уже можете её попробовать в приложении VK. Расскажем подробнее, как она работает.
Что умеет новая технология?
Она расшифровывает голосовые сообщения длительностью до 30 секунд. Нажмите на кнопку с буквами рядом с аудио — и увидите текст. Нейросеть даже расставляет знаки препинания!
Более того, голосовые теперь учитываются при поиске: если в аудио есть фраза, которую вы ищете, запись покажется в списке найденного вместе с текстовыми сообщениями.
Как работает распознавание голосовых?
Расскажем в общих чертах о жизни каждого голосового сообщения. После того, как вы его запишете и отправите, аудио попадёт на сервер — там хранится модель, которую мы используем для распознавания. Запись обрабатывается тремя нейросетями и возвращается в переписку в виде текста.
Почему нейросети три? Одна отвечает за распознавание речи, вторая находит подходящие слова, а третья расставляет знаки препинания. Так вы увидите в расшифровке связный текст.
Как видите, распознавание полностью автоматизировано. У сотрудников ВКонтакте и любых других сторонних лиц нет доступа к вашим личным сообщениям: как голосовым, так и текстовым.
Чем технология ВКонтакте отличается от других?
Мы создали собственную технологию, чтобы учесть все особенности ВКонтакте.
Высокая нагрузка
Каждый день серверы ВКонтакте обрабатывают сотни миллионов голосовых сообщений разной длительности, качества и наполнения. Всё это создаёт огромную нагрузку — и ни одно из существующих решений для речи на русском языке не могло с ней совладать.
Условия общения
С друзьями в чате общаются совсем не так, как с голосовыми помощниками: сообщения записываются на бегу с посторонними шумами, большим количеством сленга и сокращений.
Наша нейросеть готова ко всем трудностям. Гул толпы, лай собаки, смех друзей или музыка на фоне не помешают распознать аудио, а модные словечки или вырвавшееся на эмоциях ругательство сохранятся и в тексте.
Как модель обучалась?
Чтобы познакомить модель со сленгом, участники программы VK Testers записывают специально подготовленные фразы. Из них алгоритмы и запоминают новые слова.
Нейросеть, которая отвечает за пунктуацию, обучается на субтитрах фильмов и текстах русской классической литературы. Она проанализировала миллионы строк, чтобы правильно расставить запятые в вашем «Слушай, купи, пожалуйста, огурцы и молоко».
Также тестировщики оценивали каждое расшифрованное сообщение. Мы изучали эту информацию, чтобы понять, хорошо ли нейросети справляются со своей работой. И выяснили, что большинству результат распознавания нравится.
Однако искусственный интеллект в чём-то похож на человека: иногда ошибается, но становится лучше, если его обучать. Этим мы не перестаём заниматься. Так что со временем качество расшифровки будет становиться всё выше.
Почему распознаются только аудио до 30 секунд?
Это 90% от всех голосовых сообщений, которые записывают ВКонтакте. Так что мы начали с самого популярного, а в будущем распознавание станет доступно и для более длинных аудио.
Какие планы?
Функция появится ещё и в версии для компьютера, а расшифровывать можно будет как более длинные, так и пересланные сообщения.
Не хотите слушать голосовое? Не нужно, прочитайте его. Хотите записать? Записывайте, не боясь, что собеседник занят. Распознавание голосовых делает мир добрее, а наше отношение друг к другу теплее. Будьте собой и общайтесь как нравится!
Как прослушать голосовое сообщение: все операторы
Прослушать голосовое сообщение на своем телефоне можно довольно просто, причем неважно Андроид это, Айфон или просто кнопочный мобильный.
У каждого оператора сотовой связи, предоставляющего такую услугу, есть свой определенный номер, позвонив на который можно проиграть все такие сообщения.
Прошлый материал был посвящен тому, что такое ГЛОНАСС, там мы подробно рассмотрели эту спутниковую систему. Сейчас мы не менее подробно разберем, как прослушать голосовое сообщение на телефоне с МТС, ТЕЛЕ2, Мегафон или Билайн.
Интересно! Вышеперечисленные операторы, кроме мегафона и билайн, предоставляют услугу голосовой почты абсолютно бесплатно и уже настроенной. Поэтому она должна работать сразу, как только вы приобрели и активировали СИМ карту. В других же случаях, подключать ее придется самостоятельно.
Как прослушать голосовое сообщение на телефоне
Обычно, после того, как вам оставили сообщение в голосовой почте — должно прийти СМС об этом. Там будет номер телефона, по которому нужно позвонить, чтобы прослушать, что вам оставили. Но, в некоторых случаях такое СМС не приходит и нужно узнавать этот номер самому.
Подключить или отключить услугу вы всегда можете через официальное приложение своего оператора, набрав специальный код, или позвонив в службу технической поддержки клиентов. Специальные коды мы рассмотри ниже.
Важно! Так как условия использования и возможные характеристики / функции, которые закладывает оператор связи в эту услугу постоянно меняются. В материале будут ссылки на официальный сайт каждого оператора, чтобы вы могли всегда посмотреть только актуальную информацию по этой услуге, что она в себя включает, как ее подключить или отключить.
Интересно! Услуга действительно удобная, но в России для многих не пользуется большой популярностью, так как проще перезвонить звонившему абоненту и поговорить вживую, а не слушать, что вам наговорили ранее.
Как прослушать голосовое сообщение МТС
Номер для прослушивания почты: 0860
Как прослушать голосовое сообщение ТЕЛЕ2
Как прослушать голосовое сообщение Мегафон
В мегафоне такая опция называется «Кто звонил» и она платная. Поэтому вначале перейдите по ссылке ниже и ознакомьтесь с информацией о том, сколько на данный момент она стоит.
Номер для прослушивания почты: 0525
Как прослушать голосовое сообщение Билайн
Билайн также предоставляет свою услугу на платной основе и называется она у него «Автоответчик». Прежде чем подключать ее, ознакомьтесь с предложением на официальном сайте по ссылке ниже.
Номер для прослушивания почты: 0600
Интересно! Также у вашего оператора может быть отдельное приложение или инструкция, как настроить опцию на работу с iPhone или Android. Смотрите эту информацию так же на официальном сайте.
В некоторых случаях, если вы довольно часто пользуетесь этой опцией, можно подключить расширенный пакет, который будет давать больше возможностей и само время хранения таких сообщений будет куда дольше.
В заключение
В любом случае, если вам действительно нужная такая опция, то ее стоит несомненно подключить и использовать. Так вы всегда сможете прослушать то, что вам хотели сказать, хоть и позже.
Как прослушать голосовое сообщение на Теле2
Описание сервиса
Многие современные абоненты уже оценили пользу сервиса «Голосовая почта». Благодаря этой услуге, пользователи, которые пытаются вам дозвониться, когда телефон находиться вне зоны действия сети или попросту выключен, имеют возможность оставить вам звуковое послание.
Вы в свою очередь становитесь владельцем собственного звукового почтового ящика, в котором сможете впоследствии прослушивать все послания в удобное для вас время.
Отдельное внимание стоит уделить стоимости сервиса. Телесистема Теле2, в отличие от других российских сотовых поставщиков, предоставляет данную опцию полностью бесплатно. Важно, что ни за активацию мобильного сервиса, ни за его использование, абонплата с пользователя не взимается.
Именно благодаря этому обстоятельству, звуковая опция Теле2 пользуется большой популярностью у абонентов. Ещё бы, ведь за весь арсенал опций которые включает услуга ни нужно платить ни копейки.
Специально активировать опцию ненужно, ведь по умолчанию она уже подключена к каждому тарифу мобильного оператора. Однако в случае, если каким-то образом вы смогли нечаянно её деактивировать, можно довольно просто подключить её обратно.
Для этих целей можно воспользоваться несколькими способами:
В независимости от того, какой из методов активации вы выбрали, сервис будет включён на вашей сим-карте в течение двух минут, о чём вы будете проинформированы в СМС формате.
Если по каким-то причинам вы решите отказаться от удобного сервиса, то сделать это можно также двумя способами:
Как прослушать голосовое сообщение?
Чтобы прослушать голосовое сообщение Теле2 на телефоне, ни нужно знать каких-то специальных USSD команд, что-то подключать или заказывать. Чтобы прослушать послание достаточно просто зайти в раздел звукового меню, которое можно вызвать, набрав номер 600. Указанный номер для чтения сообщений, работает только в домашней сети.
Если говорить о том, сколько стоит прослушать послание, то оплата звонков будет зависеть от тарифного плана, который работает на вашей сим-карте. Как уже говорилось в описании, сервис не обременён абонплатой. И к тому же при помощи его, абонент может не только всегда оставаться на связи, но и сможет просматривать почту и проверять свой мобильный баланс.
После того как абонент наберёт одну из выше указанных цифровых комбинаций, он моментально будет перенаправлен в меню услуги. Здесь пользователь может узнать о состоянии своего счёта и прослушать оставленные записи. Что касается клавиш, то здесь всё достаточно просто:
В меню существуют и другие клавиши, о них мы вам расскажем чуть ниже в блоке «Управление». Важно знать, что уведомления хранятся в голосовой почте не дольше 20 календарных дней. Поэтому нужно успеть прочитать их в указанный промежуток времени, так как по истечению 20 суток, СМС будут удалены из ящика безвозвратно.
Как прослушать голосовое сообщение через интернет?
На просторах Всемирной паутины всё чаще можно встретить вопрос, как прослушать голосовые сообщения на Теле2 через интернет? Такие вопросы зачастую возникают, когда на прослушивание звонка на голосовом ящике через меню услуги попросту нет средств. Но к сожалению голосовые записи с автоответчика Теле2 можно прослушать только посредством набора вышеуказанных номеров.
Возможности слушать и просматривать звуковые уведомления при помощи интернета или отправки СМС, на данный момент мобильный оператор не предусматривает.
Условия использования услуги
Управление сервисом
Эта уникальная опция позволяет абонентам Теле2 оставаться на связи, даже когда их телефон находиться вне зоны действия или выключен. Однако используя сервис важно следить за временем, ведь при превышении временного лимита в 30 секунд, голосовое сообщение попросту не удастся отправить.
Сразу после того как абонент, которому предназначалось послание окажется в зоне досягаемости или попросту включит телефон, система проинформирует его о поступлении нового письма. А также в уведомлении будет указано время, дата и номер собеседника, оставившего звуковое письмо.
Как и в любом другом мобильном сервисе, «Голосовая почта» Теле2 имеет свою систему управления. Разобраться в меню услуги сможет любой абонент, ведь все манипуляции по управлению здесь представлены в виде однозначного числа:
А также пользователи могут записать собственное приветствие. А это значит, что у каждого клиента телесистемы есть возможность сделать свой почтовый ящик уникальным. Для того чтобы записать приветствие необходимо перейти в одноимённый раздел услуги и проделать несложные действия.
Сам алгоритм записи выполняется следующим образом:
Наберите один из указанных номеров, и оказавшись в меню услуги нажмите – #1. Сразу после этого вы попадёте в настройки функции. Здесь также перед вами появятся однозначные цифры, при помощи которых вы и сможете записать своё приветственное письмо:
Голосовая почта МТС
Услуга голосовой почты позволяет не пропустить важное сообщение, когда вы разговариваете по другой линии или не можете ответить на звонок — звонящий вам абонент получает возможность оставить голосовое сообщение, которое вы сможете прослушать, как только освободитесь.
МТС предлагает подключить как бесплатную голосовую почту с базовым функционалом, так и расширенные платные версии этой услуги.
Прослушать голосовое сообщение абоненты МТС могут по единому номеру 0860.
Ниже описаны виды голосовой почты МТС. Важно помнить, что все три услуги являются взаимоисключающими. Это значит, что в один момент времени может быть подключена только одна из них. При переключении между услугами сначала самостоятельно отключите действующую, а потом подключите новую. При этом вся хранящаяся в ящике голосовой почты информация будет стерта.
Базовая голосовая почта
Это бесплатная услуга с базовым, но вполне достаточным для большинства, набором функций.
— Хранение непрослушанных и прослушанных сообщений — 1 день.
— Максимальная длина сообщения — 60 сек..
— Ограничение числа сообщений на одного абонента — 15.
— Настройка условий срабатывания (по неответу, по занятости и т.д.).
— Прослушать можно через телефон.
Подключение — команда *111*2919# (наберите эту комбинацию и нажмите «Вызов»).
Отключение — команда *111*2919*2#.
Тариф «Весь МТС»
Бесплатная мобильная связь при подключении домашнего интернета. Первый месяц — в подарок!
Важно
— При подключении базовой версии голосовой почты перестают работать опции «Запрет услуги „Я на связи“» и «Вам звонили». Однако чтобы за них не списывалась абонентская плата, нужно их самостоятельно отключить.
— При включении услуги бесплатной голосовой почты автоматически подключается опция «Голосовая почта: ограничение переадресации в роуминге». Она приостанавливает работу голосовой почты в международном роуминге.
— Подключить опцию могут все абоненты мобильной связи МТС, за исключением тех, кто обслуживается по тарифам «МТС Коннект», «Онлайнер», «МТС iPad» и всех вариантов этих тарифных планов, «Бизнес-Коннект», «Коннект. Нетбук» и их модификаций.
— У абонентов с тарифами Smart mini, Smart, Smart+, Smart Безлимитище услуга подключена по умолчанию.
Как подключить
— Наберите на телефоне *111*2919# и нажмите кнопку вызова.
— Отправьте SMS с текстом 2919 на номер 111.
— Воспользуйтесь Личным кабинетом или приложением «Мой МТС».
Как отключить
— Наберите *111*2919*2# и нажмите «Вызов».
— Отправьте SMS с текстом 29190 на номер 111.
— Через Личный кабинет/приложение «Мой МТС».
Дополнительные настройки
По умолчанию опция будет срабатывать, если телефон недоступен или выключен. Однако вы можете самостоятельно настроить переключение на голосовую почту, если ваш телефон занят либо вы долго не берете трубку. Для этого воспользуйтесь следующими командами.
«Не отвечает»: включение **61*+79122410861#, проверка *#61#, выключение ##61#.
«Занято»: включение: **67*+79122410861#, проверка *#67#, выключение ##67#.
Сброс всех настроек: ##002#
Как прослушать
Для прослушивания голосового сообщения наберите короткий номер 0861 (для звонков по России). Если вы находитесь в международном роуминге, используйте номер +79122410861.
Также вы можете прослушать сообщение по ссылке, которая указана в SMS-оповещении о новом голосовом сообщении. Если перейти по этой ссылке, вы не только сможете услышать, но и сохранить аудио-файл. Эта опция работает через интернет, поэтому расходуется трафик согласно вашему тарифу. Если сообщение не загружается, отключите режим экономии трафика на своем телефоне.
Ограничение переадресации в роуминге
Прослушивание голосовых сообщений — бесплатно при нахождении в домашнем регионе, но при работающем роуминге тарифицируется как исходящий звонок на номер МТС. Поэтому при нахождении за границей рекомендуем вам подключить услугу «Ограничение переадресации в роуминге», и пока вы в отъезде, голосовая почта срабатывать не будет. Для включения наберите *111*92#. Имейте в виду, что услуга уже может быть подключена, и если вам необходимо получать сообщения, находясь в роуминге, отключите ограничение: *111*9220#.
Тариф «Мы МТС+»
Связь для большой семьи — интернет, ТВ и мобильная связь до 5 SIM в одном тарифе «Мы МТС+». Первый месяц — бесплатно, в подарок — подписка на мобильное МТСТВ, скидки на антивирусы и другие бонусы.
Как и зачем определять голосовую почту
Что за «бесплатные звонки»?
Телефония уже довольно старая область, со многими «исторически сложившимися» штуками и техническими решениями двадцатилетней давности. Например, монетизация: оператор «А» платит оператору «Б» за время звонка на телефонный номер, обслуживаемый оператором «Б». «Все входящие бесплатно!» — это отсюда. Операторы получают деньги за то, что их абонентам звонят. Помню, раньше были даже тарифы, где за входящие доплачивали!
У такого решения есть плюсы и минусы. Если входящих и исходящих звонков примерно поровну — то «никто никому не должен». Больше входящих звонков — оператор зарабатывает деньги. Больше исходящих — тратит. Операторы хотят зарабатывать, поэтому всеми силами стараются максимизировать входящие и минимизировать исходящие. Одним из таких механизмов минимизации трат является договоренность об «Early Media».
Early Media — когда абонент не абонент
Что происходит, когда абонент «А» со своего сотового телефона звонит абоненту «Б», у которого тоже сотовый телефон? Много всего происходит, но если максимально упростить, то оператор «А» по текстовому протоколу SIP отправляет оператору «Б» запрос на звонок, а тот начинает через вышки искать абонента «Б» (на самом деле по SS7 поверх PRI, но не будем о грустном). Чтобы у абонента «А» в это время не было тишины в трубке и можно было продавать всякие «замени гудок», операторы договорились о состоянии «Early Media»: пока оператор «Б» ищет своего абонента, он может по SIP ответить «early media» и начать передавать звук по протоколу RTP. Гудки, музыку или «извините, абонент не абонент».
Также операторы договорились, что «early media» не будет тарифицироваться как входящий звонок, оператор «А» не платит оператору «Б» за эту музыку или гудки. А чтобы никто не читерил, еще договорились в состоянии «early media» звук отдавать только в сторону звонящего и обрывать такой звонок через 60 секунд. Хотя и при таких ограничениях находятся умельцы, делающие что-нибудь полезное в early media на «бесплатных» 8-800-, но это отдельная история. А наша история о голосовой почте.
Голосовая почта как «честный» способ взять деньги
Если оператор не нашел своего абонента — то он не заработал на входящем звонке денег. Телеком-операторы, как и любые коммерческие организации, деньги зарабатывать любят, поэтому была придумана гениальная «голосовая почта». Фраза «оставьте сообщение после сигнала» дает принимающему оператору возможность «принять» звонок даже когда абонент не доступен. Честно куда-нибудь записать 20 секунд тишины и, главное, взять за это деньги со звонящего оператора. Самые хитрые даже не ждут «пииип» и сразу принимают звонок — чего деньги терять?
Что человеку никак — то роботу беда-печалька
Абонентам сотовой связи голосовая почта, как правило, никак. Лично для меня нет разницы, будет в трубке сказано «абонент временно недоступен» или «абонент временно недоступен, оставьте ваше сообщение после сигнала». Я, как и все мои знакомые, повешу трубку на слове «недоступен». А какие копейки при этом один оператор заплатит другому за такой звонок — мне не очень интересно.
Совсем другое дело, если я Voximplant и на базе нашей платформы делается автоматическое подтверждение заказа в интернет-магазине. Early media у нас так же бесплатны, а вот за голосовую почту деньги будут уходить со счета клиента по расценкам того оператора, на телефон которого совершался звонок. Сумма сама по себе маленькая, но умножаем на тысячи или десятки тысяч звонков в день — и уже не такая маленькая.
А ведь автоматика не ограничивается «позвонить после того, как покупатель нажал кнопку „купить“ на веб странице ритейлера и предложить нажать единичку или сказать „подтверждаю“, чтобы подтвердить заказ». Есть автоматические нотификации о, например, билете на концерт. Статистика показывает, что абоненту был звонок и он прослушал сообщение — а на самом деле сообщение «прослушала» голосовая почта. Или еще хуже: автоматика обзванивает клиентов чтобы, к примеру, обсудить условия заказанной уборки дома. Клиенту она синтезирует «привет, это робот такой-то компании, звоню по поводу заказанной уборки, соединяю с оператором», оператору синтезирует «дозвонились до такого-то клиента» и показывает карточку заказа в CRM, а дальше оператор 20 секунд разговаривает с тишиной в голосовой почте.
Первые попытки определить голосовую почту
Автоматикой телефонных и видеозвонков мы занимаемся давно, так что задачу определять голосовую почту начали решать несколько лет назад. Что общего у всех голосовых почт? У них у всех есть «пи-и-и-и-и», которое между «оставьте ваше сообщение после сигнала» и переводом звонка из «early media» в «accepted». Плохая новость — «п-и-и-и-и» у всех разное. Один гудок, несколько, на одной частоте, на двух, разной длительности и частоты. Более того — операторы любят этот «пи-и-и-и-и» время от времени менять. Интересно, зачем.
Первая наша реализация использовала Алгоритм Гёрцеля для вычисления «несущей» частоты и эвристику, чтобы по появлению частоты в аудиопотоке распознать звуковой сигнал голосовой почты. Увы, этот метод, хотя и работал, обладал серьезными недостатками. Если оператор менял паттерн звукового сигнала — то эвристика «ломалась» и нам нужно было вручную ее обновлять под новое «пиу-пиу-пи-пи-пи». Гораздо хуже были ложные срабатывания: «хитрые» сигналы сразу на двух частотах были трудно отличимы от человеческого голоса и показывали голосовую почту там, где на самом деле отвечал живой человек. Клиенты хотели надежности.
Deep Learning. Везде Deep Learning
Потерпев неудачу с обычной математикой, мы решили, что надо попробовать перемножать матрицы. Ведь это не просто математика, а Deep Learning и Artificial Intelligence! Был установлен TensorFlow и закипела работа: записи разговоров и голосовых почт скармливались разным моделям в надежде, что они найдут невидимые нам паттерны: характерные временные задержки, ровная интонация, определенный набор слов, всё вот это.
Первая же проблема случилась с данными: даже несколько секунд голоса с «телефонной» частотой в 8 килогерц — это десятки тысяч значений. А чем сложнее данные, на которых мы обучаем нейросеть, тем больше этих данных нужно для адекватного результата. Чтобы обучить нейросеть на «сырых» данных, нам бы потребовались размеченные записи миллионов звонков.
Поэтому данные нужно было обработать. Мы подключили к Python специфичные телеком-библиотеки, написанные на С/C++ и реализующие логику работы с голосом: шумоподавление, эхоподавление, выделение несущей и многие другие. После обработки запись превращалась в набор параметров, на которых уже обучалась нейросеть.
Результат сразу стал гораздо веселее, и следующие полгода мы играли в IT-алхимиков: подбирали модель, варианты обработки входных данных и результатов применения модели, чтобы в результате по нескольким секундам записи определять голосовую почту. Результат получился очень хорошим — теперь достаточно безэмоционально начать разговор с фразы «Абонент временно недоступен», чтобы получить нотификацию о том, что скорее всего на другой стороне трубки голосовая почта. А что дальше делать с полученной информацией каждый клиент решает сам в облачном JavaScript. Для программиста использование детектора выглядит вот так:
Машинное обучение — хорошая штука, когда задача трудно формализуема «обычной» математикой и if-ами. Но готовьтесь поиграть в алхимика: подготовка данных, выбор модели для нейросети и интерпретация результатов — это те области, где пока мало «best practice» и можно потратить месяцы, если не годы, на подбор работающего решения.
А еще вам потребуются размеченные данные. Много размеченных данных. Очень много размеченных данных. Но это уже тема для отдельного поста.















