АрмИнфо. Программисты из Армении создали сервис, который убирает посторонние звуки во время звонков через Skype, Slack и другие VoIP-сервисы, сообщает интернет-ресурс vc.ru. С помощью нейросетей Krisp определяет раздражающие шумы (вроде плача ребёнка или шуршания бумаги) и в реальном времени вырезает их из аудиопотока. Krisp — продукт компании 2Hz, которую в 2017 году основали два друга: Давит Багдасарян и Артавазд Минасян.
Пользователь может выбрать, какие шумы блокировать: входящие или исходящие. Первый способ подходит для ситуаций, когда собеседник (или собеседники) находится на оживлённой улице. Второй — когда пользователь хочет скрыть своё окружение. Например, если звонок застал его в кофейне по пути на работу. Приложение способно различать и подавлять такие звуки, как шум улицы, кафе или аэропорта, детский плач, шуршание бумаги, стук клавиш и многие другие.
Как говорится в статье, Давит Багдасарян со студенческих лет он работал в аутсорс-компаниях, которые создавали ИТ-продукты для зарубежных клиентов — в том числе из США. Одним из таких заказчиков была компания Validity Sensors, которая выпускала сканеры отпечатков пальцев для ноутбуков и смартфонов. В 2008 году руководство предложило Багдасаряну переехать в США и возглавить департамент информационной безопасности.
В 2016 году Багдасарян устроился в компанию Twilio, которая разрабатывает API для корпоративных коммуникаций. С помощью ПО Twilio компании могут принимать и совершать звонки, а также отправлять и принимать SMS. Например, Uber использует Twilio для звонков между пассажирами и водителями. «Мы постоянно ломали голову — как улучшить качество аудио. Чаще всего звук ухудшался именно из-за шума на заднем плане», — вспоминает Багдасарян, - «Окей, это классическая проблема, которую может решить машинное обучение. Нужно научить нейросеть, что есть шум, а что — человеческий голос, и разделить их. Мне было любопытно — почему никто ещё не решил её». В конце 2016 года Багдасарян рассказал об этой идее своему приятелю, доктору математических наук Артавазду Минасяну. К тому времени у него уже было несколько компаний в ИТ-сфере. Кроме того, он как раз искал интересные проекты в сфере машинного обучения. Минасян начал изучать, как можно реализовать идею, и привлёк знакомого математика Степана Саргсяна (сейчас он главный научный сотрудник 2Hz).
Осенью 2017 года Багдасарян окончательно решил переехать всей семьёй в Армению. Через несколько недель после возвращения они вместе с Минасяном открыли 2Hz.
Первые несколько месяцев партнёры посвятили разработке технологии шумоподавления (приложение Krisp появилось только спустя полгода) и для этого подобрали команду исследователей. «Среди наших сотрудников было шесть докторов наук. И так получилось, что я оказался единственным членом команды без докторской степени», — вспоминает Багдасарян. Компании требовалось разработать эффективные алгоритмы, которые могли бы в режиме реального времени вырезать посторонние звуки из аудио. Для этого им пришлось решить ряд инженерных задач. При естественном разговоре задержка между передачей речи не должна превышать 200 миллисекунд. Если нейросеть не успеет обработать аудио за это время, общение станет проблематичным. Команде 2Hz потребовалось несколько месяцев на поиск оптимального сочетания между качеством шумоподавления и быстродействием. «Мы тогда сами не совсем отчётливо понимали, во что ввязываемся.У нас тогда не было экспертов в команде, только математики. Но с другой стороны, если бы мы знали, что нас ждёт впереди, то могли бы испугаться и сдаться», - говорит Багдасарян.
В итоге компания разработала технологию, которая позволяет не только убирать шумы, но улучшать качество звука: автоматически заполнять прерывания, регулировать громкость и увеличивать частоту дискретизации. Все вычисления происходят за 15 миллисекунд. При этом, согласно спецификации, для вычислений в реальном времени минимальная частота процессора должна быть больше 200 МГц. Тактовая частота процессоров, которые используются в современных смартфонах, гораздо выше. У Qualcomm 845 (применяется в Google Pixel 3, Samsung Galaxy Note 9, Xiaomi Mi Mix3) по четыре ядра с частотой 2,8 ГГц и 1,8 ГГц.
Багдасарян думал, что как только команда разработает алгоритм — к 2Hz выстроится очередь из клиентов, желающих приобрести технологию. Однако этого не произошло. «Сейчас я понимаю, что это был очень наивный взгляд на бизнес», — рассуждает предприниматель. Один знакомый посоветовал Багдасаряну пройти программу акселерации, чтобы узнать о потребностях бизнеса. Он сказал: «Вы что, действительно хотите вести бизнес из гаража, даже не зная, что действительно нужно миру? Почему бы не выйти и не изучить его?». Это был довольно простой вопрос, но у нас действительно не было ответа на вопросы: «А что на самом деле хочет мир? Какой продукт ему нужен?».
У Багдасаряна остались контакты людей из Кремниевой долины, и они познакомили его с представителями акселератора из Беркли SkyDeck, который инвестирует в исследовательские компании. SkyDeck одобрил заявку 2Hz и сделал посевные инвестиции в размере $100 тысяч. Кроме того, предприниматели привлекли ещё около $400 тысяч от двух фондов из Армении (Granatus Ventures и SmartGateVC) и американского фонда HIVE Ventures, который инвестирует в стартапы с армянскими корнями.
Первоначально Багдасарян планировал продавать лицензии на технологию удаления нежелательных звуков производителям техники (например, смартфонов или гарнитур), автомобилей (для улучшения аудиосистем), телекоммуникационным операторам (для улучшения качества связи), call-центрам и разработчикам стриминговых сервисов. Некоторые эксперты акселератора знакомили предпринимателей с представителями компаний, которых могла заинтересовать их технология. Однако переговоры шли «крайне медленно» — они уже использовали технологии шумоподавления (пусть и менее совершенные) и не видели смысла что-то менять. Но Багдасарян замечал, что люди приходят в восторг, когда он показывает им примеры работы алгоритмов. Тогда у команды 2Hz возникла идея — разработать продукт для обычных потребителей, с его помощью рассказать о технологии и привлечь enterprise-клиентов.
В апреле 2018 года 2Hz стала разрабатывать приложение Krisp. И хотя в то время компании не удалось заинтересовать крупных клиентов, на продукт обратили внимание американские инвесторы. Увидев работу технологии на практике, они оценили её перспективы и вложили в компанию $1,5 млн. В посевном раунде, который состоялся летом 2018 года, приняли участие два крупных фонда — Sierra Ventures и Shanda Group.
Компания представила Krisp в октябре 2018 года. По словам Багдасаряна, у версии для Mac около несколько десятков тысяч установок. 2Hz в июне 2019-го компания выпустила версию Krisp для Windows. «Мы развиваемся на венчурные инвестиции. Это типичный сценарий для ИТ-компании: нужно время и ресурсы, чтобы закончить создание технологии. Но когда всё готово, выручка растёт очень быстро», - подчеркнул предприниматель. Сейчас 2Hz планирует выйти на рынок сервисов для улучшения качества видео.