Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная
Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышлоAI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech Сижу на рабочем созвоне. Обсу...
Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышлоAI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.Знакомо? Мне - до зубного скрежета.Я CTO, последние годы плотно работаю с AI-интеграциями. Могу собрать систему автоматического обзвона клиентов с клонированием голосов, поднять флот ботов для скана Телеги, собрать архитектуру которая выдержит тысячи пользователей за копейки. А сам на созвоне звучу как иностранец с разговорником. Ирония уровня бог.И вот в голове простая картинка: я говорю по-русски, собеседник слышит английский. Он отвечает по-английски, я слышу русский. В реальном времени. Без пауз на 10 секунд. Без субтитров - именно голосом. С любым приложением: Meet, Zoom, Slack, Discord.Пошёл искать. И тут началось.
Краткая сводка
Автор протестировал множество сервисов реального времени для перевода речи, пришёл к выводу, что они дорогие и неудовлетворительные, и решил разработать собственный бесплатный переводчик русского‑английского голоса, пригодный для Meet, Zoom, Slack и других приложений.
Связанные теги
Компании и люди
Линия сюжета
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
[Перевод] Десятилетняя вражда, формирующая будущее ИИ
Ещё до споров из-за применения Пентагоном искусственного интеллекта Дарио Амодеи всё активнее нападал на своего бывшего начальника Сэма Альтмана и на курс развития OpenAI — комп...
Как я перестал платить за мусорные лиды
Платный трафик на лендинг с формой захвата — это почти всегда мусорные заявки. Номер 123, номер 1111111, четыре цифры вместо телефона. Заявка засчитана, деньги за клик списаны, ...
Тысячеликий кошмар: как создавали спецэффекты в «Нечто» Джона Карпентера
Группа полярников отрезана от Большой земли суровой зимой. К ним на станцию пробирается пришелец, замерзший когда-то в антарктических льдах и разбуженный неосторожными исследова...
Как я обрабатываю 15 миллионов GPS-пингов в день для системы транспортной аналитики Ташкента
В Ташкенте курсируют около 1 800 активных автобусов на 170 маршрутах. Их GPS-координаты поступают каждые 10 секунд. В сутки это составляет порядка 15 миллионов координатных пинг...
[Перевод] OpenAI: сделка с Пентагоном, бойкот, иск на $134 млрд и война. Полная хронология краха
В феврале CEO Anthropic заявил, что не может «по совести» дать Министерству обороны неограниченный доступ к своим ИИ-системам. Через несколько часов администрация Трампа назвала...
[Перевод] Как распознавать контент, созданный нейросетями (рекомендации для репортеров)
В наши дни соотношение полезного сигнала и шума в информационном пространстве приближается к единице. Иными словами, дезинформации почти столько же, сколько реальных фактов — и ...
Рекламный слот
Встроенный блок в статье
Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
[Перевод] Десятилетняя вражда, формирующая будущее ИИ
Ещё до споров из-за применения Пентагоном искусственного интеллекта Дарио Амодеи всё активнее нападал на своего бывшего начальника Сэма Альтмана и на курс развития OpenAI — комп...
Как я перестал платить за мусорные лиды
Платный трафик на лендинг с формой захвата — это почти всегда мусорные заявки. Номер 123, номер 1111111, четыре цифры вместо телефона. Заявка засчитана, деньги за клик списаны, ...
Тысячеликий кошмар: как создавали спецэффекты в «Нечто» Джона Карпентера
Группа полярников отрезана от Большой земли суровой зимой. К ним на станцию пробирается пришелец, замерзший когда-то в антарктических льдах и разбуженный неосторожными исследова...
Как я обрабатываю 15 миллионов GPS-пингов в день для системы транспортной аналитики Ташкента
В Ташкенте курсируют около 1 800 активных автобусов на 170 маршрутах. Их GPS-координаты поступают каждые 10 секунд. В сутки это составляет порядка 15 миллионов координатных пинг...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
[Перевод] Десятилетняя вражда, формирующая будущее ИИ
Ещё до споров из-за применения Пентагоном искусственного интеллекта Дарио Амодеи всё активнее нападал на своего бывшего начальника Сэма Альтмана и на курс развития OpenAI — комп...
Как я перестал платить за мусорные лиды
Платный трафик на лендинг с формой захвата — это почти всегда мусорные заявки. Номер 123, номер 1111111, четыре цифры вместо телефона. Заявка засчитана, деньги за клик списаны, ...
Тысячеликий кошмар: как создавали спецэффекты в «Нечто» Джона Карпентера
Группа полярников отрезана от Большой земли суровой зимой. К ним на станцию пробирается пришелец, замерзший когда-то в антарктических льдах и разбуженный неосторожными исследова...
Как я обрабатываю 15 миллионов GPS-пингов в день для системы транспортной аналитики Ташкента
В Ташкенте курсируют около 1 800 активных автобусов на 170 маршрутах. Их GPS-координаты поступают каждые 10 секунд. В сутки это составляет порядка 15 миллионов координатных пинг...