News Grower

Независимое покрытие AI, стартапов и технологий.

Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная

Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышлоAI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech Сижу на рабочем созвоне. Обсу...

Все переводчики речи в реальном времени — херня. Я написал свой. Тоже херня, но бесплатная

Перепробовал всё что есть на рынке, потратил на подписки больше чем на кофе, и в итоге сел писать с нуля. Вот что вышлоAI Open Source Voice AI Real-time перевод Deepgram Groq Piper TTS STT TTS LLM Google Meet Zoom Личный опыт Elixir Rust macOS Apple Silicon Speech-to-Text Text-to-Speech Сижу на рабочем созвоне. Обсуждаем архитектуру нового сервиса. Технически я всё понимаю - документацию на английском читаю без словаря, код ревьюю, в Slack переписываюсь нормально. А вот когда надо открыть рот и сказать что-то сложнее "I agree" - начинается цирк. Пауза. Подбираю слова. Коллега уже ответил за меня.Знакомо? Мне - до зубного скрежета.Я CTO, последние годы плотно работаю с AI-интеграциями. Могу собрать систему автоматического обзвона клиентов с клонированием голосов, поднять флот ботов для скана Телеги, собрать архитектуру которая выдержит тысячи пользователей за копейки. А сам на созвоне звучу как иностранец с разговорником. Ирония уровня бог.И вот в голове простая картинка: я говорю по-русски, собеседник слышит английский. Он отвечает по-английски, я слышу русский. В реальном времени. Без пауз на 10 секунд. Без субтитров - именно голосом. С любым приложением: Meet, Zoom, Slack, Discord.Пошёл искать. И тут началось.

Краткая сводка

Автор протестировал множество сервисов реального времени для перевода речи, пришёл к выводу, что они дорогие и неудовлетворительные, и решил разработать собственный бесплатный переводчик русского‑английского голоса, пригодный для Meet, Zoom, Slack и других приложений.

Связанные теги

Компании и люди

Линия сюжета

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

[Перевод] Десятилетняя вражда, формирующая будущее ИИ

[Перевод] Десятилетняя вражда, формирующая будущее ИИ

Ещё до споров из-за применения Пентагоном искусственного интеллекта Дарио Амодеи всё активнее нападал на своего бывшего начальника Сэма Альтмана и на курс развития OpenAI — комп...

Как я перестал платить за мусорные лиды

Как я перестал платить за мусорные лиды

Платный трафик на лендинг с формой захвата — это почти всегда мусорные заявки. Номер 123, номер 1111111, четыре цифры вместо телефона. Заявка засчитана, деньги за клик списаны, ...

Тысячеликий кошмар: как создавали спецэффекты в «Нечто» Джона Карпентера

Тысячеликий кошмар: как создавали спецэффекты в «Нечто» Джона Карпентера

Группа полярников отрезана от Большой земли суровой зимой. К ним на станцию пробирается пришелец, замерзший когда-то в антарктических льдах и разбуженный неосторожными исследова...

Как я обрабатываю 15 миллионов GPS-пингов в день для системы транспортной аналитики Ташкента

Как я обрабатываю 15 миллионов GPS-пингов в день для системы транспортной аналитики Ташкента

В Ташкенте курсируют около 1 800 активных автобусов на 170 маршрутах. Их GPS-координаты поступают каждые 10 секунд. В сутки это составляет порядка 15 миллионов координатных пинг...

[Перевод] OpenAI: сделка с Пентагоном, бойкот, иск на $134 млрд и война. Полная хронология краха

[Перевод] OpenAI: сделка с Пентагоном, бойкот, иск на $134 млрд и война. Полная хронология краха

В феврале CEO Anthropic заявил, что не может «по совести» дать Министерству обороны неограниченный доступ к своим ИИ-системам. Через несколько часов администрация Трампа назвала...

[Перевод] Как распознавать контент, созданный нейросетями (рекомендации для репортеров)

[Перевод] Как распознавать контент, созданный нейросетями (рекомендации для репортеров)

В наши дни соотношение полезного сигнала и шума в информационном пространстве приближается к единице. Иными словами, дезинформации почти столько же, сколько реальных фактов — и ...

Рекламный слот

Встроенный блок в статье

Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.

Партнерский слот

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

[Перевод] Десятилетняя вражда, формирующая будущее ИИ

[Перевод] Десятилетняя вражда, формирующая будущее ИИ

Ещё до споров из-за применения Пентагоном искусственного интеллекта Дарио Амодеи всё активнее нападал на своего бывшего начальника Сэма Альтмана и на курс развития OpenAI — комп...

Как я перестал платить за мусорные лиды

Как я перестал платить за мусорные лиды

Платный трафик на лендинг с формой захвата — это почти всегда мусорные заявки. Номер 123, номер 1111111, четыре цифры вместо телефона. Заявка засчитана, деньги за клик списаны, ...

Тысячеликий кошмар: как создавали спецэффекты в «Нечто» Джона Карпентера

Тысячеликий кошмар: как создавали спецэффекты в «Нечто» Джона Карпентера

Группа полярников отрезана от Большой земли суровой зимой. К ним на станцию пробирается пришелец, замерзший когда-то в антарктических льдах и разбуженный неосторожными исследова...

Как я обрабатываю 15 миллионов GPS-пингов в день для системы транспортной аналитики Ташкента

Как я обрабатываю 15 миллионов GPS-пингов в день для системы транспортной аналитики Ташкента

В Ташкенте курсируют около 1 800 активных автобусов на 170 маршрутах. Их GPS-координаты поступают каждые 10 секунд. В сутки это составляет порядка 15 миллионов координатных пинг...

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника
[Перевод] Десятилетняя вражда, формирующая будущее ИИ

[Перевод] Десятилетняя вражда, формирующая будущее ИИ

Ещё до споров из-за применения Пентагоном искусственного интеллекта Дарио Амодеи всё активнее нападал на своего бывшего начальника Сэма Альтмана и на курс развития OpenAI — комп...

Как я перестал платить за мусорные лиды

Как я перестал платить за мусорные лиды

Платный трафик на лендинг с формой захвата — это почти всегда мусорные заявки. Номер 123, номер 1111111, четыре цифры вместо телефона. Заявка засчитана, деньги за клик списаны, ...

Тысячеликий кошмар: как создавали спецэффекты в «Нечто» Джона Карпентера

Тысячеликий кошмар: как создавали спецэффекты в «Нечто» Джона Карпентера

Группа полярников отрезана от Большой земли суровой зимой. К ним на станцию пробирается пришелец, замерзший когда-то в антарктических льдах и разбуженный неосторожными исследова...

Как я обрабатываю 15 миллионов GPS-пингов в день для системы транспортной аналитики Ташкента

Как я обрабатываю 15 миллионов GPS-пингов в день для системы транспортной аналитики Ташкента

В Ташкенте курсируют около 1 800 активных автобусов на 170 маршрутах. Их GPS-координаты поступают каждые 10 секунд. В сутки это составляет порядка 15 миллионов координатных пинг...