4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков
На связи Кирилл Козлов, data‑инженер Mindbox. Наша команда регулярно пересчитывает бизнес‑метрики для клиентов. Для этого нам приходится формировать витрины данных для биллинга и аналитики на основе десятков источников. Долгое время мы обрабатывали данные для расчетов на PySpar...
Погода сигнала
Рост
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
На связи Кирилл Козлов, data‑инженер Mindbox. Наша команда регулярно пересчитывает бизнес‑метрики для клиентов. Для этого нам приходится формировать витрины данных для биллинга и аналитики на основе десятков источников. Долгое время мы обрабатывали данные для расчетов на PySpark — инструменте, с которым сложно работать без опыта программирования на Python. Чтобы создать любой пайплайн, приходилось привлекать разработчиков. Это затягивало процесс на несколько недельных спринтов. В статье расскажу, как мы построили внутреннюю data‑платформу, где аналитик или продакт может создать регулярно обновляемый пайплайн, описав его в четырех YAML‑файлах.
Карта темы
Понять тему за минуту
Быстрый вход в историю: почему она важна сейчас, кто в ней участвует и куда идти дальше за контекстом.
Почему это важно сейчас
Карта темы
Открыть живую карту этой истории
Посмотрите, какие сущности, линии сюжета, источники и follow-up материалы формируют эту историю прямо сейчас.
Нажимайте на узлы
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
Как я заставил нейросеть писать макросы для FreeCAD
Замучился искать 3D-модели с накаткой, поэтому заставил нейросеть поработать во FreeCAD.Понял, что можно не рисовать чертежи часами, а получить результат, если передать задачу К...
Погода сигнала
Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.
Почему сейчас
Тема уже растёт в поиске: импульс 970 и 27 внешнего сигнала.
Пошаговые диалоги в Python без боли: описываем визарды в JSON, а не в if-ах
Писать сложные диалоги в Telegram-ботах — это боль из вложенных if-ов, сломанных переходов и бесконечного рефакторинга. В этой статье — как мы вынесли всю логику визардов в JSON...
Погода сигнала
Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.
Почему сейчас
Тема уже растёт в поиске: импульс 954 и 27 внешнего сигнала.
Сводка Аналитического Наблюдения — считаем сумму по столбцу в Python
Всем привет, меня зовут Виталий, автор телеграмм канала Детектив данных, про мой путь в аналитике данных, мучаю питон и sql, строю графики и думаю как жить дальше. По работе дов...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Посчитал, сколько токенов Claude тратит на «Конечно!» и «Отлично!». 11% счёта
Открыл дашборд потребления токенов — и завис. Ответы Claude начинаются с «Конечно!», «Отличный вопрос!», «С радостью помогу!», потом мета-комментарий про процесс, и только потом...
Погода сигнала
Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.
Почему сейчас
Тема уже растёт в поиске: импульс 934 и 27 внешнего сигнала.
Что писала Цветаева о любви. Исследование лирики на Python
Как Марина Цветаева умела говорить о любви? Мне стало интересно исследовать творчество Цветаевой с помощью Python и вычислить те поэтические инструменты, которые она использует ...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Маленькое инженерное чудо: почему я переписал ввод-вывод для контестов на Go
Python берут за скорость реализации. C++ - за производительность и контроль над памятью. А Go? Go выбирают те, кто любит Go. Я один из них. Долгое время я использовал связку buf...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг
Все началось пару месяцев назад, когда я всерьез увлекся темой автономных агентов. Если вы следите за индустрией, то наверняка слышали про ruflo — это мощнейший движок для оркес...
Погода сигнала
Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.
Почему сейчас
Тема уже растёт в поиске: импульс 967 и 54 внешнего сигнала.
Налоговая как data‑driven система: почему ваши транзакции не проходят валидацию
Большинство компаний до сих пор уверены, что налоговая «проверяет документы». Договор есть, акт подписан, оплата прошла — значит, всё в порядке. Проблема в том, что эта логика б...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Платформа данных на минималках. Часть 1: проблемы Data Lake и роль Iceberg
Представим ситуацию: у нас есть сервисы, которые пишут логи событий и сообщения из очередей (Kafka, RabbitMQ) в формате Avro для гарантии схемы и потоковой доставки. В это же вр...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL
Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в ко...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Промпты Nano Banana для фото и изображений: Бесплатно для Нано Банана Про
Создание безупречного визуала в Nano Banana — это не вопрос везения, а результат правильной коммуникации с нейросетью. В отличие от простых моделей прошлого, этот инструмент спо...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Пошаговая инструкция установки MTProto прокси через Service Node + VLESS
Если вы когда-нибудь пытались поднять прокси для Telegram на сервере, то знаете, что такое «мессенджер не грузит». В этой инструкции я предлагаю рассмотреть подробную, пошаговую...
Погода сигнала
Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.
Почему сейчас
Тема уже растёт в поиске: импульс 963 и 27 внешнего сигнала.
Накрутка поведенческих факторов для роста позиций — реально ли за день занять топ 1 Яндекса
Знаете, можно много долго спорить о том, что вот там умеют делать, а наши ничего не умеют. Но подход Яндекса к формированию поисковой выдачи мне всегда импонировал больше, нежел...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Тени истории. Ренессанс – революция, подарившая миру главный инструмент шпионов
Вторая статья цикла о криптографии, в котором мы рассказываем, как человечество училось прятать и расшифровывать секреты — от древних методов до современных алгоритмов. Сегодня ...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.