News Grower

Независимое покрытие AI, стартапов и технологий.

Habr 16.04.2026 08:30 Инструменты разработки Рост Горячо

4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков

На связи Кирилл Козлов, data‑инженер Mindbox. Наша команда регулярно пересчитывает бизнес‑метрики для клиентов. Для этого нам приходится формировать витрины данных для биллинга и аналитики на основе десятков источников. Долгое время мы обрабатывали данные для расчетов на PySpar...

Погода сигнала

Рост

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Автор: Ko3lof (Mindbox) Оригинальный источник
4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков

На связи Кирилл Козлов, data‑инженер Mindbox. Наша команда регулярно пересчитывает бизнес‑метрики для клиентов. Для этого нам приходится формировать витрины данных для биллинга и аналитики на основе десятков источников. Долгое время мы обрабатывали данные для расчетов на PySpark — инструменте, с которым сложно работать без опыта программирования на Python. Чтобы создать любой пайплайн, приходилось привлекать разработчиков. Это затягивало процесс на несколько недельных спринтов. В статье расскажу, как мы построили внутреннюю data‑платформу, где аналитик или продакт может создать регулярно обновляемый пайплайн, описав его в четырех YAML‑файлах.

Карта темы

Понять тему за минуту

Быстрый вход в историю: почему она важна сейчас, кто в ней участвует и куда идти дальше за контекстом.

Почему это важно сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
У истории уже есть 6 связанных материала, поэтому отсюда легко перейти к продолжению темы.
Сюжет постоянно вращается вокруг Mindbox, PySpark, and Python-системы, поэтому страницы сущностей дадут самый быстрый контекст.
Habr уже выпустил ещё 4 продолжения по этой теме.

Карта темы

Открыть живую карту этой истории

Посмотрите, какие сущности, линии сюжета, источники и follow-up материалы формируют эту историю прямо сейчас.

Нажимайте на узлы

Сущность Линия сюжета Материал Хаб Источник

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

Как я заставил нейросеть писать макросы для FreeCAD
Пик Горячо Рост в поиске

Как я заставил нейросеть писать макросы для FreeCAD

Замучился искать 3D-модели с накаткой, поэтому заставил нейросеть поработать во FreeCAD.Понял, что можно не рисовать чертежи часами, а получить результат, если передать задачу К...

Погода сигнала

Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.

Почему сейчас

Тема уже растёт в поиске: импульс 970 и 27 внешнего сигнала.

Пошаговые диалоги в Python без боли: описываем визарды в JSON, а не в if-ах
Пик Горячо Рост в поиске

Пошаговые диалоги в Python без боли: описываем визарды в JSON, а не в if-ах

Писать сложные диалоги в Telegram-ботах — это боль из вложенных if-ов, сломанных переходов и бесконечного рефакторинга. В этой статье — как мы вынесли всю логику визардов в JSON...

Погода сигнала

Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.

Почему сейчас

Тема уже растёт в поиске: импульс 954 и 27 внешнего сигнала.

Сводка Аналитического Наблюдения — считаем сумму по столбцу в Python
Рост Горячо

Сводка Аналитического Наблюдения — считаем сумму по столбцу в Python

Всем привет, меня зовут Виталий, автор телеграмм канала Детектив данных, про мой путь в аналитике данных, мучаю питон и sql, строю графики и думаю как жить дальше. По работе дов...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

Посчитал, сколько токенов Claude тратит на «Конечно!» и «Отлично!». 11% счёта
Пик Горячо Рост в поиске

Посчитал, сколько токенов Claude тратит на «Конечно!» и «Отлично!». 11% счёта

Открыл дашборд потребления токенов — и завис. Ответы Claude начинаются с «Конечно!», «Отличный вопрос!», «С радостью помогу!», потом мета-комментарий про процесс, и только потом...

Погода сигнала

Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.

Почему сейчас

Тема уже растёт в поиске: импульс 934 и 27 внешнего сигнала.

Что писала Цветаева о любви. Исследование лирики на Python
Рост Горячо

Что писала Цветаева о любви. Исследование лирики на Python

Как Марина Цветаева умела говорить о любви? Мне стало интересно исследовать творчество Цветаевой с помощью Python и вычислить те поэтические инструменты, которые она использует ...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

Маленькое инженерное чудо: почему я переписал ввод-вывод для контестов на Go
Рост Горячо

Маленькое инженерное чудо: почему я переписал ввод-вывод для контестов на Go

Python берут за скорость реализации. C++ - за производительность и контроль над памятью. А Go? Go выбирают те, кто любит Go. Я один из них. Долгое время я использовал связку buf...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг
Пик Горячо Рост в поиске

Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг

Все началось пару месяцев назад, когда я всерьез увлекся темой автономных агентов. Если вы следите за индустрией, то наверняка слышали про ruflo — это мощнейший движок для оркес...

Погода сигнала

Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.

Почему сейчас

Тема уже растёт в поиске: импульс 967 и 54 внешнего сигнала.

Налоговая как data‑driven система: почему ваши транзакции не проходят валидацию
Рост Горячо

Налоговая как data‑driven система: почему ваши транзакции не проходят валидацию

Большинство компаний до сих пор уверены, что налоговая «проверяет документы». Договор есть, акт подписан, оплата прошла — значит, всё в порядке. Проблема в том, что эта логика б...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

Платформа данных на минималках. Часть 1: проблемы Data Lake и роль Iceberg
Рост Горячо

Платформа данных на минималках. Часть 1: проблемы Data Lake и роль Iceberg

Представим ситуацию: у нас есть сервисы, которые пишут логи событий и сообщения из очередей (Kafka, RabbitMQ) в формате Avro для гарантии схемы и потоковой доставки. В это же вр...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL
Рост Горячо

Big Data больше не для гигантов: связка Airflow + ClickHouse вытеснила Airflow + PostgreSQL

Открываю ноутбук. Захожу в метрики своего интернет-магазина. 500 тысяч посетителей в день. Каждый клик — событие. Каждый просмотр товара — строка в логах. Каждое добавление в ко...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника
Промпты Nano Banana для фото и изображений: Бесплатно для Нано Банана Про
Рост Горячо

Промпты Nano Banana для фото и изображений: Бесплатно для Нано Банана Про

Создание безупречного визуала в Nano Banana — это не вопрос везения, а результат правильной коммуникации с нейросетью. В отличие от простых моделей прошлого, этот инструмент спо...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

Пошаговая инструкция установки MTProto прокси через Service Node + VLESS
Пик Горячо Рост в поиске

Пошаговая инструкция установки MTProto прокси через Service Node + VLESS

Если вы когда-нибудь пытались поднять прокси для Telegram на сервере, то знаете, что такое «мессенджер не грузит». В этой инструкции я предлагаю рассмотреть подробную, пошаговую...

Погода сигнала

Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.

Почему сейчас

Тема уже растёт в поиске: импульс 963 и 27 внешнего сигнала.

Накрутка поведенческих факторов для роста позиций — реально ли за день занять топ 1 Яндекса
Рост Горячо

Накрутка поведенческих факторов для роста позиций — реально ли за день занять топ 1 Яндекса

Знаете, можно много долго спорить о том, что вот там умеют делать, а наши ничего не умеют. Но подход Яндекса к формированию поисковой выдачи мне всегда импонировал больше, нежел...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

Тени истории. Ренессанс – революция, подарившая миру главный инструмент шпионов
Рост Горячо

Тени истории. Ренессанс – революция, подарившая миру главный инструмент шпионов

Вторая статья цикла о криптографии, в котором мы рассказываем, как человечество училось прятать и расшифровывать секреты — от древних методов до современных алгоритмов. Сегодня ...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.