News Grower

Независимое покрытие AI, стартапов и технологий.

Spark SQL Scripting. Новые возможности для инженеров данных

До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Pytho...

Автор: andreyVarlamov (Data Sapience) Оригинальный источник
Spark SQL Scripting. Новые возможности для инженеров данных

До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов.Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику.В данной публикации мы, команда вендора Data Sapience, разберем возможности Spark scripting на практике.

Связанные теги

Компании и люди

Линия сюжета

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

Volga: движок обработки real-time данных для AI/ML — аналог Spark и Flink на Rust (Arrow + DataFusion)

Volga: движок обработки real-time данных для AI/ML — аналог Spark и Flink на Rust (Arrow + DataFusion)

Volga — open-source движок обработки данных, созданный как альтернатива Apache Spark и Apache Flink и ориентированный на требования real-time AI/ML систем: консистентное вычисле...

Децентрализованная оркестрация на RabbitMQ вместо Apache Camel

В этой статье мы расскажем о библиотеке оркестрации обработки данных, которая использует RabbitMQ как децентрализованный механизм передачи объектов между микросервисами. Ее зада...

Google выпустила семейство открытых моделей Gemma 4 с поддержкой 140 языков и лицензией Apache 2.0

Google выпустила семейство открытых моделей Gemma 4 с поддержкой 140 языков и лицензией Apache 2.0

Компания Google представила четыре открытые модели Gemma 4, созданные на основе технологий модели Gemini 3, выпущенной в конце прошлого года. Модели различаются количеством пара...

Apache Superset — боремся с фильтрами по дате. Часть 2

Apache Superset — боремся с фильтрами по дате. Часть 2

В этой статье продолжаем борьбу с фильтрами по дате в Apache Superset. Сегодня разберем, как реализовать подобие логики remove_filter в старых версиях (до 5), чтобы виртуальный ...

CSV в Spark: Искусство правильной загрузки данных

CSV в Spark: Искусство правильной загрузки данных

В этой статье мы разберём, как правильно загружать CSV в Apache Spark — распределённую вычислительную систему, ставшую стандартом для обработки больших данных. Это первый и самы...

Apache AGE под нагрузкой: что происходит, когда графы внутри PostgreSQL начинают по-настоящему тестировать

Apache AGE под нагрузкой: что происходит, когда графы внутри PostgreSQL начинают по-настоящему тестировать

Apache AGE добавляет графы и Cypher в PostgreSQL. Мы написали бенчмарк, прогнали три типа нагрузки и обнаружили, что поиск кратчайшего пути выдаёт 7 TPS, а вставка вершин деград...

Рекламный слот

Встроенный блок в статье

Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.

Партнерский слот

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

Volga: движок обработки real-time данных для AI/ML — аналог Spark и Flink на Rust (Arrow + DataFusion)

Volga: движок обработки real-time данных для AI/ML — аналог Spark и Flink на Rust (Arrow + DataFusion)

Volga — open-source движок обработки данных, созданный как альтернатива Apache Spark и Apache Flink и ориентированный на требования real-time AI/ML систем: консистентное вычисле...

Книга: «Архитектура медальона. Проектирование с помощью Delta Lake и Spark»

Книга: «Архитектура медальона. Проектирование с помощью Delta Lake и Spark»

Привет, Хаброжители! Книга предлагает практическое руководство по внедрению архитектуры медальона (bronze, silver, gold уровни) для эффективной работы с большими данными, чтобы ...

RANK() vs DENSE_RANK(): ошибка, которая ломает топ-N в проде

RANK() vs DENSE_RANK(): ошибка, которая ломает топ-N в проде

При работе с данными в SQL рано или поздно возникает задача ранжирования: топ-5 продуктов по продажам, рейтинг сотрудников по KPI, распределение клиентов по категориям.На первый...

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника
Как мы построили интегрированное планирование для фармхолдинга, растущего в 6 раз быстрее рынка

Как мы построили интегрированное планирование для фармхолдинга, растущего в 6 раз быстрее рынка

Привет, Хабр! Не мне вам рассказывать, что мы живем в эпоху цифровизации производств — вы наверняка читали статьи о «тяжёлой цифре». Но история цифровизации, которой я хочу поде...

Аврора Центр: как мы помогаем банкам собирать биометрию на отечественных устройствах

Аврора Центр: как мы помогаем банкам собирать биометрию на отечественных устройствах

Всем привет! Меня зовут Александр Конин, я продакт-менеджер «Аврора Центр». Платформа управляет устройствами на Авроре, Android и российских дистрибутивах Linux, но в этой стать...

На что реально способна LLM или «нестандартные подходы к промптам, которые дают неожиданный результат»

В этой статье я на одном простом примере покажу, как перестать ковыряться в словах и начать дирижировать эмоциями читателя. Мы возьмем самую обычную задачу, выбьем нейросеть из ...

[Перевод] Почему eBPF-программа работает на одном ядре, а на другом — нет

[Перевод] Почему eBPF-программа работает на одном ядре, а на другом — нет

eBPF давно стал стандартным инструментом для работы с ядром, но на практике быстро выясняется: одна и та же программа может вести себя по-разному на соседних версиях Linux. Прич...