Spark SQL Scripting. Новые возможности для инженеров данных
До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Pytho...
До недавнего времени для реализации сложной многошаговой логики в экосистеме Apache Spark разработчикам приходилось выходить за рамки декларативного SQL. Оркестрация последовательных вызовов, вычисление промежуточных переменных и ветвление логики требовали привлечения внешних языков программирования, таких как Python (PySpark) или Scala и дополнительных инструментов.Spark SQL Scripting, который стал доступен, начиная с 4-й версии, кардинально меняет этот подход, представляя собой процедурное расширение классического Spark SQL. Теперь разработчики могут писать полноценные многошаговые сценарии непосредственно на уровне SQL-артефактов, внедряя в них управляющую логику.В данной публикации мы, команда вендора Data Sapience, разберем возможности Spark scripting на практике.
Связанные теги
Компании и люди
Линия сюжета
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
Volga: движок обработки real-time данных для AI/ML — аналог Spark и Flink на Rust (Arrow + DataFusion)
Volga — open-source движок обработки данных, созданный как альтернатива Apache Spark и Apache Flink и ориентированный на требования real-time AI/ML систем: консистентное вычисле...
Децентрализованная оркестрация на RabbitMQ вместо Apache Camel
В этой статье мы расскажем о библиотеке оркестрации обработки данных, которая использует RabbitMQ как децентрализованный механизм передачи объектов между микросервисами. Ее зада...
Google выпустила семейство открытых моделей Gemma 4 с поддержкой 140 языков и лицензией Apache 2.0
Компания Google представила четыре открытые модели Gemma 4, созданные на основе технологий модели Gemini 3, выпущенной в конце прошлого года. Модели различаются количеством пара...
Apache Superset — боремся с фильтрами по дате. Часть 2
В этой статье продолжаем борьбу с фильтрами по дате в Apache Superset. Сегодня разберем, как реализовать подобие логики remove_filter в старых версиях (до 5), чтобы виртуальный ...
CSV в Spark: Искусство правильной загрузки данных
В этой статье мы разберём, как правильно загружать CSV в Apache Spark — распределённую вычислительную систему, ставшую стандартом для обработки больших данных. Это первый и самы...
Apache AGE под нагрузкой: что происходит, когда графы внутри PostgreSQL начинают по-настоящему тестировать
Apache AGE добавляет графы и Cypher в PostgreSQL. Мы написали бенчмарк, прогнали три типа нагрузки и обнаружили, что поиск кратчайшего пути выдаёт 7 TPS, а вставка вершин деград...
Страницы сущностей
Рекламный слот
Встроенный блок в статье
Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Volga: движок обработки real-time данных для AI/ML — аналог Spark и Flink на Rust (Arrow + DataFusion)
Volga — open-source движок обработки данных, созданный как альтернатива Apache Spark и Apache Flink и ориентированный на требования real-time AI/ML систем: консистентное вычисле...
Книга: «Архитектура медальона. Проектирование с помощью Delta Lake и Spark»
Привет, Хаброжители! Книга предлагает практическое руководство по внедрению архитектуры медальона (bronze, silver, gold уровни) для эффективной работы с большими данными, чтобы ...
RANK() vs DENSE_RANK(): ошибка, которая ломает топ-N в проде
При работе с данными в SQL рано или поздно возникает задача ранжирования: топ-5 продуктов по продажам, рейтинг сотрудников по KPI, распределение клиентов по категориям.На первый...
Prepared statements в Manticore Search
Представьте, что вы создаёте мощное поисковое приложение. Пользователи вводят ключевые слова, а ваш бэкенд должен выполнять запрос к базе данных Manticore Search, чтобы найти по...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Как мы построили интегрированное планирование для фармхолдинга, растущего в 6 раз быстрее рынка
Привет, Хабр! Не мне вам рассказывать, что мы живем в эпоху цифровизации производств — вы наверняка читали статьи о «тяжёлой цифре». Но история цифровизации, которой я хочу поде...
Аврора Центр: как мы помогаем банкам собирать биометрию на отечественных устройствах
Всем привет! Меня зовут Александр Конин, я продакт-менеджер «Аврора Центр». Платформа управляет устройствами на Авроре, Android и российских дистрибутивах Linux, но в этой стать...
На что реально способна LLM или «нестандартные подходы к промптам, которые дают неожиданный результат»
В этой статье я на одном простом примере покажу, как перестать ковыряться в словах и начать дирижировать эмоциями читателя. Мы возьмем самую обычную задачу, выбьем нейросеть из ...
[Перевод] Почему eBPF-программа работает на одном ядре, а на другом — нет
eBPF давно стал стандартным инструментом для работы с ядром, но на практике быстро выясняется: одна и та же программа может вести себя по-разному на соседних версиях Linux. Прич...