Платформа данных на минималках. Часть 1: проблемы Data Lake и роль Iceberg
Представим ситуацию: у нас есть сервисы, которые пишут логи событий и сообщения из очередей (Kafka, RabbitMQ) в формате Avro для гарантии схемы и потоковой доставки. В это же время отдел машинного обучения работает с датасетами в Parquet — ребята ценят столбцовое хранение и производительность на скалярных чтениях.&n...
Погода сигнала
Рост
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Представим ситуацию: у нас есть сервисы, которые пишут логи событий и сообщения из очередей (Kafka, RabbitMQ) в формате Avro для гарантии схемы и потоковой доставки. В это же время отдел машинного обучения работает с датасетами в Parquet — ребята ценят столбцовое хранение и производительность на скалярных чтениях. Соседняя команда фиксирует фактовые таблицы в ORC, поскольку этот формат подходит для тяжелых аналитических агрегаций. Пока объемы данных измерялись гигабайтами, такой «зоопарк форматов» был терпим: каждый отдел использовал свой инструмент, а данные копировались между ними через ETL-конвейеры. Но с ростом до терабайтов и выше эта архитектура начинает ломаться: запросы становятся медленными, стоимость хранения и вычислений стремительно растет, а главное — теряется единый источник истины. Теперь одна и та же бизнес-сущность существует в трех разных форматах, схемах и состояниях. В этот момент возникает потребность не в очередном хранилище, а в табличной абстракции поверх существующих форматов. Такой слой должен обеспечивать ACID-транзакционность, централизованное управление схемой и единый каталог для всех потребителей — от потоковой инженерии до машинного обучения и BI. Именно так и приходят к Apache Iceberg и к идее построения собственной платформы данных.
Карта темы
Понять тему за минуту
Быстрый вход в историю: почему она важна сейчас, кто в ней участвует и куда идти дальше за контекстом.
Почему это важно сейчас
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
Мёртвый интернет: теория заговора, которая оказалась не совсем теорией
Бывало у вас такое: листаете ленту, читаете комментарии, гуглите что-нибудь — и накрывает странное ощущение дежавю? Словно текст написан «рыбой», картинка сгенерирована по промп...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Оптимизация работы с LLM-агентами: как сократить расходы и повысить точность кода
Сегодня использование AI-ассистентов вроде Cursor или Windsurf стало стандартом, но многие разработчики по-прежнему используют их как «улучшенный Google». В реальности современн...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Как мы сделали PWA для управления ремонтными проектами: от чата до ИИ-дизайнера интерьеров
Привет, Хабр! Меня зовут Алексей, я разработчик в строительной компании ВитионГруп. Мы занимаемся ремонтом квартир в Москве, одновременно ведём 30–75 объектов, за 18 лет заверши...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Почему мы до сих пор используем пароли, хотя все их ненавидят
Все ругают пароли, но продолжают их вводить. Даже там, где уже есть токены, OAuth и биометрия, Привычная строка «Введите пароль» никуда не делась. Кажется, мы привыкли к боли, н...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Nvidia N1/N1X: что это за чипы и зачем они нужны в ноутбуках
Nvidia готовит к выходу чипы N1 и N1X для ноутбуков — это ее первый серьезный заход в сегмент ARM-устройств, где сейчас доминируют модели Apple и Qualcomm. Компания давно экспер...
Погода сигнала
Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.
Почему сейчас
Тема уже растёт в поиске: импульс 982 и 54 внешнего сигнала.
От iptables к nftables: O(n) против O(1) на практике
Если администрировать Linux-сервера достаточно долго, рано или поздно сталкиваешься с сетевой фильтрацией. Где-то нужно закрыть лишние порты, где-то ограничить доступ между сегм...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Мёртвый интернет: теория заговора, которая оказалась не совсем теорией
Бывало у вас такое: листаете ленту, читаете комментарии, гуглите что-нибудь — и накрывает странное ощущение дежавю? Словно текст написан «рыбой», картинка сгенерирована по промп...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Оптимизация работы с LLM-агентами: как сократить расходы и повысить точность кода
Сегодня использование AI-ассистентов вроде Cursor или Windsurf стало стандартом, но многие разработчики по-прежнему используют их как «улучшенный Google». В реальности современн...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Как мы сделали PWA для управления ремонтными проектами: от чата до ИИ-дизайнера интерьеров
Привет, Хабр! Меня зовут Алексей, я разработчик в строительной компании ВитионГруп. Мы занимаемся ремонтом квартир в Москве, одновременно ведём 30–75 объектов, за 18 лет заверши...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Почему мы до сих пор используем пароли, хотя все их ненавидят
Все ругают пароли, но продолжают их вводить. Даже там, где уже есть токены, OAuth и биометрия, Привычная строка «Введите пароль» никуда не делась. Кажется, мы привыкли к боли, н...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Мёртвый интернет: теория заговора, которая оказалась не совсем теорией
Бывало у вас такое: листаете ленту, читаете комментарии, гуглите что-нибудь — и накрывает странное ощущение дежавю? Словно текст написан «рыбой», картинка сгенерирована по промп...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Оптимизация работы с LLM-агентами: как сократить расходы и повысить точность кода
Сегодня использование AI-ассистентов вроде Cursor или Windsurf стало стандартом, но многие разработчики по-прежнему используют их как «улучшенный Google». В реальности современн...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Как мы сделали PWA для управления ремонтными проектами: от чата до ИИ-дизайнера интерьеров
Привет, Хабр! Меня зовут Алексей, я разработчик в строительной компании ВитионГруп. Мы занимаемся ремонтом квартир в Москве, одновременно ведём 30–75 объектов, за 18 лет заверши...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Почему мы до сих пор используем пароли, хотя все их ненавидят
Все ругают пароли, но продолжают их вводить. Даже там, где уже есть токены, OAuth и биометрия, Привычная строка «Введите пароль» никуда не делась. Кажется, мы привыкли к боли, н...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.