Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM
Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, плавающий порядок tools, разные реплики, RAG с нестабильным порядком чанков и слишком короткая жизнь KV-кэша. В статье разбираю 7 типовых анти...
Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, плавающий порядок tools, разные реплики, RAG с нестабильным порядком чанков и слишком короткая жизнь KV-кэша. В статье разбираю 7 типовых анти-паттернов, которые убивают prefix_cache_hit в проде.
Краткая сводка
В статье перечислены семь типичных анти‑паттернов, которые снижают показатель prefix_cache_hit в продакшн‑окружении LLM: использование timestamps в начале запросов, изменение порядка tools, работа с разными репликами, нестабильный порядок чанков в RAG и слишком короткая жизнь KV‑кэша.
Связанные теги
Компании и люди
Линия сюжета
Cached
Последние материалы и связанный контекст по теме Cached.
Habr
Последние материалы и связанный контекст по теме Habr.
Habr
Последние материалы и связанные ссылки по теме Habr.
Hit
Последние материалы и связанный контекст по теме Hit.
Hit
Последние материалы и связанные ссылки по теме Hit.
Hit Rate
Последние материалы и связанные ссылки по теме Hit Rate.
LLM-агентов
Последние материалы и связанные ссылки по теме LLM-агентов.
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
Почему Hyundai смогла сделать из Atlas заводского робота, а другие — нет
Boston Dynamics сделали Atlas в 1992 году. За 30 лет он научился делать сальто, бегать по бездорожью и прыгать через препятствия. Три разных владельца — Google, SoftBank, Hyunda...
«СибИАЦ» ускоряет получение 2D-чертежей из модели в nanoCAD BIM Строительство
Специалисты проектного института «Сибирьэнергопроект» (входит в инженерный центр «СибИАЦ») столкнулись с парадоксом современного проектирования: 3D-модель, созданная для анализа...
Записки оптимизатора 1С (ч.16). Риски падения Postgres: потребление и высвобождение памяти процессами postgres
Статья родилась в ходе наблюдения за одной из систем на Postgres, что у нас на поддержке. Результаты наблюдения несколько удивили, поэтому делюсь, ибо причинно-следственные связ...
Почему главный вопрос философии больше не имеет смысла: что квантовая физика говорит о материи и сознании
Современная наука фактически растворила дихотомию идеального и материального. Если вы откроете любой учебник по философии, то почти гарантированно найдёте там раздел о "главном ...
Почему хаос в данных убивает продажи и как правильная архитектура спасает ритейл
Всем привет! Меня зовут Александр Чепрасов, я бизнес-аналитик компании QSOFT. В этой колонке я расскажу, как беспорядок в данных ритейл-компаний может разрушить продажи — и коне...
Программа MusPlay для ввода нот и их проигрывания
Программа MusPlay предназначена для создания и проигрывания музыкальных композиций, используя их нотную запись и заранее записанные в аудио файлы звучание отдельных нот, извлека...
Рекламный слот
Встроенный блок в статье
Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Почему Hyundai смогла сделать из Atlas заводского робота, а другие — нет
Boston Dynamics сделали Atlas в 1992 году. За 30 лет он научился делать сальто, бегать по бездорожью и прыгать через препятствия. Три разных владельца — Google, SoftBank, Hyunda...
«СибИАЦ» ускоряет получение 2D-чертежей из модели в nanoCAD BIM Строительство
Специалисты проектного института «Сибирьэнергопроект» (входит в инженерный центр «СибИАЦ») столкнулись с парадоксом современного проектирования: 3D-модель, созданная для анализа...
Записки оптимизатора 1С (ч.16). Риски падения Postgres: потребление и высвобождение памяти процессами postgres
Статья родилась в ходе наблюдения за одной из систем на Postgres, что у нас на поддержке. Результаты наблюдения несколько удивили, поэтому делюсь, ибо причинно-следственные связ...
Почему главный вопрос философии больше не имеет смысла: что квантовая физика говорит о материи и сознании
Современная наука фактически растворила дихотомию идеального и материального. Если вы откроете любой учебник по философии, то почти гарантированно найдёте там раздел о "главном ...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Почему Hyundai смогла сделать из Atlas заводского робота, а другие — нет
Boston Dynamics сделали Atlas в 1992 году. За 30 лет он научился делать сальто, бегать по бездорожью и прыгать через препятствия. Три разных владельца — Google, SoftBank, Hyunda...
«СибИАЦ» ускоряет получение 2D-чертежей из модели в nanoCAD BIM Строительство
Специалисты проектного института «Сибирьэнергопроект» (входит в инженерный центр «СибИАЦ») столкнулись с парадоксом современного проектирования: 3D-модель, созданная для анализа...
Записки оптимизатора 1С (ч.16). Риски падения Postgres: потребление и высвобождение памяти процессами postgres
Статья родилась в ходе наблюдения за одной из систем на Postgres, что у нас на поддержке. Результаты наблюдения несколько удивили, поэтому делюсь, ибо причинно-следственные связ...
Почему главный вопрос философии больше не имеет смысла: что квантовая физика говорит о материи и сознании
Современная наука фактически растворила дихотомию идеального и материального. Если вы откроете любой учебник по философии, то почти гарантированно найдёте там раздел о "главном ...
Дополнительное покрытие этой темы
Похожие публикации и близкие по смыслу материалы по этой же теме.
Один timestamp, один round-robin, один плавающий список tools: 7 анти-паттернов, которые убивают префикс кэша LLM
Кэширование включено, а cached_tokens всё равно не растут? Часто проблема не в модели и не в провайдере. Hit rate обычно режут совсем другие вещи: timestamp в начале запроса, пл...