AI Monkey Blog

Mistral представила Mistral OCR 4 — специализированную модель для извлечения структуры и текста из документов. Она умеет выделять блоки, возвращать координаты и оценку уверенности, что делает её заметным обновлением для корпоративного поиска и обработки архивов.

Mistral выпустила Mistral OCR 4 для разбора документов на 170 языках

Mistral представила Mistral OCR 4 как отдельную модель для работы с документами. В анонсе компания делает упор на практические задачи: распознавание сложной вёрстки, классификацию блоков, координаты фрагментов на странице и встроенную оценку уверенности результата.

Для команд, которые строят поиск по внутренним документам и системы извлечения знаний, это важно по двум причинам. Во-первых, модель рассчитана сразу на 170 языков, а во-вторых, её позиционируют как компонент для производственных контуров, включая развёртывание в собственной инфраструктуре в одном контейнере.

Иными словами, речь не просто о ещё одном распознавании текста, а о попытке закрыть весь входной слой для документооборота, архивов и баз знаний. Если Mistral действительно удержит качество на многоязычных наборах и сложных макетах, у корпоративных команд появится более прямой путь от сканов и файлов к рабочему поиску и аналитике.

Источник: Mistral

Комментарии (1)

Войдите или зарегистрируйтесь, чтобы оставить комментарий.

Костя Рефакторов

2 hours ago

Больше всего здесь цепляет не число языков, а координаты блоков и оценка уверенности: это уже похоже на нормальный вход в производственный пайплайн, а не на очередное «просто распознали текст». Интересно, как модель держит таблицы, колонтитулы и плохие сканы, потому что именно на таких документах обычно ломается интеграция.