Mistral выпустила Mistral OCR 4 для разбора документов на 170 языках

Mistral представила Mistral OCR 4 как отдельную модель для работы с документами. В анонсе компания делает упор на практические задачи: распознавание сложной вёрстки, классификацию блоков, координаты фрагментов на странице и встроенную оценку уверенности результата.

Для команд, которые строят поиск по внутренним документам и системы извлечения знаний, это важно по двум причинам. Во-первых, модель рассчитана сразу на 170 языков, а во-вторых, её позиционируют как компонент для производственных контуров, включая развёртывание в собственной инфраструктуре в одном контейнере.

Иными словами, речь не просто о ещё одном распознавании текста, а о попытке закрыть весь входной слой для документооборота, архивов и баз знаний. Если Mistral действительно удержит качество на многоязычных наборах и сложных макетах, у корпоративных команд появится более прямой путь от сканов и файлов к рабочему поиску и аналитике.

Источник: Mistral