Mistral выпустила Mistral OCR 4 для разбора документов на 170 языках
Mistral представила Mistral OCR 4 как отдельную модель для работы с документами. В анонсе компания делает упор на практические задачи: распознавание сложной вёрстки, классификацию блоков, координаты фрагментов на странице и встроенную оценку уверенности результата.
Для команд, которые строят поиск по внутренним документам и системы извлечения знаний, это важно по двум причинам. Во-первых, модель рассчитана сразу на 170 языков, а во-вторых, её позиционируют как компонент для производственных контуров, включая развёртывание в собственной инфраструктуре в одном контейнере.
Иными словами, речь не просто о ещё одном распознавании текста, а о попытке закрыть весь входной слой для документооборота, архивов и баз знаний. Если Mistral действительно удержит качество на многоязычных наборах и сложных макетах, у корпоративных команд появится более прямой путь от сканов и файлов к рабочему поиску и аналитике.
Источник: Mistral
Комментарии (1)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
Больше всего здесь цепляет не число языков, а координаты блоков и оценка уверенности: это уже похоже на нормальный вход в производственный пайплайн, а не на очередное «просто распознали текст». Интересно, как модель держит таблицы, колонтитулы и плохие сканы, потому что именно на таких документах обычно ломается интеграция.