🔍 refactor: OCR Fully Optional with Defaults for "Upload as Text" (#9856)

* refactor: move `loadOCRConfig` from `packages/data-provider` to `packages/api` and return `undefined` if not explicitly configured * fix: loadOCRConfig import from @librechat/api * refactor: update defaultTextMimeTypes to support virtually all file types for text parsing * fix: improve OCR capability check and error message for unsupported file types * ci: remove unnecessary ocr expectation from AppService test
2026-04-04 14:57:20 +02:00 · 2025-09-26 11:56:11 -04:00 · 2025-09-26 11:56:11 -04:00 · 4b5b46604c
commit 4b5b46604c
parent 3d7eaf0fcc
8 changed files with 15 additions and 20 deletions
--- a/api/server/services/AppService.js
+++ b/api/server/services/AppService.js
@ -1,16 +1,12 @@
 const { FileSources, EModelEndpoint, getConfigDefaults } = require('librechat-data-provider');
 const {
  isEnabled,
  loadOCRConfig,
  loadMemoryConfig,
  agentsConfigSetup,
  loadWebSearchConfig,
  loadDefaultInterface,
 } = require('@librechat/api');
 const {
  FileSources,
  loadOCRConfig,
  EModelEndpoint,
  getConfigDefaults,
 } = require('librechat-data-provider');
 const {
  checkWebSearchConfig,
  checkVariables,
--- a/api/server/services/AppService.spec.js
+++ b/api/server/services/AppService.spec.js
@ -142,7 +142,6 @@ describe('AppService', () => {
        turnstileConfig: mockedTurnstileConfig,
        modelSpecs: undefined,
        paths: expect.anything(),
        ocr: expect.anything(),
        imageOutputType: expect.any(String),
        fileConfig: undefined,
        secureImageLinks: undefined,
--- a/api/server/services/Files/process.js
+++ b/api/server/services/Files/process.js
@ -594,10 +594,9 @@ const processAgentFileUpload = async ({ req, res, metadata }) => {
    const fileConfig = mergeFileConfig(appConfig.fileConfig);
-    const shouldUseOCR = fileConfig.checkType(
+    const shouldUseOCR =
-      file.mimetype,
+      appConfig?.ocr != null &&
-      fileConfig.ocr?.supportedMimeTypes || [],
+      fileConfig.checkType(file.mimetype, fileConfig.ocr?.supportedMimeTypes || []);
    );
    if (shouldUseOCR && !(await checkCapability(req, AgentCapabilities.ocr))) {
      throw new Error('OCR capability is not enabled for Agents');
@ -626,7 +625,7 @@ const processAgentFileUpload = async ({ req, res, metadata }) => {
    );
    if (!shouldUseText) {
-      throw new Error(`File type ${file.mimetype} is not supported for OCR or text parsing`);
+      throw new Error(`File type ${file.mimetype} is not supported for text parsing.`);
    }
    const { text, bytes } = await parseText({ req, file, file_id });
--- a/packages/api/src/files/index.ts
+++ b/packages/api/src/files/index.ts
@ -1,4 +1,5 @@
 export * from './mistral/crud';
 export * from './audio';
-export * from './text';
+export * from './mistral/crud';
 export * from './ocr';
 export * from './parse';
 export * from './text';
--- a/packages/api/src/files/mistral/crud.ts
+++ b/packages/api/src/files/mistral/crud.ts
@ -303,7 +303,7 @@ async function loadAuthConfig(context: OCRContext): Promise<AuthConfig> {
 /**
 * Gets the model configuration
 */
-function getModelConfig(ocrConfig: TCustomConfig['ocr']): string {
+function getModelConfig(ocrConfig?: TCustomConfig['ocr']): string {
  const modelConfig = ocrConfig?.mistralModel || '';
  if (!modelConfig.trim()) {
--- a/packages/data-provider/src/ocr.ts
+++ b/packages/data-provider/src/ocr.ts
@ -1,7 +1,8 @@
-import type { TCustomConfig } from '../src/config';
+import { OCRStrategy } from 'librechat-data-provider';
-import { OCRStrategy } from '../src/config';
+import type { TCustomConfig } from 'librechat-data-provider';
-export function loadOCRConfig(config: TCustomConfig['ocr']): TCustomConfig['ocr'] {
+export function loadOCRConfig(config?: TCustomConfig['ocr']): TCustomConfig['ocr'] | undefined {
  if (!config) return;
  const baseURL = config?.baseURL ?? '';
  const apiKey = config?.apiKey ?? '';
  const mistralModel = config?.mistralModel ?? '';
--- a/packages/data-provider/src/file-config.ts
+++ b/packages/data-provider/src/file-config.ts
@ -133,7 +133,7 @@ export const defaultOCRMimeTypes = [
  /^application\/epub\+zip$/,
 ];
-export const defaultTextMimeTypes = [textMimeTypes];
+export const defaultTextMimeTypes = [/^[\w.-]+\/[\w.-]+$/];
 export const defaultSTTMimeTypes = [audioMimeTypes];
--- a/packages/data-provider/src/index.ts
+++ b/packages/data-provider/src/index.ts
@ -9,7 +9,6 @@ export * from './messages';
 export * from './artifacts';
 /* schema helpers  */
 export * from './parsers';
 export * from './ocr';
 /* custom/dynamic configurations  */
 export * from './generate';
 export * from './models';