feat: add paddleocr parser (#12513)

### What problem does this PR solve? Add PaddleOCR as a new PDF parser. ### Type of change - [x] New Feature (non-breaking change which adds functionality)
2026-02-01 16:15:07 +08:00 · 2026-01-09 17:48:45 +08:00
parent 6abf55c048
commit 2e09db02f3
34 changed files with 1510 additions and 453 deletions
--- a/web/src/locales/de.ts
+++ b/web/src/locales/de.ts
@ -385,6 +385,17 @@ Prozedurales Gedächtnis: Erlernte Fähigkeiten, Gewohnheiten und automatisierte
        'Formelerkennung aktivieren. Hinweis: Dies funktioniert möglicherweise nicht korrekt bei kyrillischen Dokumenten.',
      mineruTableEnable: 'Tabellenerkennung',
      mineruTableEnableTip: 'Tabellenerkennung und -extraktion aktivieren.',
+      paddleocrOptions: 'PaddleOCR-Optionen',
+      paddleocrApiUrl: 'PaddleOCR API-URL',
+      paddleocrApiUrlTip: 'API-Endpunkt-URL des PaddleOCR-Dienstes',
+      paddleocrApiUrlPlaceholder: 'Zum Beispiel: https://paddleocr-server.com/layout-parsing',
+      paddleocrAccessToken: 'AI Studio-Zugriffstoken',
+      paddleocrAccessTokenTip: 'Zugriffstoken für die PaddleOCR-API (optional)',
+      paddleocrAccessTokenPlaceholder: 'Ihr AI Studio-Token (optional)',
+      paddleocrAlgorithm: 'PaddleOCR-Algorithmus',
+      paddleocrAlgorithmTip: 'Algorithmus, der für die PaddleOCR-Verarbeitung verwendet wird',
+      paddleocrSelectAlgorithm: 'Algorithmus auswählen',
+      paddleocrModelNamePlaceholder: 'Zum Beispiel: paddleocr-umgebung-1',
      overlappedPercent: 'Überlappungsprozent(%)',
      generationScopeTip:
        'Bestimmt, ob RAPTOR für den gesamten Datensatz oder für eine einzelne Datei generiert wird.',
@ -475,7 +486,7 @@ Prozedurales Gedächtnis: Erlernte Fähigkeiten, Gewohnheiten und automatisierte
      book: `<p>Unterstützte Dateiformate sind <b>DOCX</b>, <b>PDF</b>, <b>TXT</b>.</p><p>
      Für jedes Buch im PDF-Format stellen Sie bitte die <i>Seitenbereiche</i> ein, um unerwünschte Informationen zu entfernen und die Analysezeit zu reduzieren.</p>`,
      laws: `<p>Unterstützte Dateiformate sind <b>DOCX</b>, <b>PDF</b>, <b>TXT</b>.</p><p>
-      Rechtliche Dokumente folgen in der Regel einem strengen Schreibformat. Wir verwenden Textmerkmale, um Teilungspunkte zu identifizieren. 
+      Rechtliche Dokumente folgen in der Regel einem strengen Schreibformat. Wir verwenden Textmerkmale, um Teilungspunkte zu identifizieren.
      </p><p>
      Der Chunk hat eine Granularität, die mit 'ARTIKEL' übereinstimmt, wobei sichergestellt wird, dass der gesamte übergeordnete Text im Chunk enthalten ist.
      </p>`,
@ -489,7 +500,7 @@ Prozedurales Gedächtnis: Erlernte Fähigkeiten, Gewohnheiten und automatisierte
      <li>Dann werden benachbarte Segmente kombiniert, bis die Token-Anzahl den durch 'Chunk-Token-Anzahl' festgelegten Schwellenwert überschreitet, woraufhin ein Chunk erstellt wird.</li></p>`,
      paper: `<p>Nur <b>PDF</b>-Dateien werden unterstützt.</p><p>
      Papers werden nach Abschnitten wie <i>abstract, 1.1, 1.2</i> aufgeteilt. </p><p>
-      Dieser Ansatz ermöglicht es dem LLM, das Paper effektiver zusammenzufassen und umfassendere, verständlichere Antworten zu liefern. 
+      Dieser Ansatz ermöglicht es dem LLM, das Paper effektiver zusammenzufassen und umfassendere, verständlichere Antworten zu liefern.
      Es erhöht jedoch auch den Kontext für KI-Gespräche und die Rechenkosten für das LLM. Daher sollten Sie während eines Gesprächs erwägen, den Wert von '<b>topN</b>' zu reduzieren.</p>`,
      presentation: `<p>Unterstützte Dateiformate sind <b>PDF</b>, <b>PPTX</b>.</p><p>
      Jede Seite in den Folien wird als Chunk behandelt, wobei ihr Vorschaubild gespeichert wird.</p><p>
@ -1108,6 +1119,17 @@ Beispiel: Virtual Hosted Style`,
      modelTypeMessage: 'Bitte geben Sie Ihren Modelltyp ein!',
      addLlmBaseUrl: 'Basis-URL',
      baseUrlNameMessage: 'Bitte geben Sie Ihre Basis-URL ein!',
+      paddleocr: {
+        apiUrl: 'PaddleOCR API-URL',
+        apiUrlPlaceholder: 'Zum Beispiel: https://paddleocr-server.com/layout-parsing',
+        accessToken: 'AI Studio-Zugriffstoken',
+        accessTokenPlaceholder: 'Ihr AI Studio-Token (optional)',
+        algorithm: 'PaddleOCR-Algorithmus',
+        selectAlgorithm: 'Algorithmus auswählen',
+        modelNamePlaceholder: 'Zum Beispiel: paddleocr-from-env-1',
+        modelNameRequired: 'Der Modellname ist ein Pflichtfeld',
+        apiUrlRequired: 'Die PaddleOCR API-URL ist ein Pflichtfeld'
+      },
      vision: 'Unterstützt es Vision?',
      ollamaLink: 'Wie integriere ich {{name}}',
      FishAudioLink: 'Wie verwende ich FishAudio',
--- a/web/src/locales/en.ts
+++ b/web/src/locales/en.ts
@ -148,7 +148,7 @@ Procedural Memory: Learned skills, habits, and automated procedures.`,
        action: 'Action',
      },
      config: {
-        memorySizeTooltip: `Accounts for each message's content + its embedding vector (≈ Content + Dimensions × 8 Bytes). 
+        memorySizeTooltip: `Accounts for each message's content + its embedding vector (≈ Content + Dimensions × 8 Bytes).
 Example: A 1 KB message with 1024-dim embedding uses ~9 KB. The 5 MB default limit holds ~500 such messages.`,
        avatar: 'Avatar',
        description: 'Description',
@ -424,6 +424,17 @@ Example: A 1 KB message with 1024-dim embedding uses ~9 KB. The 5 MB default lim
        'Enable formula recognition. Note: This may not work correctly for Cyrillic documents.',
      mineruTableEnable: 'Table recognition',
      mineruTableEnableTip: 'Enable table recognition and extraction.',
+      paddleocrOptions: 'PaddleOCR Options',
+      paddleocrApiUrl: 'PaddleOCR API URL',
+      paddleocrApiUrlTip: 'The API endpoint URL for PaddleOCR service',
+      paddleocrApiUrlPlaceholder: 'e.g. https://paddleocr-server.com/layout-parsing',
+      paddleocrAccessToken: 'AI Studio Access Token',
+      paddleocrAccessTokenTip: 'Access token for PaddleOCR API (optional)',
+      paddleocrAccessTokenPlaceholder: 'Your AI Studio token (optional)',
+      paddleocrAlgorithm: 'PaddleOCR Algorithm',
+      paddleocrAlgorithmTip: 'Algorithm to use for PaddleOCR parsing',
+      paddleocrSelectAlgorithm: 'Select Algorithm',
+      paddleocrModelNamePlaceholder: 'e.g. paddleocr-from-env-1',
      overlappedPercent: 'Overlapped percent(%)',
      generationScopeTip:
        'Determines whether RAPTOR is generated for the entire dataset or for a single file.',
@ -1094,6 +1105,17 @@ Example: Virtual Hosted Style`,
      modelTypeMessage: 'Please input your model type!',
      addLlmBaseUrl: 'Base url',
      baseUrlNameMessage: 'Please input your base url!',
+      paddleocr: {
+        apiUrl: 'PaddleOCR API URL',
+        apiUrlPlaceholder: 'For example: https://paddleocr-server.com/layout-parsing',
+        accessToken: 'AI Studio Access Token',
+        accessTokenPlaceholder: 'Your AI Studio token (optional)',
+        algorithm: 'PaddleOCR Algorithm',
+        selectAlgorithm: 'Select Algorithm',
+        modelNamePlaceholder: 'For example: paddleocr-from-env-1',
+        modelNameRequired: 'Model name is required',
+        apiUrlRequired: 'PaddleOCR API URL is required'
+      },
      vision: 'Does it support Vision?',
      ollamaLink: 'How to integrate {{name}}',
      FishAudioLink: 'How to use FishAudio',
--- a/web/src/locales/es.ts
+++ b/web/src/locales/es.ts
@ -159,6 +159,20 @@ export default {
      html4excelTip: `Usar junto con el método de fragmentación General. Cuando está desactivado, los archivos de hoja de cálculo (XLSX, XLS (Excel 97-2003)) se analizan línea por línea como pares clave-valor. Cuando está activado, los archivos de hoja de cálculo se convierten en tablas HTML. Si la tabla original tiene más de 12 filas, el sistema la dividirá automáticamente en varias tablas HTML cada 12 filas. Para más información, consulte https://ragflow.io/docs/dev/enable_excel2html.`,
    },

+    knowledgeConfiguration: {
+      paddleocrOptions: 'Opciones de PaddleOCR',
+      paddleocrApiUrl: 'URL de API de PaddleOCR',
+      paddleocrApiUrlTip: 'La URL del endpoint de la API para el servicio PaddleOCR',
+      paddleocrApiUrlPlaceholder: 'ej: https://servidor-paddleocr.com/api',
+      paddleocrAccessToken: 'Token de acceso de AI Studio',
+      paddleocrAccessTokenTip: 'Token de acceso para la API de PaddleOCR (opcional)',
+      paddleocrAccessTokenPlaceholder: 'Su token de AI Studio (opcional)',
+      paddleocrAlgorithm: 'Algoritmo de PaddleOCR',
+      paddleocrAlgorithmTip: 'Algoritmo a utilizar para el análisis de PaddleOCR',
+      paddleocrSelectAlgorithm: 'Seleccionar algoritmo',
+      paddleocrModelNamePlaceholder: 'ej: paddleocr-desde-env-1',
+    },
+
    // Otros bloques de traducción
    // Continua con la misma estructura
    chat: {
@ -379,6 +393,17 @@ export default {
      modelTypeMessage: '¡Por favor ingresa el tipo de tu modelo!',
      addLlmBaseUrl: 'URL base',
      baseUrlNameMessage: '¡Por favor ingresa tu URL base!',
+      paddleocr: {
+        apiUrl: 'URL de la API de PaddleOCR',
+        apiUrlPlaceholder: 'Por ejemplo: https://paddleocr-server.com/layout-parsing',
+        accessToken: 'Token de acceso de AI Studio',
+        accessTokenPlaceholder: 'Su token de AI Studio (opcional)',
+        algorithm: 'Algoritmo de PaddleOCR',
+        selectAlgorithm: 'Seleccionar algoritmo',
+        modelNamePlaceholder: 'Por ejemplo: paddleocr-from-env-1',
+        modelNameRequired: 'El nombre del modelo es obligatorio',
+        apiUrlRequired: 'La URL de la API de PaddleOCR es obligatoria'
+      },
      vision: '¿Soporta visión?',
      ollamaLink: 'Cómo integrar {{name}}',
      FishAudioLink: 'Cómo usar FishAudio',
--- a/web/src/locales/fr.ts
+++ b/web/src/locales/fr.ts
@ -293,6 +293,17 @@ export default {
      communityTip: `Un "community" est un groupe d’entités liées. Le LLM peut générer un résumé pour chaque groupe. Voir plus ici : https: //www.microsoft.com/en-us/research/blog/graphrag-improving-global-search-via-dynamic-community-selection/`,
      theDocumentBeingParsedCannotBeDeleted:
        'Le document en cours d’analyse ne peut pas être supprimé',
+      paddleocrOptions: 'Options PaddleOCR',
+      paddleocrApiUrl: 'URL de l’API PaddleOCR',
+      paddleocrApiUrlTip: 'URL du point de terminaison de l’API du service PaddleOCR',
+      paddleocrApiUrlPlaceholder: 'Par exemple : https://paddleocr-server.com/layout-parsing',
+      paddleocrAccessToken: 'Jeton d’accès AI Studio',
+      paddleocrAccessTokenTip: 'Jeton d’accès à l’API PaddleOCR (optionnel)',
+      paddleocrAccessTokenPlaceholder: 'Votre jeton AI Studio (optionnel)',
+      paddleocrAlgorithm: 'Algorithme PaddleOCR',
+      paddleocrAlgorithmTip: 'Algorithme utilisé pour l’analyse PaddleOCR',
+      paddleocrSelectAlgorithm: 'Sélectionner un algorithme',
+      paddleocrModelNamePlaceholder: 'Par exemple : paddleocr-environnement-1',
    },
    chunk: {
      chunk: 'Segment',
@ -566,6 +577,17 @@ export default {
      modelTypeMessage: 'Veuillez saisir le type de votre modèle !',
      addLlmBaseUrl: 'URL de base',
      baseUrlNameMessage: 'Veuillez saisir votre URL de base !',
+      paddleocr: {
+        apiUrl: 'URL de l’API PaddleOCR',
+        apiUrlPlaceholder: 'Par exemple : https://paddleocr-server.com/layout-parsing',
+        accessToken: 'Jeton d’accès AI Studio',
+        accessTokenPlaceholder: 'Votre jeton AI Studio (optionnel)',
+        algorithm: 'Algorithme PaddleOCR',
+        selectAlgorithm: 'Sélectionner un algorithme',
+        modelNamePlaceholder: 'Par exemple : paddleocr-from-env-1',
+        modelNameRequired: 'Le nom du modèle est obligatoire',
+        apiUrlRequired: 'L’URL de l’API PaddleOCR est obligatoire'
+      },
      vision: 'Supporte-t-il la vision ?',
      ollamaLink: 'Comment intégrer {{name}}',
      FishAudioLink: 'Comment utiliser FishAudio',
--- a/web/src/locales/id.ts
+++ b/web/src/locales/id.ts
@ -316,6 +316,17 @@ export default {
      randomSeed: 'Benih acak',
      randomSeedMessage: 'Benih acak diperlukan',
      entityTypes: 'Jenis entitas',
+      paddleocrOptions: 'Opsi PaddleOCR',
+      paddleocrApiUrl: 'URL API PaddleOCR',
+      paddleocrApiUrlTip: 'URL endpoint API layanan PaddleOCR',
+      paddleocrApiUrlPlaceholder: 'Contoh: https://paddleocr-server.com/layout-parsing',
+      paddleocrAccessToken: 'Token Akses AI Studio',
+      paddleocrAccessTokenTip: 'Token akses untuk API PaddleOCR (opsional)',
+      paddleocrAccessTokenPlaceholder: 'Token AI Studio Anda (opsional)',
+      paddleocrAlgorithm: 'Algoritma PaddleOCR',
+      paddleocrAlgorithmTip: 'Algoritma yang digunakan untuk pemrosesan PaddleOCR',
+      paddleocrSelectAlgorithm: 'Pilih algoritma',
+      paddleocrModelNamePlaceholder: 'Contoh: paddleocr-lingkungan-1',
    },
    chunk: {
      chunk: 'Potongan',
@ -553,6 +564,17 @@ export default {
      modelTypeMessage: 'Silakan masukkan jenis model Anda!',
      addLlmBaseUrl: 'Base url',
      baseUrlNameMessage: 'Silakan masukkan base url Anda!',
+      paddleocr: {
+        apiUrl: 'URL API PaddleOCR',
+        apiUrlPlaceholder: 'Contoh: https://paddleocr-server.com/layout-parsing',
+        accessToken: 'Token Akses AI Studio',
+        accessTokenPlaceholder: 'Token AI Studio Anda (opsional)',
+        algorithm: 'Algoritma PaddleOCR',
+        selectAlgorithm: 'Pilih algoritma',
+        modelNamePlaceholder: 'Contoh: paddleocr-from-env-1',
+        modelNameRequired: 'Nama model wajib diisi',
+        apiUrlRequired: 'URL API PaddleOCR wajib diisi'
+      },
      vision: 'Apakah mendukung Vision?',
      ollamaLink: 'Cara mengintegrasikan {{name}}',
      FishAudioLink: 'Cara menggunakan FishAudio',
--- a/web/src/locales/it.ts
+++ b/web/src/locales/it.ts
@ -488,6 +488,17 @@ Quanto sopra è il contenuto che devi riassumere.`,
        'In un grafo della conoscenza, una comunità è un cluster di entità collegate da relazioni. Puoi far generare al LLM un abstract per ogni comunità, noto come report comunità.',
      theDocumentBeingParsedCannotBeDeleted:
        'Il documento in fase di analisi non può essere eliminato',
+      paddleocrOptions: 'Opzioni PaddleOCR',
+      paddleocrApiUrl: 'URL API di PaddleOCR',
+      paddleocrApiUrlTip: 'URL dell’endpoint API del servizio PaddleOCR',
+      paddleocrApiUrlPlaceholder: 'Ad esempio: https://paddleocr-server.com/layout-parsing',
+      paddleocrAccessToken: 'Token di accesso AI Studio',
+      paddleocrAccessTokenTip: 'Token di accesso per l’API PaddleOCR (facoltativo)',
+      paddleocrAccessTokenPlaceholder: 'Il tuo token AI Studio (facoltativo)',
+      paddleocrAlgorithm: 'Algoritmo PaddleOCR',
+      paddleocrAlgorithmTip: 'Algoritmo utilizzato per l’elaborazione PaddleOCR',
+      paddleocrSelectAlgorithm: 'Seleziona algoritmo',
+      paddleocrModelNamePlaceholder: 'Ad esempio: paddleocr-ambiente-1',
    },
    chunk: {
      chunk: 'Chunk',
@ -785,6 +796,17 @@ Quanto sopra è il contenuto che devi riassumere.`,
      modelTypeMessage: 'Inserisci il tuo tipo di modello!',
      addLlmBaseUrl: 'URL base',
      baseUrlNameMessage: 'Inserisci il tuo URL base!',
+      paddleocr: {
+        apiUrl: 'URL API di PaddleOCR',
+        apiUrlPlaceholder: 'Ad esempio: https://paddleocr-server.com/layout-parsing',
+        accessToken: 'Token di accesso AI Studio',
+        accessTokenPlaceholder: 'Il tuo token AI Studio (facoltativo)',
+        algorithm: 'Algoritmo PaddleOCR',
+        selectAlgorithm: 'Seleziona algoritmo',
+        modelNamePlaceholder: 'Ad esempio: paddleocr-from-env-1',
+        modelNameRequired: 'Il nome del modello è obbligatorio',
+        apiUrlRequired: 'L’URL API di PaddleOCR è obbligatorio'
+      },
      vision: 'Supporta Vision?',
      ollamaLink: 'Come integrare {{name}}',
      FishAudioLink: 'Come usare FishAudio',
--- a/web/src/locales/ja.ts
+++ b/web/src/locales/ja.ts
@ -240,7 +240,7 @@ export default {
      <b>XLSX</b>形式のファイルには、ヘッダーのない2つの
      列が必要です： 1つは質問の列でもう1つは回答の列です
      （質問列が先行）。複数のシートも可能です。
-      
+
    </li>
    <li>
     <b>CSV/TXT</b>形式のファイルは、TABで区切られたUTF-8エンコードである必要があります。
@ -285,7 +285,7 @@ export default {
    LLMがその量のコンテキスト長を処理できる場合に、ドキュメント全体を要約する必要があるときに適用されます。
    </p>`,
      knowledgeGraph: `<p>対応ファイル形式は<b>DOCX, EXCEL, PPT, IMAGE, PDF, TXT, MD, JSON, EML</b>です。
-          
+
 <p>このアプローチでは、ファイルを'ナイーブ'/'一般'メソッドを使用してチャンクに分割します。ドキュメントをセグメントに分割し、隣接するセグメントを結合してトークン数が'チャンクトークン数'で指定されたしきい値を超えるまで続け、その時点でチャンクが作成されます。</p>
 <p>その後、チャンクはLLMに入力され、ナレッジグラフとマインドマップのエンティティと関係を抽出します。</p>
 <p><b>エンティティタイプ</b>を設定することを忘れないでください。</p>`,
@ -314,6 +314,17 @@ export default {
      entityTypes: 'エンティティタイプ',
      pageRank: 'ページランク',
      pageRankTip: `検索時に特定の知識ベースにより高いPageRankスコアを割り当てることができます。対応するスコアは、これらの知識ベースから取得されたチャンクのハイブリッド類似度スコアに加算され、ランキングが向上します。詳細については、https://ragflow.io/docs/dev/set_page_rank を参照してください。`,
+      paddleocrOptions: 'PaddleOCRオプション',
+      paddleocrApiUrl: 'PaddleOCR API URL',
+      paddleocrApiUrlTip: 'PaddleOCRサービスのAPIエンドポイントURL',
+      paddleocrApiUrlPlaceholder: '例: https://paddleocr-server.com/api',
+      paddleocrAccessToken: 'AI Studioアクセストークン',
+      paddleocrAccessTokenTip: 'PaddleOCR APIのアクセストークン（オプション）',
+      paddleocrAccessTokenPlaceholder: 'AI Studioトークン（オプション）',
+      paddleocrAlgorithm: 'PaddleOCRアルゴリズム',
+      paddleocrAlgorithmTip: 'PaddleOCR解析に使用するアルゴリズム',
+      paddleocrSelectAlgorithm: 'アルゴリズムを選択',
+      paddleocrModelNamePlaceholder: '例: paddleocr-from-env-1',
    },
    chunk: {
      chunk: 'チャンク',
@ -596,6 +607,17 @@ export default {
      modelTypeMessage: 'モデルタイプを入力してください！',
      addLlmBaseUrl: 'ベースURL',
      baseUrlNameMessage: 'ベースURLを入力してください！',
+      paddleocr: {
+        apiUrl: 'PaddleOCR API URL',
+        apiUrlPlaceholder: '例：https://paddleocr-server.com/layout-parsing',
+        accessToken: 'AI Studio アクセストークン',
+        accessTokenPlaceholder: 'AI Studio のトークン（任意）',
+        algorithm: 'PaddleOCR アルゴリズム',
+        selectAlgorithm: 'アルゴリズムを選択',
+        modelNamePlaceholder: '例：paddleocr-from-env-1',
+        modelNameRequired: 'モデル名は必須です',
+        apiUrlRequired: 'PaddleOCR API URL は必須です'
+      },
      vision: 'ビジョンをサポートしていますか？',
      ollamaLink: '{{name}}を統合する方法',
      FishAudioLink: 'FishAudioの使用方法',
--- a/web/src/locales/pt-br.ts
+++ b/web/src/locales/pt-br.ts
@ -310,6 +310,17 @@ export default {
      topnTags: 'Top-N Etiquetas',
      tags: 'Etiquetas',
      addTag: 'Adicionar etiqueta',
+      paddleocrOptions: 'Opções do PaddleOCR',
+      paddleocrApiUrl: 'URL da API do PaddleOCR',
+      paddleocrApiUrlTip: 'A URL do endpoint da API para o serviço PaddleOCR',
+      paddleocrApiUrlPlaceholder: 'ex: https://servidor-paddleocr.com/api',
+      paddleocrAccessToken: 'Token de Acesso do AI Studio',
+      paddleocrAccessTokenTip: 'Token de acesso para a API do PaddleOCR (opcional)',
+      paddleocrAccessTokenPlaceholder: 'Seu token do AI Studio (opcional)',
+      paddleocrAlgorithm: 'Algoritmo do PaddleOCR',
+      paddleocrAlgorithmTip: 'Algoritmo a ser usado para a análise do PaddleOCR',
+      paddleocrSelectAlgorithm: 'Selecionar algoritmo',
+      paddleocrModelNamePlaceholder: 'ex: paddleocr-do-ambiente-1',
    },
    chunk: {
      chunk: 'Fragmento',
@ -546,6 +557,17 @@ export default {
      modelTypeMessage: 'Por favor, insira o tipo do seu modelo!',
      addLlmBaseUrl: 'URL base',
      baseUrlNameMessage: 'Por favor, insira sua URL base!',
+      paddleocr: {
+        apiUrl: 'URL da API do PaddleOCR',
+        apiUrlPlaceholder: 'Por exemplo: https://paddleocr-server.com/layout-parsing',
+        accessToken: 'Token de acesso do AI Studio',
+        accessTokenPlaceholder: 'Seu token do AI Studio (opcional)',
+        algorithm: 'Algoritmo do PaddleOCR',
+        selectAlgorithm: 'Selecionar algoritmo',
+        modelNamePlaceholder: 'Por exemplo: paddleocr-from-env-1',
+        modelNameRequired: 'O nome do modelo é obrigatório',
+        apiUrlRequired: 'A URL da API do PaddleOCR é obrigatória'
+      },
      vision: 'Suporta visão?',
      ollamaLink: 'Como integrar {{name}}',
      FishAudioLink: 'Como usar FishAudio',
--- a/web/src/locales/ru.ts
+++ b/web/src/locales/ru.ts
@ -510,6 +510,17 @@ export default {
        'В графе знаний сообщество - это кластер сущностей, связанных отношениями. Вы можете поручить LLM генерировать аннотацию для каждого сообщества, известную как отчет сообщества. Более подробная информация здесь: https://www.microsoft.com/en-us/research/blog/graphrag-improving-global-search-via-dynamic-community-selection/',
      theDocumentBeingParsedCannotBeDeleted:
        'Документ, который в данный момент парсится, не может быть удален',
+      paddleocrOptions: 'Параметры PaddleOCR',
+      paddleocrApiUrl: 'URL API PaddleOCR',
+      paddleocrApiUrlTip: 'URL конечной точки API сервиса PaddleOCR',
+      paddleocrApiUrlPlaceholder: 'Например: https://paddleocr-server.com/layout-parsing',
+      paddleocrAccessToken: 'Токен доступа AI Studio',
+      paddleocrAccessTokenTip: 'Токен доступа к API PaddleOCR (необязательно)',
+      paddleocrAccessTokenPlaceholder: 'Ваш токен AI Studio (необязательно)',
+      paddleocrAlgorithm: 'Алгоритм PaddleOCR',
+      paddleocrAlgorithmTip: 'Алгоритм, используемый для обработки PaddleOCR',
+      paddleocrSelectAlgorithm: 'Выбрать алгоритм',
+      paddleocrModelNamePlaceholder: 'Например: paddleocr-среда-1',
    },
    chunk: {
      chunk: 'Чанк',
@ -716,7 +727,7 @@ export default {
        'Базовый URL вашего экземпляра Confluence (например, https://your-domain.atlassian.net/wiki)',
      confluenceSpaceKeyTip:
        'Необязательно: Укажите ключ пространства для синхронизации только определенного пространства. Оставьте пустым для синхронизации всех доступных пространств. Для нескольких пространств разделите запятыми (например, DEV,DOCS,HR)',
-      s3PrefixTip: `Укажите путь к папке в вашем S3 бакете для получения файлов. 
+      s3PrefixTip: `Укажите путь к папке в вашем S3 бакете для получения файлов.
 Пример: general/v2/`,
      S3CompatibleEndpointUrlTip: `Требуется для S3 совместимого Storage Box. Укажите URL конечной точки, совместимой с S3.
 Пример: https://fsn1.your-objectstorage.com`,
@ -1034,6 +1045,17 @@ export default {
      modelsToBeAddedTooltip:
        'Если ваш провайдер моделей не указан, но заявляет о "совместимости с OpenAI-API", выберите карточку OpenAI-API-compatible, чтобы добавить соответствующие модели. ',
      mcp: 'MCP',
+      paddleocr: {
+        apiUrl: 'URL API PaddleOCR',
+        apiUrlPlaceholder: 'Например: https://paddleocr-server.com/layout-parsing',
+        accessToken: 'Токен доступа AI Studio',
+        accessTokenPlaceholder: 'Ваш токен AI Studio (необязательно)',
+        algorithm: 'Алгоритм PaddleOCR',
+        selectAlgorithm: 'Выбрать алгоритм',
+        modelNamePlaceholder: 'Например: paddleocr-from-env-1',
+        modelNameRequired: 'Имя модели является обязательным',
+        apiUrlRequired: 'URL API PaddleOCR является обязательным'
+      },
    },
    message: {
      registered: 'Зарегистрирован!',
--- a/web/src/locales/vi.ts
+++ b/web/src/locales/vi.ts
@ -354,6 +354,17 @@ export default {
      community: 'Xây dựng mối quan hệ cộng đồng',
      communityTip:
        'Các liên kết được nhóm lại thành các cộng đồng phân cấp, với các thực thể và mối quan hệ kết nối từng phân đoạn lên các cấp độ trừu tượng cao hơn. Sau đó, chúng tôi sử dụng một LLM để tạo ra bản tóm tắt cho mỗi cộng đồng, được gọi là báo cáo cộng đồng. Xem thêm: https://www.microsoft.com/en-us/research/blog/graphrag-improving-global-search-via-dynamic-community-selection/',
+      paddleocrOptions: 'Tùy chọn PaddleOCR',
+      paddleocrApiUrl: 'URL API PaddleOCR',
+      paddleocrApiUrlTip: 'URL điểm cuối API của dịch vụ PaddleOCR',
+      paddleocrApiUrlPlaceholder: 'Ví dụ: https://paddleocr-server.com/layout-parsing',
+      paddleocrAccessToken: 'Token truy cập AI Studio',
+      paddleocrAccessTokenTip: 'Token truy cập cho API PaddleOCR (tùy chọn)',
+      paddleocrAccessTokenPlaceholder: 'Token AI Studio của bạn (tùy chọn)',
+      paddleocrAlgorithm: 'Thuật toán PaddleOCR',
+      paddleocrAlgorithmTip: 'Thuật toán được sử dụng để xử lý PaddleOCR',
+      paddleocrSelectAlgorithm: 'Chọn thuật toán',
+      paddleocrModelNamePlaceholder: 'Ví dụ: paddleocr-môi-trường-1',
    },
    chunk: {
      chunk: 'Khối',
@ -595,6 +606,17 @@ export default {
      modelTypeMessage: 'Vui lòng nhập loại mô hình của bạn!',
      addLlmBaseUrl: 'URL cơ sở',
      baseUrlNameMessage: 'Vui lòng nhập URL cơ sở của bạn!',
+      paddleocr: {
+        apiUrl: 'URL API PaddleOCR',
+        apiUrlPlaceholder: 'Ví dụ: https://paddleocr-server.com/layout-parsing',
+        accessToken: 'Token truy cập AI Studio',
+        accessTokenPlaceholder: 'Token AI Studio của bạn (tùy chọn)',
+        algorithm: 'Thuật toán PaddleOCR',
+        selectAlgorithm: 'Chọn thuật toán',
+        modelNamePlaceholder: 'Ví dụ: paddleocr-from-env-1',
+        modelNameRequired: 'Tên mô hình là bắt buộc',
+        apiUrlRequired: 'URL API PaddleOCR là bắt buộc'
+      },
      vision: 'Có hỗ trợ Tầm nhìn không?',
      ollamaLink: 'Cách tích hợp {{name}}',
      FishAudioLink: 'Cách sử dụng FishAudio',
--- a/web/src/locales/zh-traditional.ts
+++ b/web/src/locales/zh-traditional.ts
@ -367,6 +367,17 @@ export default {
 `,
      tags: '標籤',
      addTag: '增加標籤',
+      paddleocrOptions: 'PaddleOCR 選項',
+      paddleocrApiUrl: 'PaddleOCR API URL',
+      paddleocrApiUrlTip: 'PaddleOCR 服務的 API 端點 URL',
+      paddleocrApiUrlPlaceholder: '例如：https://paddleocr-server.com/layout-parsing',
+      paddleocrAccessToken: 'AI Studio 訪問令牌',
+      paddleocrAccessTokenTip: 'PaddleOCR API 的訪問令牌（可選）',
+      paddleocrAccessTokenPlaceholder: '您的 AI Studio 令牌（可選）',
+      paddleocrAlgorithm: 'PaddleOCR 算法',
+      paddleocrAlgorithmTip: '用於 PaddleOCR 解析的算法',
+      paddleocrSelectAlgorithm: '選擇算法',
+      paddleocrModelNamePlaceholder: '例如：paddleocr-環境-1',
      useGraphRag: '提取知識圖譜',
      useGraphRagTip:
        '基於知識庫內所有切好的文本塊構建知識圖譜，用以提升多跳和複雜問題回答的正確率。請注意：構建知識圖譜將消耗大量 token 和時間。詳見 https://ragflow.io/docs/dev/construct_knowledge_graph。',
@ -644,6 +655,17 @@ export default {
      modelNameMessage: '請輸入模型名稱！',
      modelTypeMessage: '請輸入模型類型！',
      baseUrlNameMessage: '請輸入基礎 Url！',
+      paddleocr: {
+        apiUrl: 'PaddleOCR API URL',
+        apiUrlPlaceholder: '例如：https://paddleocr-server.com/layout-parsing',
+        accessToken: 'AI Studio 存取權杖',
+        accessTokenPlaceholder: '您的 AI Studio 權杖（選填）',
+        algorithm: 'PaddleOCR 演算法',
+        selectAlgorithm: '選擇演算法',
+        modelNamePlaceholder: '例如：paddleocr-from-env-1',
+        modelNameRequired: '模型名稱為必填項目',
+        apiUrlRequired: 'PaddleOCR API URL 為必填項目'
+      },
      ollamaLink: '如何集成 {{name}}',
      FishAudioLink: '如何使用Fish Audio',
      TencentCloudLink: '如何使用騰訊雲語音識別',
--- a/web/src/locales/zh.ts
+++ b/web/src/locales/zh.ts
@ -390,6 +390,17 @@ export default {
        '启用公式识别。注意：对于西里尔文档可能无法正常工作。',
      mineruTableEnable: '表格识别',
      mineruTableEnableTip: '启用表格识别和提取。',
+      paddleocrOptions: 'PaddleOCR 选项',
+      paddleocrApiUrl: 'PaddleOCR API URL',
+      paddleocrApiUrlTip: 'PaddleOCR 服务的 API 端点 URL',
+      paddleocrApiUrlPlaceholder: '例如：https://paddleocr-server.com/layout-parsing',
+      paddleocrAccessToken: 'AI Studio 访问令牌',
+      paddleocrAccessTokenTip: 'PaddleOCR API 的访问令牌（可选）',
+      paddleocrAccessTokenPlaceholder: '您的 AI Studio 令牌（可选）',
+      paddleocrAlgorithm: 'PaddleOCR 算法',
+      paddleocrAlgorithmTip: '用于 PaddleOCR 解析的算法',
+      paddleocrSelectAlgorithm: '选择算法',
+      paddleocrModelNamePlaceholder: '例如：paddleocr-环境-1',
      generationScopeTip: '选择 RAPTOR 的生成范围：整个知识库或单个文件。',
      generationScope: '生成范围',
      scopeSingleFile: '单文件',
@ -1113,6 +1124,17 @@ General：实体和关系提取提示来自 GitHub - microsoft/graphrag：基于
          vlmLmdeployEngine: '基于LMDeploy引擎的视觉语言模型（实验性）',
        },
      },
+      paddleocr: {
+        apiUrl: 'PaddleOCR API URL',
+        apiUrlPlaceholder: '例如：https://paddleocr-server.com/layout-parsing',
+        accessToken: 'AI Studio访问令牌',
+        accessTokenPlaceholder: '您的 AI Studio 令牌（可选）',
+        algorithm: 'PaddleOCR算法',
+        selectAlgorithm: '选择算法',
+        modelNamePlaceholder: '例如：paddleocr-from-env-1',
+        modelNameRequired: '模型名称为必填项',
+        apiUrlRequired: 'PaddleOCR API URL 为必填项'
+      },
    },
    message: {
      registered: '注册成功',