Fix: optimize OCR garbage identification to reduce unnecessary filtering (#6027)

### What problem does this PR solve? Optimize OCR garbage identification to reduce unnecessary filtering. #5713 ### Type of change - [x] Bug Fix (non-breaking change which fixes an issue)
2026-01-30 23:26:36 +08:00 · 2025-03-13 18:48:32 +08:00
parent 0a877941f4
commit 4ff609b6a8
2 changed files with 18 additions and 18 deletions
--- a/rag/app/naive.py
+++ b/rag/app/naive.py
@ -15,20 +15,21 @@
 #

 import logging
-from tika import parser
-from io import BytesIO
-from docx import Document
-from timeit import default_timer as timer
 import re
-from deepdoc.parser.pdf_parser import PlainParser
-from rag.nlp import rag_tokenizer, naive_merge, tokenize_table, tokenize_chunks, find_codec, concat_img, \
-    naive_merge_docx, tokenize_chunks_docx
-from deepdoc.parser import PdfParser, ExcelParser, DocxParser, HtmlParser, JsonParser, MarkdownParser, TxtParser
-from rag.utils import num_tokens_from_string
-from PIL import Image
 from functools import reduce
+from io import BytesIO
+from timeit import default_timer as timer
+
+from docx import Document
+from docx.image.exceptions import InvalidImageStreamError, UnexpectedEndOfFileError, UnrecognizedImageError
 from markdown import markdown
-from docx.image.exceptions import UnrecognizedImageError, UnexpectedEndOfFileError, InvalidImageStreamError
+from PIL import Image
+from tika import parser
+
+from deepdoc.parser import DocxParser, ExcelParser, HtmlParser, JsonParser, MarkdownParser, PdfParser, TxtParser
+from deepdoc.parser.pdf_parser import PlainParser
+from rag.nlp import concat_img, find_codec, naive_merge, naive_merge_docx, rag_tokenizer, tokenize_chunks, tokenize_chunks_docx, tokenize_table
+from rag.utils import num_tokens_from_string


 class Docx(DocxParser):