fix plainPdf bugs (#152)

2026-02-01 16:15:07 +08:00 · 2024-03-26 15:11:07 +08:00
parent 75f7c6da2f
commit da21320b88
13 changed files with 36 additions and 33 deletions
--- a/rag/app/laws.py
+++ b/rag/app/laws.py
@ -68,7 +68,7 @@ class Pdf(PdfParser):

        callback(0.8, "Text extraction finished")

-        return [(b["text"], self._line_tag(b, zoomin)) for b in self.boxes]
+        return [(b["text"], self._line_tag(b, zoomin)) for b in self.boxes], None


 def chunk(filename, binary=None, from_page=0, to_page=100000, lang="Chinese", callback=None, **kwargs):
@ -91,7 +91,7 @@ def chunk(filename, binary=None, from_page=0, to_page=100000, lang="Chinese", ca
    elif re.search(r"\.pdf$", filename, re.IGNORECASE):
            pdf_parser = Pdf() if kwargs.get("parser_config",{}).get("layout_recognize", True) else PlainParser()
            for txt, poss in pdf_parser(filename if not binary else binary,
-                             from_page=from_page, to_page=to_page, callback=callback):
+                             from_page=from_page, to_page=to_page, callback=callback)[0]:
                sections.append(txt + poss)

    elif re.search(r"\.txt$", filename, re.IGNORECASE):
--- a/rag/app/paper.py
+++ b/rag/app/paper.py
@ -136,7 +136,7 @@ def chunk(filename, binary=None, from_page=0, to_page=100000, lang="Chinese", ca
                "title": filename,
                "authors": " ",
                "abstract": "",
-                "sections": pdf_parser(filename if not binary else binary, from_page=from_page, to_page=to_page),
+                "sections": pdf_parser(filename if not binary else binary, from_page=from_page, to_page=to_page)[0],
                "tables": []
            }
        else:
--- a/rag/app/presentation.py
+++ b/rag/app/presentation.py
@ -66,7 +66,7 @@ class Pdf(PdfParser):

 class PlainPdf(PlainParser):
    def __call__(self, filename, binary=None, from_page=0, to_page=100000, callback=None, **kwargs):
-        self.pdf = pdf2_read(filename if not binary else BytesIO(filename))
+        self.pdf = pdf2_read(filename if not binary else BytesIO(binary))
        page_txt = []
        for page in self.pdf.pages[from_page: to_page]:
            page_txt.append(page.extract_text())
--- a/rag/app/resume.py
+++ b/rag/app/resume.py
@ -40,7 +40,7 @@ def remote_call(filename, binary):
                "encrypt_type": "base64",
                "filename": filename,
                "langtype": '',
-                "fileori": base64.b64encode(binary.stream.read()).decode('utf-8')
+                "fileori": base64.b64encode(binary).decode('utf-8')
            },
            "c": "resume_parse_module",
            "m": "resume_parse"