local import of ocrmypdf so that the webserver does not load that

2026-02-24 00:59:35 -06:00 · 2021-02-15 12:18:10 +01:00
parent f8f49bac75
commit 94cc9876d9
2 changed files with 9 additions and 12 deletions
--- a/src/paperless_tesseract/parsers.py
+++ b/src/paperless_tesseract/parsers.py
@@ -2,12 +2,8 @@ import json
 import os
 import re

-import ocrmypdf
-import pdftotext
-import pikepdf
 from PIL import Image
 from django.conf import settings
-from ocrmypdf import InputFileError, EncryptedPdfError

 from documents.parsers import DocumentParser, ParseError, \
    make_thumbnail_from_pdf
@@ -22,6 +18,8 @@ class RasterisedDocumentParser(DocumentParser):
    logging_name = "paperless.parsing.tesseract"

    def extract_metadata(self, document_path, mime_type):
+        import pikepdf
+
        namespace_pattern = re.compile(r"\{(.*)\}(.*)")

        result = []
@@ -91,6 +89,9 @@ class RasterisedDocumentParser(DocumentParser):
            return None

    def parse(self, document_path, mime_type, file_name=None):
+        import ocrmypdf
+        from ocrmypdf import InputFileError, EncryptedPdfError
+
        mode = settings.OCR_MODE

        text_original = get_text_from_pdf(document_path)
@@ -223,6 +224,7 @@ def strip_excess_whitespace(text):


 def get_text_from_pdf(pdf_file):
+    import pdftotext

    if not os.path.isfile(pdf_file):
        return None
--- a/src/paperless_tesseract/tests/test_parser.py
+++ b/src/paperless_tesseract/tests/test_parser.py
@@ -164,17 +164,12 @@ class TestParser(DirectoriesMixin, TestCase):

        self.assertRaises(ParseError, f)

-    @mock.patch("paperless_tesseract.parsers.ocrmypdf.ocr")
-    def test_image_calc_a4_dpi(self, m):
+    def test_image_calc_a4_dpi(self):
        parser = RasterisedDocumentParser(None)

-        parser.parse(os.path.join(self.SAMPLE_FILES, "simple-no-dpi.png"), "image/png")
+        dpi = parser.calculate_a4_dpi(os.path.join(self.SAMPLE_FILES, "simple-no-dpi.png"))

-        m.assert_called_once()
-
-        args, kwargs = m.call_args
-
-        self.assertEqual(kwargs['image_dpi'], 62)
+        self.assertEqual(dpi, 62)

    @mock.patch("paperless_tesseract.parsers.RasterisedDocumentParser.calculate_a4_dpi")
    def test_image_dpi_fail(self, m):