Revert "Merge pull request #2732 from bdr99/skip_neverarchive"

This reverts commit 77b23d3acb, reversing changes made to 5d8aa27831.
2026-01-30 23:08:59 -06:00 · 2023-02-23 21:26:53 -05:00
parent dbea2acc8f
commit 8a89f5ae27
4 changed files with 5 additions and 65 deletions
--- a/src/paperless_tesseract/parsers.py
+++ b/src/paperless_tesseract/parsers.py
@@ -192,7 +192,7 @@ class RasterisedDocumentParser(DocumentParser):

        if settings.OCR_MODE == "force" or safe_fallback:
            ocrmypdf_args["force_ocr"] = True
-        elif settings.OCR_MODE in ["skip", "skip_noarchive", "skip_neverarchive"]:
+        elif settings.OCR_MODE in ["skip", "skip_noarchive"]:
            ocrmypdf_args["skip_text"] = True
        elif settings.OCR_MODE == "redo":
            ocrmypdf_args["redo_ocr"] = True
@@ -294,10 +294,7 @@ class RasterisedDocumentParser(DocumentParser):

        # If the original has text, and the user doesn't want an archive,
        # we're done here
-        if (
-            settings.OCR_MODE in ["skip_noarchive", "skip_neverarchive"]
-            and original_has_text
-        ):
+        if settings.OCR_MODE == "skip_noarchive" and original_has_text:
            self.log("debug", "Document has text, skipping OCRmyPDF entirely.")
            self.text = text_original
            return
@@ -323,9 +320,7 @@ class RasterisedDocumentParser(DocumentParser):
            self.log("debug", f"Calling OCRmyPDF with args: {args}")
            ocrmypdf.ocr(**args)

-            # Only create archive file if archiving isn't being skipped
-            if settings.OCR_MODE != "skip_neverarchive":
-                self.archive_path = archive_path
+            self.archive_path = archive_path

            self.text = self.extract_text(sidecar_file, archive_path)

--- a/src/paperless_tesseract/tests/test_parser.py
+++ b/src/paperless_tesseract/tests/test_parser.py
@@ -438,52 +438,6 @@ class TestParser(DirectoriesMixin, FileSystemAssertsMixin, TestCase):

        self.assertIsNotNone(parser.archive_path)

-    @override_settings(OCR_MODE="skip_neverarchive")
-    def test_skip_neverarchive_withtext(self):
-        """
-        GIVEN:
-            - File with existing text layer
-            - OCR mode set to skip_neverarchive
-        WHEN:
-            - Document is parsed
-        THEN:
-            - Text from images is extracted
-            - No archive file is created
-        """
-        parser = RasterisedDocumentParser(None)
-        parser.parse(
-            os.path.join(self.SAMPLE_FILES, "multi-page-digital.pdf"),
-            "application/pdf",
-        )
-        self.assertIsNone(parser.archive_path)
-        self.assertContainsStrings(
-            parser.get_text().lower(),
-            ["page 1", "page 2", "page 3"],
-        )
-
-    @override_settings(OCR_MODE="skip_neverarchive")
-    def test_skip_neverarchive_notext(self):
-        """
-        GIVEN:
-            - File with text contained in images but no text layer
-            - OCR mode set to skip_neverarchive
-        WHEN:
-            - Document is parsed
-        THEN:
-            - Text from images is extracted
-            - No archive file is created
-        """
-        parser = RasterisedDocumentParser(None)
-        parser.parse(
-            os.path.join(self.SAMPLE_FILES, "multi-page-images.pdf"),
-            "application/pdf",
-        )
-        self.assertIsNone(parser.archive_path)
-        self.assertContainsStrings(
-            parser.get_text().lower(),
-            ["page 1", "page 2", "page 3"],
-        )
-
    @override_settings(OCR_MODE="skip")
    def test_multi_page_mixed(self):
        """