Update PDF text parser classes. Remove SlateParser and substitute with a PDFMiner based parser.

2015-07-31 02:09:48 -04:00
parent 1361ea9b42
commit 8382df91a6
7 changed files with 254 additions and 36 deletions
--- a/mayan/apps/ocr/classes.py
+++ b/mayan/apps/ocr/classes.py
@@ -5,8 +5,6 @@ import logging
 from converter import converter_class

 from .models import DocumentPageContent
-from .parsers import parse_document_page
-from .parsers.exceptions import ParserError, ParserUnknownFile

 logger = logging.getLogger(__name__)

@@ -18,21 +16,31 @@ class OCRBackendBase(object):

        language = document_version.document.language

-        for page in document_version.pages.all():
-            image = page.get_image()
+        for document_page in document_version.pages.all():
+            self.process_document_page(document_page=document_page, language=language)
+
+    def process_document_page(self, document_page, language=None):
            logger.info(
                'Processing page: %d of document version: %s',
-                page.page_number, document_version
+                document_page.page_number, document_page.document_version
            )
-            document_page_content, created = DocumentPageContent.objects.get_or_create(document_page=page)
-            document_page_content.content = self.execute(
-                file_object=image, language=language
-            )
-            document_page_content.save()
-            image.close()
+
+            image = document_page.get_image()
+
+            try:
+                document_page_content, created = DocumentPageContent.objects.get_or_create(
+                    document_page=document_page
+                )
+                document_page_content.content = self.execute(
+                    file_object=image, language=language
+                )
+                document_page_content.save()
+            finally:
+                image.close()
+
            logger.info(
                'Finished processing page: %d of document version: %s',
-                page.page_number, document_version
+                document_page.page_number, document_page.document_version
            )

    def execute(self, file_object, language=None, transformations=None):