La lectura de datos de un documento mediante OCR (Optical Character Recognition) es un proceso que convierte documentos escaneados o subidos al gestor documental que no contienen texto que puede ser seleccionado, se extrae y se incluye en un nuevo documento.
Los documentos, para ser procesados, deben tener las siguientes características:
- Que sea un PDF
- Que no tenga ningún texto extraíble dentro del documento.
A continuación, le mostramos dos PDF iguales, uno que permite extracción directa de texto mediante herramienta de selección, mientras el otro, tiene el texto que no puede ser seleccionado y, por lo tanto, sí podría ser procesado por OCR con extracción de los datos:
Texto extraíble | No procesable mediante OCR | Texto no extraíble | Sí procesable mediante OCR |
IMPORTANTE en relación con la lectura automática de contenidos (OCR) La función de lectura automática de datos mediante OCR viene desactivada por defecto y debe habilitarse explícitamente. Para activar esta opción, acceda a la configuración de los tipos de documento, como se indica en la sección correspondiente dentro de las opciones de CONFIGURACIÓN > TIPO DE DOCUMENTO. |
Extracción de datos mediante OCR #
Disponemos de un documento PDF que no permite la extracción de datos mediante selección directa. | |
Hacer clic con el botón derecho para ver opciones de ese documento. Allí existe “Reenviar a procesar” refiriéndose a OCR. | |
Al hacer clic, el documento se procesa. Una vez hecho aparece un mensaje de “¡Hecho!”. | |
A continuación, recomendados que actualice el espacio, aunque puede que no sea necesario este paso si ya ha aparecido un “nuevo” documento. | |
El “nuevo” documento que aparece al lado es una nueva versión del documento procesado, pero ahora con la posibilidad de extracción de datos. Veremos que el nombre del nuevo documento tiene el siguiente formato: Nombre-del-documento+OCR_año+mes+dia+hora:nin:seg.pdf |
¿Cómo se procesa el documento enviado a OCR? #
Cuando se carga un documento que reúne las características para ser procesado, éste se procesa automáticamente, pero siempre se puede volver a enviar para procesar con el botón del menú contextual.
El documento es enviado a la cola de proceso del OCR para extraer el texto. El proceso puede ser casi instantáneo, pero si es extenso o tiene delante muchos documentos a procesar, puede tardar algunos segundos más.
Sabremos si está en la cola y se está procesando porque veremos un icono en el extremo arriba a la derecha. Mientras esté en cola, el icono es el de un cronómetro / reloj. Mientas está siendo procesado el icono es el asociado a proceso OCR que ya hemos comentado al inicio del apartado. |
Control de versiones de los documentos #
Se pueden subir nuevas versiones para un mismo documento seleccionando el documento y accediendo a las opciones haciendo clic con el botón derecho del ratón. Veremos un listado parecido al siguiente:
Veremos la opción para subir una nueva versión. | |
Subimos el documento de la nueva versión. | |
Los documentos con versiones, tendrán el siguiente símbolo. Cada documento/registro tiene varios archivos adjuntos y cada archivo adjunto puede tener varias versiones. | |
Por defecto, si se sube una nueva versión, esta será la activa, pero esto se puede modificar. | |
Descargar: Descargar del fichero establecido como el activo (por defecto será el último a subir a no ser que esto se modifique). Descargar versiones de los ficheros: Descarga de todas las versiones de los ficheros. Esta acción en el caso de que existan muchos ficheros puede demorarse. Los ficheros se envían juntos en un fichero .zip. Visualice las versiones abriendo las opciones para ese documento con el botón derecho del ratón. |
Si se miran las diferentes versiones verá una pantalla similar a la siguiente, donde se listan todas las versiones de más antigua a más nueva:
En el caso de que desee modificar un archivo para que sea el activo que se visualice en la capeta del registro (muestra de la imagen de la derecha), debe activarlo mediante los conminadores de versión activa. Solo va a disponer de una versión activa para cada registro. Con el signo de versiones podrá acceder fácilmente a las demás.
Origen de la subida del documento #
Hay diferentes orígenes de los archivos, ahora mismo las que interesan son:
- Inicial: Es la primera versión del archivo que se subió originalmente.
- Manual: Es una versión que se ha añadido manualmente con la opción descrita anteriormente (menú contextual). La última siempre pasa a ser activa.
- OCR: Cuando un archivo se ha procesado para aplicar OCR y extraer la capa de texto, se añade automáticamente como nueva versión activa.
Opciones de envío de los enlaces #
El que comenta el enlace es importante, tiene diferentes tipos de enlaces para los usuarios:
Desde la misma versión: solo el enlace para aquella versión | |
Desde el archivo: el archivo con la posibilidad de visualizar sus versiones, en el caso de que existan. | |
Desde el registro: el registro y todo su contenido. No existe el icono, esta opción aparece clicando |