Lectura automática de datos mediante OCR

3 minutos de lectura

Tabla de contenidos

Extracción de datos mediante OCR
¿Cómo se procesa el documento enviado a OCR?
Control de versiones de los documentos
Origen de la subida del documento
Opciones de envío de los enlaces

La lectura de datos de un documento mediante OCR (Optical Character Recognition) es un proceso que convierte documentos escaneados o subidos al gestor documental que no contienen texto que puede ser seleccionado, se extrae y se incluye en un nuevo documento.

Los documentos, para ser procesados, deben tener las siguientes características:

Que sea un PDF
Que no tenga ningún texto extraíble dentro del documento.

A continuación, le mostramos dos PDF iguales, uno que permite extracción directa de texto mediante herramienta de selección, mientras el otro, tiene el texto que no puede ser seleccionado y, por lo tanto, sí podría ser procesado por OCR con extracción de los datos:

Extracción de datos mediante OCR #

¿Cómo se procesa el documento enviado a OCR? #

Cuando se carga un documento que reúne las características para ser procesado, éste se procesa automáticamente, pero siempre se puede volver a enviar para procesar con el botón del menú contextual.

El documento es enviado a la cola de proceso del OCR para extraer el texto. El proceso puede ser casi instantáneo, pero si es extenso o tiene delante muchos documentos a procesar, puede tardar algunos segundos más.

Control de versiones de los documentos #

Se pueden subir nuevas versiones para un mismo documento seleccionando el documento y accediendo a las opciones haciendo clic con el botón derecho del ratón. Veremos un listado parecido al siguiente:

Si se miran las diferentes versiones verá una pantalla similar a la siguiente, donde se listan todas las versiones de más antigua a más nueva:

En el caso de que desee modificar un archivo para que sea el activo que se visualice en la capeta del registro (muestra de la imagen de la derecha), debe activarlo mediante los conminadores de versión activa. Solo va a disponer de una versión activa para cada registro. Con el signo de versiones podrá acceder fácilmente a las demás.

Origen de la subida del documento #

Hay diferentes orígenes de los archivos, ahora mismo las que interesan son:

Inicial: Es la primera versión del archivo que se subió originalmente.
Manual: Es una versión que se ha añadido manualmente con la opción descrita anteriormente (menú contextual). La última siempre pasa a ser activa.
OCR: Cuando un archivo se ha procesado para aplicar OCR y extraer la capa de texto, se añade automáticamente como nueva versión activa.

Opciones de envío de los enlaces #

El que comenta el enlace es importante, tiene diferentes tipos de enlaces para los usuarios:

What are your Feelings

¿Sigues con problemas? ¿Cómo podemos ayudar?

Updated on noviembre 28, 2024

	Disponemos de un documento PDF que no permite la extracción de datos mediante selección directa.
	Hacer clic con el botón derecho para ver opciones de ese documento. Allí existe “Reenviar a procesar” refiriéndose a OCR.
	Al hacer clic, el documento se procesa. Una vez hecho aparece un mensaje de “¡Hecho!”.
	A continuación, recomendados que actualice el espacio, aunque puede que no sea necesario este paso si ya ha aparecido un “nuevo” documento.
	El “nuevo” documento que aparece al lado es una nueva versión del documento procesado, pero ahora con la posibilidad de extracción de datos. Veremos que el nombre del nuevo documento tiene el siguiente formato: Nombre-del-documento+OCR_año+mes+dia+hora:nin:seg.pdf

	Veremos la opción para subir una nueva versión.
	Subimos el documento de la nueva versión.
	Los documentos con versiones, tendrán el siguiente símbolo. Cada documento/registro tiene varios archivos adjuntos y cada archivo adjunto puede tener varias versiones.
	Por defecto, si se sube una nueva versión, esta será la activa, pero esto se puede modificar.
	Descargar: Descargar del fichero establecido como el activo (por defecto será el último a subir a no ser que esto se modifique). Descargar versiones de los ficheros: Descarga de todas las versiones de los ficheros. Esta acción en el caso de que existan muchos ficheros puede demorarse. Los ficheros se envían juntos en un fichero .zip. Visualice las versiones abriendo las opciones para ese documento con el botón derecho del ratón.

Texto extraíble \| No procesable mediante OCR	Texto no extraíble \| Sí procesable mediante OCR

Desde la misma versión: solo el enlace para aquella versión
Desde el archivo: el archivo con la posibilidad de visualizar sus versiones, en el caso de que existan.
Desde el registro: el registro y todo su contenido. No existe el icono, esta opción aparece clicando

Extracción de datos mediante OCR #

¿Cómo se procesa el documento enviado a OCR? #

Control de versiones de los documentos #

Origen de la subida del documento #

Opciones de envío de los enlaces #

What are your Feelings

Comparte este artículo:

¿Cómo podemos ayudar?

Deja una respuesta Cancelar la respuesta