Cómo extraer el texto de una imagen usando el OCR de ChatGPT

Lo primero que tenemos que tener en cuenta es que ChatGPT solo puede reconocer el texto de las imágenes y documentos que subamos a su plataforma, y eso solo es posible hacerlo desde ChatGPT Plus, usando el modelo GPT-4.

Una vez subamos el archivo, ChatGPT se encargará de analizarlo, y no hace falta que le digamos específicamente que queremos que lea su contenido, el sistema de Inteligencia Artificial ya se encarga de hacerlo de forma automática.

Veamos un ejemplo con una imagen que contiene código fuente:

Ejemplo con una imagen que contiene código fuente. Foto: Juan Diego Polo

En este caso le subí una imagen de un programa que daba error, y ChatGPT fue capaz de reconocer el código y ofrecer una solución adecuada al problema que estaba teniendo.

Pero no solamente es capaz de entender letras perfectamente definidas, también puede hacerlo con letras manuscritas (con ciertos límites) o letras en disposición vertical o inclinadas.

Veamos otro ejemplo:

Otro ejemplo más. Foto: Juan Diego Polo

Fijaos que en este caso la letra es terrible, no tiene forma definida, ni estructura. Las “e” son diferentes en cada palabra, no está alineado nada con nada, pero aún así, ChatGPT es capaz de juntar los píxeles de la imagen y llegar a la conclusión de que son letras. La orden “Transcribe esto” es la adecuada para que pueda transformar el contenido en texto.

Qué utilidades podría tener la herramienta OCR de ChatGPT

La herramienta OCR que se integra con ChatGPT puede tener múltiples utilidades, especialmente en campos donde se necesita convertir grandes cantidades de documentos impresos o manuscritos en texto editable y analizable. Aquí algunas aplicaciones:

Digitalización de documentos: Para bibliotecas y archivos que buscan digitalizar su contenido histórico y hacerlo accesible en línea.
Automatización de oficina: Para convertir formularios impresos o escritos a mano en datos digitales, facilitando el almacenamiento, la búsqueda y el análisis de información.
Traducción automática: Al convertir texto de imágenes a texto digital, es posible utilizar herramientas de traducción automática para entender documentos en otros idiomas.
Procesamiento de facturas y recibos: Para empresas que necesitan digitalizar y catalogar grandes volúmenes de facturas y recibos para su contabilidad y auditoría. Podemos leer el contenido y estructurar la información de la factura.
Medios de comunicación y periodismo: Para periodistas que requieren extraer y analizar información de documentos en formatos no digitales.
Automatización de entrada de datos: Para reducir el trabajo manual y el error humano en la entrada de datos a sistemas computarizados.

El uso de OCR con ChatGPT combina la capacidad de comprensión y generación de texto del modelo de lenguaje con la habilidad de interactuar y procesar información visual, lo que amplía significativamente las aplicaciones y los contextos en los que se puede emplear. Una vez se extraiga el texto de la imagen, se puede trabajar con él de la misma forma que si se hubiera introducido el texto a mano.

Cómo extraer el texto de una imagen usando el OCR de ChatGPT. Foto: Istock

Qué limitaciones tiene el OCR de ChatGPT

El OCR es una tecnología poderosa, pero como todas, tiene limitaciones. Algunas de estas incluyen:

Calidad de la imagen: El OCR depende fuertemente de la calidad de la imagen. Textos borrosos, pixelados o con iluminación inadecuada pueden resultar en un reconocimiento pobre.
Estilos de fuente: Las fuentes altamente estilizadas o caligráficas pueden ser difíciles de interpretar. El OCR funciona mejor con textos impresos en fuentes estándar, aunque ya habéis visto antes que en este caso es capaz de interpretar bastante bien texto manuscrito.
Idiomas y caracteres especiales: Algunos idiomas y caracteres especiales (como los ideogramas chinos o japoneses) son más desafiantes para el OCR que los caracteres latinos estándar.
Disposición del texto: Las disposiciones complejas o poco convencionales (como columnas, cuadros de texto en ángulos, o texto que fluye alrededor de gráficos) pueden confundir a los sistemas de OCR.
Errores de conversión: Incluso con imágenes claras y texto impreso, el OCR puede introducir errores de reconocimiento, especialmente con números y letras similares (por ejemplo, 0 y O, 1 y l, 5 y S).
Elementos gráficos: Las imágenes y otros elementos gráficos que se entremezclan con el texto pueden interferir con la precisión del OCR.

Como veis, nada es perfecto, pero si preparamos bien la imagen antes de enviarla a ChatGPT, las probabilidades de éxito serán altas.

Leer mas

Noticias

Nosotros

Únete a nuestra comunidad de suscriptores y sé parte de la conversación.

MUNICIPIO DE AGUASCALIENTES E ISSEA REALIZARÁN NUEVA JORNADA DE ESTERILIZACIÓN CANINA Y FELINA

CELEBRA LEO MONTAÑEZ DÍA DE LA MADRE CON ADULTOS MAYORES DEL DIF MUNICIPAL

FORTALECE MUNICIPIO CULTURA AMBIENTAL CON PLÁTICAS DE CONCIENTIZACIÓN EN ESCUELAS

ENTREGA LEO MONTAÑEZ REHABILITACIÓN DEL PARQUE RECREATIVO LAS TORRES

LEO MONTALEZ ESCUCHA A LAS Y LOS VECINOS DE LA COMUNIDAD LOS CAÑOS

Una nueva guía sobre obesidad insta a la atención dirigida por dietistas a medida que los medicamentos GLP-1 remodelan el tratamiento

Clínica médico estética para cuidarse con criterio

Casi la mitad de las mujeres estadounidenses tienen preocupaciones financieras que podrían afectar la atención médica, sugiere un informe

La vacuna de ARNm personalizada se dirige a la recaída del osteosarcoma en su primer uso en humanos

Aumentan las tasas de amputación por hospitalizaciones relacionadas y no relacionadas con opioides

Cuba reconoce una situación ‘crítica’ por la falta total de combustible debido al bloqueo de EE.UU.

Tres mexicanos entre los muertos hallados en ferrocarril de Texas: SRE

Trump: ‘Totalmente inaceptable’ la respuesta de Irán para terminar la guerra

Trump habría suspendido escolta de buques en Ormuz por presión de Arabia Saudí, según NBC

Trump aumentará al 25% aranceles de autos y camiones de la UE

Lo que arruinaba mi pelo cada mañana llevaba años colgado del toallero

Seis cremas de sol con color para un acabado luminoso y protegido

Mis amigas francesas y yo coincidimos: estos son los básicos de armario cápsula que incorporaremos en primavera y verano

El pueblo de Teruel que deberías conocer esta primavera: la casa de los Medinaceli, el castillo del Cid y bellas praderas

Por qué es importante usar un sérum de ácido hialurónico: los cuatro mejores

Cómo extraer el texto de una imagen usando el OCR de ChatGPT

Qué utilidades podría tener la herramienta OCR de ChatGPT

Qué limitaciones tiene el OCR de ChatGPT

Tabla de contenido [hide]

Javier Aguirre: México aprendió de sus errores en Mundiales pasados

Una nueva guía sobre obesidad insta a la atención dirigida por dietistas a medida que los medicamentos GLP-1 remodelan el tratamiento

Lanzamiento científico y de carga de la NASA en la 34ª misión de reabastecimiento de SpaceX a la estación

MUNICIPIO DE AGUASCALIENTES E ISSEA REALIZARÁN NUEVA JORNADA DE ESTERILIZACIÓN CANINA Y FELINA

Clínica médico estética para cuidarse con criterio

Mas noticias

Javier Aguirre: México aprendió de sus errores en Mundiales pasados

Una nueva guía sobre obesidad insta a la atención dirigida por dietistas a medida que los medicamentos GLP-1 remodelan el tratamiento

Lanzamiento científico y de carga de la NASA en la 34ª misión de reabastecimiento de SpaceX a la estación

MUNICIPIO DE AGUASCALIENTES E ISSEA REALIZARÁN NUEVA JORNADA DE ESTERILIZACIÓN CANINA Y FELINA

Javier Aguirre: México aprendió de sus errores en Mundiales pasados

Una nueva guía sobre obesidad insta a la atención dirigida por dietistas a medida que los medicamentos GLP-1 remodelan el tratamiento

Lanzamiento científico y de carga de la NASA en la 34ª misión de reabastecimiento de SpaceX a la estación