Dados estruturados e a revolução do OCR

O Reconhecimento Óptico de Caracteres, mais conhecido como OCR (do inglês “Optical Character Recognition”) está longe de ser algo novo. Mas, combinado com a estruturação de dados e a inteligência artificial, pode revolucionar a forma como armazenamos e utilizamos nossos dados. É uma tecnologia poderosa, mas que ganha o mundo justamente pela sua simplicidade: com apenas um clique podemos reunir informações que abastecem bancos de dados com informações que, se bem trabalhadas, podem solucionar diversos problemas da nossa sociedade.

O OCR em si é algo antigo. Muito se falou sobre o assunto na década de 90, mas o primeiro software de reconhecimento de caracteres surgiu em 1950. Chamado Gismo, o sistema foi desenvolvido pela agência americana que, mais tarde se tornaria a NSA – Agência de Segurança Nacional. Em 1953, a IBM obteve uma licença, desenvolveu seu software próprio e criou o termo “Optical Character Recognition”, que virou padrão para o setor.

O que mais mudou, dos anos 90 para cá, foram as possibilidades de utilização dos dados obtidos. Antes, um documento era analisado e transformado em formato editável. Esses dados eram transferidos para um novo documento ou para um pequeno sistema, mas nada como existe hoje. Atualmente, principalmente com o Big Data, esses dados podem ser capturados, organizados e armazenados de maneira setorizada. É possível fazer buscas para encontrar informações específicas ou reunir dados semelhantes, capazes de gerar insights poderosos para o futuro do grupo analisado. Podem ser informações referentes ao estoque de uma empresa ou mesmo o perfil de compra da população de uma determinada cidade. Os limites variam de acordo com a capacidade dos sistemas utilizados.

A existência de dados estruturados é o que faz uma diferença real entre um sistema inteligente, com uma funcionalidade clara, ou apenas uma série de dados guardados em uma plataforma. Com o desenvolvimento da inteligência artificial, é possível desenvolver sistemas que aprendam as regras e criem novas setorização de acordo com os dados obtidos. Um sistema que aprende sozinho, e que vai se aperfeiçoando com o tempo, só é possível graças ao machine learning. Podemos desenvolver padrões, apontar para o software quais são os resultados esperados ou criar lógicas de setorização que evoluam com o aumento da quantidade e da qualidade das informações obtidas. Podemos chegar a resultados inimagináveis.

Essa tecnologia pode ser muito útil tanto para grandes instituições como para pequenas empresas. Pense no formulário que um cliente precisa preencher para efetuar uma compra on-line. A maioria dos brasileiros navega na Internet via smartphone e nem todas as empresas possuem um sistema de cadastro que seja realmente amigável para o mobile. Nesse momento, existe a possibilidade do consumidor desistir da compra ou parar para concluir o processo mais tarde via computador. Mesmo na segunda opção, existe um risco enorme da venda ser perdida.

Agora, aplique a tecnologia OCR nessa situação. O cliente tira uma foto do seu documento e automaticamente preenche uma série de dados. O vendedor recebe dados confiáveis, pois vieram de um documento oficial, e livre de erros de digitação. Ele pode reunir todas as informações presentes no documento e utilizar no seu banco de dados. O sistema pode categorizar os dados e, automaticamente, realizar ações como oferecer uma oferta para quem comprou produtos da linha A + B ou enviar um e-mail com desconto no aniversário do consumidor. Essas são aplicações bem simples. Imagine o que pode ser feito com sistemas governamentais ou de grandes instituições. As possibilidades são praticamente infinitas.

Para uma tecnologia ser bem sucedida, ela precisa resolver problemas reais da população de maneira rápida e prática, e o OCR faz isso com precisão. Além de solucionar um problema imediato – o preenchimento de dados – ele ainda pode ser utilizado para o desenvolvimento de bancos de dados e categorização de informações.

Big Data, machine learning e inteligência artificial foram responsáveis por revolucionar essa tecnologia e aumentar suas possibilidades de utilização. Hoje os dados são os itens mais preciosos que uma organização pode ter, por isso é imprescindível que eles sejam organizados e bem aproveitados.

FONTE: TERRA