CuneiForm (logiciel) - CuneiForm (software)

Cunéiforme
Auteur(s) original(aux) Technologies cognitives
Développeur(s) Technologies cognitives
Première version Source 2 avril 2008 ; Il y a 13 ans ( 2008-04-02 )
Version stable
1.1 / 19 avril 2011 ; Il ya 10 ans ( 2011-04-19 )
Écrit en C et C++
Système opérateur Multiplateforme
Taper Reconnaissance optique de caractères
Licence Licences Freeware / BSD
Site Internet tableau de bord .net /cuneiform-linux Modifiez ceci sur Wikidata

CuneiForm Cognitive OpenOCR est un système OCR open source distribué gratuitement développé par la société de logiciels russe Cognitive Technologies .

CuneiForm OCR a été développé par Cognitive Technologies en tant que produit commercial en 1993. Le système était fourni avec les modèles de scanners, d'imprimantes multifonctions et de logiciels les plus populaires en Russie et dans le reste du monde : Corel Draw, Hewlet-Packard, Epson, Xerox, Samsung, Brother, Mustek, OKI, Canon, Olivetti, etc.
En 2008, Cognitive Technologies a ouvert les codes sources du programme.

Caractéristiques

CuneiForm est un système développé pour transformer les copies électroniques de documents papier et de fichiers image en une forme éditable sans changer la structure et les polices du document original en mode automatique ou semi-automatique. Le système comprend deux composants pour le traitement unique et par lots de documents électroniques.

La liste des langues prises en charge par le système :

En outre, le système prend en charge un mélange de russe et d'anglais. La reconnaissance d'autres langues mixtes n'est prise en charge que dans la branche, développée par Andrei Borovsky en 2009. Éduquer le système à reconnaître d'autres langues est difficile car chaque langue est liée à un fichier dat, dont la structure et la méthode de développement ne sont pas divulguées par les développeurs.

Histoire

1993 - Cognitive Technologies signe un contrat OEM avec Corel , aux termes duquel la bibliothèque de reconnaissance cognitive est intégrée au package Corel Draw 3.0 (et versions ultérieures) populaire dans le domaine de l'édition.

1994 – Le contrat avec Hewlett-Packard sur l'équipement de tous les scanners importés en Russie avec CuneiForm OCR. Il s'agissait du premier contrat HP avec une société de logiciels russe.

1995 - Le contrat avec la société japonaise Epson pour la fourniture de leurs scanners avec l'OCR CuneiForm. Le contrat OEM a été signé avec le plus grand fabricant mondial de télécopieurs, d'imprimantes laser, de scanners et d'autres équipements de bureau - Brother Corporation. Selon l'accord, le nouveau scanner à rouleaux Brother IC-150 était équipé d'un logiciel cognitif pour la numérisation et la reconnaissance dans le monde entier.

1996 - Accord OEM avec l'un des plus grands fabricants mondiaux d'écrans, de télécopieurs, d'imprimantes laser, de MFP et d'autres équipements de bureau - Samsung Information Systems America. Selon l'accord, le nouvel appareil multifonctions Samsung OFFICE MASTER OML-8630A devait être équipé du système Cognitive Cuneiform LE de reconnaissance optique des symboles dans le monde entier.

  • Accord OEM avec l'un des principaux fabricants mondiaux d'équipements de bureau Xerox pour l'équipement des appareils multifonctions Xerox 3006 et Pro-610 avec le système de reconnaissance CuneiForm.
  • CuneiForm '96 version OCR, avec les premiers algorithmes de reconnaissance adaptative au monde.

Reconnaissance adaptative - une méthode basée sur une combinaison de deux types d'algorithmes de reconnaissance de caractères imprimés : multifont et omnifont. Le système génère une police interne pour chaque document d'entrée sur la base de caractères bien imprimés en utilisant un ajustement dynamique (adaptation) aux symboles d'entrée spécifiques. Ainsi, la méthode combine l'omnitude et l'efficacité technologique de l'approche omnifont avec la haute précision de reconnaissance des polices qui améliore considérablement le taux de reconnaissance.

1997 - La première utilisation des technologies basées sur les réseaux de neurones dans CuneiForm. Les algorithmes utilisant des réseaux de neurones pour la reconnaissance de caractères sont développés comme suit : l'image du caractère à reconnaître (motif) est réduite à une certaine taille standard (normalisée). Les valeurs de luminance du motif normalisé sont utilisées comme paramètres d'entrée pour le réseau neuronal. Le nombre de paramètres de sortie du réseau de neurones est égal au nombre de caractères reconnus. Le résultat de la reconnaissance est un symbole, qui correspond à la valeur maximale du vecteur de sortie du réseau de neurones.

  • Nouvel accord OEM avec Canon équipant les appareils multifonctions importés en Russie avec le système CuneiForm ;
  • Nouveau contrat OEM avec OKI Europe Limited pour l'équipement des MFP OKI FAX 4100 et OKI FAX 5200 MFD, importés en Russie avec le système CuneiForm ;
  • Le premier système OCR de mise à jour CuneiForm MMX pour la version du processeur Intel MMX ;
  • Les scanners NeuHause sont livrés avec le système de reconnaissance CuneiForm ;
  • Le premier système de numérisation réseau de Russie CuneiForm 98 NEST.

1999

  • Nouveau contrat OEM avec la société Olivetti pour la fourniture des appareils multifonctions importés en Russie avec le système CuneiForm ;
  • Accord de distribution avec l'un des principaux distributeurs européens de la société de logiciels WSKA (France) sur la distribution d'OCR Cuneiform Direct en Europe ;
  • Sortie d'une nouvelle version du système, Cuneiform 2000, qui implémente la méthode « d'analyse cognitive TM » : un système expert est intégré au noyau de reconnaissance, qui analyse des alternatives aux estimations sur la sortie de chaque algorithme de détection, et choisit le meilleur option.
  • La méthode de « Meridian table segmentation TM » est développée pour améliorer la précision de la recréation de la forme originale du tableau dans le document de sortie ;
  • Le mécanisme de récréation du formulaire de document original - "Ce que vous numérisez est ce que vous obtenez TM" est introduit. La technologie visait à sauvegarder la forme originale du document numérisé en termes de placement de ses composants. Ceci est particulièrement important pour les documents à topologie complexe : textes multicolonnes avec en-têtes, annotations, illustrations graphiques, tableaux, etc.

2001 - Contrat OEM avec Canon sur ses scanners et équipements multifonctions avec le logiciel OCR CuneiForm de Cognitive Technologies pour l'Europe de l'Est

Perspectives de développement

  • 12 décembre 2007 La version gratuite du logiciel OCR CuneiForm est sortie et l'ouverture de sa source a été annoncée.
  • Le 2 avril 2008, les codes sources de l'OCR cunéiforme sont publiés sous licence BSD , et à l'automne - les textes sources de l'interface du système.
  • La dernière version de la version OpenSource pour Windows n'a pas été mise à jour depuis le 14.02.2009. Cette version n'est plus disponible en téléchargement. Au lieu de cela, la version du 11.11.2008 est disponible sur la page de téléchargement
  • En 2009, des interfaces graphiques pour la version ouverte de Cuneiform basée sur la bibliothèque Qt 4 - Cuneiform-Qt, YAGF sont publiées. À partir de la version 0.9.0, la version ouverte pour Linux peut être utilisée comme bibliothèque .

Voir également

  • Puma.NET est une bibliothèque wrapper pour le moteur de reconnaissance Cognitive Technologies CuneiForm. Il facilite l'intégration de la fonctionnalité OCR dans n'importe quelle application .NET Framework 2.0 (ou supérieure).

Les références

Liens externes