Étiquette : OCR

  • Essai OCR

    Essai OCR

    J’avais une capture d’écran d’un prompt YouTube. Le genre de screenshot que vous prenez à la volée parce que la vidéo défile et que vous n’avez pas le temps de recopier. Sauf que maintenant, j’ai besoin du texte brut.

    Capture d ecran d un prompt YouTube a convertir en texte

    Premier réflexe : Ollama avec Deepseek-OCR. Un prompt tout simple, presque insultant de simplicité :

    fait moi une reconnaissance du texte

    Et hop, en quelques secondes, l’image se transforme en texte exploitable. C’est beau, c’est rapide, ça marche.

    Resultat OCR Deepseek - texte extrait de l image

    Évidemment, comme tout geek qui se respecte, je ne me suis pas arrêté là. J’ai voulu tester glm-ocr, le nouveau modèle supposé révolutionnaire. Celui dont tout le monde parle.

    Résultat : impossible à installer localement.

    Erreur installation glm-ocr

    Vous connaissez la chanson. C’est comme ces vieilles cafetières italiennes qui font encore le meilleur café du quartier pendant que la nouvelle machine à dosettes refuse de démarrer parce qu’il lui manque une mise à jour firmware. Parfois, l’ancien marche mieux que le nouveau.

    Et c’est là que le local prend tout son sens : pas de quota, pas de surprise tarifaire, pas de changement de conditions générales à 3h du matin. Juste votre machine qui bosse pour vous. Comme au bon vieux temps.

  • L’OCR selon Claude : quand l’IA lit entre les pixels

    L’OCR selon Claude : quand l’IA lit entre les pixels

    J’ai mis Claude à l’épreuve avec un test simple : extraire les URLs d’une capture d’écran de présentation.

    Le résultat ? Six liens parfaitement identifiés, sans erreur. Pas de confusion entre les caractères, pas d’URL tronquée. Claude a même poussé l’analyse en remarquant que tous ces liens concernaient le Model Context Protocol.

    Ce qui m’a frappé, c’est la fiabilité. Pas besoin de corriger, pas de copier-coller approximatif. L’image contenait du texte, et Claude l’a lu aussi naturellement qu’un document texte standard.

    Pourquoi c’est intéressant ? Parce que ça change la donne pour tous ceux qui passent des heures à retaper des infos depuis des captures d’écran, des PDF scannés ou des photos de tableaux. Claude ne se contente pas de voir le texte, il le comprend dans son contexte.

    Dans mon cas, j’avais besoin de ces URLs pour mon travail sur MCP. Au lieu de les taper manuellement ou de risquer une erreur, j’ai simplement demandé. Trois secondes plus tard, j’avais ma liste.

    L’OCR n’est plus une fonctionnalité approximative qu’on utilise en dernier recours. C’est devenu un outil de productivité à part entière, intégré naturellement dans le flux de travail.

    A suivre…