PP-OCRv5 di Baidu supera GPT-4o e Gemini nei test OCR

https://www.hdblog.it/tecnologia/articoli/n631576/baidu-pp-ocrv5-modello-ai/

HDblog.it Sep 15, 2025 · 2 mins read
PP-OCRv5 di Baidu supera GPT-4o e Gemini nei test OCR
Share this

Baidu torna a far parlare di sé con un nuovo annuncio AI, dopo la recente presentazione del modello di ragionamento Ernie X1.1. L’azienda cinese ha infatti rilasciato PP-OCRv5, una nuova versione del suo sistema di riconoscimento ottico dei caratteri, resa disponibile liberamente sulla piattaforma Hugging Face. La novità non sta soltanto nella precisione, ma soprattutto nel fatto che si tratta di un modello estremamente compatto, pensato per funzionare in modo rapido anche senza la potenza di server dedicati.

Mentre i grandi modelli multimodali, come GPT-4o, Gemini 2.5 Pro o Qwen2.5-VL, si distinguono per la capacità di integrare linguaggio e visione in contesti complessi, spesso non sono altrettanto efficienti nel leggere testi strutturati da immagini, documenti o moduli. È qui che PP-OCRv5 mostra la sua forza: l’architettura in due fasi – prima individuare il testo, poi leggerlo – consente di ottenere riquadri precisi attorno alle parole e un riconoscimento accurato dei contenuti, un aspetto cruciale per l’elaborazione automatica di fatture, moduli o archivi digitalizzati.

Il dato che colpisce di più è la leggerezza del sistema. Con appena 0,07 miliardi di parametri, il modello è in grado di processare oltre 370 caratteri al secondo su un processore Intel Xeon, dimostrando così di poter funzionare senza difficoltà su computer standard o addirittura su dispositivi edge. In un panorama in cui le soluzioni AI sembrano richiedere sempre più risorse, l’approccio di Baidu si muove in direzione opposta: offrire efficienza, senza rinunciare alle prestazioni.

Le prove comparative condotte dall’azienda hanno messo in evidenza risultati sorprendenti. Nei test OCR, PP-OCRv5 ha superato rivali ben più grandi e noti, compresi i modelli multimodali più avanzati. Il riconoscimento funziona sia con testi stampati che scritti a mano e non si limita all’inglese: supporta il cinese semplificato e tradizionale, il giapponese, il pinyin e oltre quaranta lingue, rendendolo uno strumento adatto a scenari globali.

Dal punto di vista tecnico, il processo è stato progettato con una sequenza di passaggi ottimizzati. L’immagine viene prima migliorata per correggere inclinazioni e distorsioni, poi si individuano le linee di testo e il loro orientamento. Infine, i caratteri vengono convertiti in testo digitale, con la possibilità di ottenere anche le coordinate esatte della posizione. Un dettaglio che fa la differenza per chi lavora con layout complessi, come bolle di spedizione o moduli assicurativi.