qwen/qwen3-vl-32b-instruct
Qwen3-VL-32B-Instruct è un modello visivo-linguistico multimodale su larga scala progettato per la comprensione e il ragionamento ad alta precisione su testo, immagini e video. Con 32 miliardi di parametri, combina una profonda percezione visiva con una comprensione del testo avanzata, consentendo un ragionamento spaziale preciso, l’analisi di documenti e scene e la comprensione di video a lungo orizzonte. OCR robusto in 32 lingue e fusione multimodale migliorata tramite architetture Interleaved-MRoPE e DeepStack. Ottimizzato per agenti…
Prev Post qwen/qwen3-vl-30b-a3b-thinking
Next Post qwen/qwen3-vl-8b-instruct






