Google rilascia in silenzio un'app di dettatura AI che funziona offline
Google AI Edge Eloquent, disponibile su iOS, utilizza modelli ASR basati su Gemma per trascrizioni locali e pulizia automatica del testo.
L'AI locale permette di eseguire modelli direttamente su hardware proprio (laptop, server aziendale, edge device) senza dipendere da API cloud. Vantaggi: privacy totale, costi prevedibili, latenza minima, controllo completo. Strumenti come Ollama, llama.cpp e MLX hanno reso l'inferenza locale accessibile anche su Mac e PC consumer.
Google AI Edge Eloquent, disponibile su iOS, utilizza modelli ASR basati su Gemma per trascrizioni locali e pulizia automatica del testo.
TII UAE rilascia un modello unificato per la comprensione visiva guidata dal linguaggio, superando SAM 3 in alcuni benchmark.
Il runtime per LLM locali aggiunge il supporto al framework MLX, migliora la cache e adotta la compressione NVFP4 di Nvidia, puntando a maggiore efficienza su Apple Silicon.
Un ingegnere di Midjourney rilascia uno strumento che promette di semplificare la creazione di interfacce web attraverso descrizioni testuali.
Il modello di Nvidia ottiene medaglie d'oro in matematica e coding, aprendo la metodologia di post-training.
Un modello da 4 miliardi di parametri con architettura Mamba-Transformer ottimizzato per l'esecuzione su dispositivi edge e GPU consumer.
Il nuovo sistema trasforma un computer dedicato in un assistente digitale con accesso completo a file e app, gestibile da remoto.
Il nuovo modello di Nvidia, disponibile con pesi aperti, supera GPT-OSS e Qwen in velocità di inferenza unendo Transformer, MoE e architetture sequenziali.
Il chipmaker punta a fornire strumenti di sicurezza e privacy per l'automazione di task aziendali, aprendo la piattaforma anche a chi non usa i suoi chip.
Sei mesi di accesso gratuito per i progetti più popolari, in risposta all'iniziativa simile di Anthropic.
Un esperimento di sicurezza con Mozilla mostra il potenziale e i limiti dell'AI per l'audit del codice open source.
I nuovi modelli open-weight di Alibaba Cloud sono ottimizzati per l'esecuzione su dispositivi consumer, con performance competitive su benchmark specifici.
Il modo più semplice è installare Ollama (`ollama run qwen3.5:9b`) o LM Studio. Per maggior controllo, llama.cpp permette di eseguire modelli quantizzati in formato GGUF. Su Mac con Apple Silicon, MLX di Apple offre performance superiori. Hugging Face Transformers è la libreria di riferimento per ricerca e prototipazione.
Un modello da 7-9B parametri quantizzato gira con 8-16 GB di RAM su CPU moderna o GPU integrata. Modelli da 27-35B richiedono 24+ GB di VRAM o RAM unificata (es. Mac M3 Max). Modelli da 70B+ necessitano di una GPU dedicata da 48+ GB o setup multi-GPU. La quantizzazione 4-bit riduce significativamente i requisiti.
Qwen 3.5 (Alibaba) domina nel rapporto qualità/dimensioni. Llama 4 (Meta) resta lo standard per fine-tuning. DeepSeek per il reasoning matematico. Mistral per task in lingue europee. Per coding, Qwen Coder e DeepSeek Coder. Tutti con licenze permissive (Apache 2.0 o simili).