Depuis plusieurs mois, des rumeurs et des rapports abondent sur les ambitions d’Apple concernant le lancement de dispositifs portables intégrant l’intelligence artificielle. Selon les dernières informations, les lunettes intelligentes d’Apple, concurrentes directes des Ray-Ban de Meta, seraient dévoilées aux alentours de 2027, en même temps que des AirPods dotés de caméras, qui proposeront également leurs propres fonctionnalités alimentées par l’IA. Bien qu’il soit encore prématuré de déterminer à quoi ressembleront ces dispositifs, Apple vient de donner un aperçu de l’utilisation potentielle de l’intelligence artificielle dans ses produits. En 2023, l’équipe de recherche en apprentissage machine d’Apple a lancé MLX, un cadre d’apprentissage automatique ouvert spécifiquement conçu pour les processeurs Apple Silicon. MLX propose une méthode légère pour former et exécuter des modèles localement sur les appareils Apple, tout en restant accessible pour les développeurs familiarisés avec les frameworks et les langages traditionnellement associés au développement de l’IA. Récemment, Apple a présenté FastVLM, un modèle de langage visuel (VLM) exploitant les capacités de MLX pour offrir un traitement d’images haute résolution quasi instantané, tout en nécessitant des ressources informatiques nettement inférieures à celles des modèles comparables. Comme le souligne Apple : « Sur la base d’une analyse exhaustive de l’efficacité concernant l’interaction entre la résolution d’image, la latence visuelle, le nombre de tokens et la taille du LLM, nous introduisons FastVLM — un modèle qui réalise un compromis optimisé entre latence, taille du modèle et précision. » Au cœur de FastVLM se trouve un encodeur baptisé FastViTHD, spécialement conçu pour une performance efficace en VLM sur des images haute résolution. Un atout majeur pour traiter les informations localement sur les appareils, sans avoir à interroger le cloud pour générer une réponse à la demande (ou à l’observation) de l’utilisateur. Moins de tokens sur un modèle plus rapide et léger se traduit par un traitement encore plus efficace, et pourrait ainsi s’adapter à des appareils portatifs comme des lunettes.