A Apple lançou hoje vários modelos de linguagem grande (LLMs) de código aberto projetados para serem executados no dispositivo, e não por meio de servidores em nuvem. Chamados de OpenELM (Open Source Efficient Language Models), os programas LLM estão disponíveis em A peça central do rosto que abraçauma comunidade para compartilhar código de IA.
Como mostrado no documento branco [PDF]Existem oito modelos OpenELM no total, quatro dos quais são pré-treinados usando a biblioteca CoreNet e quatro são modelos ajustados por instrução. A Apple usa uma estratégia de escalonamento de camadas que visa melhorar a precisão e a eficiência.
A Apple forneceu código, registros de treinamento e várias versões, em vez de apenas o modelo de treinamento final, e os pesquisadores por trás do projeto esperam que isso leve a um progresso mais rápido e a “resultados mais confiáveis” no campo da IA de linguagem natural.
OpenELM, um modelo de linguagem aberta e em evolução. OpenELM usa uma estratégia de escalonamento de camada para alocar parâmetros com eficiência dentro de cada camada do modelo do transformador, resultando em maior precisão. Por exemplo, com um orçamento de parâmetros de cerca de 1 bilhão de parâmetros, o OpenELM mostra uma melhoria de 2,36% na precisão em relação ao OLMo, ao mesmo tempo que requer 2x menos tokens para pré-treinamento.
Rompendo com práticas anteriores que fornecem apenas pesos de modelo, código de inferência e pré-treinamento em conjuntos de dados privados, nossa versão inclui a estrutura completa para treinamento e avaliação do modelo de linguagem em conjuntos de dados disponíveis publicamente, incluindo logs de treinamento, vários pontos de verificação e pré- pontos. Configurações de treinamento.
A Apple afirma que está lançando modelos OpenELM para “capacitar e enriquecer a comunidade de pesquisa aberta” com modelos de linguagem modernos. O compartilhamento de modelos de código aberto oferece aos pesquisadores uma maneira de investigar riscos, dados e preconceitos de modelos. Desenvolvedores e empresas podem usar os modelos como estão ou fazer modificações neles.
O compartilhamento aberto de informações tornou-se uma ferramenta importante para a Apple recrutar engenheiros, cientistas e especialistas de ponta, pois oferece oportunidades para trabalhos de pesquisa que normalmente não seriam publicados de acordo com as políticas de confidencialidade da Apple.
A Apple ainda não trouxe esses tipos de recursos de IA para seus dispositivos, mas espera-se que o iOS 18 inclua uma série de novos recursos de IA, e rumores sugerem que a Apple planeja executar seus próprios modelos de linguagem grande no dispositivo para fins de privacidade.