Quantcast
Channel: Arquivo para Pesquisa - MacMagazine
Viewing all articles
Browse latest Browse all 103

MM1: Apple revela novo modelo multimodal para treinamento de LLMs

$
0
0
Logo da Apple em estilo futurístico com redes neurais e ideia de inteligência artificial (IA/AI)

Após publicarem detalhes sobre modelos de inteligência artificial de edição e animação de imagens, pesquisadores da Apple revelaram recentemente uma nova família de modelos multimodais, chamada de MM1. O seu principal destaque é combinar diferentes fontes de dados para treinar outros largos modelos de linguagem (LLMs, na sigla em inglês), permitindo que eles sejam mais avançados e flexíveis.

Os resultados do estudo que descreve o modelo foram publicados em um artigo pelos pesquisadores. Com a combinação de vários tipos de dados e arquiteturas, consegue-se atingir um desempenho de ponta em modelos de inteligência artificial. A capacidade é essencial para tarefas que exigem uma compreensão de nuances menores, como interpretar imagens e entender elementos visuais.

São usados, por exemplo, pares de imagem e legendas, imagem e texto separados e dados apenas em texto, essenciais para atingir um resultado avançado. Ou seja, ao treinar modelos usando uma base de dados com informação tanto visual quanto linguística variada, os modelos MM1 são capazes de desempenhar melhor tarefas como legendar imagens, responder questões visuais e inferência de linguagem natural.

Os pesquisadores entenderam, ainda, que a escolha do decodificador de imagens, a resolução das imagens inseridas e a contagem de tokens de imagem têm um grande impacto no desempenho do modelo. Já o design do conector visão-linguagem teria uma importância comparativamente menor. Em outras palavras, com um maior refinamento e desenvolvimento dos componentes visuais, os modelos deverão possibilitar ainda mais ganhos.

Também foram destacadas as habilidades contextuais do MM1, em especial da sua configuração mais avançada, que conta com 30 bilhões de parâmetros. Com isso, ele pode realizar a interpretação multipassos de várias imagens usando poucos comandos diretos no estilo “cadeia de pensamento”.

O modelo é capaz, ainda, de realizar previsões contextuais graças ao seu treinamento em larga escala. Isso permite que o MM1 conte objetos e siga uma formatação personalizada, refira-se a partes de uma imagem e realize reconhecimento óptico de caracteres (OCR, na sigla em inglês), demonstre conhecimento sobre objetos e realize operações matemáticas.

Os resultados demonstram o potencial de modelos multimodais de resolver problemas complexos os quais exigem que o sistema compreenda e gere linguagens complexas. O desenvolvimento de modelos como o MM1 é certamente consequência dos investimentos da Apple em IA.

Deveremos ver ao menos parte do reflexo dessa ofensiva em IA com possíveis novos recursos nos próximos sistemas da Maçã. Como ressaltado pelo VentureBeat, a empresa está buscando fortalecer-se na área perante a concorrência ferrenha, sendo o MM1 parte desses esforços em integrar a IA generativa aos seus produtos.


Viewing all articles
Browse latest Browse all 103