MM1: Apple revela novo modelo multimodal para treinamento de LLMs

Após publicarem detalhes sobre modelos de inteligência artificial de edição e animação de imagens, pesquisadores da Apple revelaram recentemente uma nova família de modelos multimodais, chamada de MM1. O seu principal destaque é combinar diferentes fontes de dados para treinar outros largos modelos de linguagem (LLMs, na sigla em inglês), permitindo que eles sejam mais avançados e flexíveis.

Os resultados do estudo que descreve o modelo foram publicados em um artigo pelos pesquisadores. Com a combinação de vários tipos de dados e arquiteturas, consegue-se atingir um desempenho de ponta em modelos de inteligência artificial. A capacidade é essencial para tarefas que exigem uma compreensão de nuances menores, como interpretar imagens e entender elementos visuais.

São usados, por exemplo, pares de imagem e legendas, imagem e texto separados e dados apenas em texto, essenciais para atingir um resultado avançado. Ou seja, ao treinar modelos usando uma base de dados com informação tanto visual quanto linguística variada, os modelos MM1 são capazes de desempenhar melhor tarefas como legendar imagens, responder questões visuais e inferência de linguagem natural.

Os pesquisadores entenderam, ainda, que a escolha do decodificador de imagens, a resolução das imagens inseridas e a contagem de tokens de imagem têm um grande impacto no desempenho do modelo. Já o design do conector visão-linguagem teria uma importância comparativamente menor. Em outras palavras, com um maior refinamento e desenvolvimento dos componentes visuais, os modelos deverão possibilitar ainda mais ganhos.

Posts relacionados

Também foram destacadas as habilidades contextuais do MM1, em especial da sua configuração mais avançada, que conta com 30 bilhões de parâmetros. Com isso, ele pode realizar a interpretação multipassos de várias imagens usando poucos comandos diretos no estilo “cadeia de pensamento”.

O modelo é capaz, ainda, de realizar previsões contextuais graças ao seu treinamento em larga escala. Isso permite que o MM1 conte objetos e siga uma formatação personalizada, refira-se a partes de uma imagem e realize reconhecimento óptico de caracteres (OCR, na sigla em inglês), demonstre conhecimento sobre objetos e realize operações matemáticas.

Os resultados demonstram o potencial de modelos multimodais de resolver problemas complexos os quais exigem que o sistema compreenda e gere linguagens complexas. O desenvolvimento de modelos como o MM1 é certamente consequência dos investimentos da Apple em IA.

Deveremos ver ao menos parte do reflexo dessa ofensiva em IA com possíveis novos recursos nos próximos sistemas da Maçã. Como ressaltado pelo VentureBeat, a empresa está buscando fortalecer-se na área perante a concorrência ferrenha, sendo o MM1 parte desses esforços em integrar a IA generativa aos seus produtos.

MM1: Apple revela novo modelo multimodal para treinamento de LLMs

Trending Articles

ATIVIDADES DO LIVRO PRETINHA DE NEVE E OS SETE GIGANTES ME PDF

Suits – 3ª Temporada Dublado – MEGA

Tronco de cone

Centro ecografico de Entrecampos

Arahan (Dual Audio)

Conquista l’italiano

CONVENÇÃO SEAAC SANTOS 2024/2025 CONTABILIDADE E ACESSORAMENTO

Faça um algoritmo que leia a idade de uma pessoa expressa em anos, meses e...

Queda Livre

Maputo : Massagens a domicilio (Maputo)

CS TUDO NET – CONHEÇA O MELHOR CS DO BRASIL!

Solange Gomes mostra reação alérgica na testa após uso de botox: "Estou ferrada"

Warriors Orochi – Dicas

Extremebox TVON Android Tv

Top 5 dos cantores jovens mais ricos de Angola (VEJA AQUI)

Paraíso Imperfeito (SasuHina) escrita por Abelhinha Chan [18+]

O Alvo 2 DVD-R

Carteiro Paulo – Volume 04 – A Máquina de Gelados

8B 674 "Enter taxes for at least one item"

Secretário da Segurança Pública desmente soltura de ator pornô que fazia...