A NOVA IA DA APPLE: TRÊS MANEIRAS PELAS QUAIS A SIRI PODERIA VENCER O CHATGPT

A gigante da tecnologia ficou visivelmente quieta durante a ascensão meteórica do ChatGPT e a subsequente enxurrada de ferramentas e recursos generativos de IA de empresas como Google , Microsoft e Meta . Mas os pesquisadores da Apple têm um novo modelo que poderia dar ao Siri a atualização generativa de IA que os fãs da Apple esperavam.

“A fala humana normalmente contém referências ambíguas como ‘eles’ ou ‘aquilo’, cujo significado é óbvio (para outros humanos) dado o contexto”, disseram os pesquisadores. O artigo propõe um modelo chamado ReALM (Reference Resolution As Language Modeling) que aborda o problema de grandes modelos de linguagem (LLMs) nem sempre serem capazes de entender o contexto quando se trata de referências na tela, conversacionais e de fundo (por exemplo, aplicativos ou recursos executados em segundo plano) com o objetivo de alcançar uma “verdadeira experiência de viva-voz em assistentes de voz”.

Embora o ChatGPT seja muito bom e tenha certos tipos de compreensão de contexto, os pesquisadores disseram que o ReALM supera o GPT-3.5 e o GPT-4 (que alimentam versões gratuitas e pagas do ChatGPT) em todos os seus testes de contexto. Aqui está o que isso pode significar para o Siri.

1. Dicas de contexto na tela

Os pesquisadores da Apple treinaram o ReALM usando dados “na tela” de páginas da web, incluindo informações de contato, permitindo que o modelo compreendesse texto em capturas de tela (por exemplo, endereços e detalhes de contas bancárias). Embora o GPT-4 também possa entender imagens, ele não foi treinado em capturas de tela, o que, segundo o artigo, torna o ReALM melhor na compreensão das informações na tela com as quais os usuários da Apple pediriam ajuda ao Siri.

2. Compreensão conversacional e básica

Referências de conversação significam algo relevante para a conversa, mas talvez não mencionado explicitamente no prompt. A partir do treinamento do ReALM em dados como listas de empresas, o modelo pode entender avisos como “ligue para o último” em referência a uma lista de farmácias próximas mostrada na tela, sem a necessidade de fornecer instruções mais específicas.

O ReALM é capaz de compreender “entidades de segundo plano”, o que significa algo em execução no fundo de um dispositivo “que pode não ser necessariamente uma parte direta do que o usuário vê em sua tela ou de sua interação com o agente virtual”, como a reprodução de música ou um alarme disparando.

3. Totalmente no dispositivo

Por último, mas não menos importante, o ReALM foi projetado para funcionar no dispositivo, o que seria um grande problema, já que os LLMs exigem muito poder de computação e, portanto, são principalmente baseados na nuvem. Em vez disso, o ReALM é um LLM menor, “mas ajustado específica e explicitamente para a tarefa de resolução de referência”. A Apple tem historicamente elogiado seu compromisso com a privacidade como um ponto de venda para seus dispositivos, portanto, uma versão generativa de IA do Siri que rodasse completamente no dispositivo seria tanto uma marca quanto uma grande conquista para dispositivos com recursos de IA.

Deixe um comentário