NeXTIME Logo

OpenAI e o Futuro da IA: Alinhamento Ético em Foco

Avatar of Pedro Duarte

Pedro Duarte

CEO

12/19/2023

  • inteligência artificial

Em um avanço significativo no campo da inteligência artificial, a OpenAI recentemente apresentou uma metodologia para controlar sistemas de IA superinteligentes, um passo crucial para garantir que futuras tecnologias de IA atuem em harmonia com os objetivos humanos. Esse desenvolvimento vem em um momento onde a possibilidade de criar sistemas de IA que superam o intelecto humano é cada vez mais real.

A iniciativa, parte do programa de superalinhamento da OpenAI, lançada no início deste ano, visa encontrar meios técnicos para controlar um sistema de IA superinteligente, alinhando-o com as metas humanas. A organização está dedicando 20% de seu poder computacional a esse esforço, com a expectativa de alcançar soluções até 2027.

Collin Burns, membro da equipe de superalinhamento da OpenAI, destaca a complexidade do projeto: "Este é um problema futuro sobre modelos futuros que ainda não sabemos como projetar e certamente não temos acesso." Essa limitação torna o estudo desafiador, mas segundo Burns, não há outra escolha senão enfrentá-lo.

Uma das primeiras publicações da equipe de superalinhamento apresenta uma abordagem inovadora. Ao invés de testar a supervisão humana sobre uma IA superinteligente, os pesquisadores optaram por avaliar a capacidade de um modelo de IA mais fraco em supervisionar um mais forte. No experimento, o GPT-2, um modelo com 1.5 bilhão de parâmetros, foi utilizado para supervisionar o GPT-4, rumores indicam que este último possui 1.76 trilhão de parâmetros.

Jacob Hilton, do Alignment Research Center e ex-funcionário da OpenAI, não envolvido na pesquisa atual, comenta: "Desenvolver bons testes empíricos para o problema de alinhar o comportamento de sistemas de IA super-humanos tem sido um desafio de longa data. Este artigo representa um passo promissor nessa direção."

O experimento consistiu em dar ao par GPT tarefas em três áreas: quebra-cabeças de xadrez, benchmarks de processamento de linguagem natural (PLN) e perguntas baseadas em um conjunto de respostas do ChatGPT. O objetivo era prever quais respostas seriam preferidas pelos usuários humanos. O GPT-2, apesar de treinado especificamente para essas tarefas, não se saiu muito bem devido ao seu tamanho e capacidade limitados. No entanto, quando o treinamento foi transferido para uma versão do GPT-4 com apenas treinamento básico, os resultados foram notavelmente melhores.

Os pesquisadores observaram que o modelo mais forte, GPT-4, consistentemente superava seu supervisor mais fraco, GPT-2, principalmente nas tarefas de PLN. Leopold Aschenbrenner, outro pesquisador da equipe, refere-se a isso como generalização de fraco para forte, mostrando que o modelo mais forte tinha conhecimento implícito sobre como realizar as tarefas, mesmo com instruções inadequadas.

O experimento foi mais eficaz nas tarefas de PLN devido à sua simplicidade e respostas claras de certo ou errado. Já nas tarefas do banco de dados ChatGPT, os resultados foram menos impressionantes, pois as respostas eram menos definidas.

Burns sugere que em um futuro com IA superinteligente, poderíamos enfrentar situações onde a IA realiza tarefas complexas de maneiras totalmente novas, difíceis de compreender para os humanos. Nesse contexto, uma IA que tenha se beneficiado da generalização de fraco para forte poderia entender melhor o conceito de causar danos catastróficos e agir de forma mais segura do que seus supervisores humanos poderiam prever.

A questão permanece: essa técnica de alinhamento pode ser escalada para IA superinteligente? Burns e sua equipe estão otimistas e continuam a fazer progressos empíricos iterativos para alinhar modelos super-humanos futuros.

Além de seu trabalho interno, a OpenAI anunciou hoje que está oferecendo US$ 10 milhões em subsídios para pesquisas sobre uma variedade de abordagens de alinhamento. Pavel Izmailov, outro membro da

As informações são do site Spectrum