Os dados são o novo petróleo, como dizem, e talvez isso faça da Universidade de Harvard a nova Exxon. A escola anunciou quinta-feira o lançamento de um conjunto de dados contendo quase um milhão de livros de domínio público que podem ser usados para treinar modelos de IA. No âmbito da recém-formada Iniciativa de Dados Institucionais, o projeto recebeu financiamento da Microsoft e da OpenAI e contém livros digitalizados pelo Google Livros com idade suficiente para que a proteção de direitos autorais tenha expirado.
Com fio em um pedaço sobre o novo projeto diz que o conjunto de dados inclui uma grande variedade de livros com “clássicos de Shakespeare, Charles Dickens e Dante incluídos ao lado de obscuros livros didáticos de matemática tcheca e dicionários de bolso galeses”. Como regra geral, as proteções de direitos autorais duram toda a vida do autor, mais 70 anos adicionais.
Modelos de linguagem fundamentais, como o ChatGPT, que se comportam como a verossimilhança de um ser humano real, exigem uma quantidade imensa de texto de alta qualidade para seu treinamento – geralmente, quanto mais informações eles ingerem, melhor o desempenho dos modelos em imitar humanos e fornecer conhecimento. Mas essa sede por dados causou problemas, à medida que empresas como a OpenAI se depararam com a quantidade de informações novas que podem encontrar – pelo menos sem roubá-las.
Editores, incluindo o Jornal de Wall Street e o New York Times processaram a OpenAI e o concorrente Perplexity por ingerirem seus dados sem permissão. Os defensores das empresas de IA apresentaram vários argumentos para defender as suas atividades. Às vezes dirão que os próprios humanos produzem novos trabalhos com base no estudo e na síntese de material de outras fontes, e a IA não é diferente. Todos vão à escola, lêem livros e depois produzem novos trabalhos usando o conhecimento adquirido. A remixagem é legalmente considerada uso justo se a nova criação for materialmente diferente. Mas isso não leva em conta que os humanos não conseguem ingerir milhares de milhões de pedaços de texto à velocidade que um computador consegue, por isso não é exactamente uma comparação justa. O Jornal de Wall Street em seu processo contra Perplexity disse que a startup “copia em grande escala”.
Os participantes do espaço também apresentaram o argumento de que qualquer conteúdo disponibilizado na web aberta é jogo essencialmente justo e que o usuário de um chatbot é quem acessa o conteúdo protegido por direitos autorais, solicitando-o por meio de um prompt. Basicamente, um chatbot como o Perplexity é semelhante a um navegador da web. Levará algum tempo até que esses argumentos sejam levados ao tribunal.
A OpenAI fechou acordos com alguns provedores de conteúdo em resposta às críticas, e a Perplexity lançou um programa de parceria apoiado por anúncios com editores. Mas é evidente que o fizeram a contragosto.
Ao mesmo tempo em que as empresas de IA estão ficando sem novos conteúdos para utilizar, as fontes da web comumente usadas que já estão incluídas nos conjuntos de treinamento têm rapidamente começou a restringir o acesso. Empresas como a Reddit e a X têm sido agressivas na limitação da utilização dos seus dados, uma vez que reconheceram o seu imenso valor, especialmente por terem dados em tempo real para aumentar os modelos fundamentais com informações mais atualizadas sobre o mundo.
Reddit faz centenas de milhões de dólares licenciar seu corpus de subreddits e comentários ao Google para treinar seus modelos. O X de Elon Musk tem um acordo de exclusividade com sua outra empresa, a xAI, para dar aos seus modelos acesso ao conteúdo da rede social para treinamento e recuperação de informações atuais. É um tanto irônico considerar que essas empresas protegem de perto seus próprios dados, mas essencialmente pensam que o conteúdo dos editores de mídia não tem valor e deveria ser gratuito.
Um milhão de livros não será suficiente para suprir as necessidades de treinamento de qualquer empresa de IA, especialmente considerando que esses livros são antigos e não contêm informações modernas, como as gírias que as crianças da Geração Z estão usando. Para se diferenciarem dos concorrentes, as empresas de IA vão querer continuar a aceder a outros dados – especialmente do tipo exclusivo – para que não criem todos modelos iguais. O conjunto de dados da Iniciativa de Dados Institucionais pode pelo menos oferecer alguma assistência às empresas de IA que tentam treinar os seus modelos fundamentais iniciais sem terem problemas legais.