A IBM anunciou a contribuição de três projetos de código aberto – Docling, Data Prep Kit e BeeAI – para a Linux Foundation. Esta ação não só demonstra o potencial crescimento destes projetos, como também sublinha o compromisso contínuo da IBM com a inteligência artificial (IA) de código aberto.
Brad Topol, Engenheiro Distinto da IBM e Diretor de Tecnologias Abertas, explicou que a empresa está a continuar a sua longa história de contribuições para o código aberto, garantindo que estes projetos sejam fáceis de utilizar e que outros, além da IBM, possam também contribuir para o seu desenvolvimento. Topol, que também preside ao Conselho Governante da LF AI & Data Foundation – um grupo da Linux Foundation focado no avanço da inovação em IA e tecnologias de dados de código aberto – salientou a importância de impulsionar a comunidade de desenvolvedores.
Cada um dos projetos contribui para uma parte essencial do ciclo de desenvolvimento da IA. À medida que a indústria amadurece, a inovação impulsionada pela comunidade de desenvolvedores nestas áreas torna-se crucial para tornar a IA adequada ao uso empresarial.
Docling
Lançado e disponibilizado como código aberto há um ano, o Docling resolve uma limitação comum de muitos modelos fundamentais no uso empresarial. Embora esses modelos tenham sido treinados com todas as informações publicamente disponíveis, grande parte dos dados valiosos para as empresas está em documentos não acessíveis online, como PDFs, relatórios anuais e apresentações. O Docling simplifica o processo de transformar documentos não estruturados em arquivos JSON e Markdown, que são mais fáceis para modelos de linguagem grande (LLMs) e outros modelos fundamentais processarem.
Desde o seu lançamento, o Docling tem ganho popularidade, alcançando mais de 23.000 estrelas no GitHub. Quando combinado com técnicas de geração aumentada por recuperação (RAG), o Docling melhora os resultados dos LLMs. Topol afirmou que o Docling pode melhorar significativamente a qualidade e a especificidade das respostas dos LLMs para as necessidades dos utilizadores. Além disso, o Docling tem sido integrado na plataforma Red Hat® Enterprise Linux® AI, onde facilita a segmentação consciente do contexto e suporta a nova pipeline de ingestão de dados da plataforma.
Data Prep Kit
Outro projeto importante, o Data Prep Kit, lançado em 2024, tem vindo a ganhar popularidade ao ajudar a limpar, transformar e enriquecer dados não estruturados para pré-treinamento, ajustamento fino e casos de uso de RAG. Segundo a IDC, os dados não estruturados representam 90% de todos os dados gerados pelas empresas. O Data Prep Kit foi projetado para simplificar a preparação de dados para aplicações de LLM, atualmente focado em modelos de código e linguagem. Baseado em frameworks distribuídos como Spark e Ray, o Data Prep Kit oferece aos desenvolvedores flexibilidade para criar módulos personalizados que escalem facilmente, seja num computador portátil ou em todo um centro de dados.
“Antes dizíamos, ‘lixo entra, lixo sai’. É fundamental garantir dados de qualidade desde o início”, comentou Topol. Embora este projeto não seja glamouroso como outras partes do ciclo de vida dos LLMs, Topol sublinhou a sua importância, afirmando que é "incrivelmente crítico e valioso". O Data Prep Kit já está a impulsionar as ofertas da IBM e foi integrado no IBM TechPreview do IBM Data Integration for Unstructured Data.
BeeAI
O BeeAI é o terceiro projeto da IBM que foi recentemente lançado. Este projeto permite aos desenvolvedores descobrir, executar e compor agentes de IA a partir de qualquer framework, incluindo CrewAI, LangGraph e AutoGen. O BeeAI inclui o protocolo de comunicação de agentes, que facilita a descoberta e interoperabilidade dos agentes, e o BeeAI-framework, o seu framework nativo para construir agentes em Python ou TypeScript, otimizado para modelos de código aberto.
Topol observou que existem outros frameworks para a construção de agentes, mas o que distingue o BeeAI é a sua capacidade de integrar agentes de outras tecnologias, proporcionando uma plataforma flexível e expansível.
Impacto da Contribuição para a Linux Foundation
Com a contribuição destes projetos para a Linux Foundation, a IBM pretende expandir o seu alcance e atrair novos colaboradores e utilizadores. “Os projetos estão numa posição excelente para que as pessoas possam investir os seus recursos. Isso faz uma grande diferença”, afirmou Topol. O modelo de governança aberta, segundo ele, oferece segurança às contribuições, garantindo que os colaboradores possam ganhar um papel mais influente ao longo do tempo e que mudanças drásticas nas licenças de código aberto não irão prejudicar o uso futuro dos projetos.
Topol comparou este processo ao Kubernetes, um sistema de orquestração de contêineres de código aberto inicialmente desenvolvido pelo Google, que viu a sua adoção disparar após ser integrado num modelo de governança aberta, tornando-se um padrão na indústria.
O futuro dos projetos da IBM parece promissor, com Topol a afirmar que “um projeto de código aberto com um ecossistema forte é, francamente, imparável”.
Próximos Passos
A IBM vai apresentar os projetos Docling, Data Prep Kit e BeeAI na IBM TechXchange Conference, que se realizará de 6 a 9 de outubro de 2025, em Orlando, Flórida. Especialistas e colaboradores dos projetos estarão presentes para apresentações, aprendizado prático e oportunidades de networking, com mais de 30 projetos de código aberto sendo apresentados. As inscrições abrem no dia 4 de abril.
Para mais informações clica aqui.