Conheça o Delta Sharing, protocolo aberto para compartilhar dados com segurança, independentemente da plataforma em que os dados residem.
Databricks, o inventor e mantenedor do Apache Spark, apresentou várias inovações para sua plataforma de análise unificada em sua conferência de usuários Data + AI Summit 2021, incluindo o lançamento de um novo projeto de código aberto chamado “Delta Sharing” que fornece um protocolo aberto para compartilhamento seguro dados entre organizações em tempo real, independentemente da plataforma em que os dados residem.
Delta Sharing, protocolo aberto para compartilhar dados com segurança
O Delta Sharing está incluído no projeto Delta Lake, uma camada de armazenamento de mesa que a empresa lançou para código aberto no final de 2019.
A plataforma já ganhou suporte de um amplo conjunto de provedores de dados, incluindo Nasdaq, Amazon Web Services., Microsoft, Google e Tableau Software.
O compartilhamento de dados tornou-se crítico na economia moderna, à medida que as empresas buscam trocar dados com segurança com seus clientes, fornecedores e parceiros. Por exemplo, um varejista pode querer publicar dados de vendas para seus fornecedores em tempo real, ou um fornecedor pode querer compartilhar estoque em tempo real.
Mas, até agora, a troca de dados tem sido muito limitada porque as soluções de troca estão vinculadas a um único provedor. Isso cria atrito para provedores de dados e consumidores, que naturalmente executam plataformas diferentes.
Hoje, lançamos um novo projeto de código aberto que simplifica o compartilhamento entre organizações: Delta Sharing, um protocolo aberto para a troca segura em tempo real de grandes conjuntos de dados, permitindo a troca segura de dados entre produtos pela primeira vez. Estamos desenvolvendo Delta Sharing com parceiros dos principais provedores de software e dados do mundo.
A Databricks disse que espera resolver a ineficiência dos processos muitas vezes manuais necessários para que as organizações troquem dados com clientes, parceiros e fornecedores.
Historicamente, os produtos de compartilhamento de dados estão vinculados a um único fornecedor ou produto comercial, limitando a colaboração entre organizações que usam plataformas diferentes.
Arsalan Tavakoli (na foto), co-fundador e vice-presidente sênior de engenharia de campo da Databricks, disse que:
“A principal forma de as empresas compartilharem com outras é passando por um processo complicado ou usando um sistema existente rígido que todos devem usar.”
Reunir várias fontes de dados também é uma tarefa difícil. “Você não pode simplesmente dar acesso a todos”, disse ele. “Você quer controles de acesso, auditoria e controle de versão. Não há como fazer isso hoje”.
O Delta Sharing limita a dependência do fornecedor e permite um conjunto mais amplo e diversificado de casos de uso do que era possível anteriormente, disse a empresa.
O Catálogo Unity que pode ser usado em SQL, ferramentas de análise visual e linguagens de programação como Python e R. Delta Sharing também permite que as organizações compartilhem conjuntos de dados existentes em grande escala nos formatos Apache Parquet e Delta Lake em tempo real sem o necessidade de cópias.
Delta Sharing é o quinto grande projeto de código aberto lançado pela Databricks, depois do Apache Spark, Delta Lake, MLflow for Machine Learning e Koalas, que implementa a interface do programa de aplicativo DataFrame do pandas no Spark. O projeto está sendo doado para a Linux Foundation.
Além disso, Databricks também destacou “Catálogo Unity” um catálogo de dados padronizado que é compatível com “Delta Sharing”.
O Catálogo Unity possui uma nova interface que irá facilitar a descoberta e gerenciamento de todos os bancos de dados de uma empresa, com uma visão completa dos dados nas nuvens e dos catálogos existentes, é claro na plataforma Lakehouse da Databricks.
O Catálogo Unity oferece um único modelo de segurança, baseado em ANSI SQL, para agilizar a implantação e padronizar a governança nas nuvens.
A ferramenta também pode ser integrada aos catálogos de dados existentes da Alation, Collibra, Privacera e Immuta, para que o respectivo cliente possa se basear no existente e estabelecer um modelo de governança centralizado e preparado para o futuro sem altos custos de migração.
Por fim, se você tiver interesse em saber mais sobre o assunto, poderá verificar os detalhes no seguinte endereço.