Google DataSet Search

Conheça o novo indexador de conjunto de dados, o Google DataSet Search

O Google lançou recentemente o datasetsearch, uma ferramenta gratuita para pesquisar 25 milhões de conjuntos de dados disponíveis publicamente.

A ferramenta de pesquisa inclui filtros para limitar os resultados com base em sua licença (gratuita ou paga), formato (csv, imagens, etc.) e tempo de atualização.

Os resultados também incluem descrições do conteúdo do conjunto de dados, bem como citações do autor.

A metodologia de agregação de conjuntos de dados do Google difere de outros repositórios de datasets, como o registro de dados abertos da Amazon. Ao contrário de outros repositórios que organizam e hospedam os próprios conjuntos de dados, o Google não faz a curadoria ou fornece acesso direto aos 25 milhões de conjuntos de dados diretamente.

Em vez disso, o Google depende dos editores dos datasets para usar os padrões abertos do schema.org para descrever os metadados destes datasets. O Google então indexa e torna esses metadados pesquisáveis ​​entre os editores.

Como os editores ainda precisam hospedar os próprios conjuntos de dados, os editores com fins lucrativos que estão em conformidade com os padrões do schema.org também terão seus conjuntos de dados indexados pelo Google.

Atualmente, cerca de metade dos datasets nos resultados da pesquisa são de agregadores com fins lucrativos, com uma porcentagem ainda maior ao pesquisar conjuntos de dados relacionados ao mercado.

Outros editores de conjuntos de dados populares na plataforma incluem agências governamentais e instituições de pesquisa. O Google afirma que só as agências governamentais dos EUA publicaram mais de 2 milhões de conjuntos de dados.

De acordo com o Google, a maioria dos conjuntos de dados está relacionada a “geociências, biologia e agricultura”.

Para publicar seus próprios conjuntos de dados, você pode simplesmente usar os padrões abertos do schema.org. O número de conjuntos de dados disponíveis publicamente tende a continuar crescendo à medida que mais editores estão em conformidade com o padrão.

No momento, o Google não fornece uma API para pesquisar ou baixar os conjuntos de dados gratuitos.

About the Author: Pedro César Tebaldi Gomes

Trabalho há 10 anos no mercado B2B de tecnologia da informação e hoje atuo como líder de um time de Business Intelligence. Já escrevi mais de 500 artigos sobre tecnologia durante esse período. Estudo ciência de dados, machine learning e estatística para atingir melhores resultados nos diferentes projetos que atuo.

Deixe uma resposta

Conheça o novo indexador de conjunto de dados, o Google DataSet Search

tempo de leitura: 2 min