• Portal do Governo Brasileiro

Plataforma Sucupira

Dados do Trabalhos de Conclusão

UNIVERSIDADE FEDERAL FLUMINENSE
COMPUTAÇÃO (31003010046P4)
Educação Presencial
Provenance from Scripts
JOAO FELIPE NICOLACI PIMENTEL
TESE
09/04/2021

Muitos cientistas usam scripts para projetar os experimentos visto que linguagens de script incorporam estruturas de dados sofisticadas, sintaxe simples e facilidade de obter resultados, sem a necessidade de investir tempo projetando sistemas. Cientistas podem escrever scripts em diversas ferramentas, como editores de texto, IDEs ou notebooks interativos. Editores de texto são leves e podem ser usados em qualquer máquina, mas não possuem muitos recursos para auxiliar o desenvolvimento. IDEs possuem recursos para melhorar a qualidade do desenvolvimento, mas possuem poucos recursos que auxiliam a análise e o desenvolvimento exploratório de experimentos. Notebooks permitem combinar códigos de scripts, textos, resultados de execuções e visualizações ricas, auxiliando no desenvolvimento exploratório e análise interativa de resultados. Entretanto, notebooks perdem em qualidade por conta de estados escondidos e células desordenadas, dificultando o entendimento e reprodutibilidade. Além desses problemas específicos de ferramentas, scripts falham em garantir a reprodutibilidade de experimentos e apresentam dificuldades no entendimento e gerenciamento de dados. Por exemplo, assuma que um cientista realize diversos ensaios (i.e., execuções de scripts de experimentos) com diferentes dados de entrada e obtenha uma grande quantidade de dados como resultado. Após a execução dos ensaios, ele precisará entender cada ensaio, relacionar resultados a dados de entrada e garantir a reprodutibilidade do experimento. Essas tarefas podem ser realizadas com a ajuda da proveniência dos scripts. Proveniência refere-se ao histórico de um objeto e todos os processos pelos quais ele passou em seu ciclo de vida. Contudo, a captura, gerência e análise de proveniência de scripts impõem diversos desafios. Primeiramente, é necessário decidir quais informações de proveniência são relevantes para compreensão e reprodutibilidade. Além disso, é necessário armazenar e compartilhar a proveniência coletada para permitir reproduções. Ainda, como vários ensaios são feitos no ciclo de vida de experimentos, é desejável obter o histórico de ensaios com diversas versões de proveniência. Finalmente, proveniência refere-se a diversos tipos de dados, que suportam diversas formas de análise com visualizações e consultas. Em notebooks, a proveniência também pode auxiliar a manter a ordem da execução e garantir o entendimento e qualidade de experimentos. Este trabalho tem quatro contribuições principais: um estudo do estado-da-prática do uso de scripts em experimentos, um estudo do estado-da-arte do uso de proveniência em scripts com uma proposta de taxonomia, concepção e implementação de ferramentas para capturar proveniência de scripts com o objetivo de auxiliar a reprodutibilidade e entendimento de experimentos, e ferramentas para capturar proveniência de notebooks interativos com o objetivo de auxiliar a reprodutibilidade e qualidade.

proveniência;scripts;notebooks;reprodutibilidade;qualidade;entendimento
Many scientists use scripts for designing experiments, since script languages incorporate so- phisticated data structures, simple syntax, and easiness to obtain results without spending much time on designing systems. Scientists write scripts in many tools, such as text editors, IDEs, or interactive notebooks. Text editors are lightweight and can be used in any machine, but they do not have many features to assist the development. IDEs have features to improve the quality of the scripts, but lack features to assist in experiment analyses and exploratory research. Notebooks combine script code, text, execution results and rich media, assisting in exploratory research and interactive analyses of results. However, notebooks lack in the quality of scripts due to hidden-states and unordered cells, hindering the understanding and reproducibility. Besides the issues associated with tools, scripts also fail to guarantee the reproducibility of experiments, and they present challenges for data management and understanding. For instance, assume that a scientist performs many trials (i.e., executions of experiment’s scripts) with different input data and obtains a big amount of data as results. After executing these trials, she will need to understand each trial, relate results to input data, and guarantee the experiment reproducibility. Such tasks can be performed with the help of provenance, which refers to the history of an object and all processes it has been through in its life cycle. Nonetheless, collecting, managing, and analyzing provenance from scripts imposes diverse challenges. First, it requires deciding which script provenance information is relevant for comprehension and reproducibility. Second, after collecting provenance, it is necessary to store and share it to support reproducibility. Additionally, since many trials occur during the life cycle of experiments, it is desirable to capture the trial history as well, with multiple versions of provenance. Finally, provenance refers to a broad set of data types, which allows multiple forms of analysis, with visualizations and queries. In notebooks, provenance can also help in maintaining the execution order and assist with the understanding and quality of experiments. This thesis has four main contributions: a study of the state-of-the-practice usage of scripts in experiments, a study of the state-of-the-art usage of provenance in scripts with a taxonomy proposal, conception and implementation of tools to collect provenance from scripts aiming to assist their reproducibility and understanding, and tools to collect provenance from interactive notebooks aiming to assist their quality and reproducibility.
provenance;scripts;notebooks;reproducibility;understanding;quality
0
INGLES
UNIVERSIDADE FEDERAL FLUMINENSE
O trabalho possui divulgação autorizada
tese.pdf

Contexto

CIÊNCIA DA COMPUTAÇÃO
-
-

Banca Examinadora

VANESSA BRAGANHOLO MURTA
DOCENTE - PERMANENTE
Sim
Nome Categoria
JULIANA FREIRE DE LIMA E SILVA Participante Externo
PAOLO MISSIER Participante Externo
DANIEL CARDOSO MORAES DE OLIVEIRA Docente - PERMANENTE
VANESSA BRAGANHOLO MURTA Docente - PERMANENTE
LEONARDO GRESTA PAULINO MURTA Docente - PERMANENTE
CELIO VINICIUS NEVES DE ALBUQUERQUE Docente - PERMANENTE
MARTA LIMA DE QUEIROS MATTOSO Participante Externo

Financiadores

Financiador - Programa Fomento Número de Meses
CONS NAC DE DESENVOLVIMENTO CIENTIFICO E TECNOLOGICO - Bolsa de Doutorado no País GD 47

Vínculo

-
-
-
Não
Plataforma Sucupira
Capes UFRN RNP
  • Compatibilidade
  • . . .
  • Versão do sistema: 3.86.7
  • Copyright 2022 Capes. Todos os direitos reservados.

Nós usamos cookies para melhorar sua experiência de navegação no portal. Ao utilizar o gov.br, você concorda com a política de monitoramento de cookies. Para ter mais informações sobre como isso é feito, acesse Política de cookies.Se você concorda, clique em ACEITO.

Politica de Cookies

O que são cookies?

Cookies são arquivos salvos em seu computador, tablet ou telefone quando você visita um site.Usamos os cookies necessários para fazer o site funcionar da melhor forma possível e sempre aprimorar os nossos serviços. Alguns cookies são classificados como necessários e permitem a funcionalidade central, como segurança, gerenciamento de rede e acessibilidade. Estes cookies podem ser coletados e armazenados assim que você inicia sua navegação ou quando usa algum recurso que os requer.

Cookies Primários

Alguns cookies serão colocados em seu dispositivo diretamente pelo nosso site - são conhecidos como cookies primários. Eles são essenciais para você navegar no site e usar seus recursos.
Temporários
Nós utilizamos cookies de sessão. Eles são temporários e expiram quando você fecha o navegador ou quando a sessão termina.
Finalidade
Estabelecer controle de idioma e segurança ao tempo da sessão.

Cookies de Terceiros

Outros cookies são colocados no seu dispositivo não pelo site que você está visitando, mas por terceiros, como, por exemplo, os sistemas analíticos.
Temporários
Nós utilizamos cookies de sessão. Eles são temporários e expiram quando você fecha o navegador ou quando a sessão termina.
Finalidade
Coletam informações sobre como você usa o site, como as páginas que você visitou e os links em que clicou. Nenhuma dessas informações pode ser usada para identificá-lo. Seu único objetivo é possibilitar análises e melhorar as funções do site.

Você pode desabilitá-los alterando as configurações do seu navegador, mas saiba que isso pode afetar o funcionamento do site.

Chrome

Firefox

Microsoft Edge

Internet Explorer