• Portal do Governo Brasileiro

Plataforma Sucupira

Dados do Trabalhos de Conclusão

INSTITUTO MILITAR DE ENGENHARIA
ENGENHARIA DE DEFESA (31007015011P8)
Educação Presencial
Classificação de documentos em apoio ao processo de avaliação de prontidão tecnológica: uma abordagem baseada em representação vetorial densa contextualizada
JOSE LUIZ NEVES VOLTAN
DISSERTAÇÃO
12/12/2023

A escala TRL, do inglês Technology Readiness Levels, surgiu na década de 70, com o propósito de mensurar a maturidade tecnológica de um produto ou tecnologia. A partir dos anos 2000, ganhou destaque em diversos órgãos e empresas ao redor do mundo, tendo emprego não só no acompanhamento de projetos, como também na gestão e prospecção tecnológica. Apesar desse aumento de importância, a abordagem predominante para avaliar o nível TRL de uma tecnologia ou produto, i.e., a Avaliação de Prontidão Tecnológica (Technology Readiness Assessment - TRA), é baseada na avaliação de especialistas. Tal abordagem tem como desvantagens o elevado custo, demora, além de um possível viés. Diante desse cenário, tem-se o problema, de como seria possível realizar uma TRA escalável, com um menor custo e maior padronização de critérios. As propostas de TRA automatizadas são poucas e apresentam espaço para aprimoramento. O estado da arte ainda é baseado na combinação de técnicas de representação vetorial esparsa e algoritmos de classificação. Essas técnicas de representação, derivadas do Bag-of-Words, não utilizam o contexto em que as palavras ocorrem (e.g. a palavra manga, parte da vestimenta, possui a mesma representação vetorial que a fruta manga), além de gerarem vetores de alta dimensionalidade com muitos valores nulos. Essas limitações podem impactar negativamente no desempenho dos algoritmos de classificação. Diante desta perspectiva, inspirado por resultados bem sucedidos em diversas aplicações de classificação textual em outras áreas, o presente trabalho levantou como hipótese que o emprego de técnicas de representação vetorial densa contextualizada (i.e. que considerem o contexto onde as palavras ocorrem) pode trazer melhora no desempenho de algoritmos de classificação também no escopo da TRA. Para verificar essa hipótese, foi construído um corpus voltado para o domínio da Defesa, reunindo artigos científicos e notícias escritos em língua portuguesa (PT-BR). Também foi proposta uma metodologia para aplicação da mineração de texto na TRA. Através dela, foram avaliadas as combinações de cinco técnicas de representação vetorial (Count Vectorizer, TF-IDF, BERT, BERTimbau e GPorTuguese-2 - variação do GPT-2) e sete algoritmos de aprendizado de máquina voltados para a tarefa de classificação. Ao final, os melhores resultados foram obtidos pelo modelo de linguagem BERTimbau combinado com Redes Neurais Artificias, chegando-se a uma acurácia de 72%, superando em 0,6 p.p. o estado da arte, até então baseado em técnicas de representação derivadas do Bag-of-Words. Os resultados mostraram que as representações densas contextualizadas contribuíram para uma melhora de desempenho na maioria dos algoritmos avaliados.

TRA;TRL;Mineração de texto;Representação vetorial densa contextualizada;Classificação de texto
The Technology Readiness Level (TRL) scale emerged in the 1970s with the purpose of measuring the technological maturity of a product or technology. From the 2000s onwards, it gained prominence in various organizations and companies worldwide, being employed not only in project monitoring but also in technology management and foresight. Despite its growing importance, the predominant approach to assessing the TRL level of a technology or product, i.e., the Technology Readiness Assessment (TRA), is based on expert evaluation. This approach has disadvantages such as high cost, delay, and possible bias. Faced with this scenario, there is the problem of how to perform a scalable TRA with lower cost and greater criteria standardization of criteria. Proposals of automated TRA are few and offer room for improvement The state of the art is still based on a combination of sparse vector representation techniques and classification algorithms. These representation techniques, derived from Bag-of-Words, do not consider the context in which words occur (e.g., the word “bat”, animal, has the same vector representation as the verb “bat”). Additionally, they generate high-dimensional vectors with many null values. These limitations can negatively impact the performance of classification algorithms. In light of this perspective, inspired by successful results in various applications of text classification in other areas, this study hypothesized that the use of contextualized dense vector representation techniques (i.e., considering the context in which words occur) could improve the performance of classification algorithms in TRA. To test this hypothesis, a corpus focused on the Defense domain was constructed, gathering scientific articles and news written in Portuguese (PT-BR). A methodology for applying text mining in TRA was also proposed. Through this methodology, combinations of five vector representation techniques (Count Vectorizer, TF-IDF, BERT, BERTimbau, and GPorTuguese-2 - a variation of GPT-2) and seven machine learning algorithms for classification tasks were evaluated. In the end, the best results were obtained by the BERTimbau language model combined with Artificial Neural Networks, achieving an accuracy of 72%, surpassing in em 0,6 p.p. the state of the art, until then based on representation techniques derived from Bag-of-Words. The results showed that contextualized dense representations contributed to a performance improvement in most evaluated algorithms.
TRA;TRL;Text mining;Embeddings;Text classification
Único
169
PORTUGUES
INSTITUTO MILITAR DE ENGENHARIA
O trabalho possui divulgação autorizada
voltan_dissertacao_com_assinatura.pdf

Contexto

ENGENHARIA DE DEFESA
COMUNICAÇÕES, COMPUTAÇÃO, CIBERNÉTICA E INTELIGÊNCIA
Gestão do conhecimento para defesa a partir da gerência, modelagem e análise de dados

Banca Examinadora

RONALDO RIBEIRO GOLDSCHMIDT
DOCENTE - PERMANENTE
Sim
Nome Categoria
JULIO CESAR DUARTE Docente - COLABORADOR
ALINE MARINS PAES CARVALHO Participante Externo
RONALDO RIBEIRO GOLDSCHMIDT Docente - PERMANENTE
MARIA CLAUDIA REIS CAVALCANTI Docente - PERMANENTE

Financiadores

Financiador - Programa Fomento Número de Meses
COMANDO DO EXERCITO - Departamento de Ciência e Tecnologia 24

Vínculo

Servidor Público
Instituição de Ensino e Pesquisa
Ensino e Pesquisa
Sim
Plataforma Sucupira
Capes UFRN RNP
  • Compatibilidade
  • . . .
  • Versão do sistema: 3.88.0
  • Copyright 2022 Capes. Todos os direitos reservados.

Nós usamos cookies para melhorar sua experiência de navegação no portal. Ao utilizar o gov.br, você concorda com a política de monitoramento de cookies. Para ter mais informações sobre como isso é feito, acesse Política de cookies.Se você concorda, clique em ACEITO.

Politica de Cookies

O que são cookies?

Cookies são arquivos salvos em seu computador, tablet ou telefone quando você visita um site.Usamos os cookies necessários para fazer o site funcionar da melhor forma possível e sempre aprimorar os nossos serviços. Alguns cookies são classificados como necessários e permitem a funcionalidade central, como segurança, gerenciamento de rede e acessibilidade. Estes cookies podem ser coletados e armazenados assim que você inicia sua navegação ou quando usa algum recurso que os requer.

Cookies Primários

Alguns cookies serão colocados em seu dispositivo diretamente pelo nosso site - são conhecidos como cookies primários. Eles são essenciais para você navegar no site e usar seus recursos.
Temporários
Nós utilizamos cookies de sessão. Eles são temporários e expiram quando você fecha o navegador ou quando a sessão termina.
Finalidade
Estabelecer controle de idioma e segurança ao tempo da sessão.

Cookies de Terceiros

Outros cookies são colocados no seu dispositivo não pelo site que você está visitando, mas por terceiros, como, por exemplo, os sistemas analíticos.
Temporários
Nós utilizamos cookies de sessão. Eles são temporários e expiram quando você fecha o navegador ou quando a sessão termina.
Finalidade
Coletam informações sobre como você usa o site, como as páginas que você visitou e os links em que clicou. Nenhuma dessas informações pode ser usada para identificá-lo. Seu único objetivo é possibilitar análises e melhorar as funções do site.

Você pode desabilitá-los alterando as configurações do seu navegador, mas saiba que isso pode afetar o funcionamento do site.

Chrome

Firefox

Microsoft Edge

Internet Explorer