Plataforma Sucupira

Instituição de Ensino Superior:

INSTITUTO MILITAR DE ENGENHARIA

Programa:

ENGENHARIA DE DEFESA (31007015011P8)

Modalidade de Ensino:

Educação Presencial

Título:

Classificação de documentos em apoio ao processo de avaliação de prontidão tecnológica: uma abordagem baseada em representação vetorial densa contextualizada

Autor:

JOSE LUIZ NEVES VOLTAN

Tipo de Trabalho de Conclusão:

DISSERTAÇÃO

Data Defesa:

12/12/2023

Resumo:

A escala TRL, do inglês Technology Readiness Levels, surgiu na década de 70, com o propósito de mensurar a maturidade tecnológica de um produto ou tecnologia. A partir dos anos 2000, ganhou destaque em diversos órgãos e empresas ao redor do mundo, tendo emprego não só no acompanhamento de projetos, como também na gestão e prospecção tecnológica. Apesar desse aumento de importância, a abordagem predominante para avaliar o nível TRL de uma tecnologia ou produto, i.e., a Avaliação de Prontidão Tecnológica (Technology Readiness Assessment - TRA), é baseada na avaliação de especialistas. Tal abordagem tem como desvantagens o elevado custo, demora, além de um possível viés. Diante desse cenário, tem-se o problema, de como seria possível realizar uma TRA escalável, com um menor custo e maior padronização de critérios. As propostas de TRA automatizadas são poucas e apresentam espaço para aprimoramento. O estado da arte ainda é baseado na combinação de técnicas de representação vetorial esparsa e algoritmos de classificação. Essas técnicas de representação, derivadas do Bag-of-Words, não utilizam o contexto em que as palavras ocorrem (e.g. a palavra manga, parte da vestimenta, possui a mesma representação vetorial que a fruta manga), além de gerarem vetores de alta dimensionalidade com muitos valores nulos. Essas limitações podem impactar negativamente no desempenho dos algoritmos de classificação. Diante desta perspectiva, inspirado por resultados bem sucedidos em diversas aplicações de classificação textual em outras áreas, o presente trabalho levantou como hipótese que o emprego de técnicas de representação vetorial densa contextualizada (i.e. que considerem o contexto onde as palavras ocorrem) pode trazer melhora no desempenho de algoritmos de classificação também no escopo da TRA. Para verificar essa hipótese, foi construído um corpus voltado para o domínio da Defesa, reunindo artigos científicos e notícias escritos em língua portuguesa (PT-BR). Também foi proposta uma metodologia para aplicação da mineração de texto na TRA. Através dela, foram avaliadas as combinações de cinco técnicas de representação vetorial (Count Vectorizer, TF-IDF, BERT, BERTimbau e GPorTuguese-2 - variação do GPT-2) e sete algoritmos de aprendizado de máquina voltados para a tarefa de classificação. Ao final, os melhores resultados foram obtidos pelo modelo de linguagem BERTimbau combinado com Redes Neurais Artificias, chegando-se a uma acurácia de 72%, superando em 0,6 p.p. o estado da arte, até então baseado em técnicas de representação derivadas do Bag-of-Words. Os resultados mostraram que as representações densas contextualizadas contribuíram para uma melhora de desempenho na maioria dos algoritmos avaliados.

Palavras-Chave:

TRA;TRL;Mineração de texto;Representação vetorial densa contextualizada;Classificação de texto

Abstract:

The Technology Readiness Level (TRL) scale emerged in the 1970s with the purpose of measuring the technological maturity of a product or technology. From the 2000s onwards, it gained prominence in various organizations and companies worldwide, being employed not only in project monitoring but also in technology management and foresight. Despite its growing importance, the predominant approach to assessing the TRL level of a technology or product, i.e., the Technology Readiness Assessment (TRA), is based on expert evaluation. This approach has disadvantages such as high cost, delay, and possible bias. Faced with this scenario, there is the problem of how to perform a scalable TRA with lower cost and greater criteria standardization of criteria. Proposals of automated TRA are few and offer room for improvement The state of the art is still based on a combination of sparse vector representation techniques and classification algorithms. These representation techniques, derived from Bag-of-Words, do not consider the context in which words occur (e.g., the word “bat”, animal, has the same vector representation as the verb “bat”). Additionally, they generate high-dimensional vectors with many null values. These limitations can negatively impact the performance of classification algorithms. In light of this perspective, inspired by successful results in various applications of text classification in other areas, this study hypothesized that the use of contextualized dense vector representation techniques (i.e., considering the context in which words occur) could improve the performance of classification algorithms in TRA. To test this hypothesis, a corpus focused on the Defense domain was constructed, gathering scientific articles and news written in Portuguese (PT-BR). A methodology for applying text mining in TRA was also proposed. Through this methodology, combinations of five vector representation techniques (Count Vectorizer, TF-IDF, BERT, BERTimbau, and GPorTuguese-2 - a variation of GPT-2) and seven machine learning algorithms for classification tasks were evaluated. In the end, the best results were obtained by the BERTimbau language model combined with Artificial Neural Networks, achieving an accuracy of 72%, surpassing in em 0,6 p.p. the state of the art, until then based on representation techniques derived from Bag-of-Words. The results showed that contextualized dense representations contributed to a performance improvement in most evaluated algorithms.

Keyword:

TRA;TRL;Text mining;Embeddings;Text classification

Volume:

Único

Páginas:

169

Idioma:

PORTUGUES

Biblioteca Depositária:

INSTITUTO MILITAR DE ENGENHARIA

Autorização de divulgação:

O trabalho possui divulgação autorizada

Área de Concentração:

ENGENHARIA DE DEFESA

Linha de Pesquisa:

COMUNICAÇÕES, COMPUTAÇÃO, CIBERNÉTICA E INTELIGÊNCIA

Projeto de Pesquisa:

Gestão do conhecimento para defesa a partir da gerência, modelagem e análise de dados

Orientador:

RONALDO RIBEIRO GOLDSCHMIDT

Categoria:

DOCENTE - PERMANENTE

O orientador principal compôs a banca do discente?

Sim


Nome	Categoria
JULIO CESAR DUARTE	Docente - COLABORADOR
ALINE MARINS PAES CARVALHO	Participante Externo
RONALDO RIBEIRO GOLDSCHMIDT	Docente - PERMANENTE
MARIA CLAUDIA REIS CAVALCANTI	Docente - PERMANENTE


Financiador - Programa Fomento	Número de Meses
COMANDO DO EXERCITO - Departamento de Ciência e Tecnologia	24

Tipo de Vínculo Empregatício:

Servidor Público

Tipo de Instituição:

Instituição de Ensino e Pesquisa

Expectativa de Atuação:

Ensino e Pesquisa

Mesma Área de Atuação:

Sim

Plataforma Sucupira

Dados do Trabalhos de Conclusão

Contexto

Banca Examinadora

Financiadores

Vínculo