• Portal do Governo Brasileiro

Plataforma Sucupira

Dados do Trabalhos de Conclusão

CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA CELSO SUCKOW DA FONSECA
CIÊNCIA DA COMPUTAÇÃO (31022014009P5)
ESTUDO COMPARATIVO ENTRE ABORDAGENS NA REPRESENTAÇÃO TEXTUAL E ALGORITMOS USADOS NA CLASSIFICAÇÃO
FELIPE OLIVEIRA FEDER
DISSERTAÇÃO
22/11/2022

Estamos vivendo uma revolução tecnológica sem precedentes nos últimos anos. A forma como nós nos relacionamos tem sido - e continuará sendo - impactada de diferentes maneiras. Acompanhando as evoluções em hardware e das tecnologias que nos possibilitam produzir e armazenar dados em volumes impensáveis, são observadas, também, evoluções algorítmicas e metodológicas que nos permitem avançar em busca de um mundo inteiramente novo, mesmo lidando com velhas questões tipicamente humanas. A fronteira do entendimento homem-máquina tem sido empurrada adiante constantemente. O processamento de linguagem natural é a ponte que liga a fala humana a possibilidades, antes inimagináveis, de uma máquina interpretá-la e processá-la devidamente. Os meios de representação textual vêm evoluindo consistentemente nas últimas décadas. O Bag-ofWords (BOW), atrelado ao uso de representações numéricas para palavras, vem sendo utilizado com sucesso na representação textual. No entanto, superando as deficiências do BOW, observamos o surgimento de representações numéricas complexas, geradas por redes neurais profundas, que são capazes de conservar as relações semânticas e sintáticas entre as palavras; os Word Embeddings (WE). A fronteira foi empurrada à frente; novas evoluções, novas aplicações, novos usos. O uso de Modelos de Linguagem Neural (MLN), com os WE, atingiu o estado da arte em diferentes tarefas no processamento de texto. Essa pesquisa compara esses dois métodos de representação de palavras, BOW e WE, e seus usos numa tarefa de classificação binária de polaridade. Foram montados dois grupos de classificadores e foram utilizados quatro conjuntos de dados. O primeiro grupo, formado por modelos n-gram, aqui chamados de Modelos de Aprendizagem de Máquina Tradicionais (MAMT), lidou com representações textuais que se serviram do BOW com TF-IDF e do BOW com LSA. O segundo grupo, formado por MLNs, que são modelos provenientes de redes neurais profundas que lidam com tarefas relacionadas ao processamento de texto, usou os WE e os WE Contextuais para representar os textos que seriam processados. Nos experimentos realizados foi observada a superioridade dos modelos de classificação semântica de texto diante dos modelos n-gram. Apesar disso, a escolha sobre qual técnica de representação textual (BOW ou WE) e tipo de modelo de linguagem usar (n-gram ou MLN) depende do contexto, já que os modelos n-gram, mesmo quando comparados as abordagens mais recentes, apresentam desempenho preditivo satisfatório e podem ser úteis em muitos contextos de uso

Bag-of-Words;Word Embedding;Processamento de Linguagem Natural (PLN);Classificação de Texto;Mineração de Texto.
We are experiencing an unprecedented technological revolution in recent years. The way we relate to each other has been - and will continue to be - impacted in different ways. Following the evolutions in hardware and technologies that allow us to produce and store data in unthinkable volumes, algorithmic and methodological evolutions are also observed that allow us to advance in search of an entirely new world, even dealing with old typically human issues. The frontier of human-machine understanding has been constantly pushed forward. Natural language processing is the bridge that connects human speech to previously unimaginable possibilities for a machine to properly interpret and process it. The means of textual representation have been evolving consistently in recent decades. Bag-of-Words (BOW), linked to the use of numerical representations for words, has been successfully used in textual representation. However, overcoming the deficiencies of BOW, we observed the emergence of complex numerical representations, generated by deep neural networks, which are capable of preserving the semantic and syntactic relationships between words; the Word Embeddings (WE). The frontier was pushed forward; new evolutions, new applications, new uses. The use of Neural Language Models (MLN), with WE, has reached the state of the art in different tasks in text processing. This research compares these two word representation methods, BOW and WE, and their uses in a binary polarity classification task. Two groups of classifiers were set up and four data sets were used. The first group, formed by n-gram models, here called Traditional Machine Learning Models (MAMT), dealt with textual representations that used BOW with TF-IDF and BOW with LSA. The second group, formed by MLNs, which are models from deep neural networks that deal with tasks related to text processing, used the WE and the Contextual WE to represent the texts that would be processed. In the experiments carried out, the superiority of the semantic text classification models over the n-gram models was observed. Despite this, the choice of which textual representation technique (BOW or WE) and type of language model to use (n-gram or MLN) depends on the context, since n-gram models, even when compared to the most recent approaches, have satisfactory predictive performance and can be useful in many contexts of use.
Bag-of-Words;Word Embedding;Natural Language Processing (NLP);Text Classification;Text Mining.
1
88
PORTUGUES
CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA CELSO SUCKOW DA FONSECA
O trabalho possui divulgação autorizada
Felipe_Feder_Versao_Final.pdf

Contexto

Ciência da Computação
ANÁLISE DE DADOS E APLICAÇÕES
Mineração de Texto, Computação Afetiva e Análise Comportamental

Banca Examinadora

GUSTAVO PAIVA GUEDES E SILVA
DOCENTE - PERMANENTE
Sim
Nome Categoria
GUSTAVO PAIVA GUEDES E SILVA Docente - PERMANENTE
EDUARDO BEZERRA DA SILVA Docente - PERMANENTE
GERALDO BONORINO XEXEO Participante Externo

Vínculo

Servidor Público
Empresa Pública ou Estatal
Empresas
Sim
Plataforma Sucupira
Capes UFRN RNP
  • Compatibilidade
  • . . .
  • Versão do sistema: 3.85.14
  • Copyright 2022 Capes. Todos os direitos reservados.

Nós usamos cookies para melhorar sua experiência de navegação no portal. Ao utilizar o gov.br, você concorda com a política de monitoramento de cookies. Para ter mais informações sobre como isso é feito, acesse Política de cookies.Se você concorda, clique em ACEITO.

Politica de Cookies

O que são cookies?

Cookies são arquivos salvos em seu computador, tablet ou telefone quando você visita um site.Usamos os cookies necessários para fazer o site funcionar da melhor forma possível e sempre aprimorar os nossos serviços. Alguns cookies são classificados como necessários e permitem a funcionalidade central, como segurança, gerenciamento de rede e acessibilidade. Estes cookies podem ser coletados e armazenados assim que você inicia sua navegação ou quando usa algum recurso que os requer.

Cookies Primários

Alguns cookies serão colocados em seu dispositivo diretamente pelo nosso site - são conhecidos como cookies primários. Eles são essenciais para você navegar no site e usar seus recursos.
Temporários
Nós utilizamos cookies de sessão. Eles são temporários e expiram quando você fecha o navegador ou quando a sessão termina.
Finalidade
Estabelecer controle de idioma e segurança ao tempo da sessão.

Cookies de Terceiros

Outros cookies são colocados no seu dispositivo não pelo site que você está visitando, mas por terceiros, como, por exemplo, os sistemas analíticos.
Temporários
Nós utilizamos cookies de sessão. Eles são temporários e expiram quando você fecha o navegador ou quando a sessão termina.
Finalidade
Coletam informações sobre como você usa o site, como as páginas que você visitou e os links em que clicou. Nenhuma dessas informações pode ser usada para identificá-lo. Seu único objetivo é possibilitar análises e melhorar as funções do site.

Você pode desabilitá-los alterando as configurações do seu navegador, mas saiba que isso pode afetar o funcionamento do site.

Chrome

Firefox

Microsoft Edge

Internet Explorer