• Portal do Governo Brasileiro

Plataforma Sucupira

Dados do Trabalhos de Conclusão

UNIVERSIDADE FEDERAL DE MINAS GERAIS
CIÊNCIAS DA COMPUTAÇÃO (32001010004P6)
Educação Presencial
Um Estudo Aprofundado sobre Grupos Semânticos de Palavras - CluWords - em tarefas de processamento de linguagem natural (PLN)
FELIPE AUGUSTO RESENDE VIEGAS
TESE
10/07/2023

A capacidade de representar dados de maneira significativa e eficiente é crucial para as aplicações de Processamento de Linguagem Natural (PLN), pois isso afeta drasticamente o resultado dos métodos de aprendizado de máquina. Nesse contexto, esta tese de doutorado se concentra em projetar uma nova representação de documentos que agrupa palavras semanticamente relacionadas, combinadas com filtragem específica para a tarefa e esquemas de ponderação, chamada CluWords. Conceitualmente, as CluWords correspondem a grupos que incorporam palavras semanticamente relacionadas, construídas por meio de funções de distância e mecanismos de filtragem. Mais do que simples grupos de palavras relacionadas (filtradas), as CluWords são combinadas com esquemas de ponderação específicos usados para capturar sua importância em uma tarefa específica. Nossa principal hipótese é que a representação das CluWords pode melhorar a eficácia das aplicações de PLN, aprimorando a representação do documento e permitindo lidar com problemas como ruído e falta de informação. O framework das CluWords é decomposto em três etapas bem definidas e flexíveis, e pode ser aplicado em aplicações específicas. Nesta tese de doutorado, exploramos quatro aplicações de PLN: modelagem de tópicos, modelagem de tópicos hierárquica, léxicos de sentimento e análise de sentimento. As contribuições inovadoras esperadas desta tese incluem: (i) a introdução de uma nova representação de dados, composta por três etapas gerais (agrupamento, filtragem e ponderação). Essas etapas são especialmente projetadas para superar desafios específicos relacionados a ruído e falta de informação em cada tarefa; (ii) o design dos componentes das CluWords capazes de melhorar a eficácia na detecção de tópicos relevantes para modelagem de tópicos, modelagem de tópicos hierárquica e análise de sentimento; (iii) a proposição de um conjunto de evidências experimentais empíricas para demonstrar que as relações semânticas podem ser eficazes para léxicos de sentimento; (iv) proposta de duas novas métricas de qualidade de tópico para avaliar a qualidade tópica das estruturas hierárquicas. Nesta tese de doutorado, nossos experimentos mostram que as CluWords são o estado da arte em modelagem de tópicos e modelagem de tópicos hierárquica. No contexto de léxicos de sentimento, nossos resultados experimentais mostram que as relações semânticas fornecidas pela incorporação de palavras podem ser eficazes para o respectivo contexto. No contexto da análise de sentimento, nossos experimentos mostram que a filtragem e a ponderação dos CluWords são capazes de mitigar o ruído semântico.

Representação de dados;Word Embeddings;Modelagem de Tópicos;Análise de Sentimento
The ability to represent data in meaningful and tractable (i.e., efficient) ways is crucial for Natural Language Processing (NLP) applications since it drastically impacts the outcome of machine learning methods. In this context, this Ph.D. thesis focuses on designing a new document representation that groups semantically related words coupled with task-specific filtering, and weighting schemes, called CluWords. Conceptually, the CluWords correspond to clusters of semantically related word embedding built through distance functions and filtering mechanisms. More than simple groups of (filtered) related words, the CluWords are coupled with specific weighting schemes used to capture their importance to a specific task. Our main hypothesis is that the CluWords representation may improve the effectiveness of NLP applications, by enhancing the document representation and enabling it to deal with issues, such as noise and lack of information. The CluWords framework is decomposed into three well-defined and flexible steps, and it can be applied to overcome specific-task applications. In this Ph.D. thesis, we explore four NLP applications: topic modeling, hierarchical topic modeling, sentiment lexicons, and sentiment analysis. The expected novel contributions of this thesis include: (i) the introduction of a new data representation, composed of three general steps (clustering, filtering, and weighting). These steps are specially designed to overcome task-specific challenges related to noise and lack of information; (ii) the design of CluWords' components capable of improving the effectiveness in detecting relevant topics for Topic Modeling, Hierarchical Topic Modeling applications, and Sentiment Analysis; (iii) the proposal of a set of empirical experimental evidence to show that semantic relationships can be effective for Sentiment Lexicons; (iv) porposal of two new topic quality metrics to assess the topical quality of the hierarchical structures. In this Ph.D. thesis, our experiments show that the CluWords is state-of-the-art in topic modeling and hierarchical topic modeling. In the context of sentiment lexicons, our experiment results show that semantic relationships provided by word embedding can be effective for the respective context. In the context of sentiment analysis, our experiments show that CluWords filtering and weighting can mitigate semantic noise.
Data representation;Word Embeddings;Topic Modeling;Sentiment Analysis
1
0
PORTUGUES
UNIVERSIDADE FEDERAL DE MINAS GERAIS
O trabalho não possui divulgação autorizada

Contexto

CIENCIA DA COMPUTACAO
-
-

Banca Examinadora

MARCOS ANDRE GONCALVES
DOCENTE - PERMANENTE
Sim
Nome Categoria
RODRYGO LUIS TEODORO SANTOS Docente - PERMANENTE
VIVIANE PEREIRA MOREIRA Participante Externo
LEONARDO CHAVES DUTRA DA ROCHA Participante Externo
PEDRO OLMO STANCIOLI VAZ DE MELO Docente - PERMANENTE
MARCOS ANDRE GONCALVES Docente - PERMANENTE
RENATA VIEIRA Participante Externo

Financiadores

Financiador - Programa Fomento Número de Meses
CONS NAC DE DESENVOLVIMENTO CIENTIFICO E TECNOLOGICO - Bolsa Produtividade em Pesquisa 48

Vínculo

-
-
-
Não
Plataforma Sucupira
Capes UFRN RNP
  • Compatibilidade
  • . . .
  • Versão do sistema: 3.87.7
  • Copyright 2022 Capes. Todos os direitos reservados.

Nós usamos cookies para melhorar sua experiência de navegação no portal. Ao utilizar o gov.br, você concorda com a política de monitoramento de cookies. Para ter mais informações sobre como isso é feito, acesse Política de cookies.Se você concorda, clique em ACEITO.

Politica de Cookies

O que são cookies?

Cookies são arquivos salvos em seu computador, tablet ou telefone quando você visita um site.Usamos os cookies necessários para fazer o site funcionar da melhor forma possível e sempre aprimorar os nossos serviços. Alguns cookies são classificados como necessários e permitem a funcionalidade central, como segurança, gerenciamento de rede e acessibilidade. Estes cookies podem ser coletados e armazenados assim que você inicia sua navegação ou quando usa algum recurso que os requer.

Cookies Primários

Alguns cookies serão colocados em seu dispositivo diretamente pelo nosso site - são conhecidos como cookies primários. Eles são essenciais para você navegar no site e usar seus recursos.
Temporários
Nós utilizamos cookies de sessão. Eles são temporários e expiram quando você fecha o navegador ou quando a sessão termina.
Finalidade
Estabelecer controle de idioma e segurança ao tempo da sessão.

Cookies de Terceiros

Outros cookies são colocados no seu dispositivo não pelo site que você está visitando, mas por terceiros, como, por exemplo, os sistemas analíticos.
Temporários
Nós utilizamos cookies de sessão. Eles são temporários e expiram quando você fecha o navegador ou quando a sessão termina.
Finalidade
Coletam informações sobre como você usa o site, como as páginas que você visitou e os links em que clicou. Nenhuma dessas informações pode ser usada para identificá-lo. Seu único objetivo é possibilitar análises e melhorar as funções do site.

Você pode desabilitá-los alterando as configurações do seu navegador, mas saiba que isso pode afetar o funcionamento do site.

Chrome

Firefox

Microsoft Edge

Internet Explorer