Análise de sentimento: uma comparação de dados extraídos do Twitter a partir de diferentes dicionários léxicos
Nenhuma Miniatura disponível
Arquivos
Data
2019-12-17
Autores
Título da Revista
ISSN da Revista
Título de Volume
Editor
Universidade Federal do Maranhão
Resumo
Ao longo dos últimos anos, o número de dispositivos conectados a internet cresceu
exponencialmente e, consequentemente, houve um aumento da quantidade de dados
gerados por esses dispositivos. Essa grande quantidade de dados gerados a todo momento,
deu origem ao conceito de Big Data. Esse volume de dados possibilita a prática da análise
de sentimentos, onde é possível classificar opiniões em positivas, negativas ou neutras em
diversos meios, como em tweets, onde, por apresentar comentários com poucos caracteres,
torna-se viável a produção de uma análise a nível de sentença. Um dos principais problemas
relacionados a análise de sentimentos a nível de sentença está relacionado à declarações onde
o sentimento de uma determinada sentença não permanece explicito. Também consistem
em problemas, sentenças onde é utilizada uma linguagem informal ou são utilizados gírias
e regionalismos, impossibilitando a classificação da polaridade de determinada palavra,
acarretando em uma classificação errônea de determinado texto. Almejando uma análise
que possa contornar os problemas apresentados, neste trabalho será realizada uma análise
de sentimentos a nível de sentença tendo como base tweets a respeito da grande quantidade
de focos de incêndio ocorridos na região amazônica no mês de setembro de 2019. Essa
análise será feita visando uma comparação entre os três dicionários léxicos utilizados na
metodologia, onde será proposto um conjunto de melhorias nos mesmos, objetivando a
eliminação de inconsistências que acarretam em problemas comuns durante a análise de
sentimento a nível de sentença e, consequentemente, produzir uma análise com resultados
mais precisos. Por fim, os resultados obtidos pelos dicionários após as modificações foram
excelentes, acarretando em um resultado das avaliações dos dicionários semelhante à
avaliação realizada pelo autor.
Descrição
Abstract
Over the last few years, the number of devices connected to the internet has grown
exponentially and, consequently, there has been an increase in the amount of data generated
by these devices. This large amount of data generated at all times gave rise to the concept
of Big Data. This volume of data enables the practice of sentiment analysis, where it
is possible to classify opinions as positive, negative or neutral in various media, such as
in Tweets, where, by presenting comments with few characters, it is feasible to produce
a sentence-level analysis. One of the main problems related to sentence-level sentiment
analysis is related to statements where the sentiment of a particular sentence does not
remain explicit. There are also problems, sentences in which informal language is used
or slang and regionalisms are used, making it impossible to classify the polarity of a
given word, resulting in a misclassification of a given text. Aiming at an analysis that can
circumvent the problems presented, this paper will analyze sentiments at the sentence
level based on the large amount of fire outbreaks that occurred in the Amazon region in
September 2019. This analysis will be made aiming at a comparison between the three
Lexical dictionaries used in the methodology, where a set of improvements will be proposed,
aiming at the elimination of inconsistencies that lead to common problems during the
sentence-level disagreement analysis and, consequently, produce an analysis with more
accurate results. Finally, the results obtained by the dictionaries after the modifications
were satisfactory, resulting in a result of the dictionary evaluations similar to the author’s
evaluation.
Palavras-chave
Big Data, Análise de Sentimentos, Twitter, Dicionário Léxico, Big Data, Sentiment Analysis, Twitter, Lexicon Dictionary