Article
Clusterização é uma técnica de organizar dados em grupos cujos membros apresentam alguma similaridade. Assim, esta pesquisa teve como objetivo utilizar as técnicas de Processamento de Lin-guagem Natural, Machine Learning e Clustering para criar aglomerados de notícias a partir de uma amostra coletada dos principais jornais on-line. Verificou-se que a etapa de pré-processamento exige um esforço para garantir a qualidade dos resultados. A complexidade da língua portuguesa, a necessidade de atualização da lista de stopwords, as dificuldades relacionadas à detecção das características mais importantes e à alta dimensionalidade dos dados foram evidenciadas durante todas as etapas deste estudo. O algoritmo de agrupamento k-means obtive os melhores resultados para esse tipo de informação e o Hierarchical Clustering teve dificuldades, visto que notícias semelhantes foram alocadas em grupos diferentes. Já o Affinity Propagation apresentou divergência quanto ao número ideal de clusters, mas conseguiu um bom desempenho ao agrupar por semelhança.@pt
Array ( [dateOfAvailability] => Array ( [pt] => Array ( [0] => Array ( [2020-02-03] => 135292 ) ) ) [hasAuthor] => Array ( [nn] => Array ( [0] => Array ( [Lúcia Helena de Magalhães] => 122817 ) [1] => Array ( [Renato Rocha Souza] => 7846 ) ) ) [hasFileStorage] => Array ( [nn] => Array ( [0] => Array ( [_repository/710/2020/03/oai_periodicos_ufmg_br_article_19170#00053.pdf] => 137157 ) ) ) [hasSectionOf] => Array ( [pt] => Array ( [0] => Array ( [Artigo] => 3 ) ) ) [hasSubject] => Array ( [pt] => Array ( [0] => Array ( [Agrupamento de notícia] => 137098 ) [1] => Array ( [Processamento de linguagem natural] => 235991 ) [2] => Array ( [Aprendizado de máquina] => 102217 ) [3] => Array ( [Análise de texto] => 38136 ) [4] => Array ( [Agrupamento de notícias] => 276820 ) [5] => Array ( [Análise de textos] => 276821 ) ) [en] => Array ( [0] => Array ( [Grouping of news] => 276822 ) [1] => Array ( [Natural language processing] => 171936 ) [2] => Array ( [Machine learning] => 247414 ) [3] => Array ( [Text analysis] => 276823 ) ) ) [wasPublicationInDate] => Array ( [nn] => Array ( [0] => Array ( [2020-02-03] => 266490 ) ) ) [hasLanguageExpression] => Array ( [nn] => Array ( [0] => Array ( [pt] => 232736 ) ) ) [hasLicense] => Array ( [nn] => Array ( [0] => Array ( [RESERVERD] => 234643 ) ) ) [isPartOfSource] => Array ( [pt] => Array ( [0] => Array ( [Múltiplos Olhares em Ciência da Informação] => 710 ) ) ) [hasIssueOf] => Array ( [pt] => Array ( [0] => Array ( [ISSUE:JNL:00053-2019-9 NO. 2-2] => 137050 ) ) [nn] => Array ( [0] => Array ( [ISSUE:JNL:53:2019-9-2] => 232089 ) ) ) [hasAbstract] => Array ( [pt] => Array ( [0] => Array ( [Clusterização é uma técnica de organizar dados em grupos cujos membros apresentam alguma similaridade. Assim, esta pesquisa teve como objetivo utilizar as técnicas de Processamento de Lin-guagem Natural, Machine Learning e Clustering para criar aglomerados de notícias a partir de uma amostra coletada dos principais jornais on-line. Verificou-se que a etapa de pré-processamento exige um esforço para garantir a qualidade dos resultados. A complexidade da língua portuguesa, a necessidade de atualização da lista de stopwords, as dificuldades relacionadas à detecção das características mais importantes e à alta dimensionalidade dos dados foram evidenciadas durante todas as etapas deste estudo. O algoritmo de agrupamento k-means obtive os melhores resultados para esse tipo de informação e o Hierarchical Clustering teve dificuldades, visto que notícias semelhantes foram alocadas em grupos diferentes. Já o Affinity Propagation apresentou divergência quanto ao número ideal de clusters, mas conseguiu um bom desempenho ao agrupar por semelhança.] => 0 ) ) [en] => Array ( [0] => Array ( [Clustering is a technique of organizing data into groups whose members have some similarity. Thus, this research aimed to use the techniques of Natural Language Processing, Machine Learning and Clustering to create clusters of news from a sample collected from the main online newspapers. It was found that the pre-processing step requires an effort to guarantee the quality of the results. The complexity of the Portuguese language, the need to update the list of stopwords, the difficulties related to the detection of the most important characteristics and the high dimensionality of the data were evidenced during all stages of this study. The k-means clustering algorithm obtained the best results for this type of information and Hierarchical Clustering had difficulties, since similar news were allocated to different groups. Affinity Propagation, on the other hand, disagreed as to the ideal number of clusters, but achieved a good performance when grouping by similarity.] => 0 ) ) ) [hasID] => Array ( [nn] => Array ( [0] => Array ( [oai:periodicos.ufmg.br:article/19170] => 0 ) ) ) [hasRegisterId] => Array ( [pt] => Array ( [0] => Array ( [https://periodicos.ufmg.br/index.php/moci/article/view/19170] => 0 ) ) ) [hasSource] => Array ( [pt] => Array ( [0] => Array ( [Múltiplos Olhares em Ciência da Informação - ISSN 2237-6658; Vol. 9 No. 2 (2019): PPGGOG - Discentes] => 0 ) [1] => Array ( [Múltiplos Olhares em Ciência da Informação; v. 9 n. 2 (2019): PPGGOG - Discentes] => 0 ) [2] => Array ( [2237-6658] => 0 ) ) [es] => Array ( [0] => Array ( [Múltiplos Olhares em Ciência da Informação - ISSN 2237-6658; Vol. 9 Núm. 2 (2019): PPGGOG - Discentes] => 0 ) ) ) [hasTitle] => Array ( [pt] => Array ( [0] => Array ( [Agrupamento automático de notícias de jornais on-line usando técnicas de machine learning para clustering de textos no idioma português] => 0 ) ) [en] => Array ( [0] => Array ( [Automatic grouping of news from online newspapers using Machine Learning techniques for clustering texts in Portuguese] => 0 ) ) ) [hasUrl] => Array ( [pt] => Array ( [0] => Array ( [https://periodicos.ufmg.br/index.php/moci/article/view/19170/16237] => 0 ) ) [nn] => Array ( [0] => Array ( [https://periodicos.ufmg.br/index.php/moci/article/view/19170] => 0 ) [1] => Array ( [https://periodicos.ufmg.br/index.php/moci/article/view/19170/16237] => 0 ) ) ) [prefLabel] => Array ( [pt] => Array ( [0] => Array ( [Oai:periodicos.ufmg.br:article/19170#00053] => 0 ) ) ) )