Array
(
    [responseDate] => 2024-11-19T11:46:41Z
    [request] => https://seer.ufrgs.br/index.php/EmQuestao/oai
    [GetRecord] => SimpleXMLElement Object
        (
            [record] => SimpleXMLElement Object
                (
                    [header] => SimpleXMLElement Object
                        (
                            [identifier] => oai:seer.ufrgs.br:article/139205
                            [datestamp] => 2024-11-11T17:10:50Z
                            [setSpec] => EmQuestao:ART
                        )

                    [metadata] => SimpleXMLElement Object
                        (
                            [dc] => SimpleXMLElement Object
                                (
                                    [title] => Array
                                        (
                                            [0] => Product description classification in portuguese: performance assessment of machine learning algorithms, preprocessing and attribute extraction
                                            [1] => Mejorando la clasificación de descripciones de productos en portugués mediante técnicas de recuperación de información: un nuevo enfoque con agrupación de descripciones
                                            [2] => Aprimorando a classificação de descrições de produtos em português com a utilização de técnicas da recuperação de informação: uma abordagem de agrupamento de descrições
                                        )

                                    [creator] => Array
                                        (
                                            [0] => Daru, Gilsiley Henrique
                                            [1] => Loch, Gustavo Valentim
                                            [2] => Pietezak, Daniel Felipe
                                        )

                                    [subject] => Array
                                        (
                                            [0] => aprendizado de máquina
                                            [1] => processamento de linguagem natural
                                            [2] => classificação de texto
                                            [3] => descrição do produto
                                            [4] => texto curto
                                            [5] => bag of words
                                            [6] => frequência de termos
                                            [7] => frequência inversa de documentos
                                            [8] => machine learning
                                            [9] => natural language processing
                                            [10] => text classification
                                            [11] => product description
                                            [12] => short text
                                            [13] => bag of words
                                            [14] => term frequency
                                            [15] => inverse document frequency
                                        )

                                    [description] => Array
                                        (
                                            [0] => The growing demand for automated product classification systems in e-commerce platforms has fueled the search for efficient solutions for product categorization, particularly in Portuguese. This study investigates the adaptation of classical information retrieval techniques, such as bag-of-words, TF, and TF-IDF, for the task of classifying short product descriptions. The research evaluates different preprocessing and tokenization strategies, including analyzing normalization impact. The results show that simple information retrieval methods, when combined with appropriate preprocessing and parameter optimization, can achieve significantly superior performance.
                                            [1] => El propósito de este estudio es explorar un enfoque de agrupamiento de descripciones para la generación de documentos, con el objetivo de mejorar la clasificación de descripciones cortas de productos en portugués mediante la aplicación de técnicas de recuperación de información. La investigación evalúa la efectividad de esta metodología, considerando el uso de técnicas de pre-procesamiento y vectorización, tales como bag-of-words, TF-IDF, unigram, bigram y seqgram, tanto en la capacidad de clasificación como en la entrada vectorizada para la regresión logística. Este método de agrupamiento se analiza en detalle, enfocándose en su capacidad para mejorar la clasificación y servir como un nuevo enfoque para la vectorización de texto. Además, se examina el impacto del uso exclusivo de técnicas de recuperación de información basadas en la similitud de documentos en la tarea de categorización. Este estudio, enfatizando el contexto lingüístico específico del portugués, busca comprender cómo la adaptación de técnicas de clasificación puede aumentar la precisión y eficiencia en contextos de comercio electrónico, contribuyendo significativamente al campo de la recuperación de información.
                                            [2] => A crescente demanda por sistemas automatizados de classificação de produtos em plataformas de e-commerce impulsionou a busca por soluções eficientes para a categorização de produtos, especialmente em português. Este estudo investiga a adaptação de técnicas clássicas de recuperação da informação, como bag-of-words, TF e TF-IDF, para a tarefa de classificar descrições curtas de produtos. A pesquisa avalia diferentes estratégias de pré-processamento e tokenização, incluindo a análise do impacto da normalização. Os resultados demonstraram que métodos simples de recuperação da informação, quando combinados com pré-processamento adequado e otimização de parâmetros, podem alcançar desempenho significativamente superior.
                                        )

                                    [publisher] => Universidade Federal do Rio Grande do Sul, Faculdade de Biblioteconomia e Comunicação, Programa de Pós-Graduação em Ciência da Informação (Porto Alegre/RS)
                                    [date] => 2024-09-23
                                    [type] => Array
                                        (
                                            [0] => info:eu-repo/semantics/article
                                            [1] => info:eu-repo/semantics/publishedVersion
                                            [2] => Avaliado por Pares
                                            [3] => texto
                                        )

                                    [format] => Array
                                        (
                                            [0] => application/pdf
                                            [1] => application/pdf
                                            [2] => application/pdf
                                        )

                                    [identifier] => Array
                                        (
                                            [0] => https://seer.ufrgs.br/index.php/EmQuestao/article/view/139205
                                            [1] => 10.1590/1808-5245.30.139205
                                        )

                                    [source] => Array
                                        (
                                            [0] => Em Questão; Vol. 30 (2024)
                                            [1] => Em Questão; Vol. 30 (2024)
                                            [2] => Em Questão; v. 30 (2024)
                                            [3] => 1808-5245
                                            [4] => 1807-8893
                                        )

                                    [language] => por
                                    [relation] => Array
                                        (
                                            [0] => https://seer.ufrgs.br/index.php/EmQuestao/article/view/139205/93145
                                            [1] => https://seer.ufrgs.br/index.php/EmQuestao/article/view/139205/93146
                                            [2] => https://seer.ufrgs.br/index.php/EmQuestao/article/view/139205/93148
                                        )

                                    [rights] => Array
                                        (
                                            [0] => Copyright (c) 2023 Gilsiley Henrique Daru, Gustavo Valentim Loch, Daniel Felipe Pietezak
                                            [1] => https://creativecommons.org/licenses/by/4.0
                                        )

                                )

                        )

                )

        )

)