Article Brapci-Revistas

Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito

Comparison of document categorization process using key words and citations in a restricted knowledge domain

Resumo O processo de categorização requer a extração de elementos representativos de um documento de modo que sua essência possa ser utilizada na identificação de similaridades e na geração de categorias. O objetivo deste trabalho é analisar as dificuldades e os resultados encontrados em dois processos diferentes de categorização de documentos de um domínio de conhecimento restrito, o primeiro, baseado no uso de palavras-chave e o segundo, na utilização de citações para representação dos documentos. Para exemplificar a utilização de diferentes atributos na representação dos documentos foram realizados dois experimentos. O pri-meiro utilizou um algoritmo de categorização baseado em palavras-chave. O segundo experimento gerou as categorias, utilizando Redes Neurais Artificiais, a partir das citações dos artigos. Em um domínio de conhecimento restrito, como o utilizado neste trabalho, foi possível evidenciar a dificuldade na formação de grupos que utilizam palavras-chave como atributo do processo de categorização devido à grande similaridade existente entre aquelas utilizadas pelos autores dos artigos. As citações podem ser, como mostrado no segundo experimento, um atributo alternativo e mais eficiente para esse processo. A formação de um grupo de artigos com um expressivo acoplamento bibliográfico e uma forte relação semântica comprovou a validade do método proposto. A presente pesquisa detalha a metodologia utilizada nos experimentos, mostrando a importância de uma criteriosa fase de pré-processamento para a confiabilidade das bases de dados. Este estudo pode contribuir com as pesquisas relacionadas à representação de documentos em processos de categorização e de recuperação de informação.@pt


Abstract The categorization process requires the extraction of representative elements from a document so that its essence can be used to identify similarities among documents and generate categories. The objective of this study was to analyze the difficulties and results from two different processes of document categorization in a restricted knowledge domain. The first one was based on the use of keywords and the second was based on the use of citations for document representation. To illustrate the use of different attributes in document representation, two experiments were conducted. The first one used a categorization algorithm based on keywords. The second experiment generated categories, using Artificial Neural Networks, from the citations of the articles. In the restricted knowledge domain, as used in this study, it was difficult to form groups that use keywords as attributes of the categorization process due to the great similarity of keywords used by the authors. The citations can be, as shown in the second experiment, an alternative and more efficient attribute for the categorization process of these documents. The formation of a set of articles with significant bibliographic coupling and a strong semantic relationship validated the method proposed. The article details the methodology used in the experiments, showing the importance of careful pre-processing phase for the reliability of the databases. This study may contribute to the research related to the representation of documents in categorization processes and information retrieval.@en

. Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito comparison of document categorization process using key words and citations in a restricted knowledge domain. Transinformação, [????].
NLP0.29
Visto 16 vezes
sem referências
Array
(
    [dateOfAvailability] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [2] => 115192
                        )

                )

        )

    [hasAuthor] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Magali Rezende Gouvêa Meireles] => 7470
                        )

                    [1] => Array
                        (
                            [Beatriz Valadares Cendón] => 2036
                        )

                    [2] => Array
                        (
                            [Paulo Eduardo Maciel Almeida] => 27288
                        )

                )

        )

    [hasFileStorage] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [_repository/442/2019/06/oai_scielo_S0103-37862016000100087#00027.pdf] => 117875
                        )

                )

        )

    [hasPageEnd] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [96] => 1475
                        )

                )

        )

    [hasPageStart] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [87] => 593
                        )

                )

        )

    [hasSectionOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Artigo] => 3
                        )

                )

        )

    [hasSubject] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Análise de citação] => 263775
                        )

                    [1] => Array
                        (
                            [Categorias] => 201936
                        )

                    [2] => Array
                        (
                            [Inteligência artificial] => 232804
                        )

                    [3] => Array
                        (
                            [Recuperação da informação] => 261956
                        )

                    [4] => Array
                        (
                            [Representação da informação] => 263877
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Citation analysis] => 265953
                        )

                    [1] => Array
                        (
                            [Categories] => 172474
                        )

                    [2] => Array
                        (
                            [Artificial inteligence] => 116821
                        )

                    [3] => Array
                        (
                            [Information retrieval] => 227532
                        )

                    [4] => Array
                        (
                            [Information representation] => 276994
                        )

                    [5] => Array
                        (
                            [Citation analysis] => 3133
                        )

                )

        )

    [hasIssueOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [ISSUE:JNL:00027-2016-28-1] => 116798
                        )

                )

        )

    [isPartOfSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Transinformação] => 442
                        )

                )

        )

    [hasAbstract] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Resumo O processo de categorização requer a extração de elementos representativos de um documento de modo que sua essência possa ser utilizada na identificação de similaridades e na geração de categorias. O objetivo deste trabalho é analisar as dificuldades e os resultados encontrados em dois processos diferentes de categorização de documentos de um domínio de conhecimento restrito, o primeiro, baseado no uso de palavras-chave e o segundo, na utilização de citações para representação dos documentos. Para exemplificar a utilização de diferentes atributos na representação dos documentos foram realizados dois experimentos. O pri-meiro utilizou um algoritmo de categorização baseado em palavras-chave. O segundo experimento gerou as categorias, utilizando Redes Neurais Artificiais, a partir das citações dos artigos. Em um domínio de conhecimento restrito, como o utilizado neste trabalho, foi possível evidenciar a dificuldade na formação de grupos que utilizam palavras-chave como atributo do processo de categorização devido à grande similaridade existente entre aquelas utilizadas pelos autores dos artigos. As citações podem ser, como mostrado no segundo experimento, um atributo alternativo e mais eficiente para esse processo. A formação de um grupo de artigos com um expressivo acoplamento bibliográfico e uma forte relação semântica comprovou a validade do método proposto. A presente pesquisa detalha a metodologia utilizada nos experimentos, mostrando a importância de uma criteriosa fase de pré-processamento para a confiabilidade das bases de dados. Este estudo pode contribuir com as pesquisas relacionadas à representação de documentos em processos de categorização e de recuperação de informação.] => 0
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Abstract The categorization process requires the extraction of representative elements from a document so that its essence can be used to identify similarities among documents and generate categories. The objective of this study was to analyze the difficulties and results from two different processes of document categorization in a restricted knowledge domain. The first one was based on the use of keywords and the second was based on the use of citations for document representation. To illustrate the use of different attributes in document representation, two experiments were conducted. The first one used a categorization algorithm based on keywords. The second experiment generated categories, using Artificial Neural Networks, from the citations of the articles. In the restricted knowledge domain, as used in this study, it was difficult to form groups that use keywords as attributes of the categorization process due to the great similarity of keywords used by the authors. The citations can be, as shown in the second experiment, an alternative and more efficient attribute for the categorization process of these documents. The formation of a set of articles with significant bibliographic coupling and a strong semantic relationship validated the method proposed. The article details the methodology used in the experiments, showing the importance of careful pre-processing phase for the reliability of the databases. This study may contribute to the research related to the representation of documents in categorization processes and information retrieval.] => 0
                        )

                )

        )

    [hasID] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [oai:scielo:S0103-37862016000100087] => 0
                        )

                )

        )

    [hasRegisterId] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [S0103-37862016000100087] => 0
                        )

                    [1] => Array
                        (
                            [10.1590/2318-08892016002800007] => 0
                        )

                )

        )

    [hasSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Transinformação, v. 28, n. 1, 2016.] => 0
                        )

                )

        )

    [hasTitle] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Comparação do processo de categorização de documentos utilizando palavras-chave e citações em um domínio de conhecimento restrito] => 0
                        )

                )

            [en] => Array
                (
                    [0] => Array
                        (
                            [Comparison of document categorization process using key words and citations in a restricted knowledge domain] => 0
                        )

                )

        )

    [hasUrl] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-37862016000100087&lng=en&nrm=iso] => 0
                        )

                    [1] => Array
                        (
                            [http://www.scielo.br/scielo.php?script=sci_abstract&pid=S0103-37862016000100087&lng=en&nrm=iso] => 0
                        )

                    [2] => Array
                        (
                            [http://www.scielo.br/scielo.php?script=sci_pdf&pid=S0103-37862016000100087&lng=en&nrm=iso] => 0
                        )

                )

        )

    [prefLabel] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Oai:scielo:s0103-37862016000100087#00027] => 0
                        )

                )

        )

)