Article Brapci-Revistas

Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos

Apresenta metodologia para a extração semiautomática de uma taxonomia de conceitos, utilizando técnicas de mineração de textos, a partir de um corpus textual. A classificação de textos é uma prática natural do ser humano e uma tarefa crucial para se trabalhar com grandes repositórios. A técnica de agrupamento (clustering) de documentos fornece uma estrutura lógica e compreensível que facilita a organização, a navegação e a busca. A maioria dos algoritmos de agrupamento utiliza o modelo de saco de palavras (bag of words) para representar um documento. Este modelo gera alta dimensionalidade dos dados, ignora o fato de que diferentes palavras podem ter o mesmo significado e não considera o relacionamento entre elas, presumindo que as palavras são independentes umas das outras. A metodologia proposta apresenta a combinação de um modelo de representação de documentos por conceitos com um método de agrupamento hierárquico de documentos baseado na frequência da coocorrência dos conceitos e uma técnica de rotulação mais representativa, com o objetivo de produzir uma taxonomia de conceitos que possa refletir uma estrutura do domínio do conhecimento. A metodologia foi avaliada em um corpus textual composto de documentos científicos relacionados à área nuclear extraídos da produção científica da Comissão Nacional de Energia Nuclear (CNEN). Os resultados confirmaram que a mineração de textos serve como poderosa técnica para gerenciar conhecimento encapsulado em grandes coleções de documentos e, assim, apoiar a gestão das atividades de pesquisa da área.@pt


. Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos. Ciência da informação, [????].
NLP0.29
Visto 14 vezes
sem referências
Array
(
    [dateOfAvailability] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [2018-02-23] => 17504
                        )

                )

        )

    [hasAuthor] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [Fabiane dos Reis Braga] => 22073
                        )

                )

        )

    [hasFileStorage] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [_repository/146/2018/09/oai_ojs_revista_ibict_br_article_4056#00010.pdf] => 55891
                        )

                )

        )

    [hasSectionOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Tecnologia, Inovação e Infraestrutura de Informação] => 168
                        )

                    [1] => Array
                        (
                            [Artigo] => 3
                        )

                )

        )

    [hasSubject] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Ciência da informação] => 237157
                        )

                    [1] => Array
                        (
                            [Gestão do conhecimento] => 233908
                        )

                    [2] => Array
                        (
                            [Agrupamento de documento] => 22071
                        )

                    [3] => Array
                        (
                            [Agrupamento por conjunto de item frequente] => 22072
                        )

                    [4] => Array
                        (
                            [Agrupamento de documentos] => 261039
                        )

                    [5] => Array
                        (
                            [Agrupamento por conjunto de itens frequentes] => 261040
                        )

                )

        )

    [wasPublicationInDate] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [2018-02-23] => 261034
                        )

                )

        )

    [hasLanguageExpression] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [pt] => 232736
                        )

                )

        )

    [hasLicense] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [RESERVERD] => 234643
                        )

                )

        )

    [isPartOfSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Ciência da informação] => 146
                        )

                )

        )

    [hasIssueOf] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [ISSUE:JNL:00010-2016-45-3] => 17501
                        )

                )

        )

    [hasAbstract] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Apresenta metodologia para a extração semiautomática de uma taxonomia de conceitos, utilizando técnicas de mineração de textos, a partir de um corpus textual. A classificação de textos é uma prática natural do ser humano e uma tarefa crucial para se trabalhar com grandes repositórios. A técnica de agrupamento (clustering) de documentos fornece uma estrutura lógica e compreensível que facilita a organização, a navegação e a busca. A maioria dos algoritmos de agrupamento utiliza o modelo de saco de palavras (bag of words) para representar um documento. Este modelo gera alta dimensionalidade dos dados, ignora o fato de que diferentes palavras podem ter o mesmo significado e não considera o relacionamento entre elas, presumindo que as palavras são independentes umas das outras. A metodologia proposta apresenta a combinação de um modelo de representação de documentos por conceitos com um método de agrupamento hierárquico de documentos baseado na frequência da coocorrência dos conceitos e uma técnica de rotulação mais representativa, com o objetivo de produzir uma taxonomia de conceitos que possa refletir uma estrutura do domínio do conhecimento. A metodologia foi avaliada em um corpus textual composto de documentos científicos relacionados à área nuclear extraídos da produção científica da Comissão Nacional de Energia Nuclear (CNEN). Os resultados confirmaram que a mineração de textos serve como poderosa técnica para gerenciar conhecimento encapsulado em grandes coleções de documentos e, assim, apoiar a gestão das atividades de pesquisa da área.] => 0
                        )

                )

        )

    [hasID] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [oai:ojs.revista.ibict.br:article/4056] => 0
                        )

                )

        )

    [hasRegisterId] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [http://revista.ibict.br/ciinf/article/view/4056] => 0
                        )

                    [1] => Array
                        (
                            [10.18225/ci.inf..v45i3.4056] => 0
                        )

                )

        )

    [hasSource] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Ciência da Informação; v. 45, n. 3 (2016): Informação estratégica] => 0
                        )

                    [1] => Array
                        (
                            [0100-1965] => 0
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [1518-8353] => 0
                        )

                )

        )

    [hasTitle] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos] => 0
                        )

                )

        )

    [hasUrl] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [http://revista.ibict.br/ciinf/article/view/4056/3577] => 0
                        )

                )

            [nn] => Array
                (
                    [0] => Array
                        (
                            [https://revista.ibict.br/ciinf/article/view/4056] => 0
                        )

                    [1] => Array
                        (
                            [https://revista.ibict.br/ciinf/article/view/4056/3577] => 0
                        )

                )

        )

    [prefLabel] => Array
        (
            [pt] => Array
                (
                    [0] => Array
                        (
                            [Oai:ojs.revista.ibict.br:article/4056#00010] => 0
                        )

                )

        )

    [hasDOI] => Array
        (
            [nn] => Array
                (
                    [0] => Array
                        (
                            [10.18225/ci.inf.v45i3.4056] => 0
                        )

                    [1] => Array
                        (
                            [10.18225/ci.inf.v45i3.4056.g3577] => 0
                        )

                )

        )

)