Article
Apresenta metodologia para a extração semiautomática de uma taxonomia de conceitos, utilizando técnicas de mineração de textos, a partir de um corpus textual. A classificação de textos é uma prática natural do ser humano e uma tarefa crucial para se trabalhar com grandes repositórios. A técnica de agrupamento (clustering) de documentos fornece uma estrutura lógica e compreensível que facilita a organização, a navegação e a busca. A maioria dos algoritmos de agrupamento utiliza o modelo de saco de palavras (bag of words) para representar um documento. Este modelo gera alta dimensionalidade dos dados, ignora o fato de que diferentes palavras podem ter o mesmo significado e não considera o relacionamento entre elas, presumindo que as palavras são independentes umas das outras. A metodologia proposta apresenta a combinação de um modelo de representação de documentos por conceitos com um método de agrupamento hierárquico de documentos baseado na frequência da coocorrência dos conceitos e uma técnica de rotulação mais representativa, com o objetivo de produzir uma taxonomia de conceitos que possa refletir uma estrutura do domínio do conhecimento. A metodologia foi avaliada em um corpus textual composto de documentos científicos relacionados à área nuclear extraídos da produção científica da Comissão Nacional de Energia Nuclear (CNEN). Os resultados confirmaram que a mineração de textos serve como poderosa técnica para gerenciar conhecimento encapsulado em grandes coleções de documentos e, assim, apoiar a gestão das atividades de pesquisa da área.@pt
Array ( [dateOfAvailability] => Array ( [pt] => Array ( [0] => Array ( [2018-02-23] => 17504 ) ) ) [hasAuthor] => Array ( [nn] => Array ( [0] => Array ( [Fabiane dos Reis Braga] => 22073 ) ) ) [hasFileStorage] => Array ( [nn] => Array ( [0] => Array ( [_repository/146/2018/09/oai_ojs_revista_ibict_br_article_4056#00010.pdf] => 55891 ) ) ) [hasSectionOf] => Array ( [pt] => Array ( [0] => Array ( [Tecnologia, Inovação e Infraestrutura de Informação] => 168 ) [1] => Array ( [Artigo] => 3 ) ) ) [hasSubject] => Array ( [pt] => Array ( [0] => Array ( [Ciência da informação] => 237157 ) [1] => Array ( [Gestão do conhecimento] => 233908 ) [2] => Array ( [Agrupamento de documento] => 22071 ) [3] => Array ( [Agrupamento por conjunto de item frequente] => 22072 ) [4] => Array ( [Agrupamento de documentos] => 261039 ) [5] => Array ( [Agrupamento por conjunto de itens frequentes] => 261040 ) ) ) [wasPublicationInDate] => Array ( [nn] => Array ( [0] => Array ( [2018-02-23] => 261034 ) ) ) [hasLanguageExpression] => Array ( [nn] => Array ( [0] => Array ( [pt] => 232736 ) ) ) [hasLicense] => Array ( [nn] => Array ( [0] => Array ( [RESERVERD] => 234643 ) ) ) [isPartOfSource] => Array ( [pt] => Array ( [0] => Array ( [Ciência da informação] => 146 ) ) ) [hasIssueOf] => Array ( [pt] => Array ( [0] => Array ( [ISSUE:JNL:00010-2016-45-3] => 17501 ) ) ) [hasAbstract] => Array ( [pt] => Array ( [0] => Array ( [Apresenta metodologia para a extração semiautomática de uma taxonomia de conceitos, utilizando técnicas de mineração de textos, a partir de um corpus textual. A classificação de textos é uma prática natural do ser humano e uma tarefa crucial para se trabalhar com grandes repositórios. A técnica de agrupamento (clustering) de documentos fornece uma estrutura lógica e compreensível que facilita a organização, a navegação e a busca. A maioria dos algoritmos de agrupamento utiliza o modelo de saco de palavras (bag of words) para representar um documento. Este modelo gera alta dimensionalidade dos dados, ignora o fato de que diferentes palavras podem ter o mesmo significado e não considera o relacionamento entre elas, presumindo que as palavras são independentes umas das outras. A metodologia proposta apresenta a combinação de um modelo de representação de documentos por conceitos com um método de agrupamento hierárquico de documentos baseado na frequência da coocorrência dos conceitos e uma técnica de rotulação mais representativa, com o objetivo de produzir uma taxonomia de conceitos que possa refletir uma estrutura do domínio do conhecimento. A metodologia foi avaliada em um corpus textual composto de documentos científicos relacionados à área nuclear extraídos da produção científica da Comissão Nacional de Energia Nuclear (CNEN). Os resultados confirmaram que a mineração de textos serve como poderosa técnica para gerenciar conhecimento encapsulado em grandes coleções de documentos e, assim, apoiar a gestão das atividades de pesquisa da área.] => 0 ) ) ) [hasID] => Array ( [nn] => Array ( [0] => Array ( [oai:ojs.revista.ibict.br:article/4056] => 0 ) ) ) [hasRegisterId] => Array ( [pt] => Array ( [0] => Array ( [http://revista.ibict.br/ciinf/article/view/4056] => 0 ) [1] => Array ( [10.18225/ci.inf..v45i3.4056] => 0 ) ) ) [hasSource] => Array ( [pt] => Array ( [0] => Array ( [Ciência da Informação; v. 45, n. 3 (2016): Informação estratégica] => 0 ) [1] => Array ( [0100-1965] => 0 ) ) [nn] => Array ( [0] => Array ( [1518-8353] => 0 ) ) ) [hasTitle] => Array ( [pt] => Array ( [0] => Array ( [Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos] => 0 ) ) ) [hasUrl] => Array ( [pt] => Array ( [0] => Array ( [http://revista.ibict.br/ciinf/article/view/4056/3577] => 0 ) ) [nn] => Array ( [0] => Array ( [https://revista.ibict.br/ciinf/article/view/4056] => 0 ) [1] => Array ( [https://revista.ibict.br/ciinf/article/view/4056/3577] => 0 ) ) ) [prefLabel] => Array ( [pt] => Array ( [0] => Array ( [Oai:ojs.revista.ibict.br:article/4056#00010] => 0 ) ) ) [hasDOI] => Array ( [nn] => Array ( [0] => Array ( [10.18225/ci.inf.v45i3.4056] => 0 ) [1] => Array ( [10.18225/ci.inf.v45i3.4056.g3577] => 0 ) ) ) )