CATEGORIZAÇÃO AUTOMÁTICA DE MENSAGENS DE CALL-FOR-PAPERS

Daniela Corumba, Hendrik Macedo

Resumo


Participantes de listas de discussão costumam receber diariamente um grande volume de mensagens em suas caixas de correio eletrônico. Em boa parte dos casos, apenas algumas destas mensagens despertam de fato o interesse do usuário. Um exemplo deste tipo de lista é a assinatura eletrônica de sistemas de chamadas para submissão de artigos científicos a conferências e periódicos (calls-for-papers), que são de grande interesse para grupos de pesquisa, professores e estudantes que desenvolvem algum tipo de atividade científica. A diversidade das chamadas entre linhas de pesquisa variadas dificulta o acesso às mais relevantes. Este artigo descreve um serviço Web que organiza de forma inteligente mensagens de call-for-papers recebidas em contas de correio eletrônico. O serviço realiza mineração do texto da mensagem e processamento kNN para categorizar os calls-for-papers entre seis grandes áreas da computação. Experimentos utilizando uma base de testes mostraram um percentual de acerto na classificação em torno de 89%. Uma extensão desse serviço Web para recomendação de calls-for-papers baseado na extração automática de informações de currículos Lattes (CNPq) de pesquisadores também é apresentada.

Palavras-chave


mineração de texto; categorização de textos; extração de informação

Referências


ADOMAVICIUS, G., TUZHILIN, A. Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions. IEEE Transactions on knowledge and data engineering, p. 734-749, 2005. doi:10.1109/TKDE.2005.99

ÁLVAREZ, A. C. Extração de informação de artigos científicos: uma abordagem baseada em indução de regras de etiquetagem. Dissertação de Mestrado, Instituto de Ciências Matemáticas e de Computação (ICMC), USP, 2007.

ALVES, A. D., YANASSE, H. H., SOMA, N. Y. Extração de Informação na plataforma Lattes para identificação de redes sociais acadêmicas. Workshop dos Cursos de Computação Aplicada do INPE, 9., São Jose dos Campos. Anais..., INPE, 2009.

BALABANOVIC, M., SHOHAM, Y. Fab: content-based, collaborative recommendation. Communications of the ACM, v. 40, n. 3, p. 72, 1997. doi:10.1145/245108.245124

LOH, S. BORGES, T., RIBEIRO JR, L. C., PILTCHER, G., LITCHNOW, D., KICKHOFEL, R. B., GOUVEIA, C., GARIN, R. S. Identificação automática de expertise analisando currículos no formato Lattes. Simpósio Brasileiro de Sistemas de Informação, 1., Porto Alegre. Anais... Porto Alegre: SBSI, 2004.

CAPES. Coordenação de Aperfeiçoamento de Pessoal de Nível Superior. s.d. Disponível em: http://www.capes.gov.br/. Acesso em: 10/07/2010.

CARDIE, C. Empirical methods in information extraction. AI Magazine. v. 18, n. 4, p. 65, 1997.

CHO, Y. H., KIM, J. K., KIM, S. H. A personalized recommender system based on web usage mining and decision tree induction, Expert Systems with Applications, v. 23, n. 3, p. 329–342, 2002. doi:10.1016/S0957-4174(02)00052-0

HIEMSTRA, D., JONG, F. Statistical language models and information retrieval: natural language processing really meets retrieval. Glot International, v. 5, n. 8, 2001.

JAVAMAIL. Java mail API 1.4.3. Sun Microsystems, Inc. 2009. Disponível em: http://java.sun.com/products/javamail/index.jsp. Acesso em: 10 jul 2010.

KONSTAN, J. A.; MILLER, B. N.; MALTZ, D.; HERLOCKER, J. L.; GORDON, L. R.; RIEDL, J. GroupLens: applying collaborative filtering to Usenet news. Communications of the ACM, v. 40, n. 3, p. 87, 1997. doi:10.1145/245108. 245126

KRISHNAMURTHY, B., GILL, P., ARLITT, M. A few chirps about twitter. Workshop on Online Social Networks, 1., p. 19-24. Proceedings... ACM, 2008. doi:10.1145/1397735.1397741

MILLER, B. N., ALBERT, I., LAM, S. K., KONSTAN, J. A., RIEDL, J. Movielens unplugged: experiences with a recommender system on four mobile devices. People and Computers, p. 263 280, 2004.

NUNES, M. Recommender systems based on personality traits: could human psychological aspects influence the computer decision-making process? Berlin: VDM Verlag Dr. Muller, 2009.

OLIVEIRA, E., BERMEJO, P. H. de S., KERN, V. M. GeraLattes: extração de informação gerencial de currículos de pesquisadores usando XML. Workshop de Computação da Região Sul (WorkCompSul 2004), 1., Florianópolis. Anais... UNISUL, 2004.

PAZZANI, M., BILLSUS, D. Content-based recommendation systems. The adaptive web, p. 325-341. Springer-Verlag, 2007.

RIBEIRO, L.; BORGES, T.; LICHTNOW, D.; LOH, S.; SALDAÑA, R. Identificação de áreas de interesse a partir de extração de informações de currículos Lattes/XML. In: I Escola Regional de Banco de Dados, Porto Alegre, 2005.

SALTON, G., WONG, A., YANG, C. S. A vector space model for automatic indexing. Communications of the ACM, v. 18, 1975.

SCRIPTLATTES. ScriptLattes. s.d. Disponível em: http://scriptlattes. sourceforge.net/. Acesso em: 10/07/2010.

SHADANAND, U., MAES, P. Social information filtering: algorithms for automating “word of mouth”. SIGCHI Conference on Human Factors in Computing Systems, p. 210-217. Proceedings... ACM Press/Addison-Wesley Publishing Co., 1995.

VISA, A. Technology of text mining. International Workshop on Machine Learning and Data Mining in Pattern Recognition (MLDM 2001), 2., Leipzig, Proceedings... MLDM, 2001.

WEINBERGER, K., SAUL, L. Distance metric learning for large margin nearest neighbor classification. The Journal of Machine Learning Research, v. 10, p. 207 244, 2009.

WEISS, S. Text mining: predictive methods for analyzing unstructured information. Springer-Verlag New York Inc., 2005.

ZHANG, T., IYENGAR, V. Recommender systems using linear classifiers. Journal of Machine Learning Research, v. 2, p. 313-334, 2002.


Texto completo: PDF

Licença Creative Commons
Este trabalho está licenciado sob uma Licença Creative Commons Attribution 3.0 .