Data Mining Techniques for Rainfall Regionalization in Parana State
Data Mining Techniques for Rainfall Regionalization in Parana StateData Mining Techniques for Rainfall Regionalization in Parana State
Jonathan Richetti, Elizabeth Giron Cima, Jerry A. Johann, Miguel Angel Uribe-Opazo
Abstract: The prevalence of agro-meteorological data for specific regions serve as parameters for agricultural and related climate studies. This study aims to regionalize the rainfall in the State of Paraná (Southern Brazil) through data mining techniques with ECMWF (European Centre for Medium Range Weather Forecasts) data from 1989 to 2013. The algorithms k-means and Simple EM (Expectation Maximization) for clustering were applied in Weka software, version 3.6. The quality of the clustering was determined with the J48 classification algorithm applied using training set. The decision tree presents similarity indexes and errors measures to determine the best number of cluster for this case. As results 6 regions of homogeneous rainfall in the state of Paraná were presented.
Keywords: cluster, Weka, k-means algorithm, EM algorithm.
Técnicas de Mineração de Dados para Regionalização da Precipitação no Estado do Paraná
Resumo: A prevalência de dados agrometeorológico para regiões específicas servem como parâmetros para estudos agrícolas, do clima e afins. O objetivo deste estudo foi regionalizar a precipitação no estado do Paraná (sul do Brasil) através de técnicas de mineração de dados com dados do ECMWF (Centro Europeu para Previsões Meteorológicas de Médio Alcance) de 1989 para 2013. Os algoritmos de k-means e simple EM (maximização de expectativa) para clusters foram aplicados no software Weka, versão 3.6. A qualidade do agrupamento foi determinada com o algoritmo de classificação J48 aplicado usando o conjunto de treinamento. A árvore de decisão apresenta índices de similaridade e erros de medidas para determinar o melhor número de cluster para este caso. Os resultados apresentam 6 regiões de precipitação homogênea no estado do Paraná.
Palavras chave: algoritmo k-means, cluster, Weka, algoritmo EM.