Un marco de referencia para el uso de la entropía cruzada binaria: Clasificador de conjunto híbrido de aumento de gradiente para la clasificación con datos desequilibrados
A framework using Binary Cross Entropy - Gradient Boost Hybrid Ensemble Classifier for imbalanced data classification
Durante la época de los datos masivos, ha sido algo común el continuo desarrollo del aprendizaje de datos desequilibrados, lo que ha abierto un camino para la investigación junto a la minería de datos y a conceptos de aprendizaje automatizado. En años recientes, los datos masivos y su análisis han tenido una gran preeminencia debido a la exploración de datos por parte de muchas aplicaciones a tiempo real.
Usar el aprendizaje automatizado puede ser la mejor solución para solucionar las dificultades que se plantean cuando nos encontramos con datos desequilibradas. Muchas aplicaciones del mundo real tienen que predecir las soluciones para conjuntos de datos muy desequilibrados cuyo objetivo es variable. En la mayoría de los casos, el objetivo variable tiene poca relación con sus propios valores debido al tipo de desequilibrios asociados con objeto o eventos fuertemente aplicables por los usuarios (por ejemplo, resultados de cambios en el mercado, fraudes, seguridad en la red, etc.). La expansión de la disponibilidad de los datos debida al auge de los datos masivos de los sistemas en red tales como seguridad, transacciones en internet, manipulaciones financieras, vigilancia por cámaras de seguridad y otros aparates plantean una oportunidad para el estudio crítico del conocimiento insuficiente de datos desequilibrados para apoyar el proceso de tomas de decisiones. El desequilibrio de datos es un reto para la investigación. Las tendencias recientes llevan a un mayor nivel de datos y a un método de nivel de algoritmos mejorados constantemente y llevan a desarrollar un nuevo marco híbrido para resolver los problemas en la clasificación. Clasificar los datos desequilibrados en una tarea compleja en el campo de los análisis de datos masivos. Este estudio principalmente se concentra en problemas existentes en la mayoría de los casos en las aplicaciones del mundo real cuando se producen desequilibrios en los datos. Esta dificultad se debe a la distribución de datos con una naturaleza sesgada. Se han analizado los datos desequilibrados y se ha encontrado una solución. Este artículo se concentra principalmente en descubrir una solución mejor a este problema para resolverlo con el marco propuesto usando un conjunto de clasificación híbrida basada en un método de entropía cruzada binaria como una función perdida junto al algoritmo de aumento de gradiente.
https://www.webology.org/abstract.php?id=436
Traducción del resumen de la propia publicación