Автоматизированное машинное обучение: обзор возможностей современных платформ анализа данных

И. П. Болодурина, Д. И. Парфенов, А. Е. Шухман, Л. С. Забродина

Аннотация


Методы автоматического машинного обучения (AutoML) играют важнейшую роль в работе с огромным объемом данных и используются практически во всех возможных областях. Использование инструментов AutoML в прикладных задачах анализа данных позволяет извлекать новые знания из исходной информации, выявлять взаимосвязи внутри данных и решать задачи классификации, кластеризации, регрессии, прогнозирования и др. В рамках данной работы проводится обзор существующих подходов и систем построения гибко настраиваемых конвейеров AutoML, использующих интеллектуальные алгоритмы оптимизации структуры и параметров. Для расширения применяемых подходов байесовской оптимизации в рамках реализации процесса автоматического машинного обучения, включен этап метаобучения, а также автоматизированного построения ансамбля для повышения эффективности получаемых результатов. Формализуются этапы процесса оптимизации конвейеров данных и настройки алгоритмов машинного обучения, а также сформулирована постановка задачи оптимизации выбора комбинированного алгоритма и настройки гиперпараметров (CASH). Задача CASH является важнейшим элементом систем AutoML, от методов и алгоритмов решения которой зависит производительность и эффективность конечных моделей обучения. В связи с этим, следующим этапом данного исследования является разработка и модификация подходов к решению данной задачи, а также планируется подобрать наиболее эффективные алгоритмы построения признакового пространства и модифицировать их для повышения производительности и точности обученных моделей.

Ключевые слова


автоматизированное машинное обучение; анализ данных; байесовская оптимизация; интеллектуальные алгоритмы оптимизации; метаобучение

Полный текст:

PDF

Литература


C. Thornton et al. Auto-WEKA: Combined selection and hyperparameter optimization of classification algorithms // Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. Pp. 847-855. [ C. Thornton et al, “Auto-WEKA: Combined selection and hyperparameter optimization of classification algorithms”, in Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. pp. 847-855. 2013. ]

Nguyen P., Hilario M., Kalousis A. Using meta-mining to support data mining workflow planning and optimization // Journal of Artificial Intelligence Research. 2014. Vol. 51. P. 605-644. [ P. Nguyen, M. Hilario, A. Kalousis ,“Using meta-mining to support data mining workflow planning and optimization,” in Journal of Artificial Intelligence Research, vol. 51. pp. 605-644. 2014. ]

Komer B., Bergstra J., Eliasmith C. Hyperopt-sklearn: Automatic hyperparameter configuration for scikit-learn // Proc. of the 13th Python in Science Conference (SciPy 2014). USA. 2014. Pр. 32-37. [ B. Komer, J. Bergstra, C. Eliasmith, “Hyperopt-sklearn: Automatic hyperparameter configuration for scikit-learn” in Proc. of the 13th Python in Science Conference, pp. 32-37. 2014. ]

Feurer M. et al. Efficient and robust automated machine learning // Advances in Neural Information Processing Systems. 2015. Vol. 28. Pр. 2962-2970. [ M. Feurer et al. “Efficient and robust automated machine learning” in Advances in Neural Information Processing Systems, Vol. 28. Pp. 2962-2970. 2015. ]

Feurer M. et al. Auto-Sklearn 2.0: The Next Generation // ArXiv preprint arXiv:2007.04074. 2020. P. 1-18 [ M. Feurer, K. Eggensperger, S. Falkner, M. Lindauer, F. Hutter “Auto-Sklearn 2.0: The Next Generation”, in ArXiv preprint arXiv:2007.04074. Pp. 1-18. 2020. ]

Olson R. S., Bartley N., Urbanowicz R. J., Moore J. H. Evaluation of a tree-based pipeline optimization tool for automating data science // Proc. of the Genetic and Evolutionary Computation Conference (GECCO), USA. 2016. P. 485-492. [ R. S. Olson, N. Bartley, R. J. Urbanowicz, J. H. Moore “Evaluation of a tree-based pipeline optimization tool for automating data science”, in Proc. of the Genetic and Evolutionary Computation Conference, Pp. 485-495. 2016.]

Olson R. S., Moore J. H. TPOT: A Tree-Based Pipeline Optimization Tool for Automating Machine Learning. // JMLR: Workshop and Conference Proceedings. 2016. Vol. 64. P. 66 74. [ R.S. Olson, J.H. Moore “TPOT: A Tree-Based Pipeline Optimization Tool for Automating Machine Learning” in JMLR: Workshop and Conference Proceedings, Vol. 64, Pp. 66 74. 2016. ]

Kotthoff L., Thornton C., Hoos H. H., Hutter F., Leyton-Brown K. Auto-weka 2.0: Automatic model selection and hyperparameter optimization in weka // The Journal of Machine Learning Research. 2017. Vol. 18(1). P. 826-830. [ L. Kotthoff, C. Thornton, H.H. Hoos, F. Hutter, K. Leyton-Brown “Auto-weka 2.0: Automatic model selection and hyperparameter optimization in weka” in The Journal of Machine Learning Research., Vol. 18 (1), Pp. 826-830. 2017.]

Alsolai H., Roper M. Determining the Best Prediction Accuracy of Software Maintainability Models Using Auto-WEKA // Advances in Data Science, Cyber Security and IT Applications. Springer.2019. Vol. 1098. P. 60-70. [ H. Alsolai, M. Roper “Determining the Best Prediction Accuracy of Software Maintainability Models Using Auto-WEKA” in Advances in Data Science, Cyber Security and IT Applications.,Vol. 1098, 2019. Pp. 60-70. ]

Jin H., Song Q., Hu X. Auto-keras: An efficient neural architecture search system // arXiv:1806.10282. 2018. P. 1-11. [ H. Jin, Q. Song, X. Hu “. Auto-keras: An efficient neural architecture search system” in arXiv preprint arXiv:1806.10282. Pp. 1-11. 2018. ]

Alex G. et al. RECIPE: A Grammar-Based Framework for Automatically Evolving Classification Pipelines // Proc. of the 20th European Conference on Genetic Programming (EuroGP'17), Amsterdam. 2017. P. 446-461. [ G. Alex et al “RECIPE: A Grammar-Based Framework for Automatically Evolving Classification Pipelines”, in Proc. of the 20th European Conference on Genetic Programming. Рp. 446-461. 2017. ]

Mohr F., Wever M., Hüllermeier E. ML-Plan: Automated machine learning via hierarchical planning // Machine Learning. 2018. Vol. 107. P. 1495–1515. [ F. Mohr, M. Wever, E. Hüllermeier “ML-Plan: Automated machine learning via hierar

chical planning” in Machine Learning, Vol. 107. Pp. 1495-1515. 2018. ]

Nau D. S. et al. SHOP2: An HTN planning system // Journal of Artificial Intelligence Research (JAIR). 2003. Vol. 20. P. 1-26. [ D.S. Nau et al “SHOP2: An HTN planning system” in Journal of Artificial Intelligence Researchvol, Vol. 20. Pp. 1 26. 2003. ]

Nguyen P., Kalousis A., Hilario M. A meta-mining infrastructure to support KD workflow optimization // Proc. of the PlanSoKD-11 Workshop at ECML/PKDD. Greece. 2011. P. 1–10. [ P. Nguyen, A. Kalousis, M. Hilario “A meta-mining infrastructure to support KD workflow optimization”, in Proc. of the PlanSoKD-11 Workshop at ECML/PKDD. Pp. 1 10. 2011. ]

Nguyen P., Kalousis A., Hilario M. Experimental evaluation of the e-lico meta-miner // Proc. of the 5th planning to learn workshop WS28 at ECAI.France, Montpellier. 2012. P. 18–19. [ P. Nguyen, A. Kalousis, M. Hilario “Experimental evaluation of the e-lico meta-miner”, in Proc. of the 5th planning to learn workshop WS28 at ECAI. Pp. 18-19. 2012. ]


Ссылки

  • На текущий момент ссылки отсутствуют.


(c) 2021 И. П. Болодурина, Д. И. Парфенов, А. Е. Шухман, Л. С. Забродина