TechFusion.ruКомпании«Яндекс» открыл для всех CatBoost (и это не про котиков)

«Яндекс» открыл для всех CatBoost (и это не про котиков)

Categorical Boosting

Компания «Яндекс» представила на пресс-конференции в Москве новый метод машинного обучения CatBoost. По словам разработчиков, уже в период тестирования новый метод показал превосходство над применяемым в компании Матрикснет, и постепенно заменит его во всех продуктах

CatBoost стал первым опенсорсным методом машинного обучения родом из России. В «Яндексе» заявляют, что основное его значение — некоммерческое. «Выкладывая библиотеку CatBoost в открытый доступ, мы хотим внести свой вклад в развитие машинного обучения», — заявил руководитель управления машинного интеллекта и исследований «Яндекса» Михаил Биленко.

Помимо применения в многочисленных проектах «Яндекса» («Дзене», «Погоде», «Пробках», поиске и других), CatBoost должен найти применение во вне — то есть в любых проектах, связанных с машинным обучением.

Библиотека машинного обучения CatBoost выложена в открытый доступ на GitHub по открытой (самой открытой из возможных) лицензии Apache. Там же можно найти программу визуализации CatBoost Viewer. 

Как рассказала руководитель систем машинного обучения в «Яндексе» Анна Вероника Дорогуш, CatBoost уже был опробован Европейским центром ядерных исследований (ЦЕРНом). Там он используется для объединения данных, полученных с разных частей детектора LHCb.

Внутри «Яндекса» новый метод протестировали на различных сервисах: он применялся для улучшения результатов поиска, ранжирования ленты рекомендаций «Яндекс.Дзен», расчета прогноза погоды в технологии «Метеум». Во всех этих случаях CatBoost показал себя лучше Матрикснета (этот метод применяется в текущих продуктах «Яндекса» в настоящее время).

Как пояснили разработчики, отвечая на вопрос TechFusion.ru, в дальнейшем CatBoost будет использоваться и в других сервисах «Яндекса». Постепенно он должен полностью заменить своего предшественника — Матрикcнет.

Как и Матрикснет, CatBoost задействует механизм градиентного бустинга, который подходит для работы с разнородными данными. Но если Матрикснет обучает модели на числовых данных, то CatBoost учитывает и нечисловые, например виды облаков или типы зданий. Раньше такие данные приходилось переводить на язык цифр, что могло изменить их суть и повлиять на точность работы модели. Теперь их можно использовать в первоначальном виде, пояснили в «Яндексе». К слову, свое название новый метод машинного обучения получил от Categorical Boosting.

Как показали тесты, CatBoost дает более высокое качество обучения, чем прочие методы для работы с разнородными данными. Его можно применять в самых разных областях: в медицине, финансовой сфере, промышленности и прочих.

Подробнее о новом методе машинного обучения — в блоге «Яндекса»