СУБД: от пассивного склада данных до «думающей» интерактивной платформы

08.07.2025

Преподаватель Учебного центра РДТЕХ, практик в AI и Data Science Олег Сергеев рассказал об эволюции систем управления базами данных, о гибкости систем с открытым кодом, внедрении СУБД в пользовательский сегмент и ИБ-рисках для чувствительных данных.

– Олег, как ИИ расширяет возможности СУБД сегодня?

– ИИ в СУБД действует как очень умный помощник. Он заставляет базы данных работать быстрее и надежнее, автоматически оптимизируя запросы, предсказывая возможные проблемы и даже управляя ресурсами. Раньше все это администраторы делали вручную, а теперь ИИ берет на себя часть рутины, освобождая время для более важных задач. В итоге, СУБД становятся умнее и эффективнее.

– Сегодня ИИ активно учится на данных. СУБД, развиваясь, могут совершенствовать сами нейросети?

– Это уже не фантастика, а вполне реальная и развивающаяся практика. Суть в том, чтобы не выгружать огромные объемы данных для обучения куда-то вовне, а проводить его прямо внутри самой СУБД или очень близко к ней. Это называют in-database machine learning.

Появляются СУБД и аналитические платформы, которые встраивают функции или специальные движки, позволяющие прямо на месте, там, где лежат данные, запускать тренировку моделей, включая иногда и нейросети. Так что, да, эта возможность постепенно реализуется. Цель — сделать анализ и обучение моделей на данных гораздо быстрее и проще, минимизируя лишние перемещения информации. СУБД потихоньку из пассивного «склада» превращаются в платформы, где данные не только хранятся, но и активно «обрабатываются» для получения умных результатов, включая тренировку моделей ИИ.

– Насколько интеллектуальными смогут быть хранилища данных в будущем?

– Они смогут не просто аккумулировать информацию, а станут более интерактивными и «думающими». Они будут сами понимать содержимое данных, автоматически находить неочевидные закономерности и инсайты, а также самостоятельно оптимизировать свою работу до такой степени, что будут похожи скорее на интеллектуальных ассистентов по данным, чем на обычные хранилища. Это уже будет не просто место, куда положили информацию, а система, активно работающая с ней и помогающая извлекать ценность.

– Сегодня создается много СУБД на Open source. Почему, и легче ли вендору создать такое решение?

– Во-первых, это про доступность. Для многих компаний, особенно небольших и стартапов, покупать дорогие проприетарные лицензии просто не по карману. Open source предлагает мощные решения, зачастую, бесплатно. Во-вторых, это огромная гибкость. Вы не привязаны к одному вендору, можете подстраивать систему под себя, смотреть код, если нужно. Нет эффекта vendor lock-in, когда вы по сути становитесь заложником одного поставщика. И в-третьих, конечно, сообщество. Вокруг популярных Open source СУБД собираются тысячи, даже миллионы разработчиков по всему миру. Они помогают улучшать код, искать ошибки, придумывать новые функции. Это сильно ускоряет развитие и делает решения надежнее, потому что их использует и тестирует множество людей.

Теперь насчет того, легче ли это для самого вендора (то есть, для компании, которая разрабатывает эту СУБД). Тут палка о двух концах, я бы сказал. Само по себе создание работающей, надежной СУБД – это невероятно сложная инженерная задача, независимо от того, будет она закрытой или открытой. Фундамент построить тяжело в любом случае. А вот дальше появляются особенности. В случае Open source, вендору, чтобы быть успешным, нужно построить сильное сообщество, уметь работать с внешними контрибьюторами (людьми извне, которые присылают свой код), управлять проектом так, чтобы все не развалилось.

Модель заработка тоже отличается – обычно это поддержка, консалтинг, платные облачные версии. В чем-то может стать легче потом, за счет помощи сообщества, но старт и управление большим Open Source проектом требует своих уникальных усилий и подходов, отличных от чисто коммерческой разработки.

– Смогут ли автономные БД со временем контролировать люди, не связанные с ИТ?

– Думаю, с большой долей вероятности, да, смогут, но не в привычном нам сегодня смысле контроля. Если СУБД станет по-настоящему автономной, это ведь означает, что она сама будет заниматься сложными техническими вещами: обновлением, настройкой производительности, резервным копированием, масштабированием, исправлением ошибок. Всем тем, что сейчас требует глубоких знаний IT и специального образования.

Специалисты не из IT, скорее всего, будут следить за такими системами с точки зрения использования данных и, возможно, каких-то высокоуровневых бизнес-правил. Например, они смогут с помощью очень понятных интерфейсов решать, какие данные загружать, как их логически группировать, кто может к ним получать доступ (на бизнес-уровне, а не на уровне файловых разрешений или пользователей ОС), и получать аналитику или строить отчеты. Фактически, «контроль» для таких пользователей сместится от технического управления инфраструктурой к управлению содержимым и использованием информации. Глубокая техническая «начинка» будет скрыта и полностью автоматизирована.

– Появятся ли повсеместно домашние СУБД, например, для ведения семейного бюджета?

– Честно говоря, я думаю, что в том виде, как мы сейчас представляем СУБД (со всеми таблицами, запросами, администрированием), это, скорее всего, не станет массовым явлением. Объясню почему. Задачи вроде семейного бюджета уже решаются очень хорошо и намного проще с помощью других инструментов. Есть удобные приложения для смартфонов и компьютеров, облачные сервисы, наконец, старые добрые электронные таблицы типа Excel. Они предоставляют интерфейс, который интуитивно понятен обывателю и не требует понимания, что такое база данных, первичный ключ, внешняя ссылка или SQL-запрос.

Все-таки СУБД – это довольно мощный и зачастую сложный инструмент. Он разработан для управления большими объемами структурированных данных, для обеспечения целостности при одновременном доступе множества пользователей, для выполнения сложных запросов. Для семейного бюджета это просто избыточно. Это как пытаться вбить маленький гвоздь в стену отбойным молотком – можно, но зачем.

Однако, я вполне допускаю, что технологии, которые лежат в основе СУБД, будут использоваться в тех самых массовых «домашних» сервисах для учета. Просто сам пользователь этого не будет видеть. У него будет красивое, простое приложение, которое умеет быстро находить нужную информацию, строить графики, предсказывать расходы – и все это благодаря тому, что «под капотом» у него грамотно спроектированное хранилище данных (возможно, даже небольшая встроенная СУБД), с которым взаимодействует умный интерфейс, возможно, с элементами ИИ для анализа.

Так что вы, скорее всего, не увидите рекламу «Поставьте СУБД на домашний сервер для учета квитанций!», но технологии управления данными станут еще более умными и удобными, оставаясь невидимыми для конечного пользователя.

Таким образом, будут популярны приложения, использующие СУБД-подобные возможности, а не сама СУБД как отдельный, видимый инструмент.

– Есть ли риски ИБ и каковы они в случае передоверия чувствительных баз данных ИИ?

– Ну да, риски есть, это как раз тот случай, когда «ой, а мы точно не Скайнет тут строим?». Серьезно говоря, отдавать слишком много ИИ — это как передать ключи от банковского хранилища очень умной, но иногда непредсказуемой машине, которая училась на всех ваших предыдущих решениях. Главная штука в том, что ИИ может запросто выучить какие-то некорректные вещи из старых данных и начать делать дурацкие или опасные ошибки. А еще мошенники могут обмануть его с помощью хитрых схем, как показывают исследования. И вишенка на торте — если что-то пошло не так, разобраться почему ИИ принял такое решение бывает почти нереально, будто заглядываешь в тот самый «черный ящик».

Потеряешь контроль, а потом стой и чеши затылок, пытаясь понять, почему внезапно половина пользователей потеряла доступ или данные куда-то «уплыли». Так что пока, кажется, надежнее, чтобы за финальный рубильник все-таки отвечали люди.

– Рекомендательные системы с применением инструментов Data Science уже вполне самостоятельны.

– В таких сервисах ИИ действительно находит сложные взаимосвязи, которые человеку заметить трудно. Так что, если вы видите подборку фильмов «для вас» или раздел «вам может понравиться», это прямое применение ИИ, натренированного на больших объемах данных при помощи инструментов Data Science. Цель – угадать ваш вкус и предложить что-то релевантное.

В рекомендательных системах ИИ – это по сути «мозг», а Data Science – это его «корм и тренер». Data Science собирает и подготавливает огромное количество данных о том, что предпочитают разные люди, и что из себя представляет сам контент/товары. А ИИ, используя алгоритмы машинного обучения (тренированные благодаря Data Science), на основе этих данных учится предсказывать, что придется по душе именно вам в данный момент.