У Вастрика вышел очередной программный пост про ещё одно несовершенство современного айти. В частности, мы стали забывать, для чего вообще собрались вокруг технологий, подменяя реальные задачи бесцельной имплементацией в продукты текущих технических новинок. Без оглядки на их применимость и адекватность нашему продукту.
Все побежали и я побежал. У всех автокоррекция — и у нас автокоррекция — теперь все твои технические кавычки исправлены на красивые «ёлочки» — не благодари! И плевать, что это был код, который превратился в тыкву, мы об этом не подумали. Погоди чуток, на следующем спринте ещё машин лёрнинг внедрим — вообще обалдеешь!
Технология должна подбираться под задачу
Понравился пример с Экселем: это вещь, которая умна настолько, насколько умён её пользователь. Ты можешь продолжать его использовать как калькулятор или построить на нём полноценное бухгалтерское приложение или даже ERP. Человек с Экселем в десятки раз эффективнее человека даже с самым мощным калькулятором. В то время как другие приложения — только и задалбывают своими автозаменами, ненужными ассистентами и фичами по бессистемной автоматической автоматизации.
По этому поводу посылаем Вастрику лучи нашей поддержки и одобрения.
Иная парадигма работы с данными как бизнес-идея
Тема невероятно важная и понимание этой парадигмы — делать умнее не машину, а человека — меняет взгляд на многие вещи. Прекрасным примером является компания Palantir, созданная при участии нашего любимого Питера Тиля, на опыте, полученном основателями ещё в PayPal.
Сам он так об этом рассказывал в интерьвью 2014 года:
Многие традиционные платёжные игроки (прежде всего банки), не решались вступать в конкуренцию с PayPal из-за безумного количества мошенничества в индустрии мелких платежей. Мошенники используют для этого невероятно сложные схемы. И бороться с ними считалось безумно дорого.
Для борьбы с ними и вычисления потенциальных нарушителей можно было бы использовать суперкомпьютер, которого у нас не было. У нас были только двадцать сотрудников в отделе расследований и миллиарды транзакций. Пришлось изобретать свой сбособ поиска иголок в стоге сена.
Мы изменили парадигму борьбы и стали использовать гибридную модель: компьютер отмечал подозрительные вещи, а люди получили возможность визуализировать транзакции — и это оказалось очень мощным и эффективным подходом.
В 2004 году я помог основать компанию Palantir Technologies, которая использует ту же методологию в сфере борьбы с терроризмом и национальной безопасности. Компьютеры собирают данные, а решения принимают аналитики.
Вообще я думаю, что подобный гибридный подход ещё мало изучен, потому что мы почему-то считаем компьютеры заменителем человека. На самом деле они прекрасно дополняют друг друга. Возможно, когда-то удастся построить компьютер, который будет превосходить человека во всех отношениях, но пока я оцениваю такую возможность где-то между научной фантастикой и фэнтези.
Если верить слухам, то PayPal вместо изучения отдельных транзакций стал вычислять аномальные связи между ними. И визуализировать в виде графов: аккаунты пересекаются по IP, один аккаунт связан с десятком карт, IP пересекается с другими аккаунтами. Появляется граф — узлы и рёбра. На которых подсвечиваются люди, устройства, транзакции.
В то время, как традиционный банковский комплайенс видел таблицы со строчками транзакций, детективы PayPal смотрели на кластеры и их связи. У них была возможность строить риск-скоринг на основе связности по неочевидным свойствам транзакций, а не только отдельных атрибутов. И что немаловажно, придумывать и проверять новые связи. Ну типа «а давай айпи из одного региона наложим на пользователей с латиноамериканскими фамилиями, и добавим этому скорость обналичивания счёта» — ого, какой у нас интересный кластер образовался!
Собственно это мышление потом и переехало в Palantir Technologies.
Data Fusion — экспериментальная кухня, но с данными
Подобное наложение различных свойств объектов в единое представление называется красивым термином data fusion. Вроде как изначально пришёл из разведки периода холодной войны. Когда у тебя есть куча данных из разных источников — спутниковые снимки, аудио-перехваты, базы паспортов и автомобильных номеров, финансовые транзакции — и каждый из этих источников сам по себе неполный и очень шумный.
При этом это не тупое объединение данных по какому-то ключу. Представь на минутку, сколько о тебе существует данных. Ни один спецслужбист не сможет в этом массиве найти что-то ценное. Даже если у тебя полно ежедневных транзакций с арабами — ну шавуху ты любишь очень сильно или овощи домой у дагестанцев покупаешь.
Тут в игру вступает вероятностное объединение сущностей. Для попадания на радары тебе хорошо бы подписаться на радикальную рассылку, перевести все расчёты в наличные, ну и в телефонной книжке заиметь подозрительных элементов. То есть получить набор из разрозненных фрагментов, которые повторяют какой-то потенциально подозрительный паттерн. По красоте это называется «multi-source intelligence fusion».
Люди, их перелёты и активность во времени
Обрати внимание, что бизнес-мир до сих пор живёт в параллельной реальности — в аккуратных ERP и CRM-системах. Где весь новомодный Business Intelligence (BI) — это красивые таблички и графики на основании исторических данных, которые выгодно подтверждают принятые наёмными менеджерами решения. Palantir заходит с другой стороны: сначала описывает неявные сущности, формулирует новые свойства и связи между ними, а затем собирает данные, чтобы помочь человеку принять решение.
Если говорить о функции, то классический BI — это ретроспектива. Он отвечает на вопросы о прошлом: какие случились продажи, прибыль по сегментам, отчёты о выполнении KPI. И подкрепляет это визуализациями через определённые срезы. Зеркало компании по формальным бухгалтерским признакам.
Data Fusion скорее про предсказания: где потенциальные риски и какие ещё могут быть связи, какие данные можно сопоставить и изолировать, чтобы увидеть неочевидное?
Если упрощать, то BI помогает объяснить совету директоров, почему всё идёт по плану и подтвердить принятые менеджментом решения. А Palantir — почему словам менеджмента не стоит доверять. Чуть разные задачи, капиш?
Заносите философов (онтология)
Примечательная деталь — на посту CEO компании Palantir с момента основания работает Алекс Карп. Чувак вообще никак не связанный с PayPal, венчурным миром и даже каким-то заметным бизнесом. Философ по образованию, который познакомился с Тилем на юридическом факультете Стэнфорда. Не будем тут подкармливать гомосексуальные слухи о природе отношений двух товарищей. Официально логика назначения была прагматичной — Карп умел доходчиво объяснять отнологическую природу и идею их продукта.
Онтология — это раздел философии, изучающий фундаментальные принципы бытия, его сущности, категории, принципы и закономерности. Это такая попытка описания сущего, которое не ограничивалось данными отдельных наук. С появлением информационных технологий превратилась в техническую задачу как попытку описать множества объектов и связей между ними. Ну типа как компьютеру объяснить инстинктивно понятные нам вещи?
Простой пример: как определить в корпоративной безе данных риск? Или какими свойствами должен обладать бенефициар, если он явно не представлен в составе акционеров? На оба термина нужно навесить какие-то метрики из доступных систем и баз данных. Иначе нет никакой возможности явно это описать.
Ещё про онтологию: Язык как инструмент обучения ИИ
Что делает Palantir — даёт оператору инструментарий для определения сущностей. Какими параметрами можно описать «угрозу», какими метриками обладают моделируемые события, какое поведение отличает потенциального террориста, какие события запускают цепочку других событий? То есть оператор прежде, чем начать работу, онтологически описывает какую-то сущность, а машина находит и визуализирует эти сущности и все их связи.
И для того, чтобы продавать подобную парадигму, нужен философ. Причем с публично декларируемыми либеральными идеями.
Чо там под капотом
Данные правят миром. А данных у нас теперь как говна за баней, ура! Давай запилим что-то подобное? Тем более, судя по описанию, это просто прокаченный интерфейс/toolkit для интеграции различных источников.
Palantir сегодня оценивается в $20 млрд не просто так. У них есть некоторые штуки, которые будет непросто повторить.
Во-первых, технологии унификации данных. Оператору не нужно думать о типе вводных, с которыми он работает — это могут быть таблицы, тексты, картинки, видео, геологации — программа с ними работает бесшовно. Ну типа наложить список автомобильных номеров на 20 терабайт видео с камер и сопоставить всё с местоположением этих камер — вот, посчитала и нарисовала всё на карте.
В качестве примера в презентации разработчиков приводится цифра — 500 млн снимков автомобильных номеров обрабатывается за 5 секунд. Говорят, 5 секунд — хороший бенчмарк для загрузки плотной html-странички.
Во-вторых, железо и серверная архитектура. Для понимания, всё это работает на огромном вычислительном кластере, который состоит из шести типов серверов: Dispatch Server — управляющий диспетчеризацией запросов, Revisioning Database — ключевая БД, основанная на Oracle 10g, Lock Server — отвечающий за блокировки в БД (отдельный сервер для этого, охуеть), Search Server — сервера поиска, вроде как модифицированный Apache Lucene, Configuration Server — отвечающие за конфигурацию и работу со всем кластером, Job Server — классические сервера для параллельных задач, используется модифицированная версия алгоритма MapReduce.
Надеюсь, ты знаешь человека, который хотя бы в теории понимает, как это должно работать.
Ну и в-третьих, люди. Первые итерации в PayPal, а затем за коммерческие направления в Palantir отвечал Джо Лонсдейл — человек, который мыслит инфрастурктурными системами и методологиями работы с данными. После Палантира он пойдёт создавать Addepar — платформу для управления триллионными финансами. Ну и первая часть инженеров, по слухам, пришла в компанию из L3 Communications, известной подрядами для военных и разведки. Умеющих работать с разрозненной и неполной информацией. Ну и что немаловажно — под жесточайшими ограничениями работы с засекреченными данными и требованиями безопасности.
Добавь сверху профессионального философа и Питера Тиля, который умеет со всеми договариваться — вот тебе и история успеха.
Если упростить и упаковать вот эту военную методологию под микробизнес — может вполне получиться отстроиться от тупых IB-решений. Подумай.