| |
Компьютерный датамайнинг - любителям головоломок и археологии и просто любопытствующим посвящается...
Поиск скрытых, неочевидных закономерностей,
так соблазняющих разум человека. Что может быть приятнее
добраться до сути вещей, удовлетворив свое эго? Раз захватившая
волна никак не отпустит мозг до завершения процесса. Постоянно
сосредоточен, видящий то, что не видят другие, почти как
Бетмен, выглядит человек, избравший свой путь в датамайнинг.
Все серьезно. Датамайнинг – это целая наука с учебниками
и с взращиванием специалистов. Наука о том, как достать
необходимую информацию из неповоротливых масс данных.
Это высокотехнологичная индустрия. Работа с большими массивами
информации – вот прерогатива человека, или команды людей,
чьей специализацией является датамайнинг.
Прошло и то время, когда занятие таким
родом деятельности было овеяно тайной и всяческие «шпионские
штучки» отошли на второй план. С появлением доступных
компьютерных технологий датамайнинг приобрел автоматизированный
поиск в больших массивах данных. Но в любом случае датамайнинг
ничто без аналитика, человека, способного головой структурировать
и находить ответы на предложенные инструментами датамайнинга
гипотезы о взаимосвязях. Датамайнинг – мощный инструмент
в руках аналитика. Здесь видно четкое перераспределение
ролей: человеку самое вкусное - давать четкий ответ на
поставленный вопрос, машине самое «муторное» занятие –
механическое сканирование текста с сортировкой имен, ключевых
слов и названий.
Датамайнинг, дословно переводимый как
«раскопки данных, или добыча чего-то из данных», в английском
выглядит так: «data mining». Научный прорыв в датамайнинге
начался в 1998 году. В том году была создана SIG (Special
Interest Group) в рамках ACM (Association for Computing
Machinery), Ассоциация по вычислительным машинам. SIG
по сути своей – группа особых интересов, наподобие SIGGRAPH.
Все по накатанной схеме:
Глобальные ежегодные конференции с докладами,
лекциями и демонстрацией лучших достижений в области компьютерной
графики и анимации, идущей рука об руку математики и прочих
известных технологиях и науках. Сейчас известно о тридцати
четырех SIG-ах, включая и искусственный интеллект SIGART,
также базы данных SIGMOD, языки программирования SIGPLAN,
разработки программного обеспечения SIGSOFT и прочих,
не особо знаменитых среди рядовых пользователей, но заслуживающих
признание и уважение среди специалистов. Конференции,
проводимые этими дружественными товарищами, публикации
и журналы, издаваемые ими, вполне заслуживают звание стандартов.
При первом рассмотрении может показаться,
что система датамайнинга устроена на подобие систем поиска
по вебу. Но при ближайшем рассмотрении оказывается, что
это не так. Механизм датамайнинга устроен по – другому,
нежели механизм систем поиска по вебу, таких как Google,
или любой другой. Работает датамайнинг обычно с цифровыми
базами данных, соответственно и запрашивает другие вопросы.
Поисковики решают задачи классификации, кластеризации
и визуализации, в то время как датамайнинг множества интеграций.
Поисковики применяют основное ядро алгоритмов после реализации
различных методов очистки и препроцессинга. Датамайнинг
использует алгоритмы машинного обучения, то есть построение
модели, без которого он просто не в состоянии жить. |
| Компьютерные
новости:
- В школах Ленобласти откроют виртуальные филиалы Русского музея
- 14 апреля откроется РИТ-2008
- 29 апреля пройдет Open Day Christie
- Adobe представила первую версию нового медиаплеера
- Круглый стол CNews: Будущее ERP-систем
- Sony представила новые модели «невидимых» домашних кинотеатров
- LG выпустил 26- и 30-дюймовые мониторы для работы с графикой
- Microsoft открыла техническую документацию по офисным продуктам
- IBM представила мощные серверы Power 595/575
- Iomega куплена за $213 млн
- Toshiba приступила к поставкам нового видеопроцессора
- Вышла бета-версия Opera Mini 4.1
- Спрос на Blu-ray-диски превысит предложение
- Asustek выпустил мини-ПК с размерами 29 x 20 x 8 см
Компьютерные
объявления |
|
Элементарная математика
| Григорий Пятецкий - Шапиро
ответил на вопросы журнала «Компьютера». В интервью
были освещены не только новшества индустрии датамайнинга,
дана их оценка и приведены основные инструменты деятельности,
но и рассказана история великого человека нашего времени
в области датамайнинга и внедрения идей искусственного
интеллекта в базы данных. |
|
Согласно
прогнозам агентства IDC, мировые объемы цифровой информации
возрастут к 2010 году в шесть раз и составит тысячу
экзабайт, где 1 экзабайт равен 260 байт, или миллиарду
гигабайт. |
В свое время именно Григорием Пятецким
- Шапиро была создана группа особых интересов SIGKDD,
деятельность которой направлена на «открытие знаний в
данных» (Knowledge Discovery in Data). На вопрос о перспективности
для бизнеса и исследовательской работы новых разделов
датамайнинга за последние годы, Григорий Пятницкий - Шапиро
дал четкую характеристику новинкам.
Он отметил, что одно из наиболее заслуживающих
внимание новых полей исследования - link analysis, анализ
связей. При этом обратил внимание на то, что приложения
отличаются своей обширностью, захватывая как границы биоинформатики,
так и возможность выявления преступлений. Web 2.0 сейчас
весьма популярный инструмент, так как он используется
при создании социальных связей.

В процессе беседы было отмечено, что
прорыв за последние годы совершен в текст – майнинге и
мультимедиа – майнинге, они предоставляют большое поле
для изучений и исследований. Сейчас все в большее количество
suites (программных комплексов) для датамайнинга компоненты
для майнинга текста.
К перечисленным областям датамайнинга Григорием Пятецким
– Шапиро были отнесены такие, как:
- CRM (связь с клиентами),
- fraud detection (выявление мошенничества),
- маркетинг,
- реклама,
- телекоммуникации,
- здравоохранение,
- биоинформатика,
- развлечения,
- спорт,
- инвестиции и ценные бумаги,
- управление производством и е-коммерция,
- так же изучение web.
Из перечисленного видно, что датамайнинг
имеет широкое применение в крупных компаниях, в компаниях,
работающих в е-коммерции, например, Amazon, Yahoo. А первым
человеком, получившим должность начальника по датамайнингу,
стал Усама Файяд в Yahoo, коллега Григория Пятецкиого
– Шапиро.
К разговору об удачах в датамайнинге,
основатель и председатель SIGKDD поставил в пример Google.
Выяснилось, что отцы – основатели Google еще в Стенфордском
университете проводили исследования в области датамайнинга
и в начале пути Google был связан именно с датамайнингом.
Сейчас известно, что Google ведут разработки в области
искусственного интеллекта. Мощность вычисления и сосредоточение
там большого накопления знаний может послужить толчком
в направлении искусственного интеллекта.
Отмечены были и успехи Amazon.com и успехи
Netflix, занимающейся прокатом видео. И в первом и во
втором случае, рекомендации по типу "клиенты, приобретавшие/
ознакомившиеся с X, приобрели так же и Z" дали невероятный
рост продаж. Например, если вы оценили новый фильм Вудди
Алена «Мечта Кассандры» («Cassandra”s Dream»), то от Netflix
получите предложение приобрести или взять в прокат "Shallow
Grave" («Неглубокая могила»), дебютный фильм Дэнни
Бойла, криминальный триллер с элементами очень черного
юмора. Netflix отличается своей готовностью улучшать алгоритм
выработки информации, они даже учредили приз в 1 000 000
долларов в поддержку этого проекта.
Дело жизни
Родился и вырос Григорий Пятецкий – Шапиро
в семье известного математика Советского Союза Ильи Пятецкого-Шапиро,
от него - то он и унаследовал страсть к математике. Жила
семья Пятнецких – Шапиро в Москве и Григорий обучался
в престижной Второй математической школе. Став постоянным
посетителем школьных математических олимпиад, вскоре Григорий
Пятецкий – Шапиро осознает то, что математика в чистом
виде не для него. В семидесятых годах семья эмигрирует
в Израиль и там, учась на 1 курсе Техниона, Григорий Пятецкий
– Шапиро открывает для себя компьютерный мир, который
становится страстью всей его жизни. Особенно его притягивает
сфера создания искусственного интеллекта. Сразу после
открытия для себя новых возможностей, в 1974 году Григорий
Пятецкий – Шапиро пишет первую по настоящему интересную
программу на языке АПЛ. Программа эта предназначалась
для игры в морской бой и в первой же партии, Пятецкий
– Шапиро безоговорочно уступает своей программе. Поражение
убило желание продолжать игру, но родило желание всецело
посветить себя написанию программ. Григорий Пятецккий
– Шапиро продолжает свое образование в Соединенных Штатах
Америки, поступив в аспирантуру, где концентрирует все
свои усилия на задачах искусственного интеллекта. По окончании
аспирантуры он защищает диссертацию на тему «Приложение
искусственного интеллекта к работе с базами данных».
После этого Григорий Пятецккий – Шапиро
работает над крупными коммерческими базами данных в Лабораториях
GTE, организацию, подобную Bell Labs. Там он находит взаимосвязь
между запросами. И понимает, что в случае существования
неких правил, появится возможность намного ускорить ряд
определенных запросов к этим базам. Вот тут - то Григорий
Пятецкий – Шапиро заинтересовывается датамайнингом. Прежде
всего, его интересует возможность автоматизированного
поиска таких правил. И начинает работу по внедрению идеи
ИИ (искусственного интеллекта) применительно к большим
базам информации. В 1988 году, после участия в рамках
конференции AAAI ’88 на встрече workshop, Григорий Пятецкий
– Шапиро понимает, что его мероприятию необходима выбрать
более четкий фокус. И уже в 1989 году он берется за сверхсложный
проект организации workshop. При этом, считая, что термин
«датамайнинг» звучит, не особо вкусно, он предлагает свою
формулировку темы: «Knowledge Discovery in Databases,
KDD», «открытие знаний в базах данных». В название темы
для workshop была видна основная цель этого предприятия
– знание и первопроходность в этой области. Одновременно
Григорий Пятецкий – Шапиро запускает новый проект под
GTE Labs. Первый в мире проект по KDD.
Первый workshop Пятецкого – Шапиро имеет
оглушительный успех. Он и по сей день занимается организацией
таких проектов. С 1993 года Григорий Пятецкий – Шапиро
начинает устанавливать связи и поддерживать контакты в
помощь своим коллегам – исследователям, занятым этой же
проблематикой. Это поддерживается по средствам рассылки
"Knowledge Discovery Nuggets" и первыми в список
попадают все участники KDD-93 (50 человек).
1994 год тоже явил весьма знаменательное
событие для индустрии датамайнинга. В том году Пятецкий
– Шапиро создает первый сайт, посвященный проблемам датамайнинга.
Из этого сайта вырос сайт - гигант KDnuggets.com. Сайт
– гигант, потому что он на самом деле занимает лидирующие
позиции в области датамайнинга, но на деле – это предприятие
состоит из одного человека, который ведет все дела при
помощи множества скриптов, который выполняют автоматически
большинство необходимых действий. Этот человек, как можно
догадаться, и есть сам Григорий Пятецкий – Шапиро. Все
проекты, на которые Григорий Пятецкий – Шапиро получает
заказы, в основном это интересные консалтинговые проекты,
обычно выполняет самостоятельно. При этом считает, что
самое важно в деле датамайнинга – это интуиция и без нее
никуда. Именно она подскажет правильное направление поиска,
как найти интересные объекты в массиве данных и как используя
известные инструменты найти именно то, в чем заинтересован
заказчик.
Молодой пытливый ум и полный экспрессии
гениальный человек и представить себе не мог, как окажется
сложна работа по организации воркшопов. Поэтому, в 1994
году он подключает себе в помощники Усаму Файяда, который
становится председателем оргкомитета KDD-94. KDD, благодаря
общим усилиям Усамы Файяды (Usama Fayyad), Григория Пятецкого–
Шапиро и еще нескольких товарищей приобретает статус полномасштабной
конференции. В 1998 году они находят поддержку в лице
Вон Кима (Won Kim) и организуют исследовательское общество
по открытию знаний и датамайнингу – SIGKDD. Следующий,
1989 год для KDD славен тем, что тогда единственный в
мире workshop прошел в рамках конференции. На данный момент
в рамках этой тематики организовывается и проходит множество
встреч и конференций. А в 2007 году была проведена уже
тринадцатая конференция KDD в штате Калифорния в Сан –
Хосе.
Ложка дегтя или лакомый кусок?
Григорий Пятецкий – Шапиро поведал, что
в целом, самые успешные проекты датамайнинга нацелены
на выявление мошенничества и обмана. К примеру, выявление
потенциальных «налоговых убежищ» для обеспеченных американцев
объемами в многие миллиарды долларов. Таких вопросов коснулись
и некоторые датамайнинговые проекты самого Григория Пятецкого
– Шапиро. Освещать подробности подобных проектов он вежливо
отказался, это и понятно, слишком уж деликатна данная
тема для детального рассказа.
Не так давно состоялся очередной workshop,
который решили посветить «историям успеха» технологий
датамайнинга. Самые лучшие статьи по этой тематике были
представлены публике на обозрение. Несомненно, лучшей
была признана статья Bharat Rao (Бхарата Рао), представителя
Siemens. В ней он осветил весьма интересную и необычную
систему автоматического повышения качества ухода и лечения
кардиологических больных. Происходит это благодаря извлечению
важной медицинской информации из неточностей и невнятностей
записанного в историях болезней пациентов. Если учесть
то, что расшифровка диктофонных записей, начитанных врачами
истории болезней уже нашло широкое применение, то, можно
предположить, что система Бхарата Рао сможет исправить
не только ошибки медиков, но и самих устройств, на которые
записывалась диктовка.
Знакомьтесь, будущие гениальные
открытия!
KDD-2006 была ознаменована несколькими, претендующими
на конгениальность решений задач в области датамайнинга.
Предложения выдвинули некоторые серьезные исследователи
в области извлечения знаний из баз данных.
Шабану Джерабе (Chabane Djeraba) предложил
провести краткое описание происходящего тысячи часов цифрового
видео за один час. Чтобы осуществить это мероприятие,
в данный момент требуется занять тысячу рабочих часов
при ручной обработке. К примеру, сегодня без выполненной
аннотации в ручную, невозможно отделить в записи футбольного
матча эпизоды нападения и защиты команд. Одна фотография
для Национального зоопарка требует от составителя аннотации
двадцати минут времени.
Лиз Гетур (Lise Getoor) предлагает провести
Википедия-тест. Провести тест по библиотеке статей, созданной
по принципу наполнения Википедии, то есть работающей по
системе партисипативной журналистики. Либо провести такой
тест по средствам использования автоматических инструментов
поиска линков по заданной тематике. Сравнить эти методы
и выяснить, какой из них использовался. Составлен ли сборник
людьми или машиной. Определить при использовании какого
метода качество наиболее высокое. Лиз Гетур находит взаимосвязь
этой задачи с другими заявленными решениями в области
сжатия информации: не потерять ни одного бита Википедии
при ее сжатии со ста мегабайт до восемнадцати. За решение
этой задачи уже выставлен приз Хаттера в пятьдесят тысяч
долларов.
Роберт Гроссман (Robert Grossman) предлагает
оценить миллиард прогнозирующих моделей. За время многолетнего
применения датамайнинга простроено многочисленное количество
моделей статистики для разных типов и частных ансамблей
данных. Часто для одних и тех же массивов данных строится
несколько разных моделей, чтобы ухватить их характеристики
разных видов. В качестве примера: есть информация от 1000
датчиков движения транспорта в Торонто. Задача: автоматически
определить ситуацию, когда в транспортном потоке возникают
аномалии и происходит что – то необычное, при этом исключается
отслеживание пробок. Данные проходят определенную сегментацию,
что приводит к неимоверному числу автоматически генерируемых
статистических моделей. Цель: сократить число автоматически
генерируемых статистических моделей, свести их к минимуму.
Такие ситуации появляются повсеместно, не только с автоматическим
определением ситуаций на дорогах, но и е-маркетинге (автоматически
генерируемые статистические модели поведения каждого клиента)
и в перспективных подходах к оценке эффективности лекарств
на основе индивидуального генотипа, да мало ли где еще.
Миллиард наберется с легкостью. Основная цель – кардинально
изменить числовой показатель в меньшую сторону.
Ронен Фелдман (Ronen Feldman) выступил
с предложением по разработке систем анализа текстов (text
mining), способных сдать обычные экзамены на понимание
текста SAT, GRE, GMAT, причем обучаться системы будут,
исследуя веб. Григорий Пятецкий - Шапиро отметил, что
эта задача Ронена Фелдмана даст фору на сто очков вперед
стандартному тесту Тьюринга (определить, машина или человек
отвечает на ваши вопросы), хотя и там смотрели на тест
с высокой степенью оптимизма. Следует помнить, что решение
такой задачи, это только некая конечная цель. В достижении
которой сгодится и более скромный результат: довести точность
реализации реляционных запросов с существующих 70-80%
до 98-100%. В общем то такая задача вполне решаема, отмечает
Григорий Пятецкий - Шапиро и, в случае ее решения она
способно полностью изменить существующую практику вступительных
экзаменов.
Функциональная аннотация белков – еще
одно важное предложение, поднятое в рамках KDD-2006. Сложно
сформулировать основные задачи этого мероприятия. Ясно
только одно - это датамайнинг в геномике и протеомике.
Наиболее важно здесь понимание предметной области, но,
без инновационных алгоритмов прогресс датамайнинга в этой
сфере просто невозможен. Не так давно, кстати, назначили
приз X PRIZE за снижение стоимости сканирования генома
до 10 тысяч долларов при повышении производительности
до ста геномов за десять дней.
Что же касается прошедшей в прошлом,
2007 году конференции KDD-2007. То в рамках этой конференции
был проведен конкурс. Участникам предоставлялся тренировочный
массив данных Netflix с более 100 млн. рейтингов (по пятибалльной
шкале) по 18 тысячам фильмов от 480 тысяч случайно выбранных
анонимных пользователей Netflix (то есть людей, бравших
у Netflix DVD напрокат), с 1998 по 2005 год. Ставилось
две задачи. Одна из них – указать вероятность рейтингования
фильмов в 2006 году, то есть в году, по которому нет данных.
Инструмент: список из 100 тысяч пар слов вида «номер пользователя
– номер фильма». Вероятность составлялась для каждой такой
пары.
Денежный приз за конкурс предусмотрен
не был, так как это не основной конкурс Netflix. В основном
конкурсе с призом миллион долларов предлагается превзойти
точность действующей сейчас на фирме системы рекомендаций,
Cinematch™ на какие – то 10% (на исторических данных).
Ежегодный конкурс в пятьдесят тысяч долларов проводится
на самое большое уточнение прогноза.
служба
Компьютерная помощь- настройка и ремонт компьютеров, компьютерный
сервис в городе Кириши |