Enron Corpus - Enron Corpus

Enron Корпус представляет собой базу данных из более чем 600 000 писем , полученных от 158 сотрудников Enron Corporation в годы , предшествовавшие краху компании в декабре 2001 года корпус был создан из почтовых серверов Enron в Федеральной комиссии по регулированию энергетики (FERC) во время его последующее расследование. Копия базы данных электронной почты была впоследствии куплена за 10 000 долларов Эндрю МакКаллумом , ученым-компьютерщиком из Массачусетского университета в Амхерсте . Он предоставил эту копию исследователям, предоставив массу данных, которые использовались для исследований социальных сетей и компьютерной коммуникации .

Создание

В ходе судебного расследования краха Enron процесс обнаружения потребовал сбора и сохранения огромных объемов данных, для чего FERC наняла Aspen Systems (теперь часть Lockheed Martin ). Электронные письма были собраны в штаб-квартире Enron Corporation в Хьюстоне в течение двух недель в мае 2002 года Джо Бартлингом, подрядчиком по поддержке судебных разбирательств и анализу данных для Aspen. Помимо электронных писем сотрудников Enron, все корпоративные системы баз данных Enron, размещенные в базах данных Oracle на серверах Sun Microsystems , были захвачены и сохранены, в том числе его онлайн- платформа для торговли энергией EnronOnline .

После сбора электронные письма Enron обрабатывались и размещались на проприетарных платформах электронного поиска (сначала Concordance, затем iCONECT) для проверки следователями из FERC, Комиссии по торговле товарными фьючерсами и Министерства юстиции . По завершении расследования и после выпуска отчета персонала FERC собранные электронные письма и информация считались общедоступными и использовались для исторических исследований и академических целей. Архив электронной почты стал общедоступным и доступным для поиска через Интернет с помощью iCONECT 24/7, но из-за огромного объема электронной почты, превышающего 160 ГБ, его использование было непрактичным. Копии собранных писем и баз данных были доступны на жестких дисках .

Джитеш Шетти и Джафар Адиби из Университета Южной Калифорнии обработали данные в 2004 году и выпустили версию MySQL . В 2010 году EDRM.net опубликовал исправленную и расширенную версию 2 корпуса, содержащую более 1,7 миллиона сообщений, которая была сделана доступной на Amazon S3 для облегчения доступа исследователей.

Эксплуатация

Корпус ценится как одна из немногих общедоступных массовых коллекций реальных электронных писем, легко доступных для изучения; такие коллекции обычно связаны многочисленными ограничениями конфиденциальности и юридическими ограничениями, которые затрудняют доступ к ним, например соглашениями о неразглашении и очистке данных . Шетти и Адиби, основываясь на своей версии MySQL, опубликовали анализ ссылок, из которых какие учетные записи пользователей отправляли по электронной почте. Лингвистическое сравнение с более поздними корпусами электронной почты показывает изменения в реестре электронной почты на английском языке. Он также используется в качестве тестовых или обучающих данных для исследований в области обработки естественного языка и машинного обучения .

Рекомендации

Внешние ссылки