понедельник, 20 июня 2022 г.

Наборы данных как первоисточники, часть 2

(Окончание, начало см. http://rusrim.blogspot.com/2022/03/1_0624137743.html )

Данная, вторая в серии заметка Питера ДеКрейна (Peter DeCraene – на фото) была опубликована 17 мая 2022 года в блоге «Сигнал» (The Signal) на сайте Библиотеки Конгресса США.

В первой части данного поста (см. http://rusrim.blogspot.com/2022/03/1_0624137743.html ) речь шла о транскрибировании документов Розы Паркс. В состав онлайн-коллекции «Избранные наборы данных» Библиотеки Конгресса США (см. https://www.loc.gov/collections/selected-datasets/?loclr=blogsig ) также входят дневник солдата армии северян Сэмюэля Гибсона (Samuel J. Gibson, см. https://www.loc.gov/item/2019667238/?loclr=blogsig ), содержавшегося в лагере для военнопленных Конфедерации; и документы Сьюзан Энтони (Susan B. Anthony, см.  https://www.loc.gov/item/2020445591/?loclr=blogsigодна из ключевых фигур в американском движении за права женщин, о ней см. пост в Википедии здесь:  https://en.wikipedia.org/wiki/Susan_B._AnthonyН.А.).  Каждый из этих наборов данных содержит информацию об исторических личностях и об их взглядах на окружающий мир того времени.

Коллекция также включает сведения по таким различным темам, как отчеты Геологической службы США (U.S. Geological Survey) об использовании водных ресурсов (см. https://www.loc.gov/item/2001387303/?loclr=ealtr ) и база данных «Великие комиксы» (Grand Comics, https://www.loc.gov/item/2018487926/?loclr=blogsig ).


Файлы в составе коллекции «Избранные наборы данных» сильно различаются и требуют разных подходов при использовании для преподавания и обучения. Коме того, коллекция постоянно пополняется. Одним из хорошо документированных и легкодоступных наборов данных является «Фотографии субсидируемых домохозяйств: 2008» (Dataset from a picture of subsidized households: 2008, см. https://www.loc.gov/item/2020446875/?loclr=blogsig ). Студентам со специализацией по компьютерным наукам, заинтересованным в изучении того, как получать доступ, проводить очистку и анализ сложных данных, этот набор данных предоставляет обширную информацию о состоянии государственного жилья в США в начале 21 века. Он также включает подробный документ, описывающий информацию в файлах данных. «Раскапывание» этих данных могло бы стать отличным междисциплинарным проектом, в рамках которого студенты-социологи изучали бы историю и текущее состояние государственного жилья.

Для преподавателей и студентов, не желающих углубляться в более технические аспекты доступа к материалам коллекции Selected Datasets, просмотр коллекции «Документируя историю Америки» (Chronicling America, https://chroniclingamerica.loc.gov/?loclr=blogsigречь идёт о базе данных «исторических» американских газет за период 1777-1963 годов – Н.Х.) как набора данных с использованием расширенных функций поиска также позволяет собрать  интересные сведения.

Например, учащиеся могут определить количество газет в штате Вирджиния, у которых на первых полосах встречались слова  «свободные» (free) и «независимые» (independent), в годы, предшествовавшие Гражданской войне в США, - и сравнить эти данные с результатами аналогичного поиска по газетам в штатах Калифорния, Алабама или Огайо (иначе говоря, предлагается сравнить лексику газет в северных и южных штатах – Н.Х.).

В каком контексте эти слова используются в каждом из штатов? Выполнение поиска по годам, начиная с начала президентства Джеймса Бьюкенена (James Buchanan) в 1857 году и до окончания войны в 1865 году, также может выявить ряд интересных тенденций.

Также можно провести поиск этих слов, встречающиеся на вторых страницах газет, и обсудить причины, по которым эти слова могут встречаться там чаще или реже.

Подбор параметров поиска, а затем проведение анализа и представление результатов могут быть хорошим вариантом для организации сотрудничества между студентами, специализирующихся на математике и на социологии.
 

Расширенные возможности поиска по базе данных «Документируя историю Америки»

Специалисты по работе с данными постоянно выполняют такого рода частотный анализ данных, собранных из многих источников: например, результатов опросов, сведений об использовании веб-сайтов или об учетных записях в социальных сетях. В дополнение к типичным вопросам, задаваемым в отношении первоисточников (кто создал этот материал, почему он был создан, кто был целевой аудиторией?), в рамках этого тип анализа первоисточников также поднимает и другие вопросы: Чего может не хватать в данных? Как эти данные могли быть использованы, в том числе некорректно? Приведут ли различные представления данных к их разным интерпретациям?

Установление связей между преподаваемыми предметами и обычаями современной культуры делают анализ наборов данных как первоисточников крайне важной и увлекательной частью наших уроков.

Питер ДеКрейн (Peter DeCraene)

Источник: блог «Сигнал» (The Signal) на сайте Библиотеки Конгресса США
https://blogs.loc.gov/thesignal/2022/05/datasets-as-primary-sources-part-ii/

Комментариев нет:

Отправить комментарий