четверг, 17 марта 2022 г.

Наборы данных как первоисточники: Археологические раскопки в нашем коллективном мозгу, часть 1

Данная заметка Питера ДеКрейна (Peter DeCraene – на фото) была опубликована 8 февраля 2022 года в блоге «Сигнал» (The Signal) на сайте Библиотеки Конгресса США.

Примечание редактора блога Signal Эйлин Манчестер (Eileen J. Manchester): Данный пост первоначально был написан заслуженным педагогом Библиотеки Конгресса США Питером ДеКрейном для блога «Обучение с помощью Библиотеки Конгресса» (Teaching with the Library of Congress), см. https://blogs.loc.gov/teachers/2022/02/datasets-as-primary-sources-an-archaeological-dig-into-our-collective-brains-part-1/?loclr=blogsig . Мы благодарны ему и нашим коллегам из группы «Обучение с помощью первоисточников» (Teaching with Primary Sources) за возможность переопубликовать этот пост и поделиться с читателями блога Signal мыслями и идеями Питера!


Археологические раскопки, 1979 год. Фото Юджина Принса (Eugene Prince).

«Принятие решений на основе данных» - одна из тех популярных фраз, которые часто можно было услышать в последние годы, и она неявно подразумевает веру в то, что данные объективны и способствуют принятию более качественных решений. Однако данные являются первичным источником, который требует тщательного анализа и изучения.

Недавно мы с Эйлин Джейкуэй Манчестер (Eileen Jakeway Manchester) из отдела цифровых инноваций Библиотеки провёли анализ наборов данных в качестве первоисточников (см. https://blogs.loc.gov/thesignal/2021/11/gcd-derivative-dataset/?loclr=blogsig ), и, хотя этот опыт изучения конкретного набора данных был сам по себе интересным, он также вызвал у меня множество других вопросов. Начнём с того, что эти «изначально-цифровые» первоисточники требуют лучшего понимания того, как они создаются, и нового набора инструментов для их глубокого изучения и понимания.

Помимо технических вопросов, связанных с возможностью просмотра набора данных, который может храниться в различных форматах, - мне было интересно, что мы можем сделать, получив к нему доступ. Итак, я начал с хорошо знакомого «Инструмента анализа первичных источников» Библиотеки (Primary Source Analysis Tool, https://www.loc.gov/programs/teachers/getting-started-with-primary-sources/guides/?loclr=blogsig ). Поставленные в данном инструменте вопросы побуждают учащихся делать наблюдения, размышлять над тем, что они наблюдают, и формулировать вопросы в отношении первоисточника. Точно так же при работе с набором данных мы можем потратить некоторое время на то, чтобы посмотреть, что именно содержится в наборе данных, поразмышлять о его назначении и важности, а также задаться вопросом, какую информацию из него можно извлечь. Мы с Эйлин сформулировали несколько дополнительных вопросов, относящихся к тому, как просматривать данные, чтобы стимулировать обсуждение среди студентов при изучении следующих вещей:

  • Имеется ли для набора данных README-файл или страница описания; какую информацию они содержат?

  • Как организована информация в наборе данных?

  • Какие взаимосвязи могут быть между различными частями набора данных?

  • Для чего можно использовать набор данных?

Рассмотрим в качестве примера такой объект, как «Набор данных на основе бумаг Розы Паркс» (Dataset from Rosa Parks Papers, https://www.loc.gov/item/2020445590/?loclr=blogsig ), который является частью онлайн-коллекции «Избранные наборы данных» Библиотеки (  https://www.loc.gov/collections/selected-datasets/?loclr=blogsig ).

Мой комментарий: Роза Луиза Паркс, 1913-2005 - американская общественная деятельница, политическая активистка и одна из основательниц движения за права чернокожих граждан США - см. Википедию, https://ru.wikipedia.org/wiki/Паркс,_Роза

Данный набор данных содержит созданные добровольцами полнотекстовые транскрипции статей Паркс. Этот объект быстро скачивается и состоит из файлов, которые можно открыть и изучить с помощью обычного программного обеспечения (что возможно не для всех избранных наборов данных). Такая простота даёт учащимся возможность сосредоточить внимание на обучении анализу набора данных, не уделяя много сил и времени историческому контексту и знаниям в области математики и информатики.

После загрузки и распаковки данного набора данных Вы получите два файла: README-файл в текстовом формате, а также .csv-файл (содержащий числовые значения, разделённые запятыми), который можно открыть с помощью широкодоступного программного обеспечения для работы с электронными таблицами.

Сначала покажите учащимся представление файла данных в виде электронной таблицы (это похоже на стратегию, предусматривающую демонстрацию фотографии из первоисточника без предоставления какого-либо контекста, с целью поощрить внимательное наблюдение). Поощрите их наблюдать, размышлять и задавать вопросы по электронной таблице. Сами задавайте вопросы, чтобы подтолкнуть, по мере необходимости, разговор в нужном направлении:

  • Что могут означать заголовки столбцов, и какого рода информация содержится в каждом столбце?

  • Допустим, что в нескольких столбцах снова и снова повторяется одна и та же запись. Повторяется ли это значение по всему столбцу? Почему это может произойти?

  • Есть ли впечатление, что какие-либо столбцы связаны друг с другом?

  • На что ссылаются URL-адреса в седьмом столбце?

  • Каково может быть назначение этой электронной таблицы?

Затем попросите учащихся просмотреть README-файл, чтобы получить некоторый контекст для данных. Поощряйте их пересматривать свои наблюдения с учетом получаемой новой информации, а также размышлять о назначении данных. Для чего был создан этот набор данных? Как его можно использовать? Какие вопросы возникают в связи с этим набором данных?

«Бумаги Розы Паркс» ( https://www.loc.gov/collections/rosa-parks-papers/about-this-collection/?loclr=blogsig ) сами по себе дают очень личное представление об этой женщине, считающейся символом борьбы за гражданские праве. Сформированный на основе бумаг набор данных даёт представление об организации и стратегиях деятельности Библиотеки США по транскрибированию, а также содержит собой в одном файле комплект «расшифрованных» документов. Помимо того, сама по себе электронная таблица даёт учащимся возможность изучать и практиковать навыки работы с файлами данного типа, такие, как форматирование, фильтрация, поиск и сортировка. Совместное проведение анализа электронной таблицы и README-файлов научит учащихся применять свои аналитические навыки в отношении нового, расширяющегося набора изначально цифровых первоисточников, которые документируют человеческое мышление.

В следующих постах мы рассмотрим проблемы и возможности, возникающие при рассмотрении наборов данных в качестве первоисточников. Если Вы уже изучали подобные объекты, пожалуйста, расскажите нам о своих наблюдениях, размышлениях и вопросах!

(Окончание следует, см. http://rusrim.blogspot.com/2022/06/2.html )

Питер ДеКрейн (Peter DeCraene)

Источник: блог «Сигнал» (The Signal) на сайте Библиотеки Конгресса США
https://blogs.loc.gov/thesignal/2022/02/datasets-as-primary-sources-an-archaeological-dig-into-our-collective-brains-part-1/ 

Комментариев нет:

Отправить комментарий