Вычислим, что у тебя на уме
О том, как поведение в онлайн-среде связано с уровнем знаний и как математика помогает разрабатывать грамотные тесты.
А вы знаете, что такое психометрика? Дмитрий Аббакумов, эксперт-психометрик, рассказывает, как и зачем измеряют уровень знаний.
Мир всё дальше и дальше идёт в сторону цифровизации и автоматизации. Это характерно и для сферы онлайн-обучения, в том числе — оценивания успеваемости студента. В ближайшем будущем мы сможем оценивать студента не только по тестам, но и по совокупности поведения в онлайн-среде: как он смотрел лекции, пересматривал ли их, сколько попыток затратил на выполнение заданий, как общался на форуме — это всё нам говорит об учащемся гораздо больше, чем тест, состоящий из 15 заданий.
Как мне кажется, это весьма гуманистический подход к обучению: по той информации, что есть у нас, мы и оцениваем, и пытаемся помочь. Так, если мы видим, что студент совершил ошибки здесь и здесь, то высока вероятность, что и следующее задание он тоже завалит. Соответственно, мы сможем обеспечить его персональными подсказками.
В новой реальности очень остро встают вопросы доверия к онлайн-образованию, контроля и повышения его качества. И в решении этих задач нам на помощь приходит психометрика — научное направление, которое фокусируется на высокоточных измерениях, анализе данных и математическом моделировании педагогических и психологических процессов онлайн-обучения. Среди задач аналитиков-психометриков — оценка качества тестов, трудности и интересности контента, трекинг подготовленности студентов и многое-многое другое.
Можно ли измерить знание?
Психометрика, по сути, состоит из двух блоков: прежде всего, из разработки самих заданий и определения того, как правильно задавать вопросы, чтобы они измеряли разные аспекты знаний — запоминание, понимание, применение.
Другой аспект психометрики — это математический аппарат. Мы не можем вскрыть человеку черепную коробку и посмотреть, сколько знаний у него хранится в голове, потому что знания, к какой бы области они ни относились, — это латентная характеристика, скрытая от наблюдений. Поэтому мы создаём задачи, которые и являются индикаторами этого знания: его уровень демонстрируется посредством того, как человек справился с заданием — как минимум, верно или неверно.
Все ли тесты испытывают влияние психометрики? Хотелось бы, чтобы так оно и было. Однако если мы говорим о тестах в глянцевых журналах, едва ли можно вести речь о валидности измерения.
Чуть-чуть истории и немного магии
Психометрика родилась более века назад, в физической лаборатории Кавендиша в Кембриджском университете Великобритании. Конечно, появилась не по воле случая: к тому моменту учёные уже задумывались над тем, как математический аппарат может помочь в измерении чего-то «бесплотного» вроде знания.
Первые психометрические измерения были довольно примитивными: допустим, студент решил 20 заданий из 22, следовательно, делали вывод, что его знания находятся на хорошем уровне. А другой решил 15 заданий — соответственно, знаний у него меньше. Однако что, если второй учащийся справился с меньшим количеством заданий, но зато они были более сложными? Стало очевидно, что подобная система измерений неточна. Потому-то ближе к 50-м годам XX века психометрику настиг первый кризис: можно ли измерить уровень знания так, чтобы он не зависел от сложности теста?
И вот этот экзистенциальный для психометрики вопрос привёл к почти магической истории: в одно и то же время, в двух разных странах, появляются две одинаковые психометрические модели. Датчанин Г. Раш и американец Ф. Лорд предложили рассматривать вероятность ответа на задание как разность двух параметров — уровня трудности задания и уровня подготовленности студента, что позволяло оценивать уровень знания независимо от сложности теста.
Несмотря на такую оптимальную модель, всё же нельзя поспорить с тем, что лучше всего оценивает знания эксперт, сидящий напротив, который видит студента, понимает, что тот волнуется, пытается его подбодрить, а иногда, напротив, «встряхнуть». Стандартом здесь можно считать то, как сдаётся говорение на IELTS: преподаватель подстраивается под уровень каждого экзаменуемого. Если вы условно пока можете только в «my name is…», экзаменатор не будет вас мучить экономическими терминами.
Кажется, экспертная модель идеальна — но и тут не обойтись без подводных камней: мы не можем обеспечить каждого студента оценщиком с одинаковым уровнем объективности. Есть, например, такое явление, как гало-эффект: скажем, я преподаю в вузе, и ко мне приходит сдавать экзамен девочка Маша. На вопросы отвечает плохо, но я помню, что она ходила на все занятия и выполняла домашнюю работу, и я ставлю ей «5». А другая девочка, Лена, училась неважно, занятия прогуливала, но экзамен сдаёт блестяще — а я, помня, с какой периодичностью она посещала мой предмет, ставлю «3».
В тестировании же мы отказываемся от экспертного оценивания в пользу равного отношения ко всем. Да, у нас есть та самая бездушная машина, но зато она бездушна ко всем. Если же мою работу проверяют эксперты, то моя оценка — это вероятность не только моего уровня знаний и сложности заданий, но ещё и строгости эксперта, который меня проверяет. Мы проводили исследование, которое показало, что за одну и ту же работу, выполненную студентами с одинаковым уровнем подготовленности, оценки экспертов варьировались от «удовлетворительно» до «отлично».
Потому-то задача современной психометрики — приблизиться к экспертной, но объективной модели оценивания. 100 лет назад мы отказались от экспертности в пользу бланковых тестов — теперь же, при помощи математики, статистики, машинного обучения пытаемся к ней вернуться.
Как это работает?
Чтобы оценить уровень знаний онлайн-студента, целый отдел специалистов учит преподавателей создавать задания правильно. Затем, когда задания созданы, мы начинаем отбраковывать негодные. Например, такие, в которых нет единственно верного ответа. Важна не только сама суть задачи, но и её формальное воплощение. «Как вы думаете, сколько будет дважды два?» — такой вопрос не верен, потому что в нём мы априори исключаем единственно верный ответ. Учащийся может ответить: «я думаю, пять», и засчитать это «я думаю» как неправильное мы, по логике, не можем.
После того, как отобранные задания загружаются на платформу и ещё раз калибруются, происходит анализ полученных от платформы данных: сколько попыток совершил студент, какова была их результативность, сколько времени прошло между двумя попытками, пользовался ли он в этот период какими-либо дополнительными материалами (например, пересматривал ли лекции).
Анализируя эти поведенческие особенности, мы делаем выводы не только об уровне знаний учащихся, но и о том, от каких заданий в дальнейшем нам следует отказаться.
В топе таких проблемных задач — задания с несколькими вариантами ответа и задания с открытым ответом. Первый тип плох тем, что, если мы не напишем в комментарии, что необходимо выбрать несколько пунктов, студент с большей долей вероятности ошибётся, остановившись на одном ответе. Второй тип сложен потому, что при записи ответа словом всегда есть риск ошибиться орфографически, особенно в падежной форме.
Иногда ошибки обеспечены тем, что преподаватели не совсем понятно объясняют некоторые темы: это можно заметить по тому, как студенты начинают гадать при выборе ответа. Если гадает несколько студентов, это ещё можно списать на случайность, но если гадает весь поток, очевидно, что проблема в задаче. Тогда мы идём к преподавателю и начинаем вместе разбираться, почему задание некорректно.
А что у нас?
К сожалению, российской школы психометрики пока не существует. Точнее, так: она была в Советском Союзе — носила название педология, и при этом развивалась крайне активно. Но только до того момента, пока в 1936 году её не запретили наряду с генетикой и кибернетикой, выпустив постановление «О педологических извращениях в системе Наркомпросов». Лишь в 70-х годах появились робкие попытки возродить некогда запрещённые идеи, но ведь за это время флагманы психометрики — Нидерланды, Бельгия, США, Великобритания, — усердно работая, добились огромных результатов.
Поэтому к началу нашего века мы пришли с тем, что, в то время как в мире существует множество магистерских программ, и тесты разрабатываются правильно, у нас вот уже который год сдаётся ЕГЭ, а психометрики при этом нет: первая российская магистерская программа по этой дисциплине появилась только 12 лет назад...
Мировая психометрика сегодня — это часть вычислительной науки о поведении (computational behavioral science). Современные психометрические решения находятся на пересечении науки о данных, машинного обучения и теоретической психометрики и фокусируются на моделировании и объяснении поведения человека в реальном времени на основе многообразия его цифровых следов. Мы в ВШЭ стараемся не отставать и разрабатываем свои решения. Одно из таких решений, модель для углубленного анализа попыток студентов, я представил на ежегодной конференции The International Meeting of the Psychometric Society, проходившей в Колумбийском университете в Нью-Йорке. Это первый случай за всю историю Психометрического общества, когда на этой конференции свои исследования представлял психометрик из российского университета, и я считаю это хорошим знаком.
Из интервью Дмитрия Аббакумова, руководителя Центра психометрических исследований в онлайн-образовании ВШЭ.