Jan 16: Введение
Data culture
Проект Data Culture направлен на то, чтобы у студентов всех программ бакалавриата Высшей школы экономики появилось понимание возможностей современных технологий в области Data Science.
https://www.hse.ru/dataculture/
Обо мне
продуктовый аналитик в Pixonic
продуктовый аналитик в GameInsight
аналитик в Консультант+
аспирант СПбГУ (когнитивная психология)
Contacts
@konhis в pmsar2020da.slack.com (основное средство коммуникации)
upravitelev@gmail.com (дополнительное средство коммуникации)
+7-965-425-5919 (для экстренных случаев)
Slack invite link
Все взаимодействие по курсу будем вести в Slack, это мессенджер для команд, очень популярен в IT и среди датасатанистов. Если еще не зарегистрировались, ссылка на инвайт (активна до 25 января):
https://join.slack.com/t/pmsar2020da/shared_invite/zt-ktjr274m-fWTfGCrBaNG52o6mNBZTRw
Syllabus
Основы синтаксиса R.
Виды источников данных. Импорт данных из разных типов файлов данныx - SPSS, Excel, *.csv и прочих.
Методы сбора удаленных данных. Скрапинг полуструктурированных сайтов. Изучим XPath и как извлекать данные из html-кода страницы сайтов. Попутно научимся писать циклы и функции.
Удаленные базы данных и API: простейшие API — что такое, зачем, как читать документацию. Работа с API VK или другого сервиса.
Анализ и представление результатов исследования: много времени будем уделять визуализациям, а также будем работать в Rmarkdown
Домашнее задание
Организационное
Проверьте и при необходимости отредактируйте профиль в Slack - необходимо указать имя и фамилию (латиницей, в виде
Name Family name), по возможности - поставьте свою фотографию на аватарку.Если еще не писали в канале #welcome, то напишите пару слов о себе — тему своей магистерской (если уже известна), какой опыт работы с R и вообще языками программирования, какие ожидания от курса.
R
установка R и Rstudio
- установите язык R (https://cran.r-project.org/)
- установите Rstudio (RStudio: https://www.rstudio.com/products/rstudio/download/)
Операторы и создание векторов
Задание необязательное, но настоятельно рекомендую прорешать всем, кто ни разу не сталкивался с R или давно все забыл и не уверен в своих знаниях. Если решение какого-то задания вызвало у вас сомнения, напишите мне об этом в личке в slack.
При работе используйте гайд по стилю оформления кода.
Старайтесь, чтобы код был максимально простым. Если каждое упражнение занимает больше одной-двух строк - скорее всего вы что-то делаете не так.
Создайте объект
xсо значением 5. Создайте объектy, который равен3 * x. Выведите его на печать.Проверьте, что значение выражения
x-yне равно 84.Запишите в объект
alarmрезультат сравнения, больше лиxчемy. Выведите объект на печать.Создайте вектор
vecиз трех элементов со значениями:5,'a',56. Выведите на печать.Симулируйте выпадение какой-либо грани двенадцатигранного кубика (одно значение).
Создайте вектор
vec_diceс результатами десяти бросков восьмигранного кубика (d8).Найдите длину меньшего катета прямоугольного треугольника с катетом длиной 4 и гипотенузой длиной 8, и округлите длину до третьего знака. Вам потребуются оператор возведения в степень и функции
sqrt()иround(). На всякий случай напомню, квадрат гипотенузы равен сумме квадратов катетов.