Jan 16: Введение

Запись занятия

Запись занятия 16 января:

Все записи организованы в плейлист

Data culture

Проект Data Culture направлен на то, чтобы у студентов всех программ бакалавриата Высшей школы экономики появилось понимание возможностей современных технологий в области Data Science.

https://www.hse.ru/dataculture/


Обо мне

  • продуктовый аналитик в Pixonic

  • продуктовый аналитик в GameInsight

  • аналитик в Консультант+

  • аспирант СПбГУ (когнитивная психология)


Contacts

  • @konhis в pmsar2020da.slack.com (основное средство коммуникации)

  • (дополнительное средство коммуникации)

  • +7-965-425-5919 (для экстренных случаев)


Syllabus

Основы синтаксиса R.

Виды источников данных. Импорт данных из разных типов файлов данныx - SPSS, Excel, *.csv и прочих.

Методы сбора удаленных данных. Скрапинг полуструктурированных сайтов. Изучим XPath и как извлекать данные из html-кода страницы сайтов. Попутно научимся писать циклы и функции.

Удаленные базы данных и API: простейшие API — что такое, зачем, как читать документацию. Работа с API VK или другого сервиса.

Анализ и представление результатов исследования: много времени будем уделять визуализациям, а также будем работать в Rmarkdown


Домашнее задание

Организационное

  • Проверьте и при необходимости отредактируйте профиль в Slack - необходимо указать имя и фамилию (латиницей, в виде Name Family name), по возможности - поставьте свою фотографию на аватарку.

  • Если еще не писали в канале #welcome, то напишите пару слов о себе — тему своей магистерской (если уже известна), какой опыт работы с R и вообще языками программирования, какие ожидания от курса.


R

установка R и Rstudio


Операторы и создание векторов

Задание необязательное, но настоятельно рекомендую прорешать всем, кто ни разу не сталкивался с R или давно все забыл и не уверен в своих знаниях. Если решение какого-то задания вызвало у вас сомнения, напишите мне об этом в личке в slack.

При работе используйте гайд по стилю оформления кода.

Старайтесь, чтобы код был максимально простым. Если каждое упражнение занимает больше одной-двух строк - скорее всего вы что-то делаете не так.

  • Создайте объект x со значением 5. Создайте объект y, который равен 3 * x. Выведите его на печать.

  • Проверьте, что значение выражения x - y не равно 84.

  • Запишите в объект alarm результат сравнения, больше ли x чем y. Выведите объект на печать.

  • Создайте вектор vec из трех элементов со значениями: 5, 'a', 56. Выведите на печать.

  • Симулируйте выпадение какой-либо грани двенадцатигранного кубика (одно значение).

  • Создайте вектор vec_dice с результатами десяти бросков восьмигранного кубика (d8).

  • Найдите длину меньшего катета прямоугольного треугольника с катетом длиной 4 и гипотенузой длиной 8, и округлите длину до третьего знака. Вам потребуются оператор возведения в степень и функции sqrt() и round(). На всякий случай напомню, квадрат гипотенузы равен сумме квадратов катетов.