Записи с темой: игрушки аналитика (4)
Сколь, веревочка, ни вейся - все равно совьешься в кнут.
Начала колупать датасет. Казалось бы, всего четыре колонки. Сколько данных можно наскрести из четырех колонок?
За два часа датасет расширился до 4-х колонок. И это я еще до механической обработки самих записей не дошла, про смысловую вообще молчу.
Кажется, это будет гораздо увлекательней, чем мне казалось.

Пишу вот, например, вот эту хистограмму. И понимаю, что надо разбить часы на времена суток, и посмотреть на графики по ним.



А потом еще ручки чешутся классифицировать самых активных пользователей по предпочитаемому ими времени активности, а также средним и медианным временем записи.

При этом до самого исследования я пока даже близко не дошла. Это этап первичной обработки данных: самый длинный, самый замороченный и... хотела сказать, что самый интересный, но, если так подумать, неинтересных этапов в проектах data analysis нет от слова вообще.





@темы: игрушки аналитика

15:32

Сколь, веревочка, ни вейся - все равно совьешься в кнут.
Фух. Залила в портфолио на ГитХабе последний проект.

И еще в начале недели по заданию ментора сделала подробную табличку всех учебных проектов, с описаниями, ссылками и перечнем технических навыков. Изначально целью таблички было помочь мне выделить ключевые проекты для указания в резюме, но она оказалась очень удобной во всех планах. С ее помощью было легче добивать портфолио, а также у меня есть удобный каталог перед глазами. Страничка на ГитХабе со всем этим бардаком выглядит, мягко говоря, жутко, а тут прочитала и поняла :D

Из запланированного на эту неделю я успеваю в лучшем случае половину, зато в эту половину включены вещи, которые откладывались и/или тянулись неделями. И теперь можно двигаться дальше. Ура мне!

Из грустного: завтра Зло, тоже диагностированное в спектре - деточка своих родителей же - остается дома. Ей очень тяжело дался этот год. В пятницу она железно идет в сад, поскольку родители тоже люди (в пятницу в садах короткий день, всего 4 часа, а у родителей выходной - и это наши законные 4 часа в неделю БЕЗ детей, на которые обычно запланировано куча всего важного и полезного). А там посмотрим. Если так пойдет, как бы не пришлось ее вообще перевести на домашнее обучение в следующем году. С одной стороны, я считаю ДО оптимальным вариантом и верю в то, что для детей лучше всего расти в семье, с другой - мамина психика тоже еще в хозяйстве пригодится. Надеюсь, получится найти оптимальный для всех баланс школа-работа-дом. А то кто-то из нас последними мозгами двинется, возможно, все. Кроме Нимродища. На редкость уравновешенный молодой человек.

@темы: взращиваем Зло, игрушки аналитика

13:36

Сколь, веревочка, ни вейся - все равно совьешься в кнут.
И вдогонку к предыдущей записи:

Список покемонов (1055 записей) - отлично для дэшборда.
Список аниме (3005 записей) - аналогично.
Ииии надо все-таки поискать сет для бизнес-анализа, поскольку в метриках я все еще путаюсь и с ними мне тоже желательно попрактиковаться. Но по-быстрому не нахожу, а полноценно зарыться в поиск я пока себе позволить не могу: четыре сделанных проекта не залито, новый не сделан, сиквел не учен, и вообще.

@темы: игрушки аналитика

11:16

Сколь, веревочка, ни вейся - все равно совьешься в кнут.
Мне нужно сделать независимый проект в свое свободное время. Как минимум один.
Здесь я накидаю себе датасеты и буду думать, что с ними можно сделать:

Твиты про русско-украинскую войну за 22-24 мая:
1. Общая информация:
Всего 9953 записи. Про каждую мы знаем дату и время, айди записи, юзернейм и, собственно, сам текст.
2. Что я могу сделать с этим датасетом?
Для начала, вычленить ключевые слова - без них мне с датасетом делать нечего. Вернее, даже не так. Отделить от текста и разместить отдельно хэштеги, смайлы, ссылки. И потом уже выделить в текстах ключевые слова (стимы? Леммы?). Выделить основные тренды: самые популярные хэштеги, самые популярные смайлы. Выделить пики активности по дате и посмотреть, что происходит там. Затем сгруппировать всю эту радость по юзерам, найти способ разбить юзеров на группы минимум двумя разными способами (а лучше - тремя), и охарактеризовать каждую из групп. Набросать презентацию про эти самые группы.

Статистика ДТП в Барселоне с 2010 года.
1. Размер датасета: 110тыс * 27, 5 мб.
2. Информация: айди происшествия, района, квартала, дата-время (в куче отдельных полей, что удобно - номер месяца или время суток отдельно из таймстампа вычленять не надо будет), погибшие, тяжело раненые, просто раненые, количество жертв, количество транспортных средств, географические координаты. Удобненько, подробненько, интересненько.
3. Что я могу с ним сделать?
Да много чего. Уровни риска по районам и кварталам, это в общем. Например, в какое время года, суток и в каких районах уровни риска выше, а в каких ниже? На какой улице летом больше всего транспортных средств попадает в дтп, но при этом с наименьшим количеством жертв? Еще надо будет покурить про координаты, в которых я не разбираюсь вообще. И погуглить фото конкретных улиц и статьи, которые могут дать направление. А потом сделать со всем этим красивенький дэшборд - в целях практики, не только в Табло Паблик, но и в Дэш, и вообще набросать интерактивную страничку, которая дает ответы на конкретные вопросы такого типа.


И параллельно продолжить курить SQL. Поскольку бодро клепать проекты на пайтоне и при этом слабо ориентироваться в необходимых функциях в сиквеле - мягко говоря, странно.

@темы: игрушки аналитика