Сколь, веревочка, ни вейся - все равно совьешься в кнут.
Мне нужно сделать независимый проект в свое свободное время. Как минимум один.
Здесь я накидаю себе датасеты и буду думать, что с ними можно сделать:
Твиты про русско-украинскую войну за 22-24 мая:
1. Общая информация:
Всего 9953 записи. Про каждую мы знаем дату и время, айди записи, юзернейм и, собственно, сам текст.
2. Что я могу сделать с этим датасетом?
Для начала, вычленить ключевые слова - без них мне с датасетом делать нечего. Вернее, даже не так. Отделить от текста и разместить отдельно хэштеги, смайлы, ссылки. И потом уже выделить в текстах ключевые слова (стимы? Леммы?). Выделить основные тренды: самые популярные хэштеги, самые популярные смайлы. Выделить пики активности по дате и посмотреть, что происходит там. Затем сгруппировать всю эту радость по юзерам, найти способ разбить юзеров на группы минимум двумя разными способами (а лучше - тремя), и охарактеризовать каждую из групп. Набросать презентацию про эти самые группы.
Статистика ДТП в Барселоне с 2010 года.
1. Размер датасета: 110тыс * 27, 5 мб.
2. Информация: айди происшествия, района, квартала, дата-время (в куче отдельных полей, что удобно - номер месяца или время суток отдельно из таймстампа вычленять не надо будет), погибшие, тяжело раненые, просто раненые, количество жертв, количество транспортных средств, географические координаты. Удобненько, подробненько, интересненько.
3. Что я могу с ним сделать?
Да много чего. Уровни риска по районам и кварталам, это в общем. Например, в какое время года, суток и в каких районах уровни риска выше, а в каких ниже? На какой улице летом больше всего транспортных средств попадает в дтп, но при этом с наименьшим количеством жертв? Еще надо будет покурить про координаты, в которых я не разбираюсь вообще. И погуглить фото конкретных улиц и статьи, которые могут дать направление. А потом сделать со всем этим красивенький дэшборд - в целях практики, не только в Табло Паблик, но и в Дэш, и вообще набросать интерактивную страничку, которая дает ответы на конкретные вопросы такого типа.
И параллельно продолжить курить SQL. Поскольку бодро клепать проекты на пайтоне и при этом слабо ориентироваться в необходимых функциях в сиквеле - мягко говоря, странно.
Здесь я накидаю себе датасеты и буду думать, что с ними можно сделать:
Твиты про русско-украинскую войну за 22-24 мая:
1. Общая информация:
Всего 9953 записи. Про каждую мы знаем дату и время, айди записи, юзернейм и, собственно, сам текст.
2. Что я могу сделать с этим датасетом?
Для начала, вычленить ключевые слова - без них мне с датасетом делать нечего. Вернее, даже не так. Отделить от текста и разместить отдельно хэштеги, смайлы, ссылки. И потом уже выделить в текстах ключевые слова (стимы? Леммы?). Выделить основные тренды: самые популярные хэштеги, самые популярные смайлы. Выделить пики активности по дате и посмотреть, что происходит там. Затем сгруппировать всю эту радость по юзерам, найти способ разбить юзеров на группы минимум двумя разными способами (а лучше - тремя), и охарактеризовать каждую из групп. Набросать презентацию про эти самые группы.
Статистика ДТП в Барселоне с 2010 года.
1. Размер датасета: 110тыс * 27, 5 мб.
2. Информация: айди происшествия, района, квартала, дата-время (в куче отдельных полей, что удобно - номер месяца или время суток отдельно из таймстампа вычленять не надо будет), погибшие, тяжело раненые, просто раненые, количество жертв, количество транспортных средств, географические координаты. Удобненько, подробненько, интересненько.
3. Что я могу с ним сделать?
Да много чего. Уровни риска по районам и кварталам, это в общем. Например, в какое время года, суток и в каких районах уровни риска выше, а в каких ниже? На какой улице летом больше всего транспортных средств попадает в дтп, но при этом с наименьшим количеством жертв? Еще надо будет покурить про координаты, в которых я не разбираюсь вообще. И погуглить фото конкретных улиц и статьи, которые могут дать направление. А потом сделать со всем этим красивенький дэшборд - в целях практики, не только в Табло Паблик, но и в Дэш, и вообще набросать интерактивную страничку, которая дает ответы на конкретные вопросы такого типа.
И параллельно продолжить курить SQL. Поскольку бодро клепать проекты на пайтоне и при этом слабо ориентироваться в необходимых функциях в сиквеле - мягко говоря, странно.