{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "## Анализ полученных данных\n", "\n", "Статистика по вакансиям для удобного отображения вынесена в отдельную тетрадку." ] }, { "cell_type": "code", "execution_count": 1, "metadata": {}, "outputs": [], "source": [ "import matplotlib.pyplot as plt\n", "import seaborn as sns\n", "import pandas as pd\n", "import numpy as np\n", "import re\n", "\n", "import nltk\n", "# nltk.download('stopwords')\n", "from nltk.corpus import stopwords\n", "\n", "from scipy.sparse import hstack\n", "from sklearn.linear_model import Ridge\n", "from sklearn.feature_extraction import DictVectorizer\n", "from sklearn.feature_extraction.text import TfidfVectorizer\n", "\n", "sns.set()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### Загрузка данных" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
| \n", " | Ids | \n", "Employer | \n", "Name | \n", "Salary | \n", "From | \n", "To | \n", "Experience | \n", "Schedule | \n", "Keys | \n", "Description | \n", "
|---|---|---|---|---|---|---|---|---|---|---|
| 0 | \n", "39912622 | \n", "Знаменка Капитал | \n", "Data Scientist / Quantitative Researcher | \n", "True | \n", "217500.0 | \n", "NaN | \n", "От 3 до 6 лет | \n", "Полный день | \n", "['Mathematical Statistics', 'Mathematical Prog... | \n", "Обязанности: Разработка и оценка статистическ... | \n", "
| 1 | \n", "40114134 | \n", "NZT Group | \n", "Data Scientist | \n", "True | \n", "150000.0 | \n", "300000.0 | \n", "От 1 года до 3 лет | \n", "Полный день | \n", "['Python', 'Data Mining', 'Математическая стат... | \n", "Наша компания занимается разработкой своих вну... | \n", "
| 2 | \n", "40005967 | \n", "Адаперио | \n", "ML Engineer / Data Scientist | \n", "True | \n", "200000.0 | \n", "NaN | \n", "От 1 года до 3 лет | \n", "Полный день | \n", "['Анализ данных', 'Статистический анализ', 'Ра... | \n", "Адаперио - компания разработчик комплексного р... | \n", "
| 3 | \n", "40086655 | \n", "Эверис, Представительство | \n", "Data Scientist | \n", "True | \n", "150000.0 | \n", "230000.0 | \n", "От 3 до 6 лет | \n", "Полный день | \n", "['R', 'Python', 'SQL'] | \n", "В подразделение французской компании, специали... | \n", "
| 4 | \n", "39964742 | \n", "retailCRM | \n", "Senior Data Scientist | \n", "True | \n", "174000.0 | \n", "261000.0 | \n", "От 3 до 6 лет | \n", "Удаленная работа | \n", "['Python', 'Data Science'] | \n", "RetailCRM — это крупнейшая CRM для омниканальн... | \n", "
| 7 | \n", "38576646 | \n", "РАБЛЗ | \n", "Data Scientist (middle or senior) | \n", "True | \n", "NaN | \n", "435000.0 | \n", "От 3 до 6 лет | \n", "Гибкий график | \n", "['Python', 'Data Mining', 'SQL', 'Математическ... | \n", "Наша компания разрабатывает аналитические реше... | \n", "
| 10 | \n", "39602668 | \n", "Артистраж | \n", "Data Scientist | \n", "True | \n", "104400.0 | \n", "147900.0 | \n", "От 1 года до 3 лет | \n", "Полный день | \n", "['Python', 'R', 'Machine Learning', 'Computer ... | \n", "Обязанности: Обработка и аналитика входных да... | \n", "
| \n", " | Ids | \n", "Employer | \n", "Name | \n", "Salary | \n", "From | \n", "To | \n", "Experience | \n", "Schedule | \n", "Keys | \n", "Description | \n", "
|---|---|---|---|---|---|---|---|---|---|---|
| 223 | \n", "39835664 | \n", "Hunt For You | \n", "Senior Fullstack Developer (Python, remote) | \n", "True | \n", "316405.0 | \n", "553709.0 | \n", "Более 6 лет | \n", "Удаленная работа | \n", "['Python', 'PostgreSQL', 'SQL', 'JavaScript', ... | \n", "О нас: Американская компания с русскоговоряще... | \n", "
| 223 | \n", "39835664 | \n", "Hunt For You | \n", "Senior Fullstack Developer (Python, remote) | \n", "True | \n", "316405.0 | \n", "553709.0 | \n", "Более 6 лет | \n", "Удаленная работа | \n", "['Python', 'PostgreSQL', 'SQL', 'JavaScript', ... | \n", "О нас: Американская компания с русскоговоряще... | \n", "
| \n", " | Ids | \n", "Employer | \n", "Name | \n", "Salary | \n", "From | \n", "To | \n", "Experience | \n", "Schedule | \n", "Keys | \n", "Description | \n", "
|---|---|---|---|---|---|---|---|---|---|---|
| 138 | \n", "39755183 | \n", "Платформа НТИ | \n", "Data scientist | \n", "True | \n", "100000.0 | \n", "150000.0 | \n", "Нет опыта | \n", "Полный день | \n", "['Анализ данных', 'Python', 'Веб-аналитика', '... | \n", "Платформа НТИ — некоммерческая организация, со... | \n", "
| 234 | \n", "39585034 | \n", "Раксел Телематикс | \n", "Андроид Разработчик (Android Developer) | \n", "True | \n", "110000.0 | \n", "130000.0 | \n", "От 3 до 6 лет | \n", "Удаленная работа | \n", "['Java', 'Android', 'Kotlin', 'DI', 'Room', 'R... | \n", "Международная технологическая компания Раксел ... | \n", "
| \n", " | From | \n", "To | \n", "
|---|---|---|
| count | \n", "19 | \n", "17 | \n", "
| mean | \n", "185859 | \n", "295746 | \n", "
| std | \n", "65462 | \n", "122663 | \n", "
| min | \n", "100000 | \n", "130000 | \n", "
| max | \n", "316405 | \n", "553709 | \n", "
| \n", " | Ids | \n", "Employer | \n", "Name | \n", "Average | \n", "Experience | \n", "Schedule | \n", "Keys | \n", "Description | \n", "
|---|---|---|---|---|---|---|---|---|
| 5 | \n", "40117400 | \n", "Билайн | \n", "Data Scientist | \n", "196144 | \n", "От 1 года до 3 лет | \n", "Полный день | \n", "['Python', 'Data Mining', 'Java', 'Git', 'SCAL... | \n", "Наша команда каждый день работает над повышени... | \n", "
| 6 | \n", "40012491 | \n", "ФГУП ГосНИИАС | \n", "Data Scientist (Computer Vision) - Junior | \n", "145117 | \n", "Нет опыта | \n", "Гибкий график | \n", "['Python', 'ML', 'Pytorch', 'Computer Vision'] | \n", "Ведущий индустриальный центр по развитию и вне... | \n", "
| 8 | \n", "39713985 | \n", "Mail.ru Group | \n", "Data Scientist | \n", "168177 | \n", "От 1 года до 3 лет | \n", "Полный день | \n", "['Python', 'Linux', 'SQL'] | \n", "MY.GAMES — международный игровой бренд (входит... | \n", "
| 9 | \n", "40046412 | \n", "Айтаргет | \n", "Data Scientist (AiData.me product) | \n", "225712 | \n", "От 1 года до 3 лет | \n", "Полный день | \n", "['Data Mining', 'Python', 'Математическая стат... | \n", "Мы ищем в команду aidata.me (DMP платформа для... | \n", "
| 11 | \n", "39597321 | \n", "Mail.ru Group | \n", "Data Scientist (Predictive Analytic Solutions) | \n", "234071 | \n", "От 3 до 6 лет | \n", "Гибкий график | \n", "['Python', 'Data Mining', 'Mathematical Analys... | \n", "Команда направления Big Data и Predictive Anal... | \n", "
| 13 | \n", "40138097 | \n", "Константа Сервисез | \n", "Аналитик данных/Data scientist | \n", "188726 | \n", "От 1 года до 3 лет | \n", "Полный день | \n", "['SQL', 'Python', 'Transact-SQL', 'PostgreSQL'] | \n", "Сфера деятельности Мы занимаемся проектами по ... | \n", "
| 14 | \n", "40061077 | \n", "ОКБ | \n", "Data Scientist | \n", "168177 | \n", "От 1 года до 3 лет | \n", "Полный день | \n", "['Python', 'SQL', 'Управление рисками', 'Анали... | \n", "Обязанности: Поведенческие модели PD, LGD, EA... | \n", "
| 15 | \n", "40143339 | \n", "Лига Цифровой Экономики | \n", "Data Scientists | \n", "226866 | \n", "От 1 года до 3 лет | \n", "Полный день | \n", "['Data Mining', 'SQL', 'Python', 'MATLAB', 'Ма... | \n", "Проект направлен на создание продуктивных моде... | \n", "
| 16 | \n", "40137655 | \n", "Неофлекс | \n", "Data Scientist/ Аналитик данных | \n", "148903 | \n", "От 1 года до 3 лет | \n", "Полный день | \n", "['Python', 'Финансовое моделирование', 'Управл... | \n", "О компании Неофлекс - ведущий поставщик програ... | \n", "
| 17 | \n", "39444384 | \n", "«Газпромбанк» (Акционерное общество) | \n", "Data Scientist | \n", "243420 | \n", "От 3 до 6 лет | \n", "Удаленная работа | \n", "['Python', 'SQL', 'Oracle Pl/SQL', 'Sas', 'MS ... | \n", "В Департаменте анализа и моделирования данных ... | \n", "