In [2]:
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

# Настройки генерации
NUM_ROWS = 2000 # Количество заказов
NUM_CLIENTS = 500 # Количество уникальных клиентов (меньше заказов, чтобы были повторные покупки)

# --- 1. ГЕНЕРАЦИЯ orders.csv ---

# Генерация дат за последний год
def generate_dates(start_date, num_days, n):
 start = datetime.strptime(start_date, "%Y-%m-%d")
 # Генерируем случайное кол-во дней для прибавления к стартовой дате
 random_days = np.random.randint(0, num_days, n)
 return [start + timedelta(days=int(day)) for day in random_days]

# Списки категорий и городов для случайного выбора
categories = ['Electronics', 'Clothing', 'Home', 'Books', 'Sports', 'Beauty', 'Auto']
cities = ['Moscow', 'Saint Petersburg', 'Novosibirsk', 'Yekaterinburg', 'Kazan', 'Sochi', 'Vladivostok']

# Создаем словарь с данными
data = {
 'order_id': np.arange(1001, 1001 + NUM_ROWS),
 
 'date': generate_dates('2023-01-01', 365, NUM_ROWS),
 
 # Генерируем ID пользователей от 1 до 500
 'user_id': np.random.randint(1, NUM_CLIENTS + 1, NUM_ROWS).astype(float),
 
 'product_id': np.random.randint(10000, 99999, NUM_ROWS),
 
 'category': np.random.choice(categories, NUM_ROWS),
 
 # Цены от 500 до 50000
 'price': np.random.randint(500, 50000, NUM_ROWS),
 
 'city': np.random.choice(cities, NUM_ROWS),
 
 # Рейтинг от 1 до 5
 'rating': np.random.randint(1, 6, NUM_ROWS).astype(float)
}

df_orders = pd.DataFrame(data)

# --- ДОБАВЛЯЕМ "ГРЯЗЬ" (Пропуски/NaN) ---
# Для реалистичности удалим часть данных, чтобы ты мог тренировать методы dropna/fillna

# Удаляем 5% user_id (как будто пользователь не залогинился)
random_indices_user = np.random.choice(df_orders.index, size=int(NUM_ROWS * 0.05), replace=False)
df_orders.loc[random_indices_user, 'user_id'] = np.nan

# Удаляем 10% рейтингов (не все ставят оценки)
random_indices_rating = np.random.choice(df_orders.index, size=int(NUM_ROWS * 0.10), replace=False)
df_orders.loc[random_indices_rating, 'rating'] = np.nan

# Сохраняем orders.csv
df_orders.to_csv('orders.csv', index=False)
print(f"Файл 'orders.csv' создан: {df_orders.shape[0]} строк.")


# --- 2. ГЕНЕРАЦИЯ clients.csv ---

first_names = ['Ivan', 'Maria', 'Petr', 'Olga', 'Dmitry', 'Anna', 'Sergey', 'Elena', 'Alex', 'Yulia']
last_names = ['Ivanov', 'Petrov', 'Sidorov', 'Smirnov', 'Kuznetsov', 'Popov', 'Sokolov', 'Mikhailov']

# Генерация списка клиентов
clients_data = []
for i in range(1, NUM_CLIENTS + 1):
 f_name = random.choice(first_names)
 l_name = random.choice(last_names)
 clients_data.append({
 'user_id': i,
 'name': f"{f_name} {l_name}",
 # Генерируем email из имени
 'email': f"{f_name.lower()}.{l_name.lower()}{i}@example.com"
 })

df_clients = pd.DataFrame(clients_data)

# Сохраняем clients.csv
df_clients.to_csv('clients.csv', index=False)
print(f"Файл 'clients.csv' создан: {df_clients.shape[0]} строк.")

print("\nГотово! Теперь можешь запускать код из статьи.")

Файл 'orders.csv' создан: 2000 строк.
Файл 'clients.csv' создан: 500 строк.

Готово! Теперь можешь запускать код из статьи.
