๋ฐ์ํ
Notice
Recent Posts
Recent Comments
Link
์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- ํ๋ก๊ทธ๋๋จธ์ค
- np.zeros_like
- ์ด์ง์ ๋ณํ
- java
- PYTHON
- ํฉํ ๋ฆฌ์ผ ์ง๋ฒ
- ๋ค์ต์คํธ๋ผ ์๊ณ ๋ฆฌ์ฆ
- Extended Slices
- BFS
- sql
- dacon
- ์ต์
- Do_it
- ์ง ๊ฐ ์์ธก ๋ถ์
- ํ์ ๋ณ์
- ์ด๊ฒ์ด ์ทจ์ ์ ์ํ ์ฝ๋ฉํ ์คํธ๋ค
- ๋ฐ์ค๊ทธ๋ํ
- matplotlib
- DFS
- MacOS
- jdbc
- ์ฐธ์กฐ ๋ณ์
- ์๋ฐ
- ์์ด
- ๋ธ๋ผ์ฐ์ ์คํ
- ์ ํ ํฌ ํ์ด์ฌ
- mysql
- 2BPerfect
- Do it
- ๋ฐฑ์ค
Archives
- Today
- Total
๐ฆ ๊ณต๋ฃก์ด ๋์!
์ง ๊ฐ ์์ธก ๋ถ์...1 ๋ณธ๋ฌธ
๋ช ๋ชฉํ ๋ฐ์ดํฐ ๋ณํ ๋ฐ ํํธ๋งต์ ์์ธํ ๋ด์ฉ์ 3์ฅ์์ ๋ค๋ฃฐ ์์
์ต์(์ฐ๊ตฌ์ค)
!pip install pandas
!pip install numpy
!pip install matplotlib
!pip install seaborn
!pip install sklearn
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
# 1. train.csv : ํ์ต ๋ฐ์ดํฐ
# id : ๋ฐ์ดํฐ ๊ณ ์ id
# OverallQual : ์ ๋ฐ์ ์ฌ๋ฃ์ ๋ง๊ฐ ํ์ง
# YearBuilt : ์๊ณต ์ฐ๋
# YearRemodAdd : ๋ฆฌ๋ชจ๋ธ๋ง ์ฐ๋
# ExterQual : ์ธ๊ด ์ฌ๋ฃ ํ์ง
# BsmtQual : ์งํ์ค ๋์ด
# TotalBsmtSF : ์งํ์ค ๋ฉด์
# 1stFlrSF : 1์ธต ๋ฉด์
# GrLivArea : ์ง์์ธต ์ํ ๋ฉด์
# FullBath : ์ง์์ธต ํ์ฅ์ค ๊ฐ์
# KitchenQual : ๋ถ์ต ํ์ง
# GarageYrBlt : ์ฐจ๊ณ ์๊ณต ์ฐ๋
# GarageCars: ์ฐจ๊ณ ์๋ฆฌ ๊ฐ์
# GarageArea: ์ฐจ๊ณ ๋ฉด์
# target : ์ง๊ฐ(๋ฌ๋ฌ ๋จ์)
data=pd.read_csv('/content/drive/MyDrive/์ง๊ฐ์์ธก๋ถ์/train.csv')
data.drop('id',axis=1,inplace=True)
data
# ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์จ ๋ค ๊ฒฐ์ธก์น ํ์ธ์ ํ์๋ค
def check(data):
mcol = []
for col in data.columns:
mv = sum(data[col].isna())
is_missing = True if mv >= 1 else False
if is_missing:
print(f'๊ฒฐ์ธก {col}')
print(f'{mv} ๊ฐ')
mcol.append([col, data[col].dtype])
if mcol == []:
print('x')
return mcol
mcol = check(data)
data.describe()
data.info()
# ๋จผ์ ์๊ด๊ณ์ ๊ณ์ฐ์ ์ํด ํ
์คํธ ํ์์ ๋ฐ์ดํฐ๋ฅผ ์ซ์๋ก ๋ณํํด์ค.
from sklearn.preprocessing import LabelEncoder
corr_df = data.copy()
corr_df[corr_df.columns[corr_df.dtypes=='O']] = corr_df[corr_df.columns[corr_df.dtypes=='O']].astype(str).apply(LabelEncoder().fit_transform)
corr_df['Exter Qual']
## ์๊ด๊ด๊ณ๋ฅผ ๋ถ์ํด๋ณด๋ฉด ๋ฐ๋น๋ก์ ์์๊ฐ ๋ง์
์ด ๋ถ๋ถ์ sklearn์ ํตํด ์ ๋๋ก ๋ ์์นํ๊ฐ ์ด๋ฃจ์ด์ง์ง ์์๋ค๊ณ ์๊ฐํจ.
#์๊ด๊ด๊ณ ๋ถ์๋ ์ด๊ฒ ๋ฐ์ดํฐ ๋ถ์ํ๋๋ฐ์ ์ ์ผ ์ ์ฉํ ์๊ฐํ๊ฐ ์๋๊ฐ ์ถ๋ค
plt.figure(figsize=(15,10))
heat_table = corr_df.corr()
mask = np.zeros_like(heat_table)
mask[np.triu_indices_from(mask)] = True
heatmap_ax = sns.heatmap(heat_table, annot=True, mask = mask, cmap='coolwarm')
heatmap_ax.set_xticklabels(heatmap_ax.get_xticklabels(), fontsize=15, rotation=45)
# ๊ธ์ ๊ธฐ์ธ์ด๊ธฐ ๋ฐ ํฐํธ์ฌ์ด์ฆ ๊ฐ๋๋ ๋ฐ์๊ณ ๋ฐฉํฅ
heatmap_ax.set_yticklabels(heatmap_ax.get_yticklabels(), fontsize=15)
plt.title('correlation between features', fontsize=40)
plt.show()
# sns.heatmap ์ ๋ํ ์ ๋ฐ์ ์ธ ์ง์์ด ๋ถ์กฑ ์์น๊ฐ ํ์...
๋ฐ์ํ
'Data > Dacon' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
์ง ๊ฐ ์์ธก ๋ถ์...3 (0) | 2022.02.08 |
---|---|
์ง ๊ฐ ์์ธก ๋ถ์...2 (0) | 2022.02.08 |
Dacon ์์ธ ํ์ง ๊ฒฝ์ง๋ํ...3 (0) | 2021.12.10 |
Dacon ์์ธํ์ง ๊ฒฝ์ง๋ํ...2 (0) | 2021.12.07 |
Dacon ์์ธ ํ์ง ๊ฒฝ์ง๋ํ (0) | 2021.12.06 |
Comments