Case Study (Wine Quality) : Checking Duplicate Values¶

import pandas as pd
import numpy as np

df_red = pd.read_csv('red.csv')

df_white = pd.read_csv('white.csv')

df = pd.read_csv('wine.csv')

Number of duplicate rows in combined datasets¶

len(df)-len(df.drop_duplicates())

0

Number of duplicate rows in the red wine dataset¶

len(df_red)-len(df_red.drop_duplicates())

0

Number of duplicate rows in the white wine dataset¶

len(df_white)-len(df_white.drop_duplicates())

0

Remove Duplicates in dataset¶

-Following example is for learning how to remove Duplicates in dataset
-We do not have Duplicates in our datasets

Example: Removing Duplicates in dataset¶

df = df.drop_duplicates()


# After you removed Duplicates, you can export it to existing or new file. Here I exported to existing file.

df.to_csv('wine.csv')