master

分支 (1)

管理

管理

master

number-of-data-visualizations
/
192

import pandas as pd
df=pd.read_excel('店铺数据.xlsx')
df['评价数']=df['评价数'].str.replace('条评价', '').astype('int')
df['均价']=df['均价'].str.replace('人均：', '').str.replace('元', '').astype('int')
df['所在区']=df['所在区'].str.strip()
df=df.rename({'均价':'均价(元/人)'},axis='columns')
print(df)


print('处理重复值前数据的行数:',len(df))
df.drop_duplicates(subset=['店名'],inplace=True,ignore_index=True)
print('处理重复值后数据的行数:',len(df))
print(df)


print('处理缺失值前数据的行数:',len(df))
df.dropna(inplace=True,ignore_index=True)
print('处理缺失值后数据的行数:',len(df))


df.to_excel('店铺数据_预处理.xlsx',index=False)
print(df)


import pandas as pd
df= pd.read_excel('某店铺2023年1—9月份评价数据.xlsx')
for i in range(len(df['日期'])):
    date  = df['日期'].iloc[i]
    if isinstance(date,str):
        df.loc[i,'日期']=date.split('更新于')[1]
df['日期']=pd.to_datetime(df['日期']).dt.date
print(df)
print('',len(df))
df.drop_duplicates(subset=['评价'],inplace=True,ignore_index=True)
print('',len(df))
df.to_excel('某店铺2023年1—9月份评价数据_预处理.xlsx')
\ No newline at end of file