代码拉取完成,页面将自动刷新
import pandas as pd
df=pd.read_excel('店铺数据.xlsx')
df['评价数']=df['评价数'].str.replace('条评价', '').astype('int')
df['均价']=df['均价'].str.replace('人均:', '').str.replace('元', '').astype('int')
df['所在区']=df['所在区'].str.strip()
df=df.rename({'均价':'均价(元/人)'},axis='columns')
print(df)
print('处理重复值前数据的行数:',len(df))
df.drop_duplicates(subset=['店名'],inplace=True,ignore_index=True)
print('处理重复值后数据的行数:',len(df))
print(df)
print('处理缺失值前数据的行数:',len(df))
df.dropna(inplace=True,ignore_index=True)
print('处理缺失值后数据的行数:',len(df))
df.to_excel('店铺数据_预处理.xlsx',index=False)
print(df)
import pandas as pd
df= pd.read_excel('某店铺2023年1—9月份评价数据.xlsx')
for i in range(len(df['日期'])):
date = df['日期'].iloc[i]
if isinstance(date,str):
df.loc[i,'日期']=date.split('更新于')[1]
df['日期']=pd.to_datetime(df['日期']).dt.date
print(df)
print('',len(df))
df.drop_duplicates(subset=['评价'],inplace=True,ignore_index=True)
print('',len(df))
df.to_excel('某店铺2023年1—9月份评价数据_预处理.xlsx')
\ No newline at end of file
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。