pycharm中怎么检查movie.xlsx中重复的电影名称?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pycharm中怎么检查movie.xlsx中重复的电影名称?相关的知识,希望对你有一定的参考价值。

若要使用 PyCharm 检查文件中的重复影片名称,可以按照以下步骤操作:movie.xlsx

    打开 PyCharm 并创建一个新项目,或打开要在其中处理该文件的现有项目。movie.xlsx

    使用该库以 .您可以使用以下方法执行此操作:pandasmovie.xlsxDataFrameread_excel()


    使用该方法检查“电影名称”列中的重复值。此方法将返回一个布尔序列,指示每一行是否是前一行的副本:DataFrame.duplicated()


    使用该方法选择“电影名称”列中具有重复值的行。此方法将布尔序列作为参数,它将选择该系列为:DataFrame.loc[]True


    使用该方法显示数据帧的前几行。这将显示找到的重复电影名称:DataFrame.head()duplicate_rows


完成这些步骤后,数据帧应包含原始文件中在“电影名称”列中具有重复值的行。然后,可以使用此数据帧进一步分析数据或采取任何必要的操作来解决重复值。duplicate_rowsmovie.xlsx

回答不易望请采纳

参考技术A

假设你已经在pycharm中创建了一个项目,并在项目中导入了包含电影名称的movie.xlsx文件,那么你可以使用如下的代码来检查movie.xlsx中重复的电影名称:


代码部分:

# 导入pandas包

import pandas as pd

# 读取movie.xlsx文件

movies = pd.read_excel('movie.xlsx')

# 检查重复的电影名称

duplicate_movie_names = movies[movies.duplicated(['电影名称'])]

# 输出重复的电影名称

print(duplicate_movie_names)


在这段代码中,我们首先导入了pandas包,然后使用pd.read_excel函数读取了movie.xlsx文件,将读取到的数据存储在名为movies的数据框中。接着,我们使用duplicated函数检查movies数据框中是否有重复的电影名称,并将重复的电影名称存储在名为duplicate_movie_names的数据框中。最后,我们使用print函数输出duplicate_movie_names数据框,从而查看重复的电影名称。

请注意,上面的代码只是一个示例,实际应用中可能需要根据实际情况进行更多的处理,比如考虑电影名称有可能包含重复字符串等情况。

pandas入门

Pandas入门(2)

准备工作:

#导入库
import pandas as pd 
import numpy as np 

先读入pandas入门(1)中保存的movie_data.xlsx

#路径相同,只要写文件名
df=pd.read_excel('movie_data.xlsx')
df.head()
Unnamed: 0Unnamed: 0.1名字投票人数类型产地上映时间时长年代评分首映地点
000肖申克的救赎692795剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节
111控方证人42995剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国
222美丽人生327855剧情/喜剧/爱情意大利1997-12-20 00:00:0011619979.5意大利
333阿甘正传580897剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映
444霸王别姬478523剧情/爱情/同性中国大陆1993-01-01 00:00:0017119939.4香港

一.数据格式转换

由于各种各样的原因,原始数据可能会有数据格式问题,而数据格式的错误可能会造成严重后果

并且,很多异常值也是我们经过格式转换之后才发现,所以数据格式转换对规整数据,数据清洗有重要的作用

1.查看格式

查看格式使用dtype

查看投票人数的格式

df['投票人数'].dtype

运行结果:

dtype('int64')

查看产地

df['产地'].dtype

运行结果:

dtype('O')

什么是dtype(‘O’)

2.转化格式

转换格式用.astype()

①将产地转为字符串

df['产地']=df['产地'].astype('str')

②将年份转换为整数格式

转换的过程中也可能发现异常值,因为有些类型无法正常转换

df['年代'] = df['年代'].astype('int')

此时报错:

通过条件判断来找到异常数据

df[df.年代=='2008\\u200e']
Unnamed: 0Unnamed: 0.1名字投票人数类型产地上映时间时长年代评分首映地点
152031520515205狂蟒惊魂544恐怖中国大陆2008-04-08 00:00:00932008‎2.7美国

查看具体的值

df[df.年代 == '2008\\u200e']['年代'].values

运行结果:

array(['2008\\u200e'], dtype=object)

\\u200e是unicode的格式控制字符,使2008靠左

那么修改这条数据:

df.loc[15203,'年代']=2008

修改完了,查看数据

df.loc[15203]

运行结果:

Unnamed: 0                    15205
Unnamed: 0.1                  15205
名字                             狂蟒惊魂
投票人数                            544
类型                               恐怖
产地                             中国大陆
上映时间            2008-04-08 00:00:00
时长                               93
年代                             2008
评分                              2.7
首映地点                             美国
Name: 15203, dtype: object

这事就可以修改数据类型了

df['年代']=df['年代'].astype('int')

查看转化结果

df['年代'].dtype

运行结果:

dtype('int32')
df['年代']

运行结果:

0        1994
1        1957
2        1997
3        1994
4        1993
         ... 
38723    1983
38724    1935
38725    1986
38726    1986
38727    1977
Name: 年代, Length: 38728, dtype: int32

③将时长转化为整数格式

df['时长']

运行结果:

0        142
1        116
2        116
3        142
4        171
        ... 
38723     58
38724     98
38725     91
38726     78
38727     97
Name: 时长, Length: 38728, dtype: object
df['时长']=df['时长'].astype('int')

也报错了

df[df['时长']=='8U']
Unnamed: 0Unnamed: 0.1名字投票人数类型产地上映时间时长年代评分首映地点
316363164431644一个被隔绝的世界46纪录片/短片瑞典2001-10-25 00:00:008U19487.8美国

并不知道8U到底是多长时间,可以直接删除这条数据

#inplace=True 直接在原数据上面修改
df.drop([31636],inplace=True)
df['时长']=df['时长'].astype('int')

又报错了!

df[df.时长 == '12J']

Unnamed: 0Unnamed: 0.1名字投票人数类型产地上映时间时长年代评分首映地点
329413294932949渔业危机41纪录片英国2009-06-19 00:00:0012J20088.2USA

同样,删掉这条数据

df.drop([32941],inplace=True)

再次替换

df['时长'] = df['时长'].astype('int')

df['时长']

运行结果:

0        142
1        116
2        116
3        142
4        171
        ... 
38723     58
38724     98
38725     91
38726     78
38727     97
Name: 时长, Length: 38726, dtype: int32

终于没有幺蛾子了

二.排序

默认排序

df[:7]
Unnamed: 0Unnamed: 0.1名字投票人数类型产地上映时间时长年代评分首映地点
000肖申克的救赎692795剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节
111控方证人42995剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国
222美丽人生327855剧情/喜剧/爱情意大利1997-12-20 00:00:0011619979.5意大利
333阿甘正传580897剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映
444霸王别姬478523剧情/爱情/同性中国大陆1993-01-01 00:00:0017119939.4香港
555泰坦尼克号157074剧情/爱情/灾难美国2012-04-10 00:00:0019420129.4中国大陆
666辛德勒的名单306904剧情/历史/战争美国1993-11-30 00:00:0019519939.4华盛顿首映

按投票人数排序

要用sort_values()

df.sort_values(by='投票人数')[:5]
Unnamed: 0Unnamed: 0.1名字投票人数类型产地上映时间时长年代评分首映地点
372643727337273生生舞不息21剧情/歌舞法国2002-04-12 00:00:0010020026.8美国
355863559535595川崎的玫瑰21剧情其他2009-12-21 00:00:0010020096.1美国
370323704137041魂惊一线21惊悚/恐怖美国2003-08-21 00:00:0010820025.3美国
228672287522875少年邓恩铭21剧情/传记中国大陆2011-07-01 00:00:009020113.8美国
199019901990爱和一颗子弹21动作/犯罪美国2002-08-30 00:00:008520027.0美国

默认是升序排序,ascending默认是为True,降序要改为False

ascending中文意思:上升的

df.sort_values(by='投票人数',ascending=False)[:5]
Unnamed: 0Unnamed: 0.1名字投票人数类型产地上映时间时长年代评分首映地点
000肖申克的救赎692795剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节
999这个杀手不太冷662552剧情/动作/犯罪法国1994-09-14 00:00:0013319949.4法国
222222盗梦空间642134剧情/动作/科幻/悬疑/冒险美国2010-09-01 00:00:0014820109.2中国大陆
333阿甘正传580897剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映
999999三傻大闹宝莱坞549808剧情/喜剧/爱情/歌舞印度2011-12-08 00:00:0017120099.1中国大陆

按照年代进行排序

df.sort_values(by='年代')[:10]
Unnamed: 0Unnamed: 0.1名字投票人数类型产地上映时间时长年代评分首映地点
170017001700朗德海花园场景650短片英国1888-10-146018888.7美国
140461404814048利兹大桥126短片英国1888-106018887.2美国
261622617026170恶作剧51短片美国1905-03-04 00:00:006018904.8美国
106261062710627可怜的比埃洛176喜剧/爱情/动画/短片法国1892-10-286018927.5法国
217572176521765胚胎植入前遗传学筛查69纪录片/短片美国1894-05-186018945.7美国
123721237412374更衣室之旁148动画/短片法国1894-126018947.0法国
144531445514455迪克森实验音膜121短片美国1905-03-08 00:00:006018947.2美国
616616616水浇园丁2675喜剧/短片法国1895-12-286018958.5美国
932932932婴儿的午餐 R1417纪录片/短片法国1895-12-286018957.7法国
590590590工厂大门 L2849纪录片/短片法国1895-03-226018958.4法国

根据多个值排序

给by参数设置多个值即可

先按照评分,评分相同的情况下再按照投票人数

df.sort_values(by=['评分','投票人数'],ascending=False)[:20]
Unnamed: 0Unnamed: 0.1名字投票人数类型产地上映时间时长年代评分首映地点
927892789278平安结祈 平安結208音乐日本2012-02-24 00:00:006020129.9美国
138801388213882武之舞128纪录片中国大陆1997-02-01 00:00:0060349439.9美国
111011101110未知电影76科幻/纪录片美国1905-06-23 00:00:007520019.9美国
235512355923559未作回答的问题:伯恩斯坦哈佛六讲61纪录片美国1905-05-29 00:00:006019739.9美国
354613547035470未知电影46纪录片/音乐韩国2013-10-31 00:00:009020139.9韩国
252652527325273索科洛夫:巴黎现场43音乐法国2002-11-04 00:00:0012720029.9美国
114771147911479公园现场163音乐英国2012-12-03 00:00:006020129.8美国
359003590935909未知电影157纪录片/音乐美国1988-02-02 00:00:006019889.8美国
128912891289Sant143脱口秀日本2003-01-01 00:00:0013520149.8美国
260172602526025天使之声:自由童声合唱团97纪录片/音乐美国2007-10-02 00:00:007520079.8美国
194261942819428绿洲乐队海洋现场演唱会82音乐英国1995-08-28 00:00:006019959.8美国
698698698未知电影52纪录片英国2008-07-25 00:00:004020089.8美国
270132702127021阿森纳 - 248运动英国2008-06-09 00:00:006020089.8美国
273232733127331阿森纳: 再见海布里 -47运动英国2006-06-19 00:00:006020069.8美国
350933510235102自由颂:柏林墙拆除庆祝音乐会41纪录片/音乐其他1989-12-25 00:00:009419899.8美国
310843109231092急救精英37纪录片美国1905-06-27 00:00:006020089.8美国
333773338533385未知电影31音乐英国1999-11-23 00:00:006019999.8美国
142071420914209久石让在武道馆:与宫崎骏动画一同走过的25年 久石譲 in 武道館 ~宮崎アニ8601纪录片/音乐日本2008-08-05 00:00:0011620089.7日本
195551955719557涅磐纽约不插电演唱会5840纪录片/音乐USA1993-12-16 00:00:007219939.7美国
143671436914369剧院魅影:25周年纪念2417剧情/音乐/歌舞英国2011-10-02 00:00:0013720119.7美国

三.基本统计分析

1.描述性统计

dataframe.describe():对dataframe中的数值型数据进行统计性描述

df.describe()
Unnamed: 0Unnamed: 0.1投票人数评分
count38728.00000038728.00000038728.00000038728.000000
mean19368.02150919368.0215096187.4249126.935636
std11183.43415311183.43415326146.7062941.270194
min0.0000000.00000021.0000002.000000
25%9681.7500009681.75000098.0000006.300000
50%19365.50000019365.500000341.0000007.100000
75%29053.25000029053.2500001741.0000007.800000
max38737.00000038737.000000692795.0000009.900000

遇到的问题:Unnamed

官方文档上说,describe默认会显示数值类型的列,但是为啥我的电影年代都没显示?

而且,为啥我的数据会有unnamed?

原始数据是没有unnamed,然后我第一次读取"豆瓣电影数据.xlsx",多了一列Unnamed:0,第二次读取’movie_data.xlsx’多了一列Unnamed:0.1

去查了一下,确实有不少人pandas读取excel的时候出现了这个问题,看到👉这个教程

教程里面说的index_col=0有效,但那个index=False是写入数据的时候用的,我还没试过

看到一个解释的更详细的教程

df_test1 = pd.read_excel('豆瓣电影数据.xlsx', index_col=0)
df_test1.head()
名字投票人数类型产地上映时间时长年代评分首映地点
0肖申克的救赎692795.0剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节
1控方证人42995.0剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国
2美丽人生327855.0剧情/喜剧/爱情意大利1997-12-20 00:00:0011619979.5意大利
3阿甘正传580897.0剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映
4霸王别姬478523.0剧情/爱情/同性中国大陆1993-01-01 00:00:0017119939.4香港
df_test1.describe()

投票人数评分
count38738.00000038738.000000
mean6185.8337026.935704
std26143.5187861.270101
min-118.0000002.000000
25%98.0000006.300000
50%341.0000007.100000
75%1739.7500007.800000
max692795.0000009.900000

额,还是没有显示投票人数?dtype一下

df['年代'].dtype

运行结果:

dtype('O')

知道了…是我jupyter notebook两次登录,前面的单元格没有重新运行的原因…

df.describe()
Unnamed: 0Unnamed: 0.1投票人数时长年代评分
count38726.00000038726.00000038726.00000038726.00000038726.00000038726.000000
mean19367.35381919367.3538196187.74221589.0543561998.7917166.935581
std11183.33599311183.33599326147.34419383.343070253.2312151.270203
min0.0000000.00000021.0000001.0000001888.0000002.000000
25%9681.2500009681.25000098.00000060.0000001990.0000006.300000
50%19364.50000019364.500000341.00000092.0000002005.0000007.100000
75%29051.75000029051.7500001741.000000106.0000002010.0000007.800000
max38737.00000038737.000000692795.00000011500.00000039180.0000009.900000

前面验证了df_test1那个index_col=0的方法可行,但对于df的前两列还是直接删掉吧

df = df.drop(['Unnamed: 0'],axis=1)

df.head()
Unnamed: 0.1名字投票人数类型产地上映时间时长年代评分首映地点
00肖申克的救赎692795剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节
11控方证人42995剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国
22美丽人生327855剧情/喜剧/爱情意大利1997-12-20 00:00:0011619979.5意大利
33阿甘正传580897剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映
44霸王别姬478523剧情/爱情/同性中国大陆1993-01-01 00:00:0017119939.4香港

再删一列

df = df.drop(['Unnamed: 0.1'], axis=1)
df.head()
名字投票人数类型产地上映时间时长年代评分首映地点
0肖申克的救赎692795剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节
1控方证人42995剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国
2美丽人生327855剧情/喜剧/爱情意大利1997-12-20 00:00:0011619979.5意大利
3阿甘正传580897剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映
4霸王别姬478523剧情/爱情/同性中国大陆1993-01-01 00:00:0017119939.4香港

🆗,下面来看describe

df.describe()
投票人数时长年代评分
count38726.00000038726.00000038726.00000038726.000000
mean6187.74221589.0543561998.7917166.935581
std26147.34419383.343070253.2312151.270203
min21.0000001.0000001888.0000002.000000
25%98.00000060.0000001990.0000006.300000
50%341.00000092.0000002005.0000007.100000
75%1741.000000106.0000002010.0000007.800000
max692795.00000011500.00000039180.0000009.900000

通过统计性描述,可以发现异常值

很显然,我不是来自几万年后的人,所以这个年代39180应该是异常值,还有这个最大时长11500,我得看接近10天才看完的电影maybe也不存在吧,也是异常值

df[df['年代']>2021]
名字投票人数类型产地上映时间时长年代评分首映地点
13880武之舞128纪录片中国大陆1997-02-01 00:00:0060349439.9美国
17113妈妈回来吧-中国打工村的孩子49纪录片日本2007-04-08 00:00:00109391808.9美国
df[df['时长']>1000]
名字投票人数类型产地上映时间时长年代评分首映地点
19688怒海余生54剧情/家庭/冒险美国1937-09-01 00:00:001150019377.9美国
38720喧闹村的孩子们36家庭瑞典1986-12-06 00:00:00920019868.7瑞典

直接删掉就行了,这时要删除的是index,注意下面的.index技巧

df.drop(df[df['年代']>2021].index,inplace=True)
df.drop(df[df['时长']>1000].index, inplace=True)

要注意的是删除行的同时,连带的索引也删掉了,所以要重新给索引赋值

#不太明确有多少行,用len
df.index=range(1,len(df)+1)
df.head()
名字投票人数类型产地上映时间时长年代评分首映地点
1肖申克的救赎692795剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节
2控方证人42995剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国
3美丽人生327855剧情/喜剧/爱情意大利1997-12-20 00:00:0011619979.5意大利
4阿甘正传580897剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映
5霸王别姬478523剧情/爱情/同性中国大陆1993-01-01 00:00:0017119939.4香港

2.最值

df['评分'].max()

运行结果:

9.9
df['评分'].min()

运行结果:

2.0
df['年代'].min()

运行结果:

1888

3.均值和中值

mean()均值 ,median()中位数

df['年代'].median()

运行结果:

2005.0
df['评分'].mean()

运行结果:

6.935382986415921
df['评分'].median()

运行结果:

7.1

4.方差和标准差

方差:var(),标准差:std()

df['评分'].var()

运行结果:

1.6131523403400334
df['评分'].std()

运行结果:

1.270099342705142

5.求和

df['时长'].sum()

运行结果:

3427850

6.相关系数,协方差

相关系数.corr(),协方差.cov()

这好像得到的是相关系数矩阵和协方差矩阵… 麻了…数学知识忘了

df[['年代','评分']].corr()

运行结果:

年代评分
年代1.000000-0.244311
评分-0.2443111.000000
df[['年代', '评分']].cov()
年代评分
年代397.391863-6.185716
评分-6.1857161.613152

7.计数

统计电影数量

len(df)

运行结果:

38722

想看一下这些电影来自多少个国家和地区

也就是说,产地这一列的取值有多少种(而不是有多少个)

.unique()统计唯一值的个数

df['产地'].unique()

运行结果:

array(['美国', '意大利', '中国大陆', '日本', '法国', '英国', '韩国', '中国香港', '阿根廷', '德国',
       '印度', '其他', '加拿大', '波兰', '泰国', '澳大利亚', '西班牙', '俄罗斯', '中国台湾', '荷兰',
       '丹麦', '比利时', 'USA', '苏联', '墨西哥', '巴西', '瑞典', '西德'], dtype=object)
len(df['产地'].unique())

运行结果:

28

由此可知,来自28个,但是好像有些重复,比如说美国和USA

那就可以用数据替换来合并数据

#把USA换成美国,  覆盖数据inplace=True 
df['产地'].replace('USA','美国',inplace=True)
df['产地'].unique()

运行结果:

array(['美国', '意大利', '中国大陆', '日本', '法国', '英国', '韩国', '中国香港', '阿根廷', '德国',
       '印度', '其他', '加拿大', '波兰', '泰国', '澳大利亚', '西班牙', '俄罗斯', '中国台湾', '荷兰',
       '丹麦', '比利时', '苏联', '墨西哥', '巴西', '瑞典', '西德'], dtype=object)

虽然有历史原因,emm,但我还是想把苏联换成俄罗斯,西德换成德国

一起换的话要用列表

df['产地'].replace(['西德','苏联'],['德国','俄罗斯'],inplace=True)

df['产地'].unique()

运行结果:

array(['美国', '意大利', '中国大陆', '日本', '法国', '英国', '韩国', '中国香港', '阿根廷', '德国',
       '印度', '其他', '加拿大', '波兰', '泰国', '澳大利亚', '西班牙', '俄罗斯', '中国台湾', '荷兰',
       '丹麦', '比利时', '墨西哥', '巴西', '瑞典'], dtype=object)
len(df['产地'].unique())

运行结果:

25

看一下涉及了多少年份

df['年代'].unique()

运行结果:

array([1994, 1957, 1997, 1993, 2012, 2013, 2003, 2016, 2009, 2008, 2001,
       1931, 1961, 2010, 2004, 1998, 1972, 1939, 2015, 1946, 2011, 1982,
       1960, 2006, 1988, 2002, 1995, 1996, 1984, 2014, 1953, 2007, 2000,
       1967, 1983, 1963, 1977, 1966, 1971, 1974, 1985, 1987, 1973, 1962,
       1969, 1989, 1979, 1981, 1936, 1954, 1992, 1970, 1991, 2005, 1920,
       1933, 1990, 1999, 1896, 1965, 1921, 1947, 1975, 1964, 1943, 1928,
       1986, 1895, 1949, 1932, 1919, 1956, 1955, 1951, 1905, 1940, 1908,
       1900, 1978, 1958, 1898, 1976, 1938, 1907, 1913, 1968, 1912, 1937,
       1952, 1903, 1948, 1926, 1906, 1959, 1934, 1944, 1888, 1909, 1925,
       1923, 1945, 1904, 1980, 1917, 1935, 1942, 1950, 1902, 1941, 1930,
       1922, 1916, 1929, 1927, 1914, 1924, 1918, 1899, 1901, 1915, 1892,
       1894, 1910, 1897, 1911, 1890])
len(df['年代'].unique())

运行结果:

126

如果要计算每一年的电影数量呢?

df['年代'].value_counts

运行结果:

<bound method IndexOpsMixin.value_counts of 1        1994
2        1957
3        1997
4        1994
5        1993
         ... 
38718    1983
38719    1935
38720    1986
38721    1986
38722    1977
Name: 年代, Length: 38722, dtype: int32>

查看电影产出前五的国家地区

df['产地'].value_counts()[:5]

运行结果:

美国      11976
日本       5048
中国大陆     3802
中国香港     2851
法国       2815
Name: 产地, dtype: int64

保存数据

试一试之前查的避免unnamed的方法

df.to_excel('movie_data2.xlsx',index=False)

四.数据透视

读取刚刚的数据

df2=pd.read_excel("movie_data2.xlsx")
df2.head()
名字投票人数类型产地上映时间时长年代评分首映地点
0肖申克的救赎692795剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节
1控方证人42995剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国
2美丽人生327855剧情/喜剧/爱情意大利1997-12-20 00:00:0011619979.5意大利
3阿甘正传580897剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映
4霸王别姬478523剧情/爱情/同性中国大陆1993-01-01 00:00:0017119939.4香港

确实,写入excel用index=False,读入excel用index_col=0,两者选其一即可

Excel中数据透视表的使用非常广泛,其实Pandas也

以上是关于pycharm中怎么检查movie.xlsx中重复的电影名称?的主要内容,如果未能解决你的问题,请参考以下文章

pandas入门

pycharm实现可视化后,在浏览器中出现404怎么解决

pycharm怎么退出演示模式

PyCharm怎么安装

pycharm意外实参怎么修复

pycharm没有代码提示怎么办