欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Datawhale Pandas研习社 第二次打卡记录

程序员文章站 2022-07-14 23:08:25
...

Datawhale Pandas研习社 第二次打卡记录

一、习题解答 (这里给出官方解答)

【练习】 现有一份关于口袋妖怪的数据集,请解决下列问题:

(a)双属性的Pokemon占总体比例的多少?

df['Type 2'].count()/df.shape[0]

(b)在所有种族值(Total)不小于580的Pokemon中,非神兽(Legendary=False)的比例为多少?

df.query('Total >= 580')['Legendary'].value_counts(normalize=True)

(c)在第一属性为格斗系(Fighting)的Pokemon中,物攻排名前三高的是哪些?

df[df['Type 1']=='Fighting'].sort_values(by='Attack',ascending=False).iloc[:3]

(d)请问六项种族指标(HP、物攻、特攻、物防、特防、速度)极差的均值最大的是哪个属性(只考虑第一属性,且均值是对属性而言)?(

df['range'] = df.iloc[:,5:11].max(axis=1)-df.iloc[:,5:11].min(axis=1)
attribute = df[['Type 1','range']].set_index('Type 1')
max_range = 0
result = ''
for i in attribute.index.unique():
    temp = attribute.loc[i,:].mean()
    if temp.values[0] > max_range:
        max_range = temp.values[0]
        result = i
result

(e)哪个属性(只考虑第一属性)神兽占总Pokemon的比例最高?该属性神兽的种族值也是最高的吗?

df.query('Legendary == True')['Type 1'].value_counts(normalize=True).index[0]
attribute = df.query('Legendary == True')[['Type 1','Total']].set_index('Type 1')
max_value = 0
result = ''
for i in attribute.index.unique()[:-1]:
    temp = attribute.loc[i,:].mean()
    if temp[0] > max_value:
        max_value = temp[0]
        result = i
result

二、学习体会

第二章主要讲的是pandas索引,实话说pandas包的索引功能真的有些复杂,可以包括多层索引等,功能十分强大。但是单就“数据预处理”这个环节来说,和R语言的tidyverse系列有很大不同,R更注重直接对数据进行整理、操纵、清洗,迅速让数据达到“整洁”——可建模的状态,相对来说,个人认为R的代码更灵活、更易读。如果实现同样一个数据清洗的工作,我认为R的代码量会比pandas少。但是反过来说,pandas能做的事情更多、功能更强大。
因为我个人是统计学背景,所以对R语言比较熟悉,学习python主要是为了在机器学习建模方面使用sklearn这个大杀器。从目前的学习经历来说,个人觉得R可以说是”包治百病“,有海量优秀的包,但是每个包功能其实并不多,因为很多R包都是为了解决某一些特定任务而设计的,这也符合R大神Hadlry所提倡的创造精神,比如觉得自己遇到什么想解决的问题就写个包,所以很多包只能解决特定问题,甚至tidyverse也是8个包组合成的一个系列,所以R包的特点就是“小而精”;而python不同,总共数据科学领域常用的包总共就这么几个,numpy、pandas、matplotlib、seaborn、sklearn等等,每个包都是“大而全",这也造成了对python每个包的学习要比R包的学习时间多得多。
说到底,两个都要会啊。就像你不可能因为爱吃米饭就再也不吃面条,或者因为爱吃面条就再也不吃米饭,两个都需要,只是个人更喜好的问题。

相关标签: Datawhale