欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

阿里巴巴AI - Pandas

程序员文章站 2023-09-17 23:23:33
Pandas的两个主要数据结构1.Series - 主要用于处理一维数据,一般由一个数组的数据构成。2.DataFrame - 主要用于处理二维数据。from pandas import Series, DataFrame-Seriesegimport pandas as pds1 = pd.Series([1,2,3,4])s1 // 0 1 1 2 2 3 3 4 dtype: int64s1.index//RangeIndex(star....

Pandas的两个主要数据结构

1.Series - 主要用于处理一维数据,一般由一个数组的数据构成。

2.DataFrame - 主要用于处理二维数据。

from pandas import Series, DataFrame

 -Series

eg
import pandas as pd
s1 = pd.Series([1,2,3,4])
s1 
// 0 1
   1 2
   2 3
   3 4 
   dtype: int64

s1.index
//RangeIndex(start=0, stop=4, step=1)

s1.values
//array([1,2,3,4])


#利用index
s2 = pd.Series([100,78,65,90],index=["Chinese","English","History","Maths"])
s2
// Chinese 100
   English  78
   History  65
   Maths    90
   dtype: int64

s2[["English","History"]] 
// English 78
   History 65
   dtype: int64


d1 = {"name":"John","Gender":"Male","Age":20}
s3 = pd.Series(d1)
#s3就跟平常的Series一样

-DataFrame

dfPerson = {'name':["Tom","Jack","Kitty","Eric"],'age':[20,21,20,21]}
personSheet = pd.DataFrame(dfPerson)

#形成了清晰的表格

//    name  age
  0    Tom   20
  1   Jack   21
  2  Kitty   20
  3   Eric   21


personSheet.head() #获取前五个数据

personSheet.columns  

personSheet.values

personSheet.age 


import bumpy as np
numframe = np.random.randn(10,5)  #10行5列
numSheet = pd.DataFrame(numframe)

- 传入数据

personInfo = pd.read_csv('dir',header=None,names=["column1",...,"columnN"])
#header = None 表示不将数据的第一行作为列名,且names自定义列名

personInfo = pd.read_excel('dir',headeNone,names=["","",...,""])

personInfo.shape #获取excel文件的行和列

-排序

dataSort = pd.Series(range(5), index=['b','a','e','c','d'])
 
dataSort.sort_index() #升序排列

dataSort.sort_index(ascending=False)  #降序排列

-分组

personInfoed = personInfo.groupby(['age'])


personInfoed.count() #求数量

 

 

 

 

 

 

本文地址:https://blog.csdn.net/weixin_43766746/article/details/107347969