点击查看【bilibili】
df positionId city companyId salary workYear0 2537336 上海 8581 7k-9k 应届毕业生1 2427485 上海 23177 10k-15k 应届毕业生2 2511252 上海 57561 4k-6k 应届毕业生3 2427530 上海 7502 6k-8k 应届毕业生4 2245819 上海 130876 2k-3k 应届毕业生... ... ... ... ... ...5026 2582910 北京 3786 15k-25k 3-5年5027 2583183 北京 59239 15K-30K 3-5年5028 1832950 北京 50702 30k-40k 5-10年5029 2582349 北京 156832 4k-6k 不限5030 1757974 北京 1575 15k-30k 不限5031 rows × 5 columns
前几行head(),倒数几行tail()
positionId city companyId salary workYear0 2537336 上海 8581 7k-9k 应届毕业生1 2427485 上海 23177 10k-15k 应届毕业生2 2511252 上海 57561 4k-6k 应届毕业生3 2427530 上海 7502 6k-8k 应届毕业生4 2245819 上海 130876 2k-3k 应届毕业生
转置,T
#转置,Tdf.T.head() 0 1 2 3 4 5 6 7 8 9 ... 5021 5022 5023 5024 5025 5026 5027 5028 5029 5030positionId 2537336 2427485 2511252 2427530 2245819 2580543 1449715 2568628 2416852 1605795 ... 2267253 2472967 2378458 2508187 636485 2582910 2583183 1832950 2582349 1757974city 上海 上海 上海 上海 上海 上海 上海 上海 上海 上海 ... 天津 天津 天津 天津 天津 北京 北京 北京 北京 北京companyId 8581 23177 57561 7502 130876 28095 2002 21863 121208 58109 ... 144782 92444 112379 32877 52887 3786 59239 50702 156832 1575salary 7k-9k 10k-15k 4k-6k 6k-8k 2k-3k 10k-15k 7k-14k 5k-7k 4k-8k 2k-4k ... 6k-8k 12k-20k 3k-4k 3k-5k 8k-15k 15k-25k 15K-30K 30k-40k 4k-6k 15k-30kworkYear 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 应届毕业生 ... 不限 不限 不限 不限 不限 3-5年 3-5年 5-10年 不限 不限5 rows × 5031 columns
基本信息,info()
df.info()<class 'pandas.core.frame.DataFrame'>RangeIndex: 5031 entries, 0 to 5030Data columns (total 5 columns):positionId 5031 non-null int64city 5031 non-null objectcompanyId 5031 non-null int64salary 5031 non-null objectworkYear 5031 non-null objectdtypes: int64(2), object(3)memory usage: 196.6+ KB
排序,sort_values, sort_index
#排序,sort_values和sort_indexdf.sort_values('positionId',ascending=False)positionId city companyId salary workYear5027 2583183 北京 59239 15K-30K 3-5年5026 2582910 北京 3786 15k-25k 3-5年4985 2582554 苏州 51527 10k-20k 3-5年5029 2582349 北京 156832 4k-6k 不限4564 2582102 杭州 57206 8k-15k 不限... ... ... ... ... ...2296 127572 北京 129 10k-18k 1-3年1916 120777 北京 21863 8k-16k 1-3年2305 108569 北京 129 10k-18k 1-3年3828 100561 北京 62 20k-40k 不限1006 80307 深圳 6718 8k-15k 1-3年5031 rows × 5 columns
排名,rank()
#排名,rank,默认是升序、mehtod=avgdf['rank']=df.salary.rank(ascending=False,methor=min)df.sort_values('salary',ascending=False) positionId city companyId salary workYear rank871 2521310 上海 154701 9k以上 不限 1.01563 2403326 北京 133765 9k-18k 应届毕业生 15.52153 2579739 北京 144668 9k-18k 1-3年 15.54488 1982864 杭州 4184 9k-18k 3-5年 15.54617 1952795 成都 23268 9k-18k 1-3年 15.5... ... ... ... ... ... ...3785 2469682 北京 151898 10K-20K 不限 5028.02021 2550969 北京 1575 10K-20K 1-3年 5028.03653 2474401 北京 151898 10K-20K 不限 5028.03632 2469338 北京 151898 10K-20K 不限 5028.03825 2465839 北京 151898 10K-20K 不限 5028.05031 rows × 6 columns
每一列的唯一值,unique()
df.city.unique()
array(['上海', '深圳', '北京', '广州', '杭州', '成都', '南京', '武汉', '西安', '厦门', '长沙',
'苏州', '天津'], dtype=object)
统计不同类别出现的次数,value_counts()
df.city.value_counts()
北京 2347
上海 979
深圳 527
杭州 406
广州 335
成都 135
南京 83
武汉 69
西安 38
苏州 37
厦门 30
长沙 25
天津 20
Name: city, dtype: int64
描述性统计数值,describe()
df.companyId.describe()
count 5031.000000
mean 57247.581594
std 47585.568414
min 43.000000
25% 14883.000000
50% 47063.000000
75% 100149.000000
max 157744.000000
Name: companyId, dtype: float64
累加,cumsum()
#累加
df['cumsum']=df.companyId.cumsum()
df
positionId city companyId salary workYear cumsum
0 2537336 上海 8581 7k-9k 应届毕业生 8581
1 2427485 上海 23177 10k-15k 应届毕业生 31758
2 2511252 上海 57561 4k-6k 应届毕业生 89319
3 2427530 上海 7502 6k-8k 应届毕业生 96821
4 2245819 上海 130876 2k-3k 应届毕业生 227697
... ... ... ... ... ... ...
5026 2582910 北京 3786 15k-25k 3-5年 287744235
5027 2583183 北京 59239 15K-30K 3-5年 287803474
5028 1832950 北京 50702 30k-40k 5-10年 287854176
5029 2582349 北京 156832 4k-6k 不限 288011008
5030 1757974 北京 1575 15k-30k 不限 288012583
5031 rows × 6 columns
分级统计,cut()
#分级统计,pd.cut()
df['bins']=pd.cut(df.companyId,bins=[0,10000,20000,40000,80000,157744],labels=['0~10000','10001~200000','20001~40000','40001~80000','800001~157744'])
df.sort_values('companyId',ascending=True)
positionId city companyId salary workYear cumsum bins
1629 2100781 北京 43 8k-15k 1-3年 95708372 0~10000
2177 1666634 北京 53 15k-25k 1-3年 129200189 0~10000
2063 2345435 北京 53 10k-20k 1-3年 121450623 0~10000
4656 1707663 成都 53 10k-15k 3-5年 263530660 0~10000
4677 1793663 成都 53 15k-20k 3-5年 265228136 0~10000
... ... ... ... ... ... ... ...
1628 2574813 北京 157426 6k-12k 1-3年 95708329 800001~157744
1801 2578326 北京 157453 4k-8k 1-3年 104970959 800001~157744
4758 2578503 南京 157647 5k以上 3-5年 271387643 800001~157744
3577 2579118 北京 157665 2k-4k 不限 201924836 800001~157744
4718 2580536 成都 157744 3K-6K 不限 268583406 800001~157744
5031 rows × 7 columns