Python数据分析常用函数及参数详解可以留着以备不时之需

  利用Python进行数据分析最核心的库就是Pandas,可以说,掌握了Pandas库,Python数据分析就属于中阶水平了。

  在《》一文中我们介绍了Python进行数据分析全流程的几个主要函数。但由于实际中的分析需求可能比较复杂,就要求对数据做更加复杂的处理。

  所以,我们有必要提前准备一些常用的函数,这些函数不用全部会,知道有这些函数,并做到在我们要实现数据处理逻辑时,知道有什么函数可用就够了。

  初学时最好习惯于写参数名称;根据函数的作用去理解它可以作用于哪种对象,又会返回何种对象;函数(也就是对象的方法)需要有括号,查看对象属性没有括号。axis=i,表示i维进行变化,而其他维度不变。例如,当i=0时,就是说行维度值进行变化,其它维度不变,这就表明是按列进行处理。

  为了便于我们掌握,我们结合数据分析的流程和其内部函数的作用,将其分为以下几类,具体见下图。

  pandas中有两种重要对象:Series和DataFrame。前者类似一维数组,后者可看成Excel中的表格数据。后文将用df表示任意的DataFrame对象,用s表示任意的Series对象,用pd表示pandas库。

  #要读取的文件名称是必须输入的参数,其余为可选项,header为要选取哪一行作为列名称,默认第一行

  #从Excel文件读入数据,增加了sheet_name参数的选项,代表要读取第几个工作表的数据

  数据筛选的本质无外乎就是根据行和列的特性来选择满足我们需求的数据,掌握这些基本的筛选方法就可以组合复杂的筛选方法。

  #获取从m~n-1行,iloc函数代表的是位置,即参数都是数字,代表第几行第几列

  数据处理的范畴很广,包含数据的统计汇总,也包含数据的转换,做这一块时脑中要同时进行抽象处理,便于查看逻辑是否有错。

  #按行或是按列拼接多个数据框或Series,axis=0为按列拼接,即增加在行下面,key添加层次化索引

  #可为df也可为s,按列添加,即添加行,ignor_index=False意思是都按照原先的行索引值

  #列旋转成行,也就是列名变为行索引名,原索引变成多层索引,evel表示选取哪个索引进行转换,-1表示最内层的索引,0表示第一层索引

  #类似于Excel中的数据透视表,index表示选择行,column是选择列,values是进行函数计算的列

  #periods为期数,注意不要冲突,freq为类型,种类有很多,默认是天,M为月尾,MS为月初

  函数还有很多,但都不太常见了。我们平时学习的时候可以养成记笔记的好习惯,即把出现的函数记下来,分门别类地汇总在一起,等记不清时就可以直接在汇总中查找了,闲暇时也可以瞅一瞅,这样次数多了后就会慢慢全部记住了。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注