Exce表格网

pandas提取excel一列数据(pandas提取列数据的方法)

来源:www.0djx.com  时间:2022-12-25 20:20   点击:159  编辑:表格网  手机版

1. pandas提取列数据的方法

1.requests库

用一句话总结就是:每个Python程序员都应该有它,爬取数据必备!

2.scrapy

提取结构化数据而创建的一个爬虫框架,是目前python社区最流行的爬虫框架之一

3.wxPython

Python的一个GUI(图形用户界面)工具

4.BeautifulSoup

xml和html的解析库对于新手非常有用

5.Pygame

哪个程序员不喜欢玩游戏和写游戏?这个库会让你在开发2D游戏的时候如虎添翼

6.Pyglet

3D动画和游戏开发引擎

7.NumPy

为Python提供了很多高级的数学方法

8.pandas

在数据操作和数据分析方面,Pandas绝无敌手。

9.Matplotlib

Matplotlib主要的作用,是用来生成绘图,直方图,功率谱,条形图,错误图,散点图等,而Matplotlib是一个Python的2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。

2. pandas获取列数据

Python批量读取特定文件夹下Excel的话,主要分为2步,首先根据后缀名(xls或xlsx)匹配出所有Excel文件,然后直接利用相关模块(pandas,openpyxl等)读取即可,下面我简单介绍一下实现过程,感兴趣的朋友可以尝试一下:

01

查找所有Excel文件

这一步非常简单,主要是根据后缀名匹配所有Excel文件,基本思路先使用os.walk函数遍历指定的文件夹,找到所有文件,然后一一匹配文件后缀名,如果是xls或xlsx,则为Excel文件,添加到list列表,之后返回,后面读取函数就是根据这个列表(存储所有搜索到的Excel文件路径)读取Excel文件:

02

读取Excel文件内容

这一步主要你是根据上一步找到的Excel文件路径直接读取Excel文件,至于读取模块或库的话,那就非常多啦,基本的xlrd,xlutils,openpyxl都行,最简单的方式就是使用pandas,一个著名的数据处理库,内置了大量函数和类型,可以轻松处理Excel等日常各种文件,安装的话,直接在cmd窗口输入命令“pip install pandas”即可:

安装完成后,我们就可以直接使用pandas库读取Excel文件了,非常简单,只需要一行代码即可搞定,也就是read_excel函数,传入Excel文件路径就行,默认情况下会读取列标题,如果你不需要列标题的话,设置header=None即可,读取的数据类型为DataFrame,后续处理的话,也非常方便:

至此,我们就完成了利用Python批量读取特定文件夹下Excel。总的来说,整个过程非常简单,就是根据后缀名匹配查找,然后直接读取即可,只要你有一定Python基础,熟悉一下上面的代码和示例,很快就能掌握的,网上也有相关教程和资料,介绍的非常详细,感兴趣的话,可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言进行补充。

3. python pandas取列

代码示例:

import pandas as pd

'''

pip install openpyxl xlwt pandas

'''

def create_excel():

# 按行插入数据,可以再write_data中append([]),

write_data = [

['1212',1,2,3]

]

write_data.append(['1211',1111,2,3])

# 表头格式

excel_list = ['id','A','B','C']

df = pd.DataFrame(write_data,

columns=excel_list)

xlsx_path = 'data_excel.xlsx'

# 生成表格对象

writer = pd.ExcelWriter(xlsx_path)

# 写数据,sheet_name:Excel名

df.to_excel(writer, sheet_name='完整性统计', index=False)

df2 = pd.DataFrame(write_data,

columns=excel_list)

df2.to_excel(writer, sheet_name='表2', index=False)

# 按列插入数据

df3 = pd.DataFrame({

'id':[123,122,121],

'姓名':['丁一','丁二','丁三'],

'年龄':[18,18,18]

}, columns=['id','姓名','年龄'])

df3.to_excel(writer, sheet_name='性别年龄', index=False)

# 保存数据

writer.save()

4. pandas提取某一列

用pandas库, import pandas as pd data = pd.read_csv('train.csv') train_data = data.values[0:TRAIN_NUM,1:] train_label = data.values[0:TRAIN_NUM,0] study.163.com/course/courseMain.htm?courseId=1000035 机器学习正好讲了这个手写识别的例子

5. pandas提取某一列的值

Python是进行数据分析的一种出色语言,主要是因为以数据为中心的python软件包具有奇妙的生态系统。 Pandas是其中的一种,使导入和分析数据更加容易。

Pandas dataframe.info()函数用于获取 DataFrame 的简要摘要。在对数据进行探索性分析时,它非常方便。为了快速浏览数据集,我们使用dataframe.info()功能。

6. pandas 取列方法

dataframe是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。

dataframe既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。

dataframe构造方法如下:

pandas.DataFrame( data, index, columns, dtype, copy)

参数说明:

data:一组数据(ndarray、series, map, lists, dict 等类型)。

index:索引值,或者可以称为行标签。

columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。

dtype:数据类型。

copy:拷贝数据,默认为 False。

Pandas DataFrame 是一个二维的数组结构,类似二维数组。

7. pandas取一列数据

data['cumsum']=data['x'].cumsum() 那我就举个例子说明一下吧! 比如删除以下DataFrame的后两列: 0 1 2 0 1 0 1 1 0 0 1 2 1 0 1 3 0 0 1 4 0 0 1 然后这样写:df.ix[:,~((df==1).all()|(df==0).all())]

顶一下
(0)
0%
踩一下
(0)
0%
相关评论
我要评论
用户名: 验证码:点击我更换图片