bokeh.sampledata#

bokeh.sampledata 模块公开了示例和文档中使用的数据集。某些数据集需要单独安装。要使用 pip 安装这些数据集,请执行以下命令

pip install bokeh_sampledata

anscombe#

构成 安斯库姆四重奏 的四个数据序列。

许可证:CC BY-SA 3.0

来源:https://en.wikipedia.org/wiki/Anscombe%27s_quartet

此模块包含一个 pandas Dataframe:data

data

Ix Iy IIx IIy IIIx IIIy IVx IVy
0 10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
1 8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
2 13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
3 9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
4 11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47

示例

antibiotics#

威尔·伯廷的历史数据 表格,关于抗生素的功效。

许可证:MIT 许可证

来源:https://bl.ocks.org/borgar/cd32f1d804951034b224

此模块包含一个 pandas Dataframe:data

data

细菌 青霉素 链霉素 新霉素 革兰氏 开始 结束 颜色
0 结核分枝杆菌 800.0 5.0 2.00 阴性 1.016398 1.385997 #e69584
1 鼠伤寒沙门氏菌 10.0 0.8 0.09 阴性 0.646798 1.016398 #e69584
2 普通变形杆菌 3.0 0.1 0.10 阴性 0.277199 0.646798 #e69584
3 肺炎克雷伯菌 850.0 1.2 1.00 阴性 -0.092400 0.277199 #e69584
4 布鲁氏菌 1.0 2.0 0.02 阴性 -0.461999 -0.092400 #e69584

示例

burtin

airport_routes#

来自 OpenFlights.org 的机场航线数据。

许可证:ODbL 1.0

来源:https://openflights.org/data.html,于 2017 年 9 月 7 日获取。

此模块包含两个 pandas Dataframe:airportsroutes

airports

名称 城市 国家 IATA ICAO 纬度 经度 海拔 时区 夏令时 TZ 类型 来源
索引
3411 巴特岛远程雷达站机场 巴特岛 美国 BTI PABA 70.134003 -143.582001 2 -9 A America/Anchorage 机场 OurAirports
3413 利斯本角远程雷达站机场 利斯本角 美国 LUR PALU 68.875099 -166.110001 16 -9 A America/Anchorage 机场 OurAirports
3414 莱伊角远程雷达站机场 莱伊角 美国 PIZ PPIZ 69.732903 -163.005005 22 -9 A America/Anchorage 机场 OurAirports
3415 希洛国际机场 希洛 美国 ITO PHTO 19.721399 -155.048004 38 -10 N Pacific/Honolulu 机场 OurAirports
3416 奥兰多行政机场 奥兰多 美国 ORL KORL 28.545500 -81.332901 113 -5 A America/New_York 机场 OurAirports

routes

航空公司 航空公司 ID 出发地 开始 目的地 结束 代码共享 经停次数 设备
0 2O 146 ADQ 3531 KLN 7162 NaN 0 BNI
1 2O 146 KLN 7162 KYK 7161 NaN 0 BNI
2 3E 10739 BRL 5726 ORD 3830 NaN 0 CNC
3 3E 10739 BRL 5726 STL 3678 NaN 0 CNC
4 3E 10739 DEC 4042 ORD 3830 NaN 0 CNC

示例

airports#

海拔 > 1500 米的美国机场。

许可证:公有领域

来源:USGS 服务 http://services.nationalmap.gov,于 2015 年 10 月 15 日获取。

此模块包含一个 pandas Dataframe:data

data

名称 海拔 x y
0 钦利市立机场 1691 -1.219788e+07 4.315889e+06
1 伊利机场/耶兰德机场 1908 -1.278414e+07 4.764692e+06
2 特拉基-太浩机场 1798 -1.337387e+07 4.767619e+06
3 加菲尔德县地区机场 1691 -1.199211e+07 4.797343e+06
4 圣塔菲市立机场 1935 -1.180982e+07 4.248063e+06

示例

autompg#

Auto MPG 数据集的一个版本。

许可证:CC0

来源:https://archive.ics.uci.edu/ml/datasets/auto+mpg

此模块包含两个 pandas Dataframe:autompgautompg_clean。“clean”版本清理了 "mfr""origin" 字段。

autompg

mpg cyl displ hp weight accel yr origin 名称
0 18.0 8 307.0 130 3504 12.0 70 1 雪佛兰切维尔马力布
1 15.0 8 350.0 165 3693 11.5 70 1 别克云雀 320
2 18.0 8 318.0 150 3436 11.0 70 1 普利茅斯卫星
3 16.0 8 304.0 150 3433 12.0 70 1 美国汽车公司叛逆者 SST
4 17.0 8 302.0 140 3449 10.5 70 1 福特都灵

autompg_clean

mpg cyl displ hp weight accel yr origin 名称 mfr
0 18.0 8 307.0 130 3504 12.0 70 北美 雪佛兰切维尔马力布 雪佛兰
1 15.0 8 350.0 165 3693 11.5 70 北美 别克云雀 320 别克
2 18.0 8 318.0 150 3436 11.0 70 北美 普利茅斯卫星 普利茅斯
3 16.0 8 304.0 150 3433 12.0 70 北美 美国汽车公司叛逆者 SST 美国汽车公司
4 17.0 8 302.0 140 3449 10.5 70 北美 福特都灵 福特

示例

kde2d

autompg2#

Auto MPG 数据集的一个版本。

许可证:CC0

来源:https://archive.ics.uci.edu/ml/datasets/auto+mpg

此模块包含一个 pandas Dataframe:autompg

autompg2

未命名:0 制造商 型号 displ 年份 cyl 变速器 驱动方式 城市 高速公路 燃油 车型
0 1 奥迪 A4 1.8 1999 4 自动(L5) 前轮驱动 18 29 p 紧凑型
1 2 奥迪 A4 1.8 1999 4 手动(M5) 前轮驱动 21 29 p 紧凑型
2 3 奥迪 A4 2.0 2008 4 手动(M6) 前轮驱动 20 31 p 紧凑型
3 4 奥迪 A4 2.0 2008 4 自动(AV) 前轮驱动 21 30 p 紧凑型
4 5 奥迪 A4 2.8 1999 6 自动(L5) 前轮驱动 16 26 p 紧凑型

示例

browsers#

2013 年 11 月各版本浏览器市场份额。

许可证:CC BY-SA 3.0

来源:http://gs.statcounter.com/#browser_version-ww-monthly-201311-201311-bar

图标图片来源:alrra/browser-logos

此模块包含一个 pandas Dataframe:browsers_nov_2013

browsers_nov_2013

版本 份额 浏览器 版本号
0 Chrome 30.0 18.51 Chrome 30.0
1 Chrome 31.0 17.31 Chrome 31.0
2 Firefox 25.0 11.21 Firefox 25.0
3 IE 10.0 11.10 IE 10.0
4 IE 8.0 8.65 IE 8.0

该模块还包含一个字典 icons,其中包含 Chrome、Firefox、Safari、Opera 和 IE 徽标的 base64 编码 PNG。

示例

donut

commits#

2012 年至 2016 年期间 GitHub 用户的提交时间序列。

许可证:公有领域

此模块包含一个 pandas Dataframe:data

data

日期 时间
日期时间
2017-04-22 15:11:58-05:00 星期六 15:11:58
2017-04-21 14:20:57-05:00 星期五 14:20:57
2017-04-20 14:35:08-05:00 星期四 14:35:08
2017-04-20 10:34:29-05:00 星期四 10:34:29
2017-04-20 09:17:23-05:00 星期四 09:17:23

示例

cows#

五种牛品种牛奶中的乳脂百分比。

许可证:公有领域

此模块包含一个 pandas Dataframe:data

data

乳脂 年龄 品种
0 3.74 成熟 爱尔夏
1 4.01 成熟 爱尔夏
2 3.77 成熟 爱尔夏
3 3.78 成熟 爱尔夏
4 4.10 成熟 爱尔夏

示例

daylight#

提供 2013 年华沙的日照时间。

许可证:免费使用和再分发(详情请参阅 此常见问题解答)。

来源:http://www.sunrisesunset.com

此模块包含一个 pandas Dataframe:daylight_warsaw_2013

daylight_warsaw_2013

日期 日出 日落 夏季
0 2013-01-01 07:45:00 15:34:00 0
1 2013-01-02 07:45:00 15:35:00 0
2 2013-01-03 07:45:00 15:36:00 0
3 2013-01-04 07:45:00 15:37:00 0
4 2013-01-05 07:44:00 15:38:00 0

示例

span

degrees#

提供关于女性获得学士学位的数据表。

数据按给定年份的领域细分。

许可证:CC0

来源:https://www.kaggle.com/datasets/sureshsrinivas/bachelorsdegreewomenusa

此模块包含一个 pandas Dataframe:data

data

年份 农业 建筑学 艺术与表演 生物学 商业 传播与新闻学 计算机科学 教育 工程学 英语 外语 健康专业 数学与统计学 物理科学 心理学 公共管理 社会科学与历史
0 1970 4.229798 11.921005 59.7 29.088363 9.064439 35.3 13.6 74.535328 0.8 65.570923 73.8 77.1 38.0 13.8 44.4 68.4 36.8
1 1971 5.452797 12.003106 59.9 29.394403 9.503187 35.5 13.6 74.149204 1.0 64.556485 73.9 75.5 39.0 14.9 46.2 65.5 36.2
2 1972 7.420710 13.214594 60.4 29.810221 10.558962 36.6 14.9 73.554520 1.2 63.664263 74.6 76.9 40.2 14.8 47.6 62.6 36.1
3 1973 9.653602 14.791613 60.2 31.147915 12.804602 38.4 16.4 73.501814 1.6 62.941502 74.9 77.4 40.9 16.5 50.4 64.3 36.4
4 1974 14.074623 17.444688 61.9 32.996183 16.204850 40.5 18.9 73.336811 2.2 62.413412 75.3 77.9 41.8 18.2 52.6 66.1 37.3

emissions#

1950 年至 2012 年选定国家的二氧化碳排放量。请注意,并非所有国家/地区都具有整个时间范围的值。

许可证:公有领域

此模块包含一个 pandas Dataframe:data

data

国家 年份 排放量
0 阿富汗 1950.0 0.010346
1 阿尔巴尼亚 1950.0 0.244444
2 阿尔及利亚 1950.0 0.432728
3 安哥拉 1950.0 0.045087
4 阿根廷 1950.0 1.746283

示例

forensic_glass#

法医玻璃样本中矿物质含量的相关性。

许可证:公有领域

此模块包含一个 pandas Dataframe:data

data

RI Na Mg Al Si K Ca Ba Fe 类型
0 3.01 13.64 4.49 1.10 71.78 0.06 8.75 0.0 0.0 WinF
1 -0.39 13.89 3.60 1.36 72.73 0.48 7.83 0.0 0.0 WinF
2 -1.82 13.53 3.55 1.54 72.99 0.39 7.78 0.0 0.0 WinF
3 -0.34 13.21 3.69 1.29 72.61 0.57 8.22 0.0 0.0 WinF
4 -0.58 13.27 3.62 1.24 73.08 0.55 8.07 0.0 0.0 WinF

示例

gapminder#

来自 Gapminder 的四个数据集。

许可证:CC BY 2.0

来源:https://www.gapminder.org/data/

此模块包含四个 pandas Dataframe:fertilitylife_expectancypopulationregions

fertility

1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
国家
阿富汗 7.671 7.671 7.671 7.671 7.671 7.671 7.671 7.671 7.671 7.671 7.671 7.671 7.670 7.670 7.670 7.669 7.669 7.670 7.671 7.673 7.676 7.679 7.681 7.682 7.682 7.682 7.687 7.700 7.725 7.758 7.796 7.832 7.859 7.869 7.854 7.809 7.733 7.623 7.484 7.321 7.136 6.930 6.702 6.456 6.196 5.928 5.659 5.395 5.141 4.900
阿尔巴尼亚 5.711 5.594 5.483 5.376 5.268 5.160 5.050 4.933 4.809 4.677 4.538 4.393 4.244 4.094 3.947 3.807 3.678 3.562 3.460 3.372 3.297 3.233 3.177 3.126 3.075 3.023 2.970 2.917 2.867 2.819 2.772 2.723 2.670 2.611 2.543 2.467 2.383 2.291 2.195 2.097 2.004 1.919 1.849 1.796 1.761 1.744 1.741 1.748 1.760 1.771
阿尔及利亚 7.653 7.655 7.657 7.658 7.657 7.652 7.641 7.622 7.591 7.548 7.492 7.422 7.339 7.244 7.138 7.021 6.889 6.741 6.576 6.392 6.192 5.976 5.747 5.508 5.263 5.014 4.761 4.503 4.238 3.971 3.705 3.449 3.207 2.987 2.794 2.634 2.514 2.439 2.407 2.412 2.448 2.507 2.580 2.656 2.725 2.781 2.817 2.829 2.820 2.795
美属萨摩亚 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
安道尔 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN

life_expectancy

1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
国家
阿富汗 33.639 34.152 34.662 35.170 35.674 36.172 36.663 37.143 37.614 38.075 38.529 38.977 39.417 39.855 40.298 40.756 41.242 41.770 42.347 42.977 43.661 44.400 45.192 46.024 46.880 47.744 48.601 49.439 50.247 51.017 51.738 52.400 52.995 53.527 54.009 54.449 54.863 55.271 55.687 56.122 56.583 57.071 57.582 58.102 58.618 59.124 59.612 60.079 60.524 60.947
阿尔巴尼亚 65.475 65.863 66.122 66.316 66.500 66.702 66.948 67.251 67.595 67.966 68.356 68.748 69.121 69.459 69.753 70.001 70.218 70.426 70.646 70.886 71.144 71.398 71.615 71.770 71.853 71.870 71.842 71.799 71.779 71.813 71.920 72.117 72.415 72.796 73.235 73.713 74.200 74.664 75.081 75.437 75.725 75.949 76.124 76.278 76.433 76.598 76.780 76.979 77.185 77.392
阿尔及利亚 47.953 48.389 48.806 49.205 49.592 49.976 50.366 50.767 51.195 51.670 52.213 52.861 53.656 54.605 55.697 56.907 58.198 59.524 60.826 62.051 63.160 64.120 64.911 65.554 66.072 66.479 66.796 67.049 67.265 67.468 67.674 67.893 68.123 68.350 68.565 68.769 68.963 69.149 69.330 69.508 69.682 69.854 70.020 70.180 70.332 70.477 70.615 70.747 70.874 71.000
美属萨摩亚 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN
安道尔 NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN NaN

population

1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
国家
阿富汗 10474903.0 10697983.0 10927724.0 11163656.0 11411022.0 11676990.0 11964906.0 12273101.0 12593688.0 12915499.0 13223928.0 13505544.0 13766792.0 14003408.0 14179656.0 14249493.0 14185729.0 13984092.0 13672870.0 13300056.0 12931791.0 12625292.0 12372113.0 12183387.0 12156685.0 12414686.0 13032161.0 14069854.0 15472076.0 17053213.0 18553819.0 19789880.0 20684982.0 21299350.0 21752257.0 22227543.0 22856302.0 23677385.0 24639841.0 25678639.0 26693486.0 27614718.0 28420974.0 29145841.0 29839994.0 30577756.0 31411743.0 32358260.0 33397058.0 34499915.0
阿尔巴尼亚 1817098.0 1869942.0 1922993.0 1976140.0 2029314.0 2082474.0 2135599.0 2188650.0 2241623.0 2294578.0 2347607.0 2400801.0 2454255.0 2508026.0 2562121.0 2616530.0 2671300.0 2725029.0 2777592.0 2831682.0 2891004.0 2957390.0 3033393.0 3116009.0 3194854.0 3255859.0 3289483.0 3291695.0 3266983.0 3224901.0 3179442.0 3141102.0 3112597.0 3091902.0 3079037.0 3072725.0 3071856.0 3077378.0 3089778.0 3106701.0 3124861.0 3141800.0 3156607.0 3169665.0 3181397.0 3192723.0 3204284.0 3215988.0 3227373.0 3238316.0
阿尔及利亚 11654905.0 11923002.0 12229853.0 12572629.0 12945462.0 13338918.0 13746185.0 14165889.0 14600659.0 15052371.0 15524137.0 16018195.0 16533323.0 17068212.0 17624756.0 18205468.0 18811199.0 19442423.0 20095648.0 20762767.0 21433070.0 22098298.0 22753511.0 23398470.0 24035237.0 24668100.0 25299182.0 25930560.0 26557969.0 27169903.0 27751086.0 28291591.0 28786855.0 29242917.0 29673694.0 30099010.0 30533827.0 30982214.0 31441848.0 31913462.0 32396048.0 32888449.0 33391954.0 33906605.0 34428028.0 34950168.0 35468208.0 35980193.0 36485828.0 36983924.0
美属萨摩亚 22672.0 23480.0 24283.0 25087.0 25869.0 26608.0 27288.0 27907.0 28470.0 28983.0 29453.0 29897.0 30305.0 30696.0 31139.0 31727.0 32526.0 33557.0 34797.0 36203.0 37706.0 39253.0 40834.0 42446.0 44048.0 45595.0 47052.0 48402.0 49648.0 50801.0 51885.0 52919.0 53901.0 54834.0 55745.0 56667.0 57625.0 58633.0 59687.0 60774.0 61871.0 62962.0 64045.0 65130.0 66217.0 67312.0 68420.0 69543.0 70680.0 71834.0
安道尔 17438.0 18529.0 19640.0 20772.0 21931.0 23127.0 24364.0 25656.0 26997.0 28357.0 29688.0 30967.0 32156.0 33279.0 34432.0 35753.0 37328.0 39226.0 41390.0 43636.0 45702.0 47414.0 48653.0 49504.0 50236.0 51241.0 52773.0 54996.0 57767.0 60670.0 63111.0 64699.0 65227.0 64905.0 64246.0 63985.0 64634.0 66390.0 69043.0 72203.0 75292.0 77888.0 79874.0 81390.0 82577.0 83677.0 84864.0 86165.0 87518.0 88909.0

regions

ID
国家
安哥拉 撒哈拉以南非洲 AO
贝宁 撒哈拉以南非洲 BJ
博茨瓦纳 撒哈拉以南非洲 BW
布基纳法索 撒哈拉以南非洲 BF
布隆迪 撒哈拉以南非洲 BI

glucose#

血液葡萄糖测量值的 CSV 时间序列。

此模块包含一个 pandas Dataframe:data

data

isig 葡萄糖
日期时间
2010-03-24 09:51:00 22.59 258
2010-03-24 09:56:00 22.52 260
2010-03-24 10:01:00 22.23 258
2010-03-24 10:06:00 21.56 254
2010-03-24 10:11:00 20.79 246

示例

haar_cascade#

提供用于面部识别的 Haar 级联文件。

许可证:MIT 许可证

来源:OpenCV 项目。

此模块包含一个属性 frontalface_default_path。使用此属性可获取 Haar 级联文件的路径,该文件用于 OpenCV 可以使用的正面人脸识别。

iris#

提供 费舍尔鸢尾花数据集

许可证:CC0

来源:https://www.kaggle.com/datasets/arshid/iris-flower-dataset

此模块包含一个 pandas Dataframe:flowers

注意

维护此示例数据是为了历史兼容性。请考虑 鸢尾花的替代品,例如 企鹅

flowers

花萼长度 花萼宽度 花瓣长度 花瓣宽度 种类
0 5.1 3.5 1.4 0.2 山鸢尾
1 4.9 3.0 1.4 0.2 山鸢尾
2 4.7 3.2 1.3 0.2 山鸢尾
3 4.6 3.1 1.5 0.2 山鸢尾
4 5.0 3.6 1.4 0.2 山鸢尾

示例

iris

lincoln#

2016 年内布拉斯加州林肯的平均每日气温。

许可证:公有领域

此模块包含一个 pandas Dataframe:data

data

站点 名称 日期 最高气温 最低气温 平均气温 月份
0 USW00094996 林肯西南 11 英里,内布拉斯加州,美国 2016-01-01 36.0 15.0 25.5 一月
1 USW00094996 林肯西南 11 英里,内布拉斯加州,美国 2016-01-02 39.0 18.0 28.5 一月
2 USW00094996 林肯西南 11 英里,内布拉斯加州,美国 2016-01-03 32.0 15.0 23.5 一月
3 USW00094996 林肯西南 11 英里,内布拉斯加州,美国 2016-01-04 27.0 15.0 21.0 一月
4 USW00094996 林肯西南 11 英里,内布拉斯加州,美国 2016-01-05 40.0 21.0 30.5 一月

示例

les_mis#

提供悲惨世界中人物同现的 JSON 数据。

许可证:CC BY-ND 4.0

来源:http://ftp.cs.stanford.edu/pub/sgb/jean.dat

此模块包含一个字典:data

data

{
    'nodes': [
        {'name': 'Myriel', 'group': 1},
        ...
        {'name': 'Mme.Hucheloup', 'group': 8}
    ],
    'links': [
        {'source': 1, 'target': 0, 'value': 1},
        ...
        {'source': 76, 'target': 58, 'value': 1}
    ]
}

示例

movies_data#

来自 开放电影数据库 的一小部分数据。

许可证:CC BY-NC 4.0

来源:http://www.omdbapi.com

此模块具有一个属性 movie_path。此属性包含包含数据的 SQLite 数据库的路径。

mtb#

东欧自行车赛的路线数据(包括海拔)。

来源:https://bikemaraton.com.pl

此模块包含一个 pandas Dataframe:obiszow_mtb_xcm

obiszow_mtb_xcm

经度 纬度 海拔
0 16.116775 51.578265 118.0
1 16.116741 51.578265 118.0
2 16.116776 51.578253 118.0
3 16.116792 51.578223 119.0
4 16.116584 51.578058 119.0

示例

trail

olympics2014#

提供 2014 年奥运会各国奖牌计数。

来源:2014 年的公共新闻来源。

此模块包含一个字典:data

该字典有一个键 "data",其中列出了子字典,每个国家/地区一个

{
    'abbr': 'DEU',
    'medals': {'total': 15, 'bronze': 4, 'gold': 8, 'silver': 3},
    'name': 'Germany'
}

penguins#

提供来自 帕默群岛(南极洲)企鹅数据集 的数据。

许可证:CC0

来源:mwaskom/seaborn-data

此模块包含一个 pandas Dataframe:data

data

种类 岛屿 喙长 (毫米) 喙深 (毫米) 鳍肢长 (毫米) 体重 (克) 性别 颜色
0 阿德利企鹅 托格森岛 39.1 18.7 181.0 3750.0 男性 红色
1 阿德利企鹅 托格森岛 39.5 17.4 186.0 3800.0 女性 红色
2 阿德利企鹅 托格森岛 40.3 18.0 195.0 3250.0 女性 红色
3 阿德利企鹅 托格森岛 NaN NaN NaN NaN NaN 红色
4 阿德利企鹅 托格森岛 36.7 19.3 193.0 3450.0 女性 红色

示例

splom

perceptions#

提供对 probly.csvnumberly.csv 的访问。

许可证:MIT 许可证

来源:zonination/perceptions

此模块包含两个 pandas Dataframe:problynumberly

probly

几乎肯定 极有可能 很有可能 很可能 可能 大概 我们相信 胜算较大 势均力敌 我们怀疑 不太可能 不太可能 可能不是 机会渺茫 几乎没有机会 极不可能 机会渺茫
0 95.0 80 85 75 66 75 66 55.0 50 40 20.0 30 15.0 20 5.0 25 25
1 95.0 75 75 51 75 51 51 51.0 50 20 49.0 25 49.0 5 5.0 10 5
2 95.0 85 85 70 75 70 80 60.0 50 30 10.0 25 25.0 20 1.0 5 15
3 95.0 85 85 70 75 70 80 60.0 50 30 10.0 25 25.0 20 1.0 5 15
4 98.0 95 80 70 70 75 65 60.0 50 10 50.0 5 20.0 5 1.0 2 10

numberly

几个 一些 几十个 许多 一些 几个 许多 几分之几 几十个 数百个
0 2 3 30 20 4 7 12 0.15 80 250
1 2 3 24 12 6 10 50 0.50 40 200
2 2 5 30 15 5 4 25 0.25 500 500
3 2 5 30 15 5 4 25 0.25 500 500
4 2 3 48 50 3 5 5 0.01 100000 599

示例

periodic_table#

提供元素周期表数据集。

许可证:公有领域

此模块包含一个 pandas Dataframe:elements

elements

原子序数 符号 名称 原子质量 CPK 电子排布 电负性 原子半径 离子半径 范德华半径 IE-1 EA 标准状态 成键类型 熔点 沸点 密度 金属 发现年份 周期
0 1 H 1.00794 #FFFFFF 1s1 2.20 37.0 NaN 120.0 1312.0 -73.0 气态 双原子分子 14.0 20.0 0.00009 非金属 1766 1 1
1 2 He 4.002602 #D9FFFF 1s2 NaN 32.0 NaN 140.0 2372.0 0.0 气态 原子 NaN 4.0 0.00000 稀有气体 1868 18 1
2 3 Li 6.941 #CC80FF [He] 2s1 0.98 134.0 76 (+1) 182.0 520.0 -60.0 固态 金属键 454.0 1615.0 0.54000 碱金属 1817 1 2
3 4 Be 9.012182 #C2FF00 [He] 2s2 1.57 90.0 45 (+2) NaN 900.0 0.0 固态 金属键 1560.0 2743.0 1.85000 碱土金属 1798 2 2
4 5 B 10.811 #FFB5B5 [He] 2s2 2p1 2.04 82.0 27 (+3) NaN 801.0 -27.0 固态 共价网络 2348.0 4273.0 2.46000 准金属 1807 13 2

示例

population#

按年龄、性别和国家/地区划分的历史和预测人口数据。

许可证:CC BY 3.0 IGO

来源:https://population.un.org/wpp/Download/Standard/Population/

此模块包含一个 pandas Dataframe:data

data

地点 ID 地点 年份 性别 年龄组 年龄组起始 数值
0 4 阿富汗 1950 男性 0-4 0 662064.0
1 4 阿富汗 1950 男性 5-9 5 508166.0
2 4 阿富汗 1950 男性 10-14 10 444396.0
3 4 阿富汗 1950 男性 15-19 15 390480.0
4 4 阿富汗 1950 男性 20-24 20 337318.0

sample_geojson#

提供英国 NHS 英格兰区域团队的 geojson 数据。

许可证:开放政府许可

来源:JeniT/nhs-choices

2015 年 11 月 14 日从 NHS Choices 获取的数据快照。

示例

sample_superstore#

提供示例超市数据集。

许可证:CC0

来源:https://www.kaggle.com/datasets/arshid/iris-flower-dataset

此模块包含一个 pandas Dataframe:data

data

货运方式 线段 国家 城市 邮政编码 地区 类别 子类别 销售额 数量 折扣 利润
0 二级 消费者 美国 亨德森 肯塔基州 42420 南部 家具 书架 261.9600 2 0.00 41.9136
1 二级 消费者 美国 亨德森 肯塔基州 42420 南部 家具 椅子 731.9400 3 0.00 219.5820
2 二级 公司 美国 洛杉矶 加利福尼亚州 90036 西部 办公用品 标签 14.6200 2 0.00 6.8714
3 标准级 消费者 美国 劳德代尔堡 佛罗里达州 33311 南部 家具 桌子 957.5775 5 0.45 -383.0310
4 标准级 消费者 美国 劳德代尔堡 佛罗里达州 33311 南部 办公用品 存储 22.3680 2 0.20 2.5164

示例

sea_surface_temperature#

历史平均海面温度的时间序列。

许可证:免费使用和再分发(详情请参阅 此表)。

来源:http://www.neracoos.org/erddap/tabledap/index.html(表 B01_sbe37_all

此模块包含一个 pandas Dataframe:sea_surface_temperature

sea_surface_temperature

温度
时间
2016-02-15 00:00:00+00:00 4.929
2016-02-15 00:30:00+00:00 4.887
2016-02-15 01:00:00+00:00 4.821
2016-02-15 01:30:00+00:00 4.837
2016-02-15 02:00:00+00:00 4.830

sprint#

历届奥运会短跑比赛的成绩(按年份)。

来源:公共新闻来源。

此模块包含一个 pandas Dataframe:sprint

sprint

名称 国家 奖牌 时间 年份 缩写 速度 落后米数 奖牌填充色 奖牌边框色 选择的姓名
0 尤塞恩·博尔特 牙买加 金牌 9.63 2012 牙买加 10.384216 0.000000 #efcf6d #c8a850
1 约翰·布雷克 牙买加 银牌 9.75 2012 牙买加 10.256410 1.230769 #cccccc #b0b0b1
2 贾斯汀·加特林 美国 铜牌 9.79 2012 美国 10.214505 1.634321 #c59e8a #98715d
3 尤塞恩·博尔特 牙买加 金牌 9.69 2008 牙买加 10.319917 0.619195 #efcf6d #c8a850
4 理查德·汤普森 特立尼达和多巴哥 银牌 9.89 2008 特立尼达和多巴哥 10.111223 2.628918 #cccccc #b0b0b1

示例

sprint

titanic#

泰坦尼克号乘客的人口统计详情。

许可证:公有领域

此模块包含一个 pandas Dataframe:data

data

名称 车型 年龄 性别 是否幸存
0 艾伦,伊丽莎白·沃尔顿小姐 头等舱 29.00 女性 1
1 艾莉森,海伦·洛琳小姐 头等舱 2.00 女性 0
2 艾莉森,哈德逊·约书亚·克莱顿先生 头等舱 30.00 男性 0
3 艾莉森,哈德逊·JC 夫人(贝西·沃尔多·丹尼尔斯) 头等舱 25.00 女性 0
4 艾莉森,哈德逊·特雷弗少爷 头等舱 0.92 男性 1

示例

stocks#

提供选定股票的历史股票代码数据。

来源:公共新闻来源。

此模块包含五个字典:AAPLFBGOOGIBMMSFT

每个字典都具有以下结构

AAPL['date']       # list of date string
AAPL['open']       # list of float
AAPL['high']       # list of float
AAPL['low']        # list of float
AAPL['close']      # list of float
AAPL['volume']     # list of int
AAPL['adj_close']  # list of float

示例

bounds
stocks

unemployment#

2009 年美国各县失业数据。

许可证:公有领域

来源:https://www.bls.gov

此模块包含一个字典:data

该字典以包含 (state_id, county_id) 的二元组为索引,并将失业率 (2009) 作为值。

{
    (1, 1): 9.7,
    (1, 3): 9.1,
    ...
}

示例

unemployment1948#

1948 年至 2013 年美国每月和每年的失业率数据。

许可证:公有领域

来源:https://www.bls.gov

此模块包含一个 pandas Dataframe:data

data

年份 一月 二月 三月 四月 五月 六月 七月 八月 九月 十月 十一月 十二月 年度
0 1948 4.0 4.7 4.5 4.0 3.4 3.9 3.9 3.6 3.4 2.9 3.3 3.6 3.8
1 1949 5.0 5.8 5.6 5.4 5.7 6.4 7.0 6.3 5.9 6.1 5.7 6.0 5.9
2 1950 7.6 7.9 7.1 6.0 5.3 5.6 5.3 4.1 4.0 3.3 3.8 3.9 5.3
3 1951 4.4 4.2 3.8 3.2 2.9 3.4 3.3 2.9 3.0 2.8 3.2 2.9 3.3
4 1952 3.7 3.8 3.3 3.0 2.9 3.2 3.3 3.1 2.7 2.4 2.5 2.5 3.0

示例

us_cities#

居民超过 5000 人的美国城市的位置。

许可证:CC BY 2.0

来源:http://www.geonames.org/export/ (cities5000.zip 的子集)

此模块包含一个字典:data

data['lat']  # list of float
data['lon']  # list of float

us_counties#

此模块公开了美国的几何数据。

此模块包含一个字典:data

数据以 (state_id, county_id) 的二元组为索引,这些二元组的值为以下字典

In [25]: data[(1,1)]
Out[25]:
{
    'name': 'Autauga',
    'detailed name': 'Autauga County, Alabama',
    'state': 'al',
    'lats': [32.4757, ..., 32.48112],
    'lons': [-86.41182, ..., -86.41187]
}

'name' 的条目在某些州(例如弗吉尼亚州)可能有重复项。 'detailed name''state' 的组合始终是唯一的。

示例

us_holidays#

来自 Mozilla 的美国节假日日历文件,由 icalendar 提供。

许可证 CC BY-SA 3.0

来源:https://www.mozilla.org/en-US/projects/calendar/holidays/

此模块包含一个列表:us_holidays

us_holidays

[
    (datetime.date(1966, 12, 26), 'Kwanzaa'),
    (datetime.date(2000, 1, 1), "New Year's Day"),
    ...
    (datetime.date(2020, 12, 25), 'Christmas Day (US-OPM)')
]

示例

us_marriages_divorces#

提供 1867 年至 2014 年间美国的婚姻和离婚统计数据

许可证:公有领域

来源:http://www.cdc.gov/nchs/

此模块包含一个 pandas Dataframe:data

data

年份 婚姻 离婚 人口 每千人婚姻数 每千人离婚数
0 1867 357000.0 10000.0 36970000 9.7 0.3
1 1868 345000.0 10000.0 37885000 9.1 0.3
2 1869 348000.0 11000.0 38870000 9.0 0.3
3 1870 352000.0 11000.0 39905000 8.8 0.3
4 1871 359000.0 12000.0 41010000 8.8 0.3

示例

us_states#

美国各州的几何数据。

此模块包含一个字典:data

数据以两个字母的州代码(例如,“CA”,“TX”)为索引,并具有以下结构

In [4]: data["OR"]
Out[4]:
{
    'name': 'Oregon',
    'region': 'Northwest',
    'lats': [46.29443, ..., 46.26068],
    'lons': [-124.03622, ..., -124.15935]
}

示例

world_cities#

人口至少 5000 人的世界城市名称和位置。

许可证:CC BY 2.0

来源:http://www.geonames.org/export/ (cities5000.zip)

此模块包含一个 pandas Dataframe:data

data

名称 纬度 lng
0 Ordino 42.55623 1.53319
1 les Escaldes 42.50729 1.53414
2 la Massana 42.54499 1.51483
3 Encamp 42.53474 1.58014
4 Canillo 42.56760 1.59756

示例