条形图#
除了在连续范围内绘制数值数据外,您还可以使用 Bokeh 在分类范围内绘制分类数据。
基本的分类范围在 Bokeh 中表示为字符串序列。例如,四季的列表
seasons = ["Winter", "Spring", "Summer", "Fall"]
Bokeh 也可以处理层级分类。例如,您可以使用嵌套的字符串序列来表示每个季度内的月份
months_by_quarter = [
("Q1", "Jan"), ("Q1", "Feb"), ("Q1", "Mar"),
("Q2", "Apr"), ("Q2", "May"), ("Q2", "Jun"),
("Q3", "Jul"), ("Q3", "Aug"), ("Q3", "Sep"),
("Q4", "Oct"), ("Q4", "Nov"), ("Q4", "Dec"),
]
根据您的数据结构,您可以使用不同类型的图表:条形图、分类热图、抖动图等。本章将介绍几种常见的分类数据绘图类型。
条形#
处理分类数据最常见的方法之一是在条形图中呈现它。条形图有一个分类轴和一个连续轴。当每个类别只有一个值要绘制时,条形图非常有用。
与每个类别关联的值通过为该类别绘制一个条形来表示。此条形沿连续轴的长度对应于该类别的值。
条形图也可以根据层级子类别堆叠或分组在一起。本节将演示如何绘制各种不同的分类条形图。
基本#
要创建基本条形图,请使用 hbar()
(水平条形)或 vbar()
(垂直条形)字形方法。下面的示例显示了一个简单的 1 级类别序列。
fruits = ['Apples', 'Pears', 'Nectarines', 'Plums', 'Grapes', 'Strawberries']
要将这些类别分配给 x 轴,请将此列表作为 x_range
参数传递给 figure()
。
p = figure(x_range=fruits, ... )
这样做是创建 FactorRange
对象的便捷简写方式。等效的显式表示法是
p = figure(x_range=FactorRange(factors=fruits), ... )
当您想要自定义 FactorRange
时,此形式很有用,例如,通过更改范围或类别填充。
接下来,调用 vbar()
,将水果名称列表作为 x
坐标,条形高度作为 top
坐标。您还可以指定 width
或其他可选属性。
p.vbar(x=fruits, top=[5, 3, 4, 2, 4, 6], width=0.9)
结合以上内容会产生以下输出
from bokeh.plotting import figure, show
fruits = ['Apples', 'Pears', 'Nectarines', 'Plums', 'Grapes', 'Strawberries']
counts = [5, 3, 4, 2, 4, 6]
p = figure(x_range=fruits, height=350, title="Fruit Counts",
toolbar_location=None, tools="")
p.vbar(x=fruits, top=counts, width=0.9)
p.xgrid.grid_line_color = None
p.y_range.start = 0
show(p)
您还可以将数据分配给 ColumnDataSource
并将其作为 source
参数提供给 vbar()
,而不是直接将数据作为参数传递。您将在后面的示例中看到这一点。
排序#
要对给定绘图的条形进行排序,请按值对类别进行排序。
下面的示例根据计数以升序对水果类别进行排序,并相应地重新排列条形。
from bokeh.plotting import figure, show
fruits = ['Apples', 'Pears', 'Nectarines', 'Plums', 'Grapes', 'Strawberries']
counts = [5, 3, 4, 2, 4, 6]
# sorting the bars means sorting the range factors
sorted_fruits = sorted(fruits, key=lambda x: counts[fruits.index(x)])
p = figure(x_range=sorted_fruits, height=350, title="Fruit Counts",
toolbar_location=None, tools="")
p.vbar(x=fruits, top=counts, width=0.9)
p.xgrid.grid_line_color = None
p.y_range.start = 0
show(p)
填充#
颜色#
您可以通过几种方式为条形着色
将所有颜色与其余数据一起提供给
ColumnDataSource
,并将颜色列的名称分配给vbar()
的color
参数。from bokeh.models import ColumnDataSource from bokeh.palettes import Bright6 from bokeh.plotting import figure, show fruits = ['Apples', 'Pears', 'Nectarines', 'Plums', 'Grapes', 'Strawberries'] counts = [5, 3, 4, 2, 4, 6] source = ColumnDataSource(data=dict(fruits=fruits, counts=counts, color=Bright6)) p = figure(x_range=fruits, y_range=(0,9), height=350, title="Fruit Counts", toolbar_location=None, tools="") p.vbar(x='fruits', top='counts', width=0.9, color='color', legend_field="fruits", source=source) p.xgrid.grid_line_color = None p.legend.orientation = "horizontal" p.legend.location = "top_center" show(p)
您还可以将颜色列与
line_color
和fill_color
参数一起使用,以分别更改轮廓和填充颜色。使用
CategoricalColorMapper
模型在浏览器中映射条形颜色。您可以使用factor_cmap()
函数来完成此操作。factor_cmap('fruits', palette=Spectral6, factors=fruits)
然后,您可以将此函数的结果传递给
vbar()
的color
参数,以获得相同的结果from bokeh.models import ColumnDataSource from bokeh.palettes import Bright6 from bokeh.plotting import figure, show from bokeh.transform import factor_cmap fruits = ['Apples', 'Pears', 'Nectarines', 'Plums', 'Grapes', 'Strawberries'] counts = [5, 3, 4, 2, 4, 6] source = ColumnDataSource(data=dict(fruits=fruits, counts=counts)) p = figure(x_range=fruits, height=350, toolbar_location=None, title="Fruit Counts") p.vbar(x='fruits', top='counts', width=0.9, source=source, legend_field="fruits", line_color='white', fill_color=factor_cmap('fruits', palette=Bright6, factors=fruits)) p.xgrid.grid_line_color = None p.y_range.start = 0 p.y_range.end = 9 p.legend.orientation = "horizontal" p.legend.location = "top_center" show(p)
有关使用 Bokeh 颜色映射器的更多信息,请参阅 客户端颜色映射。
堆叠#
要堆叠垂直条形,请使用 vbar_stack()
函数。下面的示例使用三组水果数据。每组数据对应一年。此示例为每组数据生成一个条形图,并将每种水果的条形元素彼此堆叠在顶部。
from bokeh.palettes import HighContrast3
from bokeh.plotting import figure, show
fruits = ['Apples', 'Pears', 'Nectarines', 'Plums', 'Grapes', 'Strawberries']
years = ["2015", "2016", "2017"]
data = {'fruits' : fruits,
'2015' : [2, 1, 4, 3, 2, 4],
'2016' : [5, 3, 4, 2, 4, 6],
'2017' : [3, 2, 4, 4, 5, 3]}
p = figure(x_range=fruits, height=250, title="Fruit Counts by Year",
toolbar_location=None, tools="hover", tooltips="$name @fruits: @$name")
p.vbar_stack(years, x='fruits', width=0.9, color=HighContrast3, source=data,
legend_label=years)
p.y_range.start = 0
p.x_range.range_padding = 0.1
p.xgrid.grid_line_color = None
p.axis.minor_tick_line_color = None
p.outline_line_color = None
p.legend.location = "top_left"
p.legend.orientation = "horizontal"
show(p)
您还可以堆叠表示正值和负值的条形
from bokeh.models import ColumnDataSource
from bokeh.palettes import GnBu3, OrRd3
from bokeh.plotting import figure, show
fruits = ['Apples', 'Pears', 'Nectarines', 'Plums', 'Grapes', 'Strawberries']
years = ["2015", "2016", "2017"]
exports = {'fruits' : fruits,
'2015' : [2, 1, 4, 3, 2, 4],
'2016' : [5, 3, 4, 2, 4, 6],
'2017' : [3, 2, 4, 4, 5, 3]}
imports = {'fruits' : fruits,
'2015' : [-1, 0, -1, -3, -2, -1],
'2016' : [-2, -1, -3, -1, -2, -2],
'2017' : [-1, -2, -1, 0, -2, -2]}
p = figure(y_range=fruits, height=350, x_range=(-16, 16), title="Fruit import/export, by year",
toolbar_location=None)
p.hbar_stack(years, y='fruits', height=0.9, color=GnBu3, source=ColumnDataSource(exports),
legend_label=[f"{year} exports" for year in years])
p.hbar_stack(years, y='fruits', height=0.9, color=OrRd3, source=ColumnDataSource(imports),
legend_label=[f"{year} imports" for year in years])
p.y_range.range_padding = 0.1
p.ygrid.grid_line_color = None
p.legend.location = "top_left"
p.axis.minor_tick_line_color = None
p.outline_line_color = None
show(p)
工具提示#
Bokeh 会自动将每个图层的 name
属性设置为其在数据集中的名称。您可以使用 $name
变量在工具提示上显示名称。您还可以使用 @$name
工具提示变量从数据集中检索图层中每个项目的值。
下面的示例演示了这两种行为
from bokeh.palettes import HighContrast3
from bokeh.plotting import figure, show
fruits = ['Apples', 'Pears', 'Nectarines', 'Plums', 'Grapes', 'Strawberries']
years = ["2015", "2016", "2017"]
data = {'fruits' : fruits,
'2015' : [2, 1, 4, 3, 2, 4],
'2016' : [5, 3, 4, 2, 4, 6],
'2017' : [3, 2, 4, 4, 5, 3]}
p = figure(x_range=fruits, height=250, title="Fruit counts by year",
toolbar_location=None, tools="hover", tooltips="$name @fruits: @$name")
p.vbar_stack(years, x='fruits', width=0.9, color=HighContrast3, source=data,
legend_label=years)
p.y_range.start = 0
p.x_range.range_padding = 0.1
p.xgrid.grid_line_color = None
p.axis.minor_tick_line_color = None
p.outline_line_color = None
p.legend.location = "top_left"
p.legend.orientation = "horizontal"
show(p)
您可以通过手动将其传递给 vbar_stack
或 hbar_stack
函数来覆盖 name
的值。在这种情况下,$@name
将对应于您提供的名称。
hbar_stack
和 vbar_stack
函数返回所有渲染器的列表(每个条形堆栈一个)。您可以使用此列表自定义每个图层的工具提示。
renderers = p.vbar_stack(years, x='fruits', width=0.9, color=colors, source=source,
legend=[value(x) for x in years], name=years)
for r in renderers:
year = r.name
hover = HoverTool(tooltips=[
("%s total" % year, "@%s" % year),
("index", "$index")
], renderers=[r])
p.add_tools(hover)
分组#
除了堆叠之外,您还可以选择对条形进行分组。根据您的用例,您可以通过两种方式实现此目的
嵌套类别#
如果您提供几个数据子集,Bokeh 会自动将条形分组到标记类别中,用其表示的子集名称标记每个条形,并在类别之间添加分隔符。
下面的示例创建了一个水果-年份对(元组)序列,并通过对 vbar()
的单个调用按水果名称对条形进行分组。
from bokeh.models import ColumnDataSource, FactorRange
from bokeh.plotting import figure, show
fruits = ['Apples', 'Pears', 'Nectarines', 'Plums', 'Grapes', 'Strawberries']
years = ['2015', '2016', '2017']
data = {'fruits' : fruits,
'2015' : [2, 1, 4, 3, 2, 4],
'2016' : [5, 3, 3, 2, 4, 6],
'2017' : [3, 2, 4, 4, 5, 3]}
# this creates [ ("Apples", "2015"), ("Apples", "2016"), ("Apples", "2017"), ("Pears", "2015), ... ]
x = [ (fruit, year) for fruit in fruits for year in years ]
counts = sum(zip(data['2015'], data['2016'], data['2017']), ()) # like an hstack
source = ColumnDataSource(data=dict(x=x, counts=counts))
p = figure(x_range=FactorRange(*x), height=350, title="Fruit Counts by Year",
toolbar_location=None, tools="")
p.vbar(x='x', top='counts', width=0.9, source=source)
p.y_range.start = 0
p.x_range.range_padding = 0.1
p.xaxis.major_label_orientation = 1
p.xgrid.grid_line_color = None
show(p)
要将不同的颜色应用于条形,请在 vbar()
函数调用中对 fill_color
使用 factor_cmap()
,如下所示
p.vbar(x='x', top='counts', width=0.9, source=source, line_color="white",
# use the palette to colormap based on the x[1:2] values
fill_color=factor_cmap('x', palette=palette, factors=years, start=1, end=2))
对 factor_cmap()
的调用中的 start=1
和 end=2
使用 (fruit, year)
对中的年份进行颜色映射。
视觉偏移#
假设一个场景,其中包含单独的 (fruit, year)
对序列,而不是单个数据表。您可以使用对 vbar()
的单独调用来绘制序列。但是,由于每个组中的每个条形都属于相同的 fruit
类别,因此条形会重叠。为避免此行为,请使用 dodge()
函数为每次调用 vbar()
提供偏移量。
from bokeh.models import ColumnDataSource
from bokeh.plotting import figure, show
from bokeh.transform import dodge
fruits = ['Apples', 'Pears', 'Nectarines', 'Plums', 'Grapes', 'Strawberries']
years = ['2015', '2016', '2017']
data = {'fruits' : fruits,
'2015' : [2, 1, 4, 3, 2, 4],
'2016' : [5, 3, 3, 2, 4, 6],
'2017' : [3, 2, 4, 4, 5, 3]}
source = ColumnDataSource(data=data)
p = figure(x_range=fruits, y_range=(0, 10), title="Fruit Counts by Year",
height=350, toolbar_location=None, tools="")
p.vbar(x=dodge('fruits', -0.25, range=p.x_range), top='2015', source=source,
width=0.2, color="#c9d9d3", legend_label="2015")
p.vbar(x=dodge('fruits', 0.0, range=p.x_range), top='2016', source=source,
width=0.2, color="#718dbf", legend_label="2016")
p.vbar(x=dodge('fruits', 0.25, range=p.x_range), top='2017', source=source,
width=0.2, color="#e84d60", legend_label="2017")
p.x_range.range_padding = 0.1
p.xgrid.grid_line_color = None
p.legend.location = "top_left"
p.legend.orientation = "horizontal"
show(p)
堆叠和分组#
您还可以结合以上技术来创建堆叠和分组条形的绘图。这是一个按季度对条形进行分组并按区域堆叠条形的示例
from bokeh.models import ColumnDataSource, FactorRange
from bokeh.plotting import figure, show
factors = [
("Q1", "jan"), ("Q1", "feb"), ("Q1", "mar"),
("Q2", "apr"), ("Q2", "may"), ("Q2", "jun"),
("Q3", "jul"), ("Q3", "aug"), ("Q3", "sep"),
("Q4", "oct"), ("Q4", "nov"), ("Q4", "dec"),
]
regions = ['east', 'west']
source = ColumnDataSource(data=dict(
x=factors,
east=[ 5, 5, 6, 5, 5, 4, 5, 6, 7, 8, 6, 9 ],
west=[ 5, 7, 9, 4, 5, 4, 7, 7, 7, 6, 6, 7 ],
))
p = figure(x_range=FactorRange(*factors), height=250,
toolbar_location=None, tools="")
p.vbar_stack(regions, x='x', width=0.9, alpha=0.5, color=["blue", "red"], source=source,
legend_label=regions)
p.y_range.start = 0
p.y_range.end = 18
p.x_range.range_padding = 0.1
p.xaxis.major_label_orientation = 1
p.xgrid.grid_line_color = None
p.legend.location = "top_center"
p.legend.orientation = "horizontal"
show(p)
混合因子#
您可以使用多级数据结构中的任何级别来定位字形。
下面的示例将每个月的条形分组到财务季度中,并在从 Q1
到 Q4
的组中心坐标处添加季度平均线。
from bokeh.models import FactorRange
from bokeh.palettes import TolPRGn4
from bokeh.plotting import figure, show
quarters =("Q1", "Q2", "Q3", "Q4")
months = (
("Q1", "jan"), ("Q1", "feb"), ("Q1", "mar"),
("Q2", "apr"), ("Q2", "may"), ("Q2", "jun"),
("Q3", "jul"), ("Q3", "aug"), ("Q3", "sep"),
("Q4", "oct"), ("Q4", "nov"), ("Q4", "dec"),
)
fill_color, line_color = TolPRGn4[2:]
p = figure(x_range=FactorRange(*months), height=500, tools="",
background_fill_color="#fafafa", toolbar_location=None)
monthly = [10, 13, 16, 9, 10, 8, 12, 13, 14, 14, 12, 16]
p.vbar(x=months, top=monthly, width=0.8,
fill_color=fill_color, fill_alpha=0.8, line_color=line_color, line_width=1.2)
quarterly = [13, 9, 13, 14]
p.line(x=quarters, y=quarterly, color=line_color, line_width=3)
p.scatter(x=quarters, y=quarterly, size=10,
line_color=line_color, fill_color="white", line_width=3)
p.y_range.start = 0
p.x_range.range_padding = 0.1
p.xaxis.major_label_orientation = 1
p.xgrid.grid_line_color = None
show(p)
使用 pandas#
pandas 是一个强大而流行的工具,用于分析 Python 中的表格数据和时间序列数据。虽然不是必需的,但它可以使使用 Bokeh 更加容易。
例如,您可以使用 pandas 提供的 GroupBy
对象来初始化 ColumnDataSource
,并自动为许多统计参数创建列,例如组均值和计数。您还可以将这些 GroupBy
对象作为 range
参数传递给 figure
。
from bokeh.palettes import Spectral5
from bokeh.plotting import figure, show
from bokeh.sampledata.autompg import autompg as df
from bokeh.transform import factor_cmap
df.cyl = df.cyl.astype(str)
group = df.groupby('cyl')
cyl_cmap = factor_cmap('cyl', palette=Spectral5, factors=sorted(df.cyl.unique()))
p = figure(height=350, x_range=group, title="MPG by # Cylinders",
toolbar_location=None, tools="")
p.vbar(x='cyl', top='mpg_mean', width=1, source=group,
line_color=cyl_cmap, fill_color=cyl_cmap)
p.y_range.start = 0
p.xgrid.grid_line_color = None
p.xaxis.axis_label = "some stuff"
p.xaxis.major_label_orientation = 1.2
p.outline_line_color = None
show(p)
上面的示例按 'cyl'
列对数据进行分组,这就是 ColumnDataSource
包含此列的原因。它还向未分组的类别(例如 'mpg'
)添加了关联列,例如,在 'mpg_mean'
列中提供每加仑英里的平均数。
这也适用于多级组。下面的示例按 ('cyl', 'mfr')
对相同的数据进行分组,并将其显示在沿 x 轴分布的嵌套类别中。在这里,索引列名 'cyl_mfr'
是通过连接分组列的名称而生成的。
from bokeh.palettes import MediumContrast5
from bokeh.plotting import figure, show
from bokeh.sampledata.autompg import autompg_clean as df
from bokeh.transform import factor_cmap
df.cyl = df.cyl.astype(str)
df.yr = df.yr.astype(str)
group = df.groupby(['cyl', 'mfr'])
index_cmap = factor_cmap('cyl_mfr', palette=MediumContrast5, factors=sorted(df.cyl.unique()), end=1)
p = figure(width=800, height=300, title="Mean MPG by # Cylinders and Manufacturer",
x_range=group, toolbar_location=None, tooltips=[("MPG", "@mpg_mean"), ("Cyl, Mfr", "@cyl_mfr")])
p.vbar(x='cyl_mfr', top='mpg_mean', width=1, source=group,
line_color="white", fill_color=index_cmap )
p.y_range.start = 0
p.x_range.range_padding = 0.05
p.xgrid.grid_line_color = None
p.xaxis.axis_label = "Manufacturer grouped by # Cylinders"
p.xaxis.major_label_orientation = 1.2
p.outline_line_color = None
show(p)
区间#
您可以使用条形图,不仅仅是具有共同基线的条形图。如果每个类别都关联了起始值和结束值,您还可以使用条形来表示每个类别在范围内的区间。
下面的示例为 hbar()
函数提供了 left
和 right
属性,以显示多年来奥运会短跑比赛中金牌和铜牌获得者之间的时间差。
from bokeh.models import ColumnDataSource
from bokeh.plotting import figure, show
from bokeh.sampledata.sprint import sprint
df = sprint.copy() # since we are modifying sampledata
df.Year = df.Year.astype(str)
group = df.groupby('Year')
source = ColumnDataSource(group)
p = figure(y_range=group, x_range=(9.5,12.7), width=400, height=550, toolbar_location=None,
title="Time Spreads for Sprint Medalists (by Year)")
p.hbar(y="Year", left='Time_min', right='Time_max', height=0.4, source=source)
p.ygrid.grid_line_color = None
p.xaxis.axis_label = "Time (seconds)"
p.outline_line_color = None
show(p)