2

我的编程环境是 Rails 2.3 和 PostgreSQL 8(Heroku 上的共享数据库): 在开始构建我的应用程序之前,我已经阅读了这个http://devcenter.heroku.com/articles/postgresql-indexes#multicolumn_indexes和互联网上的其他相关资源以一般方式:

我的表有两列 A 和 B 并且都被索引。(就 (A,B) 对而言,这些行是唯一的)但是在我构建了我的应用程序之后,我发现我只使用两种类型的调用来查询表:myTable.find_by_A_and_B(a,b) 和 myTable.find_by_A(a )

我们预计表中有 10000+ 个条目,不同 A 和不同 B 的比率约为 3:1。我们预计,对于 A 中的每个唯一值,B 中将有超过 1000 多行具有不同的值;对于 B 中的每个唯一值,在 A 中具有不同值的行不会超过 300 行。

我的问题是:就 myTable.find_by_A_and_B(a,b) 调用而言,当前的数据库设置(具有两个单独的索引)是否可以归类为“高效”(因为我不知道 PostgreSQL 的内部工作)。并且仅用(A,B)的一个多列索引替换这两个索引是否会显着加快速度?

谢谢你。

PS为了回应评论,这里有更多信息:根据这个页面,http ://devcenter.heroku.com/articles/database 它正在运行 PostgreSQL 8.3

以下是 myTable 的迁移架构:

create_table :myTable do |t|
    t.string :b
    t.integer:a
    t.boolean :c, :default => false
end

add_index :mytable, :b 
add_index :mytable, :a
4

1 回答 1

1

在最新版本的 PostgreSQL中,可以有效地使用多列索引来过滤其中一列。这在第一列上效果最好,但对其他列也相当好。

此外,10.000 行对于 PostgreSQL 来说是小菜一碟。具有数百万行的表并不少见。

假设我们谈论整数(int4) 列上的 btree 索引(默认)
……答案是:只需(a,b).

由于磁盘上的页面布局(表和索引类似),每个索引行都有相当多的开销。此外,由于数据对齐限制,一个索引将使用与仅在= 8 字节的机器(大多数 64 位操作系统)上(a,b)的索引完全相同的磁盘空间量。 因此,特别是如果您有大量写入或有限的磁盘空间和/或 RAM,您最好的选择是在. 在大量写入的表上维护索引也需要相当大的成本。(a)MAXALIGN
(a,b)

针对问题的更新进行编辑:

  • 有了abeing integer,我的回答大多是有效的。上的索引(a,b)将是您需要的全部或大部分内容。

  • 摆脱单独的索引,b因为您显然没有查询 just b

  • 照原样,(a,b)btext的多列索引不能像上面描述的那样从数据对齐中获益,但仍然如此。的中长度越大b,您就越有可能从一个额外的指数中获利a。短b它可能不会支付。否则,我希望它会加快myTable.find_by_A(a)一点。

  • 这可能会比 和 上的两个独立索引更快ab但幅度不会很大,因为 Postgres 可以将两个索引组合在bitmap index scan. 自 v.8.3 以来,这已得到改善。

  • 请注意,btree 索引text仅有助于使用 '=' 的查询(如果您在C语言环境上运行,则更多)。阅读有关操作员类的手册。

你不必相信我的话,用EXPLAIN ANALYZE运行一些测试。它非常简单且内容丰富,为 10.000 行创建索引只需一秒钟左右。重复每个查询几次以填充缓存并获得可比较的结果。

于 2011-09-25T20:38:48.377 回答