问题标签 [fault-tolerance]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3975 浏览

c# - 哪些情况会导致 WCF 代理出错?

我想知道 WCF 代理(由 vs2008 或 svcutil 生成)出现故障(故障状态)的情况有哪些?所以我可以重新创建新实例并避免使用有故障的实例。

目前我正在处理 TimeoutException,FaultException,CommunicationObjectAbortedException

我想我可以避免所有这些类型并只处理父 CommunicationException,这是否足够?我需要评论

0 投票
3 回答
5280 浏览

sqlite - SQLite3的数据库文件在突然断电或操作系统崩溃时会损坏吗?

我使用 sqlite3 的 open() 方法打开数据库文件并获得数据库连接,直到程序退出后连接才会关闭。如果出现计算机突然断电或操作系统崩溃等意外错误,是否会损坏数据库文件的模式,或丢失其句柄?更具体地说,如果我重新启动计算机,它可以保持可写状态吗?顺便说一句,我不关心发生错误时的数据丢失。

非常感谢你!

0 投票
2 回答
934 浏览

google-app-engine - Google App Engine 基础架构如何容错?

我实际上是在 Google App Engine 上实现一个网络应用程序。这让我花了很多时间通过 GAE 要求和最佳实践重新设计数据库和应用程序。

我的问题是:我怎样才能确定 GAE 是容错的,或者它在多大程度上是容错的?我在 GAE 中没有找到任何关于此的文档,这对我来说可能有缺点:例如,我的应用程序需要从数据存储中读取一个实体,在应用程序中计算它,然后将其放入在数据存储上。在这种情况下,我们如何确保这将正确完成并获得正确的数据:例如,如果已完成计算的机器崩溃了?

谢谢您的帮助!

0 投票
1 回答
114 浏览

configuration - 哪些 Linux 工具可用于监控/配置已部署的代码?

我正在编写一些电信软件,并且必须设计一种在将软件部署到服务器后对其进行监视和配置的方法。

我工作的公司目前有一个内部解决方案,但我们正在探索其他选择。

有哪些可用的工具可以执行以下操作(最好是一个软件包):
1) 向服务器场中的每台服务器提供软件更新。
2) 将配置文本文件传送到每个服务器,并可能重新启动软件以加载配置。
3) 监控每台服务器上的软件,如果崩溃则重新启动。

(商业和开源/免费解决方案都很好)。

有哪些工具可以在 Linux 上实现这些目标?

0 投票
1 回答
1283 浏览

fault-tolerance - 由于软件系统故障导致的灾难性灾难

我知道这不是编程问题,但这个问题与我发布这个问题的计算机系统有关。

有人能告诉我一个查找与软件系统故障导致的灾难性灾难相关信息的好地方吗?例如像Therac-25这样的事件。

风险摘要是个好地方,但它为每个案例提供的信息不足以满足我的要求。

谢谢

0 投票
1 回答
14134 浏览

nosql - 对于 Cassandra 集群,我绝对需要至少 3 个节点/服务器还是 2 个就足够了?

当然可以运行一个单节点集群,但我想要某种程度的容错。

目前我可以租两台服务器(8GB RAM,私有 VLAN @1GigE),但不能租 3 台。

我的理解是,Cassandra 集群至少需要 3 个节点,因为 2 个节点之间不可能存在多数,解决版本冲突需要多数。哦,等等,我在想“矢量时钟”和 Riak 吗?确认!Cassandra 使用时间戳来解决冲突。

对于 2 个节点,推荐的读/写策略是什么?我通常应该写入所有(两个)节点并从一个(N=2;W=N/2+1;W=2/2+1=2)读取吗?即使是 2 个节点,Cassandra 也会像往常一样使用提示切换,是吗?

这 2 台服务器位于同一个数据中心 FWIW 中。

谢谢!

0 投票
4 回答
2172 浏览

c++ - 关于碰撞安全和容错编程的资源

我喜欢 LWN 文章“仅崩溃软件”,我想了解更多关于崩溃安全和容错编程的知识。

很难确保持久状态在故障情况下是一致的。在这里我什至不讨论分布式操作:这在单个节点上也很困难:如果系统崩溃,即使是普通的 Berkeley DB(BDB 数据存储或 BDB 并发数据存储)也可能会损坏数据库。不仅高级应用程序约束被破坏,如果系统崩溃,数据库可能无法正确打开。

有哪些关于崩溃安全和容错设计、方法和编程的好资源。

如果资源专注于 C++ 和 POSIX 环境,我将不胜感激。

0 投票
2 回答
220 浏览

database - 关于复制方案/算法的文章?

我正在设计一个分布式系统,其中包含一定的数据流。我想保证在任何给定时间至少有 N 个节点具有几乎最新的数据。我不需要完全的一致性,只需要最终的一致性(对于任何时刻,当前数据快照最终应该出现在至少 N 个节点上。在这里定义术语“当前”很棘手,但仍然如此)。节点随时可能发生故障并重新启动,并且没有单一的“中心”节点。

哦,溢出者!给我一些描述复制方案的好论文。到目前为止,我发现了一个:Optimistic Replication Algorithms 中的一致性管理以及同一作者的一篇更广泛和最近的文章:Optimistic Replication

0 投票
2 回答
364 浏览

fault - 软件容错

有谁知道如何在空中交通管制系统中实现软件容错?

一些 URL 会很有帮助。

0 投票
2 回答
710 浏览

fault-tolerance - 具有 .NET 的 LINQ 支持的良好可扩展容错内存数据库

是否有支持 LINQ 和 SQL Server 持久性的良好内存事务数据库?我想在内存中创建一个大型数据存储的完整表示,并让它以一种惰性方式提交给 SQL Server 数据库,但仍然通过水平扩展它来保持一定程度的容错。我不想依赖像 CouchDB 这样的非关系数据报。