[TL;DR:以下 JVM 字节码指令似乎不起作用:
iconst_0
istore 6
...sequential
iinc 6 1
jsr L42
...
; L42
iload 6
ifeq L53 ; Always branches!!!
astore 8
iinc 6 -1
; L53
LDC 100
ISUB ; ERROR, returnAddress is at the top of the stack
可以在这里找到一个测试 .class (逻辑稍微复杂一些)。如果您想进一步了解我为什么会看到这些说明,请继续阅读。]
我正在编写一个针对 JVM 字节码的空白编译器。尽管是一种深奥的语言,Whitespace 向堆栈机器描述了一组有趣的汇编指令,它很好地映射到 JVM。
空白有标签,它们都是跳转(goto/jump-if-zero/jump-if-negative)和函数调用的目标。相关说明(由我给出的名称,在规范中它们以空格、制表符和换行符的组合形式给出)是:
mark <label>
:为以下指令设置标签jump[-if-neg|-if-zero] <label>
: 无条件或有条件地跳转到给定的标签call <label>
: 调用 label 指向的函数end <label>
: 结束一个函数,返回给调用者。
我的编译器在类的 main 方法中输出整个 Whitespace 程序。最简单的实现方式call
是end
使用JSR
和RET
操作码,它们用于实现子例程。操作后JSR
,堆栈将包含一个returnAddress
引用,该引用应存储在变量中以供以后使用end
。
但是,mark
可以使用call
-ed 或jump
-ed into,堆栈可能包含也可能不包含returnAddress
引用。我决定使用布尔变量(调用位,地址 6)来存储标记是如何到达的,然后测试它是否应该将堆栈顶部存储到局部变量(返回地址,地址 8)中。每条指令的实现如下:
; ... initialization
iconst_0
istore 6 ; local variable #6 holds the call bit
# call
iinc 6 1 ; sets the call bit
jsr Lxxx ; jumps to the given label, pushing a returnAddress to the stack
# mark
; Lxxx
iload 6 ; loads the call bit
ifeq Lxxx-end ; SHOULD jump to mark's end if the call bit is not set
; call bit is set: mark was call-ed and returnAddress is in the stack
astore 8 ; stores returnAddress to local variable #8
iinc 6 -1 ; resets the call bit
; Lxxx-end
# end
ret 8 ; returns using the stored returnAddress
问题:ifeq
总是分支。我还尝试反转逻辑(调用位 -> 跳转位,ifeq->ifne),甚至简单地切换到ifne
(这是错误的)......但 if 总是分支到最后。调用后,returnAddress
留在堆栈中,下一个操作爆炸。
我使用 ASM 的分析器来观察堆栈以调试所有这些,但只是断言了这种行为并且找不到我做错了什么。我的一个怀疑是,我的虚荣哲学可以想象的iinc
更多ifeq
。我承认我只阅读了该项目的指令集页面和ASM 的相关文档,但我希望有人能想到一个解决方案。
在这个文件夹中有相关文件,包括可执行类和原始空白,以及javap -c
ASM 分析的输出。